Már a platformjátékokkal is elboldogul a legfejlettebb mesterséges intelligencia
Egy tudóscsoport olyan algoritmust fejlesztett, amely megtanulhat játszani az 1980-as évek platformjátékaival. Az oldalra scrollozós platformjátékok irányítása korábban számos nehézséget okozott a legfejlettebb mesterséges intelligenciáknak is, de most sikerült megoldani ezt a nehézséget.
A kutatók több olyan játékkal is tesztelték az algoritmust, amiknek a jutalmakkal, csapdákkal és akadályokkal telezsúfolt útvesztők feltérképezése a célja. A Go-Explore néven ismert algoritmuscsalád továbbfejlesztésével olyan játékok is végigjátszhatóvá váltak, mint a Montezuma’s Revenge (1984), a Freeway (1981) vagy a Pitfall (1982).
Az új fejlesztés megnyithatja az utat a maguktól tájékozódó robotok fejlesztése előtt. A mesterségesintelligencia-kutatás és a robotika világában az önálló döntéshozatalra képes robotok gyártása az egyik legfontosabb, megoldásra váró probléma, de a tájékozódás képességét katasztrófa sújtotta övezetekben éppúgy hasznosítani lehetne, mint átlagos otthonokban.
A mesterséges intelligencia ezen kutatási területét megerősítéses tanulásnak (reinforcement learning) hívják. Az algoritmust a kutatók úgy alakították ki, hogy archívumot hozzon létre a már meglátogatott területekből.
„A módszerünk valójában elég egyszerű és egyértelmű volt, bár ez gyakran jellemző a tudományos áttörésekre. Korábban azért nem gondoltunk erre a módszerre, mert erősen eltér a ma használt megközelítésektől, amikben hagyományosan a problémákat erősítik meg megerősítéses tanulási környezetben, az úgynevezett belső motiváció segítségével. A belső motivációban az ágens nem visszatérésre és feltárásra osztja a felfedezést, ahogy mi csináltuk, hanem új területek felfedezését jutalmazza.”
– írta a BBC-nek küldött emailben Adrien Ecoffet, Joost Huizinga és Jeff Clune, az algoritmust fejlesztő három kutató.
A belső motivációs megközelítés hátránya, hogy miközben a megoldás keresésére törekszik, az algoritmus megfeledkezhet az ígéretes területekről, amik további felfedezésre várnak. Ezt a jelenséget a szakértők leválásnak (detachment) nevezik. A kutatók kifejlesztettek egy módszert a leválás leküzdésére: a meglátogatott területek archívumának létrehozásával az algoritmus visszatérhetett az ígéretes szakaszokra, ahol tovább folytathatta a kutatást. Munka közben azonban egy újabb problémával szembesültek.
„Az algoritmusok olyan véletlenszerű cselekvésre támaszkodnak, amiket bármikor el lehet végezni – gondolunk itt például arra, hogy az ágens még mindig a tényleges felderítésre váró terület felé tart. Olyan környezetben, ahol pontos és precíz lépésekre van szükség – például játékokban, ahol több, azonnali halállal fenyegető veszéllyel nézhetsz szembe –, ezek a véletlenszerű cselekvések megakadályozhatják, hogy elérd azt a területet, amit fel szeretnél tárni.”
– mondták a kutatók a kisiklásnak (derailment) nevezett jelenségről.
A kutatók a Nature-ben publikálták az új algoritmust bemutató tanulmányt. Eszerint az új módszer úgy oldja meg a kisiklás problémáját, hogy különválasztja a korábban meglátogatott területekre való visszatérést, illetve az újak felfedezésének folyamatát, és mindkettőt máshogy közelíti meg.
A szakértőik, akik a kaliforniai Uber AI Labs munkatársaiként kezdtek bele az algoritmus fejlesztésébe, úgy vélik, hogy a kutatási eredményeik olyan algoritmusok fejlesztésére is használhatók, amik otthoni vagy ipari környezetben dolgozó robotokat vezérelnek. A Go-Explore-ral erre jó esélyük van, mivel kiküszöbölheti a megerősítéses tanulás régóta létező problémáját.
„Képzeld el, hogy megkérsz egy robotot, hogy hozzon egy kávét. Gyakorlatilag semmi esély rá, hogy véletlenszerű cselekvésekkel képes legyen működtetni a kávéfőzőt. […] A Go-Explore-ral már a nyelvtanulásban is végeztek kísérleteket, amikor megtanultatták az ágenssel a szavak jelentését egy szövegalapú játékban, illetve potenciális hibákat fedeztek fel vele az önvezető autók viselkedésében.”
– mondták a kutatók a BBC-nek.
Kapcsolódó cikkek a Qubiten: