A nagy nyelvi modellek, mint a ChatGPT, a Gemini vagy a DeepSeek, elérték teljesítőképességük maximumát

Hogy kinek szól A mesterséges intelligencia és a mélytanulás forradalma, Yann LeCun, a Meta Turing-díjas vezető MI-fejlesztőjének, a NYU Center for Data Science alapító igazgatójának könyve, ami nemrég jelent meg magyarul a Typotex kiadónál? Leginkább azoknak, akiket érdekel, hogy voltaképpen mit is csinálnak az intelligens tanulógépek: hogyan tanulnak, hogyan működnek, mitől ilyen hatékonyak, mire képesek, és mire nem képesek – még. LeCun könnyen olvasható ismeretterjesztő szöveget írt, amelyből megismerhetjük egy új tudományág születését, ugyanakkor a könyvet kiegészítette külön szedetben mélyebb matematikai-technikai magyarázatokkal, ezekkel együtt pedig akár tankönyvként is forgatható.

A mesterséges intelligencia fejlesztésének az 1950-es évektől induló története távolról sem az a diadalmas királyi út, amilyennek ma az MI-rendszerek tarolásával tűnik. Ehelyett hektikus, válságokkal tarkított történet körvonalazódik a könyvben, olyan mélypontokkal a 70-es években, vagy később a 90-es és 2000-es években, amelyekben nemcsak hogy megkérdőjelezik a mesterséges intelligenciát, de a szakmai közösségben konszenzuális verdiktté válik az, hogy egy szélesebb körű tanulásra képes tanulógép nem alkotható meg. Ha nincs egy maroknyi fanatikus holdkóros, mint Kunihiko Fukushima, Geoffrey Hinton, John Hopfield, Terry Sejnowski, Yoshua Bengio és az itt bemutatott kötet szerzője, Yann LeCun, akik a nyilvánvaló ellenérvek és a publikációik rendszeres visszautasítása dacára kitartanak a fejlesztéseik mellett, akkor ma nem létezne az a technikai tartalom, ami mondjuk a ChatGPT hátterében fut.
Az új technika által alkalmazott matematikai eszközök nem vadonatújak, hanem régiek – sokszor nagyon régiek és klasszikusak. A neurális hálók programozásában nemcsak az optimális szabályozás és a statisztikus hibacsökkentés módszere köszön vissza az 1960-as évekből, hanem a 18. századi olasz-francia matematikus, Joseph-Louis Lagrange parciális deriválása és láncszabálya is. A jó öreg differenciálszámítás adja a gépi tanulás során alkalmazott egyik alapvető algoritmus, a backpropagation matematikáját. Jószerivel ez volt az, ami Geoffrey Hintonnak 2024-ben fizikai Nobel-díjat hozott. A Lagrange-féle deriválás alkalmazásával érhető el, hogy egy többrétegű neurális háló neuronjainál – ezek száma több millióra is rúghat – a szinaptikus súlyok finomhangolását ne egyesével és ne próba-szerencse állítgatással kelljen elvégezni, hanem a kimeneti rétegtől a bemenetig egyetlen számításfolyam zúduljon végig, automatikusan korrigálva a paramétereket.
Hogy ez a számításfolyam sikeresen alkalmazható tanulásra, például képfelismerési feladatoknál egyre jobb és pontosabb felismerési teljesítményre, nos, ez megint csak nem volt magától értetődő a 90-es években. LeCun könyvéből kiderül, mennyire ódzkodtak az elméleti matematikusok a matematikai megalapozás garanciái nélkül fejlesztő MI-mérnökcsapat kreatúráitól. Vladimir Vapnik, LeCun matematikus munkatársa az AT&T laborban, akinek nevéhez egy később kidolgozott tanuláselméleti képlet kötődik, egyenesen fogadott arra, hogy 2005 után senki sem fog már neurális hálózatokkal foglalkozni. A matematikusok szkepszise érthető: a Lagrange-féle deriváltakkal dolgozó backpropagation algoritmus egy dimbes-dombos függvénygrafikon minimumhelyét volna hivatott megkeresni, de semmi nem garantálja, hogy ha a módszer el is vezet egy völgybe, nem ragad-e ott, így viszont nem jut le az ennél mélyebben fekvő völgyekbe, a legalacsonyabb minimumhoz. Más szóval semmi sem garantálja, hogy a gép tanulási teljesítménye nem ragad-e meg egy kezdetleges szinten. A markonyi fanatikus mérnök nem igazán zavartatta magát a szkeptikus hangoktól, építették tovább a neurális hálóikat. És sikerrel: a 90-es évek közepén LeCun csapata az Egyesült Államokban piacra dobta a postai csekkbeolvasó szkennerét. Mint LeCun megállapítja, a gyakorlat azt mutatja, hogy a több millió dimenziós terekben, amilyenekkel ők dolgoznak, mindig nyílik egy dimenzióban kiút a hegyekkel körülvett völgyből lefelé, a mélyebben fekvő völgyek felé. A miminum mindig elérhető, a gyakorlatban a gépek tanulási teljesítménye soha nem ragad meg egy kezdetleges szinten.
És persze az elméleti matematikus a fogadást is elveszítette. Ehhez persze kellett némi konspiráció is: a „neurális háló” kifejezés a szakmán belül a 2000-es évek elején már olyannyira a tudomány szemétdombjára való kacatként hangzott, hogy találni kellett egy új hívószót, amely jobban cseng. Ez lett a deep learning, a mélytanulás, amely újrafazonírozta az előbbit: azért mély, mert a neuronok több rétegben vannak elosztva, és a tanulás rétegről rétegre finomhangolja a neuronkapcsolatok súlyozásait. A deep learninget 2004-től kezdte el felfuttatni Hinton, LeCun és Bengio a Canadian Institute for Advanced Research (CIFAR) alapítvány támogatásával (Hinton és Bengio ekkoriban kanadai egyetemeken dolgoztak), ily módon, újabb meglepetés, a 2010-es években kirobbant MI-forradalom voltaképpen többet köszönhet Kanadának, mint a Szilícium-völgynek. A kaliforniai techóriások csak 2012-ben kapcsoltak, azután, hogy az ImageNet gépi képfelismerő versenyen Hinton kanadai csapata a GPU-n futó konvolúciós hálózatával 16 százalékos hibaarányt ért el, majd 10 százalékkal jobbat az előző évi győztes eredménynél. Ekkor vált nyilvánvalóvá mindenkinek, hogy ezek a neurális hálók vagy deep learning rendszerek, mindegy minek nevezzük őket, nagyon tudnak valamit. Elsősorban tanulni.
A mesterséges intelligencia fejlesztése kezdettől fogva kéz a kézben járt az agykutatás és az idegtudomány fejlődésével. A LeCun nevével összefonódott konvolúciós neurális hálók (CNN), amelyek a korábban említett csekkbeolvasó szkenner architektúráját is képezték, lényegében az 1981-ben Nobel-díjjal jutalmazott D. H. Hubel és T. N. Wiesel neurobiológusok látókéreggel kapcsolatos eredményeit ültetik át a gépekre. A gépi megvalósítás olyan sikeresnek bizonyul, hogy 2015-től a gépi képfelismerés hibaszázaléka már jelentősen kisebb az emberénél. Ráadásul LeCun könyvéből megtudjuk, hogy manapság már nemcsak az MI-kutatók figyelik az idegtudósokat, de fordítva, az idegtudósok is használják a konvolúciós hálózatokat, hogy a látókéreg jobb magyarázati modelljeit állítsák elő a segítségükkel. Az ilyen jellegű kölcsönhatások valójában az új tudományos paradigmát jelentik, és a jövőben nemigen látunk majd Nobel-díjas eredményt MI-támogatás nélkül megszületni.
Hogy mi mindent tartogat még a jövő? Hinton, LeCun és Bengio (ők hárman együtt kaptak 2018-ban Turing-díjat) biztosak abban, hogy a gépek a jövőben tudatosságra tesznek szert. Nem látható jelenleg olyan elvi akadály, ami ezt meggátolná. LeCun azt is elképzelhetőnek tartja, hogy a gépi tudatosság nem a pontos mása lesz az emberinek, hanem tágabb, polifónikusabb lesz annál:
„Azon töprengek, vajon nem a prefrontális kérgünk korlátaiból következik-e a tudat? A tudatunk nagyon szorosan összefügg a figyelmünkkel. Amikor egy sajátos helyzettel állunk szemben, a figyelmünket a helyzetre összpontosítjuk. Koncentrálunk. Amikor kirakós játékot játszunk, amikor egy új ételreceptet próbálunk ki, amikor vitatkozunk egy témáról, a figyelmünket szándékosan erre az egyedi vagy komplex feladatra fókuszáljuk. A helyzet arra késztet, hogy dinamizáljuk a ‘világmodellünket’, és megtervezzük a következő lépésünket. De az is lehet, hogy pusztán arról van szó, hogy nincs elég neuronunk ahhoz, hogy egynél több világmodellt szimuláljunk egyszerre! Lehet, hogy a prefrontális kérgünkben van valamiféle újrakonfigurálható áramkör, amelyet a tudatunk ‘beprogramozhat’ arra, hogy lefuttassa az aktuális helyzetnek megfelelő világmodellt. Ebben a hipotézisben a tudat egy olyan vezérlőmechanizmus, amely ezt az áramkört minden egyes felmerülő feladathoz konfigurálja. (…) A tudat így a világszimulációt szándékoltan lefuttató egyetlen áramkör működésének lehet a következménye. Vagyis a tudat inkább a koponyánk korlátozott kapacitásából következhet, mintsem a kimagasló intelligenciánkat tükrözi. Ha elegendő prefrontális neuronunk lenne ahhoz, hogy a világot egyszerre több független modellel szimuláljuk, akkor talán nem is lenne szükségünk az általunk ismert tudatra. Nincs kétségem afelől, hogy a jövőbeli intelligens gépek rendelkezni fognak valamiféle tudatossággal. És még az is lehet, hogy velünk ellentétben egyszerre több feladatra tudnak majd koncentrálni.”
A közeljövő ugyanakkor megoldandó problémákat is tartogat. LeCun a könyvben úgy látja, hogy jelenleg (azaz 2019-ben, a kézirat lezárásakor) a deep learning rendszerek még nem képesek arra, hogy logikusan gondolkodjanak: a logika nem kompatibilis a tanulással. Az elkövetkező évek kihívása, hogy a logika kompatibilissé váljon a mélytanulással. Ehhez pedig LeCun szerint azt kell elérni, hogy a tanulógép elsajátítson egy kezdetleges világmodellt, valami olyasféle modellt a földi fizikáról, gravitációról, tárgyállandóságról, mozgásviszonyokról stb., amilyet a pár hónapos csecsemők alakítanak ki a környezetükről. Világmodell híján az LLM-alapú MI-rendszerek lehetnek kitűnő stiliszták, esszéisták, bravúros szövegzsonglőrök, de a praktikus intelligenciájuk nem fogja elérni egy macskáét sem. Ennyiben nem váratlan, hanem a könyv egyenes folytatása LeCun 2024-es bejelentése: a nagy nyelvi modellek, mint a ChatGPT, a Gemini vagy a DeepSeek elérték teljesítőképességük maximumát. Sok újdonság már nem várható tőlük, sőt ezen a téren biztosra vehető az újabb MI-hullámvölgy. A jövő a LeCun szerint a Meta laborjaiban készül.
A szerző matematikus-filozófus, fordító.
Kapcsolódó cikkeink: