Egy kisbaba fejére szerelt kamera segített az AI-nak megérteni, hogyan sajátítják el a nyelvet a gyerekek
Kevés izgalmasabb kutatási téma létezik annál, mint amikor tudósok azt próbálják megfejteni, hogy hogyan tanulnak meg különböző dolgokat a csecsemők és a kisgyerekek az őket körülvevő világ szemlélésével. Ezen belül is az egyik legérdekesebb terület a nyelvtanulás vizsgálata: csak az elmúlt egy évben kiderült, hogy az értelmes társalgás hallatára már a néhány hónapos csecsemők agyának beszédközpontja is látható fejlődésnek indul, sőt egy olasz kutatás szerint már az anyaméhben megkezdődik az anyanyelv feldolgozása a magzati agyban.
A babák nyelvtanulásához hasonlóan rejtélyes az is, ahogy a mesterséges intelligenciával (AI) megtámogatott nagy nyelvi modellek (például a ChatGPT alapjául szolgáló GPT-modellek) működnek – igaz, ezeknél legalább a bemeneti adathalmaz (vagyis a modellek betanításához felhasznált szöveges adatbázis) ismert, még ha a tanulás folyamatának részleteibe nem is mindig látnak bele az AI-kutatók.
Az viszont egészen biztos, hogy az emberi agy sokkal szofisztikáltabb, mint a gépi modellek: miközben még a legelső GPT-modellbe is sok-sok millió szóból álló szövegeket kellett betáplálni, hogy megtanuljon úgy fogalmazni, mint egy ember, a gyerekeknek a közvetlen környezetükben hallott szavak alapján (egy ember aktív szókincse általában néhány ezer szóból áll) kell rájönniük a nyelv bonyolult szabályrendszerére. És ezt a legtöbb esetben meg is teszik: hároméves korukban gyakran már mindent ki tudnak fejezni, amire egy hároméves gyerek életében szükség lehet.
A New York-i Egyetem most ötvözte a két területet: a kutatók arra voltak kíváncsiak, hogy egy AI-modell mit kezd azzal, ha egy százmillió paraméteres adatbázis helyett csak annyi bemeneti információt kap, amennyihez egy kisbaba is hozzáfér. Hogy ezt megvizsgálják, kamerát rögzítettek egy babasisakra, amit a kísérletben részt vevő féléves ausztrál fiú, Sam fejére helyeztek. A fiú egészen kétéves koráig viselte bizonyos időközönként a sisakot, így összesen 61 órányi videófelvétel gyűlt össze, ami a másfél éves kísérlet során ébren töltött óráinak 1 százalékát teszi ki.
A kutatók végül a videókból származó 600 ezer képkockát és a felvételeken elhangzó 250 ezer szó átiratát táplálták be az agy felépítését imitáló neurális hálóba. Az AI-modellnek a kontrasztív tanulás módszerével kellett rájönnie, hogy a játék, etetés, meseolvasás és más tevékenységek során elhangzó szavak és az elhangzásuk idején a kamera által rögzített képek illenek-e egymáshoz, vagy sem.
A rendszer teszteléséhez egy olyan eszközhöz nyúltak, amivel a gyerekek nyelvi képességeit is fel szokták mérni: megmutattak az AI-nak négy képet, és arra kérték, hogy bökjön rá, melyik kép illik közülük az éppen megadott szóhoz. A babanézetből tanuló modell kiemelkedően jól teljesített a teszten: az esetek 62 százalékában eltalálta, melyik kép tartozik a szóhoz, ami sokkal jobb eredmény annál a 25 százaléknál, amit a kontrollként használt, 400 millió kép-szöveg páron tanult modellnek sikerült elérni.
Nem nagy meglepetés, de azt is megfigyelték, hogy minél egyértelműbb egy szó, annál könnyebb megtanulni a jelentését: a labda, tányér, alma vagy kutya szavak jelentésének elsajátítása például könnyen ment a modellnek, de például azt, hogy játék, már jóval nehezebben értette meg.
Azt a kutatók is elismerik, hogy mivel a kísérletet egyetlen egy gyerekkel végezték el, nem igazán lehet általánosítani az eredményekből, hiszen minden egyes gyerek környezete és tapasztalatai különböznek egymástól. Azt azonban már ebből a kutatásból is le lehet szűrni, hogy a csecsemők az egyes érzékszervi források közötti asszociációk alapján rengeteget tanulnak, ami megkérdőjelezi azt a (többek között Noam Chomsky amerikai nyelvész által is képviselt) nézetet, miszerint a nyelv túl összetett és túl kevés a bemeneti információ ahhoz, hogy a nyelv elsajátítása ilyen általános tanulási folyamatokon keresztül történjen.
A New York állambeli Skidmore College fejlődéspszichológusa, Jess Sullivan szerint azonban a szavak és az általuk jelzett tárgyak összeegyeztetése csak egy kis része a nyelvtanulás folyamatának – egy kutya is képes megtanulni a labda vagy a séta szavak jelentését, mégsem mondhatjuk rá, hogy nyelvtudással rendelkezik. A valós nyelvtanulás sokkal összetettebb annál, amit a mesterséges intelligencia a babakamerán keresztül megtapasztalt, hiszen végeredményben a gépnek most is csak képek és írott szövegek összepárosításával kellett foglalkoznia. A rendszer így például a kéz szó jelentését is nagyon nehezen sajátította el – ezt a csecsemők ellenben már nagyon korán megtanulják, hiszen kettő is van nekik belőle, amivel rengeteg tapasztalatot szereznek már a legelső hónapokban.
A kutatók igyekeznek úgy továbbfejleszteni a modellt, hogy annak tanulási folyamata még jobban hasonlítson a gyerekekéhez. Ehhez nemcsak több kutatási alanyra és adatra lesz szükség, hanem új megközelítésekre is: meg kell figyelni a szülők arckifejezéseit, vagy éppen figyelembe kell venni az egyes tárgyak szilárdságát, mivel ezeket a gyerekek intuitív módon sajátítják el. A további kutatások így nemcsak arról árulhatnának el még többet, hogy miként tanulják meg a gyerekek értelmezni az őket körülvevő világot, hanem a mesterséges intelligencia is egy lépéssel közelebb kerülhetne az emberi értelemhez.