A mesterséges intelligencia megfejtett egy elfeledett ősi nyelvet
A mesterséges intelligencia és a gépi tanulás rohamos fejlődésének köszönhetően az elmúlt években szinte észrevétlenül vált kezdetlegesből nagyon is használható technológiává a gépi fordítás – míg akár még öt éve is szitokszónak vagy egy jó poénnak számított a Google Translate, addig ma, ha nem is tökéletes nyelvhelyességgel, de teljesen értelmezhetően lefordít egy komplett weboldalt spanyolról vagy franciáról, pillanatok alatt.
A gépi fordítás alapvetése, hogy a szavak nyelvtől függetlenül, hasonló logikával kapcsolódnak egymáshoz. Első lépésben így ezeket a kapcsolatokat kell felfejtenie a gépnek egy adott nyelvre vonatkozóan, amihez hatalmas szövegtengerre van szüksége. Az algoritmus átfutja ezeket a szövegeket, megnézi, hogy egy-egy szó milyen gyakran fordul elő egy másik mellett. Ez az előfordulási minta egy olyan egyedi jellemző, ami a szavakat egy több dimenziós paramétertérben határozza meg, vagyis a szó vektorként használható, amire a nyelvészeti elméletek helyett egyszerű matematikai szabályok vonatkoznak – a gépnek tehát értenie sem kell a szavak, mondatok jelentését, elég ha minél pontosabban tud tájékozódni ebben a térben.
A massachusettsi műegyetem, az MIT két kutatója, Jiaming Luo és Regina Barzilay, valamint a Google mesterséges intelligenciával foglalkozó szakértője, Yuan Cao egy olyan gépi tanuláson alapuló rendszert hozott létre, amely már elfeledett nyelveket is képes dekódolni, és ezt elsőként az úgynevezett lineáris B nyelv újramegfejtésével demonstrálták.
Lineáris B? Az meg milyen nyelv?
Görögország a 19. század végén kezdte csak igazán felfedni saját múltját. A legendás brit régész, Arthur Evans már évek óta gyűjtögette az ismeretlen jeleket hordozó krétai köveket, amikor 1894-ben maga is elutazott a szigetre, hogy Knósszosz városában ráleljen hasonló tárgyakra. Az ásatások során egyre több kő és agyagtábla került elő, de a semmilyen más íráshoz nem hasonlító jeleket senki sem tudta megfejteni – pedig az izgalom óriási volt, mindenki sejtette, hogy egész Európa legrégibb írott szövegeiről lehet szó.
A következő évtizedekben, miközben felfedte a minószi civilizáció kincseit, Evans még közelebbről kezdte tanulmányozni a begyűjtött írásokat, amiket az időszámításunk előtti második évezredre datált. A legrégebbinek gondolt tárgyakon található képszerű írásjeleket hieroglifikusnak nevezte el, míg az egyszerűbb szerkezetűeket lineárisnak. És mivel ebből egyértelműen meg tudott különböztetni két önálló típust, az írásfajták a lineáris A és a lineáris B nevet kapták.
A sosem látott írással ellátott, ismeretlen nyelven írt agyagtáblákat azonban hosszú ideig nem tudták megfejteni – még kísérő írások sem álltak rendelkezésre, mint mondjuk a rosette-i kő esetében, amely a 19. század elején segített Jean-François Champollionnak az egyiptomi hieroglifák megfejtésében. A lineáris A valószínűleg az i.e. 1800–1400 közötti időkből, a lineáris B pedig i.e. 1400 utánról származik, és ugyan az A nyelvet a mai napig nem sikerült dekódolni, 1953-ban (12 évvel Evans halála után) egy amatőr nyelvész, Michael Ventris rájött a B logikájára.
Mivel teljesen ismeretlen karakterkészletről volt szó, jobb híján matematikai módszerekkel fogott neki a nyelv megfejtésének. Először megállapította, hogy szótagírással van dolga, a megszámlált 90 jel ugyanis fogalomjelölő írásnak kevés, betűírásnak viszont sok. Ennyiből viszont még nem jött volna rá arra, hogy az ógörög egy változatát rejti a titokzatos írás, miután azonban a pusztán grafikus szókincset megvizsgálta, kikövetkeztette, hogy az egyes ismétlődő szavak Kréta különböző helyeinek a nevét takarják. Ez alapján már ógörögként vizsgálhatta tovább a nyelvet, sikerrel, így végül bebizonyította, hogy a nyelv írásban már évszázadokkal korábban megjelent, mint azt addig hitték.
Kell egy rokon
A gépi fordításhoz tehát elengedhetetlenek a nagy nyelvi adatbázisok. De mi van akkor, ha egy ismeretlen, elfeledett nyelvről van szó? Az MIT és a Google kutatói szerint ebben az esetben a nyelvi evolúció elméletét kell segítségül hívni.
Luóék szerint minden nyelv csak egy bizonyos módon képes változni az idők során – az egymással rokon nyelvekben a szimbólumok hasonlók, az azonos jelentésű szavakban ugyanolyan sorrendben fordulnak elő a betűk, stb. Ha ezeket a szabályokat megismertetjük a gépekkel, sokkal egyszerűbbé válik egy ismeretlen nyelv megfejtése is – feltéve, ha tartozik hozzá egy referencianyelv.
A kutatók így két olyan halott ősi nyelven tesztelték le az elméletet, amelynek ismert a rokonsága: a lineáris B az ógörög egy korai változata, míg az 1929-ben felfedezett ugariti nyelv a héber őse. „Sikerült a lineáris B rokon kifejezéseit 67,3 százalékos pontossággal lefordítanunk a görög megfelelőire ezzel a technikával. Tudomásunk szerint ez volt az első kísérlet a lineáris B automatikus megfejtésére” – írják tanulmányukban a kutatók.
Ez persze felveti a kérdést, hogy mi a helyzet azokkal az ősi, elfeledett nyelvekkel, amelyeket a modern civilizációban még nem sikerült megfejteni, például a lineáris A-val. Mivel az ismeretlen nyelvnek a rokonsága sem ismert, nincs meg az új technológiához szükséges referencia, így az a lineáris A esetén nem használható – bár a tanulmány nem tesz említést erről a nyelvről, az MIT Technology Review szerint nem kizárt, hogy az összes ismert nyelvre lefuttatva megtalálható lenne a lineáris A rokona is.