Már ebben a rovatban is többször szó volt arról, hogy a nyelvtechnológiában, vagyis a nyelvvel kapcsolatos alkalmazásokban már jó régen, legalább 20-25 éve óriási adatbázisokat és statisztikai összefüggéseket használnak. Például a beszédszintézis megvalósításához nemigen próbálkoznak a Kempelen Farkas beszélőgépéhez hasonlatos (persze virtuális) beszélőgéppel, vagyis a beszédszervek számítógépes modellezésével. Ehelyett rengeteg emberi beszédhang-mintából indulnak ki (ezeket mindenféle gépi tanulási módszerekkel dolgozzák fel), és nagy adatbázisokat építenek nem is egyes beszédhangokból, hanem inkább hangsorozatokból. Ezekből az adatbázisokból gépi tanulással állítják elő azokat a statisztikai összefüggéseket, ami a hangsorozatok és a leírt szövegek között megfigyelhetők. Az így kapott „tudást” lehet aztán felhasználni arra, hogy az adatbázisban nem szereplő szövegből hangot állítsanak elő. Igaz, hogy eközben a hangsorozatokat már nem egyszerűen, mechanikusan „összeragasztgatják”, de semmiképp sem a felolvasás emberi tevékenységének, azon belül az emberi beszédszerveknek a modelljét készítik el.



Hasonlóképpen ma már a gépi fordítás is döntően úgy működik, hogy hatalmas adatbázist építenek (szintén gépi tanulási módszerekkel), ami két nyelv egymásnak megfelelő mondataiból áll: az egyik mondat mindig a másik fordítása, és még azt is számon tartják, hogy az egyik mondat egyes szavai melyik szónak felelnek meg a másik mondatban. A beszédszintézishez hasonlóan az ilyen adatbázisokból a két nyelv mondatai között fennálló statisztikai összefüggéseket lehet kinyerni. Ezekből pedig az adatbázisban nem szereplő mondatokhoz – szintén a beszédszintézishez hasonlóan – az adatbázisban szereplő célnyelvi mondatok töredékeiből állítják elő a fordítást.

A nyelvészet nem ilyen

Talán mondanom sem kell, a nyelvtechnológia hozzáállása egy kicsit sem hasonlít arra, amit a nyelvészetből – legalábbis a közismertebb, elterjedtebb fajtájából – ismerünk. Mind az iskolai, tanulási célú, mind a szaktudományos nyelvtanok azt feltételezik, hogy a nyelvelsajátítás során alapelemeket (hangokat, szótöveket, szavakat) tanulunk meg, valamint szabályokat (és kivételeket) sajátítunk el. Aztán beszéd közben a szabályoknak megfelelően építkezünk az alapelemekből, megértés közben pedig a szabályok alapján bontjuk alapelemekre, amit hallunk. Amit a nyelvtechnológia működő rendszereiről írtam, abban mindezeknek nyomuk sincs.

Grafika: Tóth Róbert Jónás / Qubit

Tegyük gyorsan hozzá – mert ennek valójában nagy a jelentősége –, hogy a nyelvtanításban már jó régóta mindenki érzi, hogy az idegen nyelv leíró nyelvtanának alapos megtanulása valójában nem sok szerepet játszik a nyelvtudás megszerzésében. Ha lenne is olyan összefüggés, hogy aki jobban teljesít a leíró nyelvtanban, annak az idegen nyelvi kompetenciája is jobban fejlődik, az minden bizonnyal nem oksági összefüggés, hanem inkább valamilyen harmadik tényező közös következménye. Azért mondom, hogy ennek nagy jelentősége van, mert arra utal, hogy amikor például rászokunk, hogy a németben a szótagok végén zöngétlenül ejtjük a zárhangokat (akkor is, ha más helyzetben zöngésen kell őket ejteni), azt nem úgy tesszük, hogy ezt a szabályt megtanuljuk, majd gondosan alkalmazzuk. Vagyis nem arról van szó, hogy a német Rad `kerék' szót először [-d] végűnek gondoljuk (hiszen például többes számban ott [d] van: Rä[d]er), majd előbb tudatosan, később már készségszerűen magunkban zöngétlenítjük, mert ismerjük a szabályt, és ugyanúgy ejtjük ki, mint a Rat `tanács' szót (aminek a többes számában is [t] van: Rä[t]e).

Aki nem a nyelvészet elméletével vagy a nyelvi képességek lélektanával foglalkozik, az nem sokat törődik azzal, hogy miért van ez. A nyelvtanárok, akik persze jól ismerik ezt a jelenséget, házi használatra olyan magyarázatot szoktak adni rá, hogy a nyelvtanulók jobban, mélyebben megtanulják a szabályokat akkor, ha sokat gyakorolják, esetleg maguk fedezik fel őket, a gyakorlatból szűrik le, és ezért is hatékonyabb a nyelvtanulás, ha idegen nyelvi közegben történik.

Pedig a valóságban nem erről van szó. Annak, aki jól beszél németül (és ebből a szempontból mindegy, hogy anyanyelveként sajátította-e el, vagy nyelvtanulóként), általában fogalma sincs arról, hogy a szótagok végén mindig zöngétlenül ejti a zárhangokat (még akkor sem, ha ismeri ezeket a szakkifejezéseket), kivéve, ha valahol olvasta, hogy a németben van egy ilyen szabályszerűség. Talán egyedül azért veszi ezt észre, mert szembesül azzal, hogy egyes szavakat emiatt néha rosszul írnak le (például azzal, hogy a `kerék' jelentésű szót néha véletlenül nem Rad-nak, hanem Rat-nak írják le). De az írás a nyelvnek csak másodlagos megjelenési formája, a nyelvet az analfabéták is gond nélkül képesek megtanulni, szóval ettől a tényezőtől tekintsünk is el.

Mindezt nemcsak a példában idézett hangtani szabályszerűségről mondhatjuk el, hanem ugyanígy a szóalakok és mondattani szerkezetek szabályszerűségeiről is. Mindenesetre azt figyelhetjük meg, hogy nemcsak a nyelvtanároknak, hanem a nyelvészeknek is nehezére esik levonni a következtetéseket abból, hogy a beszélők mintha nem szabályokat tanulnának meg és alkalmaznának. Mintha még csak nem is arról lenne szó, hogy először szabályként tanulnak meg valamit, ami azután öntudatlanul alkalmazott készséggé válna, hanem eleve nem léteznének szabályok „a fejükben”. Ezt látszik igazolni az is, amikor az anyanyelvüket elfelejtő beszélőket figyeljük: viszonylag hamar romlik az, ahogy némelyik beszédhangot kiejtik (ez teljesen felszínes jelenség), sok ritkább szót kezdenek nehezen felidézni, eltévesztik a ritkább igék vonzatait (például emlékeznek az elsiklik igére abban az értelemben, hogy `véletlenül figyelmen kívül hagy', de elsiklik felette helyett azt mondják, hogy elsiklik mellette), viszont nagyon sokáig nem tévesztik el a hasonulásokat, az egyeztetést és más hasonló, a nyelvészek által szabálynak tekintett szabályszerűségeket.

A nyelvtechnológia és a nyelvészet közeledése

Azzal kezdtem, hogy a mai nyelvtechnológia, Kempelen Farkassal szemben, nem a beszélők tevékenységét próbálja modellálni. A szabályszerűségeket (néha nagyon érdekeseket) feltáró nyelvészek viszont úgy érzik, hogy ők igenis a beszélők tudását igyekeznek megragadni. Emiatt sok nyelvész meg is van ijedve, úgy érzik, hogy az ő szakértelmükre a modern nyelvtechnológiának már nincs szüksége.

Azt hiszem, hogy, ahogyan lenni szokott, egyik félnek sincs teljesen igaza. A nyelvtechnológia mai módszerei valamilyen értelemben közelebb állnak az ember nyelvi képességeinek modellálásához, mint gondolják, és annál is, mint amilyen képet alkotnak a szabályrendszereket feltételező nyelvészek a beszéd és a megértés folyamatáról. Ráadásul egyre több olyan nyelvész is van (ők az ún. használat-alapú vagy analógia-alapú irányzatok képviselői), akik elméletileg is nagyon közel állnak ahhoz, amin a modern nyelvtechnológia alapul. Ugyanis szerintük sem annak van nagy jelentősége a nyelvtudásban, hogy milyen általános törvényszerűségeket („szabályokat”) fedeznek fel a beszélők az anyanyelvükben, ha egyáltalán felfedeznek ilyeneket. Szerintük a rengeteg emléknyom, korábbi nyelvi tapasztalat („adatbázis”) játssza a főszerepet, plusz általános (nemcsak a nyelvhasználatkor használt) kognitív képességek. Ezek a képességek elsősorban arról gondoskodnak, hogy egy új helyzetben gyorsan felidéződnek a releváns korábbi nyelvi emlékek, és azt, hogy ezekből az új helyzethez alkalmazkodva új megnyilatkozásokat tudunk összeállítani (illetve új megnyilatkozásokat tudunk értelmezni).

Röviden: a mai nyelvtechnológia (bizonyos vonásai) és az modern nyelvészet (bizonyos irányzatai) egyre közelebb kerülnek egymáshoz, ezért nem hiszem, hogy a nyelvészeti szakértelem feleslegessé válna a nyelvtechnológia fejlődésében. Én ugyanis úgy gondolom, hogy a nyelvtechnológia csak úgy érhet el minőségileg jobb teljesítményt, ha közelebb kerül az emberi nyelvhasználat modellezéséhez, márpedig ehhez nyelvészeti (és más, pl. pszichológiai) szakértelemre lesz szüksége.

Hogy csak egy példát hozzak, az emberek nem úgy fordítanak szövegeket az egyik nyelvről a másikra, mint ahogy a manapság használt szoftverek. (Nem véletlen, hogy a fordítóprogramoknak még mindig komoly hiányosságaik vannak.) Ők ugyanis nemcsak a két nyelv szavainak, szerkezeteinek stb. a megfeleléseit ismerik, hanem értik is, amit fordítanak. És hogy ez mit is jelent pontosan, hogyan is lehetne megragadni és felhasználni, arról egyelőre senkinek sincs fogalma. Nyelvészek nélkül nem is lesz.

A szerző nyelvész, az MTA Nyelvtudományi Intézetének főmunkatársa. A Qubit.hu-n megjelent összes írása itt olvasható.