Ha nem szófajok, akkor micsodák?
A szófajok vadászatáról szóló sorozatom utolsó részében a saját vadászkalandjaimról fogok beszámolni. Az előző részek alapján gondolom világos, hogy a szófajoknak sem a hagyományos, sem a modernebb felfogásával nem jutunk messzire. A hagyományos felfogás szerint a szófajok valójában szótövek fajtái, amiket a toldalékolási lehetőségeik alapján sorolnak osztályokba, és láttuk, hogy ezt csak nagyon korlátozott körben használhatjuk (mert minden nyelvben nagyon sok nem toldalékolható szó van, és vannak nyelvek, amikben gyakorlatilag csak ilyenek vannak). A modernebb nézet szerint aszerint osztályozhatjuk a szóalakokat, hogy milyen környezetben szoktak előfordulni. (A hagyományos megközelítés is használja ezt a szempontot, de csak a nem toldalékolható szótövek esetében.) Itt meg azt láttuk, hogy ha nem használhatunk információt sem a szóalakok felépítéséről, sem pedig a jelentésükről, akkor nem juthatunk nagyon messzire (vagy, ha úgy tetszik, a hagyományosan szófajnak „érzett” csoportokhoz közelebb).
Szerep, környezet és a szomszédok
Két nagyon fontos problémát azonosítottunk az előző részekben: az első az, hogy sok szóalak sokféle szerepet képes betölteni, ezért sokféle környezetben fordul elő, a második pedig az, hogy a folyamatos szövegben nem tudjuk, hogy mi mivel tartozik össze, melyik szomszédos (vagy legalább közeli) szavaknál fontos, hogy egymás mellett vannak, és melyikeknél nem.
Ami az első problémát illeti, ha például igaz lenne az, hogy a magyar ne szó után általában „felszólító” toldalékos igealak van (a magyar szórend lehetőségei miatt persze ez nem így van), az ilyen toldalékolt igealakok előtt akkor is mindenféle állhat, és nincs másik olyan szó, ami kifejezetten szeret ilyen módon alkotott igealakok előtt állni. Ezért így szinte semmit sem tudunk meg arról, hogy a ne milyen más szavakkal tartozik egy osztályba.
Ezért az első ötletemnek az volt a lényege, hogy a nagyon gyakori, leginkább „nyelvtani szerepet játszó” szavaknak (ezek az ún. funkciószavak, mint amilyen a ne és a nem, a névelők stb.) különös jelentőséget lehetne tulajdonítani a szófajvadászatban. Úgy vehetjük, hogy az ő jelenlétük diagnosztikus más szavak szófajainak megállapításánál, de őket nem akarjuk szófajokba sorolni. Ezt a kísérletet nem folytattam le, de nyilvánvaló, hogy jobb eredményt adna, mint azok a hagyományos módszerek, amikről a legutóbbi részben beszéltem. Ez ugyanis, bár lehet, hogy a probléma gyakorlati, mérnökies megoldásához közelebb vinne, az elmélet szempontjából egyfajta „csalás” lenne. Olyan lenne, mintha a szóalakokról eleve leválasztanánk a toldalékokat, önálló (de szófajjal nem rendelkező) szavaknak tekintve őket. (Egyébként a funkciószavak sok rokonságot is mutatnak a toldalékokkal, csak kevésbé „válogatósak”, több típusú szó mellett fordulhatnak elő, mint a toldalékok, és általában nem mutatnak olyan „összeolvadási” jelenségeket, váltakozásokat, mint a toldalékok – mint például a magánhangzó-illeszkedés a magyarban. Bár még arra is van példa, ilyenek a magyar határozott névelő alakjai: az a és az az váltakozása éppen ilyen összeolvadási jelenség.)
Tehát ha a funkciószavakat nem tekintjük szavaknak (mert nincs szófajuk), hanem a szó- és mondatszerkezeteket jelölő elemeknek, tehát nem tulajdonítunk nekik szófajt, hanem hozzájuk képest próbáljuk meg meghatározni a többi szó szófaját, az tulajdonképpen a szófaj hagyományos és modernebb fogalmának az elutasítását jelenti. Akkor ugyanis már azt mondanánk, hogy a szó- és mondatszerkezetek nem a különböző szófajú szavak meghatározott egymásutánjából, hanem a funkciószavakból adódik.
A kétszavas mondatok hatalma
A második problémát, hogy a folyamatos szövegben meg kellene találni az összetartozó szavakat, úgy próbáltam megoldani, hogy kigyűjtöttem az ún. Nemzeti Szövegtárból a két szóból álló mondatokat: ha egy mondat összesen két szóból áll, akkor jogosan feltételezhetjük, hogy az a kettő összetartozik. Azokkal az eszközökkel, amikről az előző részben beszéltem, a kétszavas mondatok korpuszából sem tudtam értelmes szófaji osztályozást kifacsarni (sőt, még rosszabb eredményeket kaptam, hiszen a szokásos módszerek hosszabb szakaszok vizsgálata alapján próbálják osztályozni a szavak viselkedését). De például ebben a szűkített korpuszban már teljes egészében érvényesül, hogy a ne szó után csak felszólító módú igealak állhat, tehát elvileg sokkal alkalmasabbnak kell lennie arra, hogy valamit kinyerjünk belőle a szófajokról.
A kétszavas mondatokkal kapcsolatban egy kis kitérőt kell tennem. Nem tőlem származik az ötlet, hogy ezekkel érdemes kísérletezni, a pszicholingvisztikában már igen régen kísérleteznek ilyenekkel azok, akik a gyerekkori nyelvelsajátítás titkait próbálják felderíteni. Hiszen a kisgyerek is döntően ilyen egyszerű mondatokon keresztül kezdi megismerni az anyanyelve szerkezetét. A legfontosabb eredmény ezen a területen Kirk H. Smith 1966-os cikke volt – az ebben szereplő kísérletet aztán mindenféle változtatással még számtalanszor megismételték –, amiben betűpárokat mutattak a résztvevőknek, mondván, hogy ezek „a jó mondatok”, utána pedig további betűpárokról kellett megállapítaniuk, hogy azok is „jó mondatok”-e. A résztvevőknek azt kellett volna felismerniük, hogy a betűknek négy fajtájuk („szófajuk”) van, nevezzük őket m, n, p és q típusú szavaknak, és „a jó mondatok” mindig mn vagy pq szerkezetűek voltak. Az eredmény lesújtó volt: azt általában felfedezték a résztvevők, hogy „a jó mondatok” első eleme m vagy p típusú, a második pedig az n vagy a q szófajba tartozik, de egyáltalán nem csak az mn és a pq szerkezetű szavakat fogadták el „helyesnek”, hanem ugyanígy az mq és a pn szerkezetűeket is.
A következő nagy lépést Martin Braine tette 1987-ben. Ő úgy ismételte meg Smith kísérletét, hogy nem betűkből, hanem értelmetlen hangsorokból állított össze kétszavas mondatokat, ráadásul mindegyik hangsorral egy-egy képet is párosított. A képekben némi rendszerszerűség is volt, körülbelül annyi, mintha az n és a q típusú szavak hím-, illetve nőnemű főnevek lettek volna, az m és a p típusú szavak pedig mintha hím-, illetve nőnemű számnevek lettek volna. És csodák csodája, a résztvevők felfedezték a szabályszerűséget, és meg tudták különböztetni a „jó” mondatokat a „rosszaktól”.
Ha radikálisan akarunk fogalmazni, azt mondhatjuk, hogy már Smith 1966-os kísérlete bebizonyította, hogy nem szófajokon keresztül fedezzük fel a mondatok szerkezetét, nem szavak szófaját tanuljuk meg. Braine 1987-es kísérlete pedig azt bizonyította be, hogy a mondatok jelentésbeli szerkezetét ismerjük fel, és csak ennek a mellékhatása, hogy a szavakat magunkban (valamilyen értelemben) osztályokba soroljuk.
Ne értsük félre, ez nem azt jelenti, hogy a szófajoknak az az ósdi jelentéstani meghatározása a működőképes, ami szerint például az ige „cselekvést, történést vagy létezést jelentő szó”. (Az biztosan butaság, hiszen, hogy egy bon mot-t idézzek – azt hiszem, Nádasdy Ádámtól származik –, ott vannak mindjárt ellenpéldának a cselekvés, történés és létezés szavak, amik mégsem igék.) Inkább úgy kellene fogalmazni, hogy a szó- és mondatszerkezetek az elsődlegesek. Ezeknek különböző jellemzőik vannak, ilyenek például a szórendjük, a hangsúlyozásuk (esetleg dallamuk), a bennük esetleg szereplő funkciószavak (illetve a szóalakokban bizonyos toldalékok), a tartalmasabb szavak jelentésbeli jellege. És csak járulékos jelenség az, hogy a hasonló szerkezetekben hasonló szerepet betöltő – és ilyen értelemben hasonló jelentésű – szóalakokat ennek alapján osztályozni tudjuk. De egyrészt ezeknek az osztályoknak nem élesek a határaik, másrészt nagyságrendekkel több van belőlük, mint ahány „szófajt” feltételezni szoktak.
Nem szófaj, de valamilyen osztály
A kétszavas mondatokat ezért úgy próbáltam meg feldolgozni, hogy nem a bennük szereplő szavak osztályozására törekedtem, hanem magukat a kétszavas egységeket próbáltam klaszterekbe, csoportokba gyűjteni annak alapján, hogy ők maguk milyen gyakoriak, illetve hogy az első és a második szavuk milyen gyakran milyen más szóval alkothat mondatot. Nyilván ettől a próbálkozástól sem várhattam túl látványos eredményeket, hiszen Smith 1966-os és Braine 1987-es kísérletei éppen azt bizonyították, hogy a szavak jelentése nélkül a szerkezetek felépítésének szabályszerűségeiből nem sokat tudunk felfedezni.
Nem is kaptam látványos eredményeket. Annyi biztos, hogy nagyon sok különböző osztályt mutattak ki azok az algoritmusok, amikkel próbálkoztam, és ezek többségében csak egy-egy szóban különböző mondatok vannak. De néhány váratlan eredményt azért kaptam, például azt, hogy a legbiztosabban a „római szám + főnév” kapcsolatokat (például II. fejezet) fedezte fel az algoritmusom (ezeket találta a leginkább összetartozónak). A másik érdekes csoportot az „ige + névmási vonzat” alakú szerkezetek alkotják, például bízik abban, bízzunk benne, látszik rajta stb. Találtam továbbá kisebb osztályokat, amelyek formailag alig mutatnak hasonlóságot, de a használatukban talán közel állnak egymáshoz. Például egy csoportba került a semmi baj, a teljesen mindegy és a komolyan mondom, vagy az így igaz, a való igaz és az egészen biztos, vagy a kit érdekel és a miből gondolod. Még nem adtam fel, hogy a csoportosítási módszereimet tovább finomítom (az eddig alkalmazottak leírásához egy-két külön cikkre lenne szükség, azt mellőzöm), de ha lesz új eredmény, tudósítani fogom az olvasókat.