Ahány szó, annyi szófaj?
A szófajokról szóló minisorozatom első részében magának a szófajnak a fogalmát próbáltam felgöngyölíteni. Elmondtam, hogy a mai nyelvészetben már inkább szószerkezetek kategóriáiról beszélnek (és persze vannak egy szóból álló szerkezetek is, ilyenkor mondhatjuk akár azt is, hogy az illető szó valamilyen szófajba tartozik). És elmondtam, hogy ma inkább úgy gondolkoznak a szófajokról, hogy azokat az eloszlásuk, a disztribúciójuk határozza meg: a toldalékolási lehetőségeik, meg hogy milyen szerkezetekben és azokon belül milyen pozícióban fordulnak elő. Végül: ha automatikusan akarunk értelmezni egy szöveget, ahhoz fel kell ismernünk a szerkezetét, és ha ebben segít, hogy az egyes szavak milyen kategóriába tartoznak, akkor nagyon fontos, hogy jó módszert találjunk erre.
Létezők, események, tulajdonságok
Tegyünk először egy kis kitérőt. Semmiképpen sem akarok filozófiai spekulációkba belecsúszni, de nagyon úgy néz ki, hogy az emberek a világon mindenütt hasonlóan gondolkoznak, hasonló fogalmi keretben próbálják megragadni a világot. Például úgy, hogy a világban vannak egyedi létezők (lények meg dolgok), vannak események (meg folyamatok meg állapotok), a létezőknek meg az eseményeknek vannak tulajdonságai, és így tovább. Ezért nem csoda, hogy a különböző nyelvekben sok szempontból hasonló funkciójú nyelvi kifejezések is vannak. A létezőket a nevükre vagy a tulajdonságaikra hivatkozva lehet azonosítani, állításokat lehet tenni arról, hogy mi milyen tulajdonsággal rendelkezik, hogy milyen eseményben veszt részt (és mi abban a szerepe), és így tovább. Mindezek miatt nem csodálkozhatunk azon, ha a különböző nyelvek kifejezéseinek kategóriái sokszor hasonlítanak egymásra, ha másban nem, hát abban, hogy hasonló jellegű szerkezeteket lehet belőlük alkotni. Például minden nyelvben szokott olyan mondat lenni, amivel egy létezőről azt tudjuk állítani, hogy egy bizonyos tulajdonsággal rendelkezik.
Csakhogy a fogalmi kategóriák hasonlósága nagyon csekély mértékben határozza meg (nagyon aluldeterminálja), hogy milyen nyelvtani kategóriák lehetnek az egyes nyelvekben. Önámítás lenne azt hinni, hogy legalább a fő fogalmi kategóriáknak nagyjából megfelelnek a különböző nyelvek nyelvi kategóriái, és ennek alapján univerzálisnak lehet tekinteni legalább a főbb „szófajokat”. Bár még nyelvészekkel is előfordul, hogy a hasonló szerkezetekben való részvétel alapján – persze csak informálisan – ugyanúgy neveznek teljesen eltérő tulajdonságokkal rendelkező nyelvtani kategóriákat, ezt ők maguk sem gondolják komolyan.
Például a magyar is szóra simán rámondják, hogy „kötőszó”, pedig a használata nagyjából semmiben sem hasonlít más „kötőszók” használatához (különös tekintettel a leggyakoribb és meg vagy szavakéhoz). Ugyanígy simán melléknévnek nevezik azt a legalább kettő (de ha részletesebben nézzük, még több) japán szótípust, amelyek jelzői vagy állítmányi szerepű szerkezetekben játszhatnak főszerepet, mint a mi mellékneveink. Csakhogy a disztribúciójuk nagyon eltérő. Az egyik fő típus a főnevekkel mutat sok közös vonást, például csak segédigékkel tud állítmányt alkotni, bár nem pont úgy, mint a főnevek. A másik viszont az igékre hasonlít, például önállóan állítmányi szerepet tud játszani, ráadásul az igékhez hasonlóan jelen és múlt idejű, állító és tagadó alakokban fordul elő, bár ezek nem pont olyanok, mint az igeiek. Más nyelvekben meg pont fordítva, vannak olyan típusú szavak, amik sokkal többféle szerepet tudnak betölteni, mint a mi bármelyik szófajunk (gondoljunk csak az angol főnevekre, amik minden képző nélkül tudnak igeként is viselkedni, és a főnévi jelzők sem ritkák).
Az önző majmok éhenhalnak
És mi a helyzet a szigorúan nyelvtani (nem pedig fogalmi) értelemben vett szófajokkal? A nyelvészek többsége úgy gondolkozik a szövegekről (illetve a bennük levő mondatokról), hogy azok különböző kategóriájú szavakból álló sorozatok. Ezek egymásutánja valamilyen kategóriájú szerkezetet alkot, és így tovább. Például abban, hogy Az önző majmok éhenhalnak, az önző és a majmok azért alkot jelzős szerkezetet, mert az önző egy melléknév, a majmok meg egy főnév, és a magyar nyelv szabályai olyanok, hogy ezek ebben a sorrendben főnévi típusú szerkezetet tudnak alkotni. És ugyanígy az az és az önző majmok azért alkot névszói szerkezetet, mert az az egy névelő, az önző majmok meg egy főnévi típusú szerkezet (és ezek a magyar nyelvtan szerint így kombinálhatók össze); az az önző majmok és az éhenhalnak pedig azért alkot mondatot, mert az első egy (alanyesetű, többes számú) névszói szerkezet, a második meg egy (többes számú alanyra utaló) ige. Szóval a nyelvtani szabályok a szavak és szerkezetek kategóriáin alapulnak, azt mondják ki, hogy milyen kategóriájú dolgokat lehet összerakni, és milyen kategóriájú lesz az összerakott szerkezet.
Csakhogy az az érzésem, hogy a legtöbb nyelvész alábecsüli annak a jelentőségét, hogy mennyire eltérően viselkednek az egyes szavak, szócsoportok. Csak egészen apró túlzás, hogy minden szó külön szófajt alkotna, ha valóban aszerint osztályoznánk őket, hogy milyen környezetekben (toldalékokkal és szerkezetekben) fordulnak elő. Például az angol worth `érdemes, megér valamennyit' szó disztribúciója különbözik minden más angol szóétól. Próbáljuk meg egy másik szóval helyettesíteni az alábbi mondatokban (mindegyikben ugyanazzal):
(1) It is worth renting a flat in Budapest.
`Érdemes Budapesten lakást bérelni.'
(2) This flat is worth renting.
`Ezt a lakást érdemes kibérelni.'
(3) This flat is worth one million euros.
`Ez a lakás 1 millió eurót (meg)ér.'
(4 )I bought a flat worth one million euros.
`Egy 1 millió eurót érő lakást vettem.'
Nem fog sikerülni, különösen úgy nem, hogy fordítva is megtehessük ezt, vagyis a worth szóval is mindig helyettesíteni tudjuk azt a bizonyos másik szót. Vagy például gyakorlatilag nincs az angol first `első' szóhoz hasonló másik, amivel ilyen szerkezetet lehet alkotni: I will call you first thing in the morning `Első dolgom lesz holnap reggel, hogy felhívlak'. Szóval ezen az alapon a worth és a first szónak ki kellene találni egy-egy új szófajt.
Nincs precíz válasz
A nyelvészek viszont feltételezik, hogy bizonyos környezetek (toldalékok és szerkezetek) diagnosztikusnak számítanak a szófaji besorolás szempontjából, mások pedig nem. Például nem tekintik önálló szófajnak a hangadást kifejező igéket (mint a bőg, kiabál, ugat), pedig azok nem pont ugyanolyan környezetekben fordulnak elő, mint a többi ige (például nem ugyanolyanok lehetnek az alanyaik), de az ilyen különbségektől eltekintenek. És ha megkérdeznénk, hogy pontosan milyenek az „ilyen különbségek”, amiktől el lehet tekinteni, arra nem kapnánk precíz választ. Valójában az, hogy mi számít fontosnak, évezredes hagyományokon alapul: azokat a szófajokat próbálják meg felfedezni (esetleg egy-két másikkal kiegészítve), amiket több ezer éve a görög, latin, szanszkrit, héber és arab nyelvekre találtak ki, és a kritériumokat is ezek a hagyományok határozzák meg.
Például a nyelvész a tapasztalataiból tudja, hogy a hangadást kifejező igék nem szoktak önálló szófajt alkotni, mert „csak” a jelentésük sajátos, de például a toldalékolásuk nem. „Csak” az alanyaik tartoznak sajátos csoportokba (csupa olyan alanyuk van, ami hangot kibocsátó lényt jelöl), de az nem érdekes, mert az „csak” egy jelentéstani különbség. De honnan tudjuk, hogy ez nem nyelvtanilag fontos tényező, mint mondjuk a tárgyas és a tárgyatlan igék különbsége, vagy sok nyelvben a nyelvtani nemek? Jó, a nyelvtani nemek különbsége csak apró, nyelvtani jellegű különbségekkel szokott összefüggni (ez az ún. egyeztetés, mondjuk hímnemű alany esetén egy kicsit más az állítmány toldalékolása, mint nőneműnél), de a tárgyas – tárgyatlan különbségnek már komolyabb következményei vannak. Jó, a nyelvtani nemek csak részlegesen szoktak összefüggeni a jelentéssel (pl. csak embereket meg állatokat jelentő szavaknál utalnak a természetes nemre), de a tárgyas – tárgyatlan különbségnek már komoly jelentésbeli velejárói szoktak lenni.
Ennek, hogy nincs természetes ismérve annak, hogy mi szófaj, vagyis nincs természetes korlátja, hogy hányféle szófajt különböztethetünk meg, persze súlyos elméleti következményei is vannak, de ezekkel itt nem foglalkozom. (Születtek erről teljes könyvek, például William Croft több helyen nagyon részletesen magyarázza el azt, amit itt vázoltam.) A folytatásban arról a következményről fogok beszélni, hogy a szófaji osztályozás automatizálására egyelőre nem sok esélyünk van. Ezt a saját tapasztalatom alapján mondom, mert elég sok módszert kipróbáltam, a legismertebbeket is, meg saját ötleteket is bedobtam, és az eredmények nem biztatóak. Erről, néhány technikai részlettel együtt, legközelebb mesélek.
A szerző nyelvész, az MTA Nyelvtudományi Intézetének főmunkatársa.