Hogyan osztályozzuk a szavakat? Nem biztos, hogy úgy kellene, ahogy az iskolában tanítják!
Az európai kultúrában és tudományban mindig is nagy divatja volt az osztályozásoknak. Az iskolai tankönyvekben, a lexikonokban szinte minden jelenségnél, fogalomnál először azt találjuk meg, hogy milyen tágabb fogalomnak az alosztályáról van szó (hogy mi a genus proximuma az illető dolognak), hogy mik az illető alosztály sajátosságai (vagyis hogy mik a differentia specificái), majd az következik, hogy neki magának milyen alfajai vannak, és nagyjából ezt nevezik az illető dolog ismeretének. (Például a pingvinek a madarak osztályának egyik rendje, pontosabban az abba a rendbe tartozó egyetlen család. Különös sajátosságai vannak, például a szárnya inkább uszonyszerű, repülésre nem is alkalmas, és így tovább. És van 6 nembe sorolható 22 faja.)
Hasonló, ún. taxonomikus megközelítésben tanítják hagyományosan az iskolában a nyelvi fogalmakat is: a mondatokról, a határozókról is általában a fajtáikat kell elsősorban megtanulni. Nem akarom én mindenestül bírálni a tudásnak ezt a fajta rendszerezését, bár a didaktikai hasznosságáról egyáltalán nem vagyok meggyőződve. Egy szeletére fogok csak összpontosítani, a szavak fajtáira, osztályozására, mert ennek az iskolában meg a nyelvtechnológiában nagy szerepe van, és mert egyáltalán nem magától értetődő probléma. Úgy gondoltam, hogy ez a témakör egy egész sorozatot is megér, ezért most éppen csak belekezdek.
Mi az, hogy szófaj?
Az első absztrakt nyelvtani fogalom, amivel az iskolai nyelvtanórákon találkoztunk, a szófaj. Akik kevésbé hepciáskodó természetűek, azok szépen benyalták, hogy van ilyen, megtanulták legalább a legfontosabb szófajok nevét, amikre még példákat is tudnak hozni, némelyiknek még a tartalma is világos volt nekik. Nekem ez sosem sikerült, és már az iskolában is éreztettem (nem is mindig finoman), mennyire nem vagyok megelégedve a szófajjal mint kategóriával. Nem fogom mindazt a sok problémámat elmesélni, amibe sok évtized alatt beleütköztem a szófajokkal kapcsolatban. Arra fogok összpontosítani, hogy körülbelül miről van szó, és hogy a szövegekkel foglalkozó számítógépes rendszerek vehetik-e bármi hasznát ennek a fogalomnak.
Az iskolai nyelvtan szerint minden szófajnak három sajátossága van: hogy a beletartozó szavakat hogyan lehet toldalékolni, hogy milyen mondattani szerepeket játszhatnak, és hogy milyen jelentéstani sajátosságaik vannak. Ebből a háromból egyedül a toldalékolás olyan, amit mintha első hallásra értenénk (ha egyáltalán olyan mázlink van, hogy a vizsgált nyelvben egyáltalán van toldalékolás; például a kínaiban nemigen van ilyesmi). A tipikus igéken legalábbis sok nyelvben megjelenhetnek időre (múlt, jelen stb.) utaló toldalékok, a főneveknek sok nyelvben lehet többes számú alakjuk… Hmmm, most hirtelen többet nem is tudok mondani, és már ezek alól is sok kivétel van. Mindenesetre ha egy nyelv egyáltalán használ toldalékokat, akkor valóban szoktak a szótöveknek olyan osztályai lenni, amik nagyjából hasonló (funkciójú) toldalékokat kaphatnak. De még a magyar nyelvtanban is, ha a tankönyvbe belepillantunk, azt fogjuk látni, hogy a szófajok döntő többsége egyáltalán nem toldalékolható, pedig a magyar toldalékoló nyelv.
A második szempont, a mondattani szerep már sokkal homályosabb. Amik először eszünkbe jutnak róla, mondjuk az, hogy a most szó a mondatokban „határozói” (közelebbről „időhatározói”) szerepet tud játszani, azok inkább az illető szavak jelentését jellemzik, tehát ez a szempont összekeveredik a harmadikkal, a jelentéstani sajátosságokkal. Vannak néha olyan mondattani sajátosságok, amiknek a jelentéshez nincs közük, például hogy a magyarban a névelőnek egy névszói szerkezet legelején kell állnia (van olyan névszói szerkezet, hogy a három tarka macska, de nincs olyan, hogy *három a tarka macska, vagy *három tarka a macska, vagy *három tarka macska a). A mellékneveknek is elég stabil helyük van a névszói szerkezetben vagy állítmányként, bár velük is nagyon sok a probléma. De sajnos a legtöbb szófaj nem olyan, mint a névelő vagy a melléknév, nem vonatkoznak rájuk ilyen szigorú szórendi kötöttségek. (Például az idézett most gyakorlatilag akárhol előfordulhat a mondatban.)
Marad még a jelentéstani szempont. Elvileg az egy szófajba tartozó szavak hasonló dolgokat jelentenek, és ebben eltérnek a más szófajokba tartozóktól. De ez végképp olyan nesze-semmi kritérium. Például a most határozószó és a mostani melléknév, vagy akár a jelen főnév vajon miben jelentenek mást? Úgy értem, azon kívül, ami inkább a mondattani szerepükhöz tartozik, nem ugyanaz-e a jelentésük? És nincs-e számtalan olyan jelentés, amit különböző nyelvekben más-más szófajok fejeznek ki? Amit a magyarban a hiányzik igével fejezünk ki, azt franciául az absent melléknévvel, angolul az absent melléknévvel vagy a missing igenévvel, és így tovább. Az európai nyelvek a 'vihar' jelentést főnévvel fejezik ki, de mivel a vihar egy esemény, más vidékeken teljes joggal inkább igével utalnak rá.
Látható, hogy milyen nehezen megválaszolható, és rettentően elvont kérdésekhez vezet szinte azonnal, ha belegondolunk abba, hogy miben áll valójában a szófaj fogalma. Nem is szerencsés, hogy már harmadik elemiben ilyen elvont kategóriákkal bombázzák a gyerekeket, amiknek (például a matematikai fogalmakkal szemben) szinte semmilyen szemléleti alapjuk nincs.
Hagyjuk a mára már teljesen elavult iskolai nyelvtant!
Igaz, hogy a modern nyelvészetben is feltételeznek kategóriákat (bár sokan, mint például én is, inkább szkeptikusak ebben az ügyben), de jelentősen másmilyeneket, mint az iskolában. Először is azért, mert nem különböztetik meg a szavak és az összetett kifejezések kategóriáit. Ez azért nagyon indokolt, mert például nyilvánvaló, hogy a tulajdonnevek (pl. Jóska vagy Portugália) általában minden szempontból ugyanolyanok, mint a teljes főnévi szerkezetek (pl. a legjobb barátom, a kedvenc országom). Másodszor pedig azért, mert az iskolai nyelvtan zűrzavaros, sokszempontú osztályozása helyett a modern nyelvészet elvileg kizárólag a más nyelvi elemekkel való együttes előfordulás, az ún. disztribúció alapján állítja fel a kategóriáit.
Például a tulajdonnevek és a teljes névszói szerkezetek közösek abban, hogy nem áll előttük névelő (némelyikük névelővel kezdődik, azok előtt pláne nem állhat még egy névelő, és persze vannak tulajdonnevek, mint a Jóska is, amik előtt bizonyos esetekben állhat névelő, de most ezt a részletet hagyjuk figyelmen kívül). Ebben viszont élesen eltérnek a köznevektől vagy azoktól a nem teljes névszói szerkezetektől, amik melléknévvel, számnévvel stb. kezdődnek, előttük még állhat névelő.
Modern osztályozás kontra iskolai osztályozás
Hogy olyan példát is hozzak, ahol a modern és az iskolai osztályozás teljesen eltér, nézzük a hagyományosan névmásoknak nevezett szavakat. Ha valaki iskoláskorában nem érti, hogy miért alkotnak ezek szófajt, akkor jól gondolkodik. Ezeknek látszólag van ugyan valamilyen közös jelentéstani vonásuk (bár az is nagyon homályos, valami olyasmivel függ össze, hogy nem túlságosan „tartalmasak”), de sem a toldalékolásuk, sem a mondattani szerepük egyáltalán nem egységes. Például a mindenki, valaki, ő, aki és társaik pontosan úgy viselkednek, mint a tulajdonnevek vagy a teljes névszói szerkezetek (követheti őket esetrag vagy névutó, és nem előzheti meg őket névelő), míg például az olyan melléknévként viselkedik, és így tovább. Ezért a modern nyelvészetben nincs olyan kategória, ami a hagyományos, iskolai értelemben vett névmásoknak felelne meg.
Általánosan elterjedt nézet, hogy a gépi fordításnak és minden más nyelvtechnológiai feladatnak előfeltétele, hogy a feldolgozandó mondatok szavait be tudjuk sorolni valamilyen kategóriába. Vagy úgy, hogy felismerjük (mert szerepel az előzetes szógyűjteményünkben, szótárunkban), és ebből már adódik, hogy mi a kategóriája, vagy úgy, hogy ismeretlen szóról van szó, és ahhoz, hogy kezelni tudjuk, fel kell ismernünk, hogy mi fán terem. Például ha rájövünk, hogy tulajdonnév, akkor már azt is tudjuk, hogy (legtöbbször) nem szükséges lefordítani. És az is nagyon gyakori, hogy ugyanaz a betű- vagy hangsor többféle szónak is megfelelhet, és egyértelműsítenünk kell, hogy melyikkel állunk szemben. Ehhez is közelebb visz, ha a kategóriáját sikerül megállapítani, például nem árt tisztázni, hogy egy angol mondatban a leaves szó többes számú főnév-e (a leaf `növény levele' többes száma), vagy egyes szám harmadik személyű ige (a leave `elhagy; távozik' ige alakja).
Nos, akkor itt a feladat, és talán az is kiderült, hogy sok-sok problémát kell végiggondolni ahhoz, hogy a megoldásához közelebb kerüljünk. Erről fognak szólni a sorozat további részei.