A gyakoriság szerepe a nyelvben: balettből vagy balettból?

Kálmán László

2018. november 24.

tudomány

A számítógépes nyelvészetben az egyik leggyakrabban használt fogalom a gyakoriság. A szavak előfordulásának és együttes megjelenésének a gyakorisága alapján próbálják tagolni a szövegeket, sőt ennek alapján találják ki azt is, hogy milyen jellegű szövegről lehet szó. A szavak részekre tagolásának is az a kulcsa, hogy a különböző részeik más részekkel milyen gyakran fordulnak elő, és még száz példát mondhatnék arra, hogy mennyire fontos gyakoriságokat számolni.

De nemcsak az alkalmazott nyelvészetben van nagy szerepe a gyakoriságnak, hanem elméleti jelentősége is van. Sokféle összefüggésben előkerül, hogy a gyakrabban használt kifejezések másképpen viselkednek, mint a ritkábbak, például hajlamosabbak változni, a kivételességük hajlamosabb fennmaradni, és így tovább. A gyakoriság hatásának két fő oka van: az egyik, hogy a gyakoribb kifejezések általában kevésbé informatívak (az előfordulásuk megjósolhatóbb), a másik pedig az, hogy úgy tűnik, az agyunk gazdaságossági okokból annál inkább memorizálja, egyben tárolja a kifejezéseket, minél gyakoribbak. Mert az biztos, és kísérletileg is igazolható, hogy az agyunk érzékenyen reagál arra, hogy mit milyen gyakran hallunk.

Végül a gyakoriságnak egészen kitüntetett szerepe van abban az új paradigmában, amiről korábban már írtam, és aminek én magam is a képviselője vagyok. (Akkoriban többektől megkaptam a magamét, amiért paradigmaváltásról, új paradigmáról beszéltem, mert szerintük az új megközelítések még messze nem mainstreamek, viszont az, amit ők mainstreamnek neveznek, még él és virul. Hát pont ez szerintem minden paradigmaváltás természete, az előző paradigma nyilván még sokáig hat.) Eszerint az új megközelítés szerint az anyanyelv ismerete nem más, mint különböző mintázatokról (konkrét hangsorokról, elrendezésekről és használatukról) szóló tapasztalat. Van tapasztalatunk különböző szavak hangzásáról és elhangzásuk jellegzetes környezeteiről, ragozott alakjaikról és azok jellegzetes szerepeiről, és így tovább. A tapasztalat pont azt jelenti, hogy sokszor (vagy legalábbis elégszer) hallottuk őket. A tapasztalataink különböző erősségűek lehetnek, és ez nagyban függ attól, hogy milyen sokszor volt részünk hasonló nyelvi élményekben.

Ezeknek az új típusú elméleteknek (amiket gyakran úgy különböztetnek meg a régebbiektől, hogy használat-alapúnak nevezik őket) éppen a gyakoriság és a hasonlóság a legtöbbször használt fogalmaik. Viszont sajnos nagyon szerteágazó probléma az is, hogy minek a gyakoriságát érdemes figyelni, és az is, hogy milyen hasonlóságok számítanak, és ezt hogyan sajátítjuk el, amikor az anyanyelvünket megtanuljuk. Most az elsőről, a gyakoriságról fogok beszélni.

Előfordulás és típus

Amikor a nyelvészetben gyakoriságról beszélnek, az első fontos fogalompár, ami megjelenik (és aminek tudtommal más tudományokban alig van megfelelője) az előfordulási és a típusgyakoriság megkülönböztetése. A lesz, az eszik és az iszik ige a magyarban a leggyakoribb igék közé tartozik, rengetegszer halljuk az alakjaikat, tehát nagy az előfordulási gyakoriságuk. Ugyanakkor az, hogy a „felszólító módú” alakjukban -gy- van a tő végén (legyek, legyél; egyek, egyél; igyak, igyál), teljesen kivételes, ennek a fajta igének a típusgyakorisága igen alacsony.

Mint ebből a példából is kiderül, azt, hogy valami kivételes, úgy értjük, hogy alacsony a típusgyakorisága. Ebben nagy az eltérés a régebbi, szabály-alapú paradigma és az újabb, használat-alapú paradigma között. Mivel a régebbi paradigma szabályokban gondolkodik, egy bizonyos szabály tekintetében valami vagy szabályos, vagy kivételes, csak ez a két lehetőség van (vagyis kategorikus (bináris) különbségről van szó). (És van még egy eszköze a szabály-alapú leírásnak: lehet korlátozni azt, hogy egy szabályt egyáltalán milyen esetekre alkalmazunk.) Ezzel szemben az újabb paradigma a kivételesség fogalmát nem is ismeri, legfeljebb informálisan használhatjuk az alacsony típusgyakoriságú mintázatokra. Vagyis eszerint fokozatos (graduális) különbségről van szó.

Ha az előfordulási és a típusgyakoriságot sikerült szétválasztani egymástól, még akkor is nagyon sok kérdés marad, például az, hogy melyik milyen hatást gyakorol a nyelvhasználatunkra. Így tudjuk, hogy azt, hogy a „kivételes” alakok fennmaradnak-e, vagy a beszélők szép lassan átalakítják őket, hogy belesimuljanak a szabályosabb mintázatok közé, az előfordulási gyakoriságuk határozza meg. (A lesz, eszik, iszik ragozása már régen alkalmazkodott volna a szabályosabb igék alakjaihoz, ha nem lenne olyan nagy az előfordulási gyakoriságuk.) Ezzel szemben az, hogy más igék ragozására mennyire hatnak, vagyis mások úgy változnak-e, hogy jobban hasonlítsanak rájuk, a típusgyakoriságuk határozza meg. Az ilyen kivételes igék, mint a lesz és társai, nem gyakorolnak különösebb hatást a többi ige ragozására. Legfeljebb a hozzájuk nagyon hasonlító, hasonlóan gyakori, hasonló használatú stb. igékre hatnak: akár ilyesmi is eredményezheti a lesz, az eszik és az iszik hasonló ragozását.

Egy másik típusú kérdés az, hogy mit sorolunk egyáltalán ugyanahhoz a típushoz. Például az olyan angol igék, mint a sit `ül', aminek a múlt ideje sat, elég kevesen vannak (de az előfordulási gyakoriságuk nagyon nagy, ezért maradhatnak fent kivételesként). De ha már csak az egyszótagú, i magánhangzót tartalmazó igéket nézzük, akkor ebben a szűkebb körben már nem is olyan nagy ritkaság az ilyen múlt idő, különösen, ha a hozzá hasonló nagyon gyakori igéket nézzük (ott van még legalább a drink `iszik', a sing `énekel', a ring `csönget', a shrink `összemegy', a sink `elsüllyed', a spring `ugrik' meg a swim`úszik), bár van másmilyen múlt idejű is. Mindenesetre ennek tulajdoníthatjuk, mármint annak, hogy ebben a szűkebb körben viszonylag nagy a típusgyakorisága ennek a mintának, hogy újításként már elég régóta megjelentek például a spit `köp' és shit `szarik' hasonlóan, a-val alkotott múlt idejű alakjai is.

A nagy módszertani talány az, hogy mikor melyik mintázatokat tekintjük releváns halmaznak. Például az előző példában, úgy látszik, éppen az egyszótagú i-s igéket érdemes nézni, de honnan tudjuk ezt előre? Miből tudtuk, hogy éppen ez az osztály érdekes? Persze onnan, hogy már előzőleg sok mindent tudtunk az angol nyelvről. És ez rossz jel, arra utal, hogy nehéz lesz automatizálni, számítógéppel szimulálni az ehhez hasonló felfedezéseket.

Hogyan számoljunk?

Az is nagy kérdés, hogy hogyan vegyük számításba a gyakoriságokat. Régi megfigyelés (sőt, tapasztalati ténynek is szokták mondani), hogy a nyelvben a gyakoriság hatása logaritmikus jellegű: ha az A jelenség mértéke egy B jelenség gyakoriságától függ, akkor az a gyakorlatban azt jelenti, hogy a B gyakoriságának logaritmusával egyenesen arányos. Hogy ez miért van, arról csak spekulálni lehet. Az általános nézet szerint ez egyenesen az idegrendszer, közelebbről az érzékelés működésének sajátosságából fakad. Leggyakrabban az ún. Weber–Fechner törvényt szokták emlegetni, amelyik kimondja, hogy az inger erősségének logaritmusával arányos az érzet erőssége: így védekezik az idegrendszerünk a túl erős ingerek ellen.

Vegyük például a magyar magánhangzó-illeszkedést. (Ez azért jó terep a gyakoriság használatára, mert sok esetben sztochasztikus jellegű, bőven tartalmaz kivételeket és ingadozásokat.) A magyar szótöveken belül, valamint toldalékolt szótövekben legtöbbször csupa „mély” (hátulképzett) vagy csupa „magas” (elölképzett) magánhangzó fordul elő: alapozhatnátok (csupa mély) és csömöszölhetnétek (csupa magas). A mélyek az a, á, o, ó, u és ú, a magasak az ö, ő, ü és ű. Képzésüket tekintve elölképzettek a nem ajakkerekítéses e, é, i és í is, de ezek különböző mértékben semlegesek a magánhangzó-illeszkedés szempontjából: a legkevésbé a nyílt e, sokkal inkább a közepesen zárt é, és leginkább a zárt i és í mély hangrendű szavakban is előfordulnak: beton, novemberben, balettozik, aztán tégla, páronként és szikla, papíros és így tovább.

Fontos, hogy a magánhangzó-harmónia csak szótöveken belül és szótő plusz toldalék kapcsolatokban figyelhető meg. Az összetett szavak ebből a szempontból annyi tartományt alkotnak, ahány szótő van bennük. Ezért rengeteg olyan szó van a magyarban, ami durván sérti a magánhangzók illeszkedését, nemcsak néhány elszigetelt kölcsönszó, mint a sofőr vagy a parfüm, hanem nagyságrendekkel több összetett szó, mint például a fűmag vagy a bárónő.

Hogy egy kicsit tisztábban lássuk a létező magánhangzó-mintázatok megoszlását, rengetegféle statisztikát készíthetünk (és készítettek, készítettünk már korábban, a szakirodalom tele van ilyen cikkekkel). A modern, használat-alapú nyelvészeti paradigmának megfelelően azt szoktuk feltételezni, hogy azok a tapasztalatok, amiket ezekkel a statisztikákkal megragadhatunk, befolyásolják a viselkedésünket olyankor, amikor többféle megoldás is elképzelhető, mondjuk amikor arról döntünk (persze öntudatlanul), hogy azt mondjuk-e, hogy balettből, vagy azt, hogy balettból.

Mennyire mérhető a harmónia a magyarban?

A példa kedvéért most csak egy nagyon egyszerű statisztikát mutatok: megnéztem (a Szószablya webkorpuszban), hogy az egyes magánhangzók után milyen más magánhangzók állhatnak közvetlenül a következő szótagban. Az összetett szavakat nem bontottam fel, mert az nagyon nehéz feladat, és nem ismerem a korpusznak olyan feldolgozását, amiben más már elvégezte ezt. Talán egy másik írásban még visszatérek a problémára. Ezért a kapott adatokban nagy volt a gyakorisága az illeszkedést sértő magánhangzó-pároknak is. Például majdnem 15 ezer különböző szóalakban több mint egymilliószor fordult elő ő-t tartalmazó szótag után o-t tartalmazó szótag. (Olyanokra kell gondolni, mint hintőpor, bőrgomba vagy büntetőjog.) Nagyjából ugyanilyen gyakoriak az ó után o-t vagy az í után i-t tartalmazó szóalakok, pedig ez utóbbiak a magánhangzó-harmónia szempontjából nem rendkívüliek.

Persze ezek az adatok nagyon nyersek, mert torzítja őket például az, hogy az egyes magánhangzók eleve nem egyformán gyakoriak, és így az egy-egy szótagban való megjelenésük sem egyformán jelentős. De ha ezt beleszámoljuk, még akkor sem jó módszer a puszta gyakoriságok számolása. Annyira nagy ugyanis az egymás után előforduló nem illeszkedő magánhangzók száma, hogy ha azt nézzük, hogy mondjuk egymillió ilyen pár közül a magyar ember hány illeszkedő és hány nem illeszkedő párt hall, akkor ezek között nem is szignifikáns a különbség. Vagyis ha túl egyszerűen (mondhatnám: primitíven) értelmeznénk a használat-alapú nyelvfelfogást, akkor azt kellene mondanunk, hogy aszerint a magyarban nincs is magánhangzó-illeszkedés. De ha egy kicsit alaposabbak vagyunk, akkor kiderül, hogy igenis van. Egyrészt persze azért, mert az anyanyelvét elsajátító gyerek az esetek döntő többségében felismeri, ha összetett szóval találkozik, és hamar rájön, hogy az összetett szavak tagjainak egymáshoz nem kell illeszkedniük. De a magánhangzó-illeszkedés megléte még akkor is érzékelhető, ha az összetett szavakat nem bontjuk szét.

Hogyan lehetséges ez? Először is úgy, hogy csak a típusgyakoriságokat vizsgáljuk. Vagyis úgy vesszük, hogy mindegy, melyik szóalakot hányszor halljuk, csak az a fontos, hogy hányféle szóalakban hallunk bizonyos magánhangzó-mintákat. Így aztán a gyakori és a ritka szóalakokat egyaránt egynek-egynek számoljuk, ami első hallásra furcsa lehet. De a gyakorlatban ez nem okoz problémát, méghozzá éppen az emberi nyelvek természete miatt. Az ugyanis nem szokott előfordulni, hogy egy bizonyos mintázat nagyon sokféle kifejezésben megjelenik, de az a sok kifejezés jellemzően egyenként ritka. Képzeljük csak el, ez olyan lenne, mintha a magyarban lenne egy különleges többes számú toldalék (mondjuk -k helyett -s), és sok-sok szónak ezzel kéne megalkotni a többes számát, de ezek a szavak túlnyomórészt nagyon ritkák lennének. Könnyű elképzelni, hogy ilyen állapot nem nagyon állna elő, az emberek a ritka szavakhoz is inkább a gyakoriakra jellemző többes számú toldalékot (a -k-t) raknák hozzá, még akkor is, ha valamilyen történeti okból azoknak az -s dukálna. Csak a nagyon gyakran használtak tarthatnák meg a különleges -s többes számú alakjukat, de a kiinduló feltevésünk szerint azok meg nem lennének sokan.

A másik tényező, hogy a típusgyakoriságoknak a logaritmusát tekintjük, mert rájuk is igaz az, amit feljebb a logaritmikus arányosságról mondtam. Ha így nézzük a dolgot, akkor azt látjuk, hogy azoknál az egymást követő magánhangzóknál, amik megegyeznek a harmónia szempontjából (tehát amikor mindkettő mély, vagy mindkettő magas), a típusgyakoriságok logaritmusa mindig 10 fölött van (egyébként ezen belül bizonyos típusoknál 12 fölött), míg a nem illeszkedőknél jellemzően 10 alatt marad (bár egy-két esetben, mint amilyen az o-t követő ö, érdekes módon épp hogy eléri a 10-et). Ez már elég jellegzetes különbség.

Végül van egy harmadik tényező, ezt is számításba kell vennünk. Azt mondtuk, hogy ebben a példában a típusgyakoriságot úgy kell érteni, hogy csak azt nézzük, hogy hányféle szóalakban fordul elő két magánhangzó egymás után, de azt nem, hogy ezek a szóalakok egyenként mennyire gyakoriak, mindegyiket egynek-egynek vesszük. Pedig nem biztos, ez a leghelyesebb eljárás. Mert más eset az, amikor a talált szóalakok egy része jó gyakori, és a többi nagyon ritka, és más eset az, amikor nagyjából mindegyiknek egyforma a gyakorisága. Minél egyenletesebb az egyes típusok gyakorisága, annál inkább érezzük egységesnek őket. Ha több csoportra „szakadnak ketté”, aszerint, hogy mennyire gyakoriak, akkor kevésbé alkotnak egységes csoportot. Például azok között a szóalakok között, amikben egy ű-t tartalmazó szótag után a-t tartalmazó van, van néhány gyakori (mint a fűmag és a műfaj), és egy csomó ritka (mint az erőműtan és a betűnagyság). Ez sokkal jellemzőbb a magánhangzó-illeszkedést sértő szóalakokra (amik persze döntően összetettek), mint a „szabályosakra”, az illeszkedőkre. Ha a típusgyakoriságok logaritmusa mellet még ezt is számításba vesszük, akkor már éles különbséget látunk az illeszkedő és a nem illeszkedő magánhangzópárok között.

Hogyan mérhetjük azt, hogy mennyire szakadnak gyakoriság szerint több csoportra azok a szóalakok, amikben egy-egy magánhangzópárt megtaláltunk? Egy korábbi cikkemben teljesen más okokból és más összefüggésben bevezettem már azt a fogalmat, ami éppen ezt fejezi ki: az entrópiát. Azt, hogy a talált szóalakok gyakorisága mennyire egyenletes, éppen ezzel lehet mérni. Ha több csoportra oszlanak ezek a szóalakok, vannak köztük nagyon gyakoriak, kevésbé gyakoriak és igen ritkák, akkor sokkal kisebb lesz a megoszlásuk entrópiája, mint ha nagyjából egyforma a gyakoriságuk.

Ha mind a típusgyakoriság logaritmusát, mind pedig a típusok entrópiáját számításba veszem, akkor egészen látványosan elkülönülnek az illeszkedő magánhangzók a nem illeszkedőktől. Mivel azt várjuk, hogy mindkét szám kisebb a nem illeszkedőknél, és nagyobb az illeszkedőknél, én egyszerűen összeszoroztam őket (de emögött nincsen ennél mélyebb elméleti megfontolás, és meggyőzhető vagyok arról, hogy másképpen kell őket számításba venni). Így azt kaptam, hogy a szorzat az egyáltalán nem illeszkedő magánhangzók esetében valahol 40 és 45 között van, míg a legjobban illeszkedőknél (ahol az ún. semleges e, é, i, í magánhangzókat nem veszem figyelembe) 85 és 90 között. Ugye ez már látványos? Ha pedig az ún. semleges magánhangzókat (e, é, i, í) a magasak közé számítom (ami hangtanilag teljesen indokolt, hiszen ezek elölképzettek, de tudjuk, hogy nyelvtanilag nem egészen jogos), még akkor is 60 és 65 közöttiek a szorzatok, tehát jóval magasabbak, mint a nem illeszkedőknél.

Mi ebből a tanulság? Az, hogy ha alaposan megfontoljuk, hogy pontosan mit számolunk, miben mérjük a gyakoriságokat, és mit veszünk még számításba a gyakoriságokon kívül (ebben az esetben egy bizonyos eloszlás entrópiáját), akkor olyan összefüggéseket is felfedezhetünk tisztán statisztikai alapon, mint a magyar magánhangzó-illeszkedés, amit pedig a nyers adatok (például a puszta előfordulási gyakoriságok) szinte egyáltalán nem mutatnak. Persze azt nem állíthatjuk, hogy kisgyerekkorban pont ilyen méréseket végzünk, amikor az anyanyelvünket elsajátítjuk. Másrészt már egészen korán sokkal több információnk van (például az összetett szavakról, a toldalékok többféle alakjáról stb.), mint amit itt számításba vettem. De azt mindenképpen mutatják a fentiek, hogy nem reménytelen az a vállalkozás, hogy az anyanyelv elsajátítását a nyelvi adatokból kibontakozó mintázatokkal magyarázzuk.

A szerző nyelvész, az MTA Nyelvtudományi Intézetének főmunkatársa. További írásai a Qubiten itt olvashatók.

Kapcsolódó cikkek

A rendetlenség mérése

Kálmán László tudomány 2017. november 20.

Alfaszor vagy alfászor – mindegy? Paradigmaváltás a nyelvészetben

Kálmán László tudomány 2018. szeptember 3.