Kétszáz éve döntöttük el, hogy legyen magyar nagyszótár, és most eljutottunk az e betűig

2019.01.17. · tudomány

„Egy szótár bemutatása közben nem kéne üres szavakat használnunk, amikor látjuk, hogy milyen gazdag minden egyes szavunk” – mondta Tompa Andrea író a Magyar Nyelv Nagyszótára (Nszt.) legújabb kötetének bemutatóján szerdán. És tényleg, ha valami egész biztosan kiderül az Nszt. VII. kötetéből, az az, hogy micsoda univerzum sejlik fel minden egyes lexéma (szótári szó) mögött: mennyi alak, mennyi idővel módosuló jelentésárnyalat, miféle kulturális háttér társítható egyetlen szóhoz.

Nem véletlen, hogy a most bemutatott, 1206 oldalas kötetbe mindössze El-től elz-ig fértek be az e-vel és é-vel kezdődő lexémák, és mindjárt az első címszó – ami az el – csaknem hatvan oldalt tesz ki.

A kötet méltatására felkért Tompa szerint a szavak említéseiből történelem rajzolódik ki, egy-egy címszó kisebb szociológiai tanulmánnyal ér fel, amire az életművész (‘az élet apró örömeit (ki)élvező személy, különösen férfi, ill. olyan ember, aki jó önérvényesítő képességével és apró ügyeskedésekkel a lehetőségeket értelmesen kihasználja’) szócikket hozta fel példának a VII. kötetből.

Nézzük a főnév említéseit a különféle korszakokból:

  • A Magyarország című napilap 1908-as cikkéből: „(A pápai grófok) életművészek. (...) Epikuristák és idealisták egy személyben.”
  • Egy 1921-es Kosztolányi-fordításból: „Az életművész tüdőbetegek tudniillik, akiket délre visznek, rendszerint abba halnak bele, hogy szokott életmódjukat meg kell szakitani és nagyon is vágyakoznak a párisi tivornyákra.”
  • Egy 1962-es Népszabadság-cikkből: „Ez ám a fényes pofa! dicséri Gógánnak a jövevényt. – Szinte művész! Életművész! Ez még ebben a büdös életben egy másodpercig se dolgozott!”
  • És egy 1997-es Magyar Hírlap-számból: „(Versace) nevét a világon mindenhol fenséges mítosz övezi, valóságos királyként ünneplik, és ő ennek megfelelő pompával veszi körül magát. Igazi életművész, aki a sors által kínált valamennyi lehetőséggel bőségesen élt.”

A vége nagyon messze van

A magyar nyelvtudomány legnagyobb vállalkozásának tekinthető, ma már az interneten is elérhető szótársorozat 1772-től, az újmagyar kortól kezdve rögzíti a magyar szókincset. Első kötete 2006-ban jelent meg, és most több mint 20 ezer szónál tart, beleértve a címszavakat és alcímszavakat is. „A vége nagyon messze van, de a jelenlegi technológiai feltételek mellett, amennyiben a támogatás a Magyar Tudományos Akadémiától ugyanilyen ütemben érkezik, felgyorsulhat a munka” – mondta a bemutató elején Prószéky Gábor, az MTA Nyelvtudományi Intézetének igazgatója.

A szótár befejezésének ideális dátuma 2031 lenne, akkor lesz ugyanis 200 éve, hogy a Magyar Tudós Társaságban kimondták: legyen magyar nagyszótár. Maga Ittzés Nóra főszerkesztő utalt erre egy régebbi nyilatkozatában, most azonban a Qubitnek azt mondta, nem ennyire egyértelmű a befejezés időpontja. Nehéz megmondani, milyen ütemben készülnek el az Nszt. további kötetei, de az már valószínűsíthető, hogy 2020-ra várható a következő az e maradékával és az f-fel kezdődő szavakkal. A munka jellegénél fogva a teljes sorozat várható kötetszáma is csak megbecsülhető, Ittzés szerint húsz fölött lesz, és a főszerkesztő arra számít, hogy a k kezdőbetűs lexémák tára lesz a legbőségesebb, két-három kötetet is kitehet.

photo_camera A Magyar Nyelv Nagyszótárának első hét kötete. A java még hátravan

Az Nyszt. eddigi kötetei a következő ritmusban érkeztek: 2006-ban jött az I. kötetnek számító segédlet és az a-tól az azsúrozig terjedő vaskos II. kötet a különálló segédlettel, majd 2011-ben jelent meg a III. és a IV. kötet, 2013-ban az V., 2017-ben a VI. A szótárírás tehát az utóbbi időben láthatóan felgyorsult, amit a főszerkesztő azzal indokolt, hogy a szótárkészítésnek mindig az eleje az időigényesebb, amíg olyan részletekig menően is kialakul a módszertani norma, hogy például ugyanannál a szónál melyik szófajt tüntessék fel először.

Az MTA Nyelvtudományi Intézetében bemutatott VII. kötet 1771 szócikkben 1753 önálló, illetve 568 alcímszót tartalmaz, a lexémák használatát összesen 35 536 példamondattal mutatja be az ábécének ebben a kicsi szeletében (az el-től az elzüllik-ig). A VII. kötet jelentős részét az el- szókezdet teszi ki, de rengeteg lexéma tartalmazza az elő- előtagot is.

Mit találnak az olvasók az egyes szócikkekben? A lexéma jelentésének árnyalt bemutatása mellett olyan kiegészítő információkat, mint a nyelvtani (szófaji, alaktani) lexikai minősítés, a gyakoriság, az összetételben elfoglalt hely, más címszók elemeként való előfordulás, illetve előfordulások a korszak szótáraiban.

photo_camera Fotó: Ittzés Nóra

Heroikus munka

A nagyszótárak műfaji sajátosságainál fogva az Nszt. készítői is szépirodalomból, rétegnyelvekből, nyelvjárásokból, szlengből és sajtónyelvből – kizárólag létező szövegekből – dolgoznak. Míg az angol nagyszótár például az írásbeliség kezdetéig nyúlik vissza, a magyar a franciához hasonlóan az 1700-as évek második feléig visszamenően vizsgálja a szövegeket, változásukban mutatja be a lexémákat. A gazdag műfaji és szövegtípusbeli választékkal szolgáló korpusz több tízmillió szövegszavát három fő forrásból nyerik ki a lexikográfusok: a Magyar Történeti Korpuszból, a 19. század végétől gyűjtött 5-6 milliós cédulaanyagból, valamint egy cédéken őrzött szöveggyűjteményből. A gyűjtőmunka még a nyolcvanas években kezdődött.

Az aktuális kötet a vártnál bőségesebb adatolás miatt lett ilyen terjedelmes – mondta Ittzés. Az előre szót például sok helyen igekötőként tartják számon (pl. előrenyomul, előretol), de mit kezdjen a lexikográfus azzal, hogy ragozható és fokozható, ami nem éppen az igekötők szokása? A szótárba végül határozószóként került be, tehát a készítők nem próbálták korábban eldöntött kategóriákba préselni a nehezen beszuszakolható adatokat – mondta Ittzés. Magában az el szócikkben is több mint 440 olyan igekötős igét tüntetnek fel, ahol nyoma sincs az igekötő irányjelző funkciójának, például elácsorog, elbajlódik.

photo_camera Prószéky Gábor, Lovász László, Tompa Andrea, Ittzés Nóra.

Hogy mikor lesz majd teljes az Nszt., már csak azért sem előre megjósolható, mert mint Lovász László MTA-elnök mondta a bemutatón, „igazi, sziszifuszi, heroikus munka”, ahogy a kutatók a több tízmilliós korpuszt feldolgozzák, aprólékos munkával töltött órák ezreit ölve az adatok átfésülésébe, a szócikkek megírásába és szerkesztésébe. Ezt a feladatot ugyanis egy informatikus, Merényi Csaba támogatásával mindössze 20-21 lexikográfus végzi el – ráadásul ez olyan típusú munkakör, amit nem egykönnyen fognak átvenni a robotok, magyarán szólva nem gépesíthető.

Segítene a cédulaolvasó robot

Maga a szótár már megjelent anyaga azonban elérhető egy online adatbázisban, ahol kattintásra akár a papír verziót is láthatjuk, de jobban járunk a webes megjelenítéssel, amely tömörebben és strukturáltabban mutatja a címszókat, például a fő jelentések után további klikkelésre nyílnak meg a jelentésárnyalatok.

A netes szótár szócikkeiben az adatoknál látható ikonokról lehet átklikkelni a frissen fejlesztett bibliográfiai adatbázisra, amely további mélységeket tár fel egy-egy szóadat forrásáról. Például az ecet szóról így jutunk el Nyugat valamennyi Nszt.-beli előfordulását mutató, csaknem tízezres listához.

A szótár készítői kezdettől fogva nemzetközi összehasonlításban is modern eszközökkel dolgozhattak, abban az xml editorban készülnek a szócikkek, amit külföldi szótárkiadók is alkalmaznak – mondta Merényi. A natív xml-adatbázisban egységes technikával tárolhatók az adatok, amire könnyen építhetők integrált rendszerek. Első nagy lépésként az online szótár készült el, a második lépésben a munkatársaknak szóló komplex keresőrendszer, a harmadik nagy fejlesztés pedig a bibliográfiai adatbázis felépítése, illetve a nagyszótári rendszerbe való integrálása volt.

Ami az informatikai háttér további fejlesztését illeti, mint említettük, a lényegi munkát gépek nem tudják elvégezni, Prószéky azonban a Qubit kérdésére beszámolt arról a távlati tervről, hogy a még különböző eldugott helyeken lappangó mintegy 6 millió kézírásos cédula számítógépes feldolgozhatósága érdekében vetnének be mesterséges intelligencián alapuló technológiát, amely képes lenne a cédulákat tartalmuk alapján a már ismert címszólista elemeivel összekötni.

A Magyar Nyelv Nagyszótárát a Líra és a Libri terjeszti, bolti ára 7480 forint, de az MTA Nyelvtudományi Intézetében, a Benczúr utcában némi kedvezménnyel adják.

Kapcsolódó cikkek a Qubiten:

link Forrás
link Forrás