„Az írót nem a mesterséges intelligencia öli meg, hanem a TikTok és a YouTube”
A ChatGPT fejlesztéséhez felhasznált nyelvi korpuszhoz hasonló, bár annál jóval kisebb szöveggyűjtemény összeállításán dolgozik az ELTE Digitális Bölcsészet Tanszékének és a Digitális Örökség Nemzeti Laboratórium (DH-Lab) közös kutatócsoportja. Az OTP-vel közös fejlesztés során az a feladatuk, hogy olyan szövegeket gyűjtsenek össze és strukturáljanak, amelyek alkalmasak egy hivatalos feladatokat is ellátni képes nyelvmodell megalkotására. A magyar fejlesztők szerint erre azért is szükség van, mert a nagy nyelvi modelleknek (LLM-ek) egyelőre komoly nyelvi korlátaik vannak, főleg, ha a magyar nyelvről van szó. Talán még ennél is nagyobb probléma, hogy a létező eszközök sokszor rasszista vagy vallásilag elfogult nézeteket hangoztatnak, és az általuk generált szövegek tartalma jórészt attól függ, mit tanultak be a kommentekből, Facebook-posztokból és más szerkesztetlen szövegekből álló nyelvi korpuszból. A ELTE fejlesztőit, Palkó Gábort, Indig Balázst, Fejes Richárdot és Nagy Márk Pétert arról kérdeztük, hogyan zajlik a munka, és mik a céljaik a nyelvi modell létrehozásával.
A digitális bölcsész egyfajta robotpszichológus
„A digitális bölcsész az, aki jobban érti az informatikust, mint az saját magát” – állítja Palkó Gábor irodalomtörténész, digitális bölcsész, projektvezető. Így aztán a digitális bölcsésznek kitüntetett szerepe van a két tudományterület határán: egyrészt érti, hogyan működnek azok a „fekete dobozok”, amikkel a ChatGPT-hez hasonló nagy nyelvi modellek is dolgoznak, és belelát a fejlesztésekbe, másrészt ismeri a magyar nyelv és kultúra működését, finomságait, a nyelvi rétegeket és nyelvi logikát, valamint az emberi kommunikáció azon kimondott vagy kimondatlan finom határait, amelyeket nagyon nehéz pontosan megfogalmazni és betáplálni egy algoritmusba – magyarázza Palkó.
Fontos különbség a digitális bölcsészek és az informatikai vállalatok között a megközelítés: míg egy techvállalat az értékesítési lehetőségeket keresi, a bölcsészek a működés megértésén dolgoznak, és azon, hogy olyan megoldások szülessenek, amelyek a nyelvet magas minőségben őrzik meg, így mondjuk a közönség számára sem sértők, például nem rasszisták.
Indig Balázs nyelvész, nyelvtechnológus, technológiai igazgató szerint a digitális bölcsész szerepét felfoghatjuk egyfajta robotpszichológusként is. És előbb-utóbb a digitális előtagot el is hagyhatjuk, teszi hozzá Palkó, hiszen a két szerepkör a technológiai fejlődéssel egyre jobban összemosódik majd.
A jövőben viszont egy teljesen új szerepkör létrehozása, illetve az ahhoz kapcsolódó képzés elindulása várható. Palkó elmondja, hogy égetően hiányzik a teljes bölcsészeti kutatási területről az adatgazdák rendszere. Az ELTE erre válaszul indítja majd el az adatgazdász szakirányú továbbképzést, ami egy kicsit digitális bölcsészet, de annál sokkal gyakorlatiasabb. Az új irányra azért is szükség van, mert rengeteg akár nemzetközi kutatás anyaga (nyelvkorpuszok, gyűjtemények) hever parlagon, elhanyagolva, holott annak idején pénzt és energiát nem kímélve állították őket össze. Palkóék szerint az adatgazdász egyszerre minőségbiztosító is, aki a kutatócsoportoknak tud tanácsokat adni arról, hogyan bánhatnak jobban a már összegyűjtött adataikkal.
Sem elég szöveg, sem elég pénz nincs
Hogy miért nem létezik még megbízható nyelvmodell magyarul? A kutatók szerint ennek elsősorban nem a szándék, hanem az anyagi keret, illetve a modell betanításához szükséges korpusz hiánya az oka. Sok múlik azon, hogy mekkora anyagi erőforrással rendelkezik a fejlesztő – nem véletlen, hogy az Egyesült Államokban laborok és nagyvállalatok együtt dolgoznak az LLM-eken (Large Language Model, Nagy Nyelvi Modell), mint amilyen a ChatGPT (OpenAI) vagy a Bard (Google). Külső finanszírozás nélkül ugyanis az USA-ban sem lenne elég az egyetemi vagy nonprofit kutatólaborok anyagi háttere egy ilyen volumenű munkához. Az utóbbi időben a techcégek is egyre nagyobb szerepet vállalnak a fejlesztésben, ami viszont felveti a kérdést, hogy mennyire szolgálhatják ki az így születő LLM-ek a közjót.
Ráadásul Magyarországon, de egyébként Európa más országaiban is probléma, hogy nemcsak pénz, hanem szöveg sincs elég az adott nyelven, pedig a siker jórészt a korpusz minőségén múlik. Palkó szerint megoldást jelenthetne , ha európai szinten fognák össze az LLM-fejlesztéseket: „van ilyen projekt, de minket még nem kerestek meg. Pedig az lenne a célja, hogy EU-s forrásokból legyen egy, az európai nyelvekre jól működő eszköz”.
Hogyan lesz egy nyelvi modell rasszista?
Az ELTE kutatócsoportja gyakorlatilag minden digitálisan fellelhető forrásért küzd, hogy be tudja vonni a korpuszépítésbe. Ez szépirodalmi művek mellett szakmai anyagokat, szakdolgozatokat is jelent, viszont kizárja az olyan silány minőségű online forrásokat, mint a közösségi média. Ezt főképp azzal indokolják, hogy egy nyelvi modell azzal főz, amije van: ha azt tanulja meg, hogy az általános közbeszéd kirekesztő, rasszista, demagóg vagy sértő, akkor maga is könnyen tesz bántó megjegyzéseket, könnyen félreérthető kijelentéseket, vagy adhat olyan tanácsokat, amik minden tudományos alapot mellőznek, sőt egyenesen károsak. Hosszabb távon ezzel az a probléma, hogy az eredetileg is alacsonyabb minőségű szövegeken tanított ChatGPT által újratermelt szövegek eleve alacsonyabb minőséget képviselnek, később viszont visszakerülnek egy olyan nyelvi korpuszba, amilyennel a ChatGPT-t vagy a GPT-4-et folyamatosan etetik, és így egyre alacsonyabb minőségű tudásbázist nyerünk.
Épp ezért olyan korpuszra van szükség, ami jó szövegeket kap a tanításhoz. A DH-Lab azon dolgozik, hogy ebből építsék fel azt a szöveghalmazt, amin nyáron elkezdődhet a konkrét betanítási folyamat. A projekt keretében ugyanis ekkor kell megkezdeni (a korpusz állapotától függetlenül) a következő fázist, vagyis azt a részt, amikor már maga a modellépítés zajlik. Ezt a fejlesztők klasszikus IT-munkaként írják le, rengeteg tesztelési feladattal és sok kihívással, hiszen hiába ismerik viszonylag jól a szakmai cikkek és leírások alapján a nagy nyelvi modelleket, mint GPT-3 vagy a Meta LLaMA-ja, ezek még mindig tartalmaznak homályos részeket.
Ha pedig egyszer megépül a modell, ami elkezdi tanulni a nyelv sajátosságait a korpuszon, jöhet a finomhangolás. Ez azt jelenti, hogy számos olyan apró lépés vár a fejlesztőkre, ami már nem kapcsolódik magának a modellnek az előállításához, viszont a stabil és megbízható viselkedéséhez elengedhetetlen. A kész modellt tudják ellenőrizni is, elsősorban automatizált sztenderd tesztek segítségével, de ha szükséges, ezen a ponton fognak beavatkozni abba is, hogy megfelelő legyen a nyelvhasználata.
De hogyan lehetséges, hogy az emberek lényegesen kevesebb szöveget látnak egész életükben, mint egy nyelvmodell a betanítása alatt, mégis értelmesebb válaszokat adnak, mint a csevegőrobotok. Indig szerint épp ez a tény világít rá arra, hogy a jó nyelvmodell záloga nem a pénz, a korlátlan számítógépes erőforrás és az óriási korpusz, hanem valami másra is szükség van hozzá: „nem biztos, hogy az az egyetlen jó irány, ahogy az amerikai óriáscégek fejlesztenek, nem feltétlenül kell őket utánozni”.
Három év egyszerre sok és kevés
Ha azt nézzük, hogy három évvel ezelőtt a világ nagy részének fogalma sem volt arról, hogy egy nyelvmodell segítségével 2023-ban beszélgetni tudunk egy számítógéppel, ez az idő rettentően soknak tűnik. Akkor viszont, amikor mindössze három év áll rendelkezésre egy magyarul működőképes nyelvmodell megalkotására, máris sokkal gyorsabban eltelik. Az OTP vállalta, hogy ennyi idő alatt elkészül a magyar LLM, ez a vállalás szabja a szoros határidőket is a betanítás elkezdésével kapcsolatban.
A finanszírozási háttérre ugyanakkor óriási szükség van, enélkül a projekt el sem kezdődhetett volna. A másik alapvető szükséglet a korpusz feldolgozásához a számítógépes háttér és a háttértárak – ebből is hatalmas igényei vannak egy ilyen fejlesztésnek. Ha nyáron elkezdődik a tanítás, kiderül majd, mire jutnak a gondosan válogatott korpusszal, és utána kezdhetik a finomhangolást, ami a már emlegetett tesztek sokaságát foglalja magában. Indig mesél egy kiegészítő tanítási módszerről is, amit elsősorban azokra az esetekre fejlesztettek, amikor a modell következetesen ront, és elfogadhatatlan, például rasszista megnyilvánulásokkal válaszol. Ilyenkor „megpróbálhatják a modellt úgy javítani, hogy tanítanak egy másik modellt, ami a rossz válaszokat bünteti, a jókat pedig jutalmazza. A két modell interakciója segít abban, hogy a gép képes legyen megválogatni a szavait”. Ezt a módszert hívják adversarial machine learningnek.
Ugyancsak jövőbe mutat az a meglátás, hogy „a fél világ ebből fog élni”. Palkó a ChatGPT-t pédáját hozza fel, aminek API-ja (alkalmazásprogramozási felülete) már megvásárolható, és kiegészíthetők vele a különböző webes szolgáltatások. Ez viszont amellett, hogy üzletileg jövedelmezővé teszi az ágazatot, azt is eredményezteti, hogy a fejlesztés igénytelenné válik: a mennyiség és a sebesség a minőség rovására mehet. A DH-lab kutatói úgy vélik, hogy a nemzetközi fejlesztéseknek ez nagy hátránya lehet már a közeljövőben is.
Az írókat nem a ChatGPT öli meg, hanem a TikTok
Palkó érdekes felvetésnek tartja, hogy a nagy nyelvi modellek elvehetik az írók munkáját. Nemcsak a szépírókra gondol, hanem az újságírókra, hírszerkesztőkre is, de véleménye szerint a képlet nem ilyen egyszerű. „A cinikus válasz az, hogy a TikTok és a YouTube öli meg az írót, nem a mesterséges intelligencia. És ez már rég megtörtént” – mondja. Ez pedig arra utal, hogy az új médiumok, különösen a közösségi média mozgókép-áradataszoktatnak le az olvasásról. A következmény, hogy az elmúlt években nemigen találunk olyan irodalmi művet, ami akárcsak megközelítené a irodalmi klasszikusok vagy a média influenszerek ismertségét. Az irodalom rétegművészetté válik és az igény is csökken iránta.
A ChatGPT-vel verset, sőt prédikációt is lehet generáltatni, de nehéz lenne azt mondani ezekre, hogy eredetiek és szépirodalmi igényességűek. Mindenesetre a magyar csetbot célja nem az lesz, hogy kiszorítsa az írástudókat az állásaikból. Olyan feladatokat bíznának rá a jövőben, amik nemcsak roppant időigényesek, hanem monoton munkák, viszont az egyszerű szabadszavas kereséses módszerrel nem lehet elvégezni őket. Ide tartozik például a szerződések felkutatása, a dokumentumrendszerezés vagy összefoglalók, recenziók készítése nagy tételben. Ha egy csetbot ezt a terhet leveszi az emberek válláról, akármilyen félelmetes is, valószínűleg sokan hálásak lesznek neki a felszabadult időért.
Kapcsolódó cikkek a Qubiten: