A DeepMind mesterséges intelligenciája már egy középiskolás szintjén teljesít szövegértésben
Alig másfél éve mutatták be a gondolatolvasó, kreatív szövegalkotó és élethű beszélgetőpartneri képességekkel felruházott nyelvi modellt, a GPT-3-at, máris megjelent egy olyan új mesterséges intelligencia (AI), amely 25-ször hatékonyabb a nagy elődjénél. A Google anyacégéhez (Alphabet) tartozó DeepMind decemberben ismertette azt a három tanulmányt, amely a generatív nyelvi modellek fejlesztésében elért eredményeit taglalja – és ahogy azt a vezető AI-cégtől megszokhattuk, a mérnökök most is vittek egy csavart a dologba.
A GPT-3-hoz hasonló nagy nyelvi modelleknek két nagy hátrányát szokás emlegetni: az emberi szövegek feldolgozásából fakadó gépi előítéleteket, valamint az elképesztően nagy számítási kapacitást, amit az ilyen rendszerek igényelnek. A DeepMind a Gopher nevű, 280 milliárd paraméteres nagy modellje mellett egy RETRO (Retrieval-Enhanced Transformer) nevű AI-t is bemutatott, amely úgy kívánja kiküszöbölni a fenti problémákat, hogy az emberi agy emlékező mechanizmusára épít. Az algoritmus betanításához egy külső adatbázist vettek igénybe, ami 25-ször gyorsabb és költséghatékonyabb tanulási folyamathoz vezetett, a sorozatos lekérdezésekkel pedig könnyebben elemezhetővé vált ez a folyamat, így azt is ki lehet szűrni, hogy milyen gondolkodás mentén alkot előítéletes szöveget.
„Az, hogy nem kell mindent memorizálnia, hanem menet közben is utánanézhet egyes dolgoknak, nagyon hasznos lehet, akárcsak az embereknél” – mondta az MIT Technology Review-nak Jack Rae, a DeepMind nyelvkutató részlegének vezetője.
Nem a méret a lényeg
A nyelvi modellek úgy képesek szövegeket alkotni, hogy a neurális hálózatok által betanított óriási adatbázis szövegei alapján megjósolják, milyen szavak következhetnek egymás után egy mondatban vagy egy beszélgetés során. Minél nagyobb egy modell, annál több adatot tud feldolgozni, és annál pontosabban tudja megjósolni a szavak sorrendjét, ami lehetővé teszi az egyre emberszerűbb szövegek alkotását.
Az OpenAI által fejlesztett GPT-3 összesen 175 milliárd paraméterrel (betanított adattal), míg a Microsoft és az Nvidia közös modellje, a Megatron-Turing 530 milliárd paraméterrel dolgozik, ehhez képest a RETRO neurális hálója mindössze 7 milliárd paramétert kezel. A DeepMind azonban ezt egy körülbelül 2 billió szövegrészletet tartalmazó külső adatbázissal toldotta meg, amelybe többek között újságcikkeket, Wikipédia-oldalakat, könyvrészleteket és GitHub-kódokat tápláltak tíz nyelven, az angoltól és némettől az oroszon és kínain keresztül a szuahéliig és urduig.
Amikor a RETRO szöveget alkot, a külső adatbázisban anélkül kereshet hasonló szövegrészleteket a pontosabb előrejelzés érdekében, hogy saját rendszerét kelljen fenntartania erre a kutatási feladatra – így jóval kisebb számítási teljesítménnyel juthat olyan eredményre, mint egy tőle akár 25-ször több paraméterrel rendelkező modell. A DeepMind egymás ellen is versenyeztette két új modelljét, és miközben a 280 milliárd paraméteres Gopher a szövegértési tesztek 82 szálakéban jobban teljesített más végek legfejlettebb modelljeinél, a 7 milliárdos RETRO a külső memóriájának köszönhetően jobb eredményt ért el a GPT-3-nál, jóval kisebb mérete ellenére.
A kisebb számítási teljesítmény igénye mellett a RETRO típusú, kiegészítő adatbázissal megtámogatott rendszerek előnye lehet az, hogy az elavult adatokat könnyebben lehet cserélni egy ilyen halmazban, így nem kell a nyelvi modell neurális hálózatát újabb betanítási folyamatnak kitenni. Ahogy az is az újfajta modell mellett szól, hogy mivel az adatbázis igénybe vétele esetén pontosan látszik, milyen szövegrészlet alapján alkotta meg a saját szövegét, jobban meg lehet érteni az AI kreatív folyamatát, és ki lehet alakítani a részrehajló vagy előítéletes szövegalkotás megelőzésének technikáit.
A humán tárgyak mennek, a reállal még szenved a gép
Persze teljesítményben egyelőre az ultranagy nyelvi modelleké a pálya, ahogy azt a Gopher feladatmegoldási képessége is mutatja: a bölcsészettudományok területén már az emberi szakértők eredményeit közelítette a tesztekben, de társadalom- és természettudományokban is egyre jobban hasonul az emberi teljesítményhez, a többi modellt pedig már csúnyán maga mögött hagyta.
A legtöbb, középiskolásoknak szánt teszten, ahol feleletválasztós és kifejtős feladatok is voltak, és ahol a kérdések értelmezésén túl komoly szövegértési problémákon is át kellett magát rágnia, kifejezetten jól teljesített a Gopher. Íme néhány eredmény, csak a középiskolai tesztek közül:
- állampolgári ismeretek: 83,9%
- pszichológia: 81,8%
- amerikai történelem: 78,9%
- földrajz: 76,8%
- világtörténelem: 75,1%
- európai történelem: 72,1%
- biológia: 71,3%
- mikroökonómia: 66,4%
- makroökonómia: 65,1%
- informatika: 54%
- statisztika: 50%
- kémia: 47,8%
- fizika: 33,8%
- matematika: 23,7%
A Gopher betanítását részletező tanulmányban külön kiemeltek olyan szövegértési feladatokat, amelyek nemcsak a DeepMind modelljeinek fejlettségéről, de a Gopher és a RETRO módszere közötti különbségekről is árulkodnak. Az általános iskolai felső tagozatos szövegértésen 31,8 százalékot ért el a RETRO, és 75,1 százalékot a Gopher, míg a középiskolai teszten 30,6 és 71,6 százalék volt az eredményük – miközben az utóbbi feladatot még a Gophernél kétszer nagyobb Megatron-Turing is csak 47,9 százalékkal teljesítette. A RETRO és a Gopher közötti különbség leginkább azt mutatja, hogy önmagában nem elég egy nagy adatbázisból puskázni, hanem az adatbázis és az AI-rendszer mérete együtt határozza meg a teljesítményt.
A cél: a mesterséges általános intelligencia
A nyelvi modellek kutatásába persze nem azért fektetnek egyre több pénzt és energiát a mesterséges intelligenciával is foglalkozó cégek, hogy iskolás szövegértési feladatokat etessenek a gépekkel, vagy hogy vicces vers- vagy dalszöveg-generátorokat lehessen gyártani az internetre. Az üzleti életre már most nagy hatással vannak ezek a folyamatosan fejlődő modellek: chatbotok, digitális asszisztensek, fordítóprogramok és keresőmotorok épülnek a technológiára, és ezeknek a pontosság a legfőbb mércéjük.
Egyes kutatóknak viszont nagyobb ívű céljai vannak a terület vizsgálatával. Ahogy az OpenAI több kutatója is pedzegette, az emberi tudás nagy része a nyelvben van kódolva, így az egyre nagyobb és pontosabb nyelvi modellek létrehozásával lehet majd eljutni az úgynevezett mesterséges általános intelligenciához, amit már nem egy-egy feladat megoldására létrehozott vagy konkrét szakterületet érintő algoritmusok jellemeznek, hanem – az emberi agyhoz hasonlóan, de annál sokkal kevesebb korláttal – bármire bevethető, így egyszerre tud épületeket tervezni, szimfóniát komponálni, párkapcsolati tanácsot adni és olvasónaplót írni egy kötelező olvasmányról.
Az OpenAI mellett a DeepMind céljai között is vállaltan szerepel a mesterséges általános intelligencia elérése, de ahogy a Gopheren dolgozó egyik kutató, Oriol Vinyals a Fortune-nek elmondta, ehhez nem a nyelvi modellek jelentik az egyetlen utat, így a DeepMind inkább csak egy széles portfólió részeként tekint a területre. A DeepMind az elmúlt években számos olyan AI-rendszert mutatott be, amelyet egy konkrét feladat megoldására fejlesztettek, és egyből le is uralta a saját területét: az AlphaGo, AlphaZero és az AlphaStar hármasával a go, a sakk és a StarCraft verhetetlen nagymesterévé váltak a cég algoritmusai, az AlphaFold pedig egy fél évszázados probléma megoldásával forradalmasította a biológia tudományát.
Kapcsolódó cikkek a Qubiten: