Néhány éven belül kiderül, mire képes a mesterséges neurális hálózatokra épülő gépi intelligencia
A mesterséges intelligencia teljesítményében az elmúlt években bekövetkezett fejlődést a mesterséges neurális hálózatok méretének és a betanításukhoz használt adatok, különösen a tanításuk során elvégzett számítások mennyiségének exponenciális növekedése tette lehetővé. A ChatGPT-ről elhíresült amerikai kutatócég, az OpenAI már egy 2020-as tanulmányában felvetette, hogy elérkezhet egy olyan pont, amikor a transzformer típusú nyelvi modellek képességei nem javulnak tovább, hiába növelik őket: akkor ezt 10^12 paraméter, 10^12 token és 10^24 művelet körülre tették. (A paraméter a neurális hálózat csomópontjai közötti kapcsolatok száma, a token betáplált adat alapegysége. Az angolban egy szó nagyjából 1,25, egy kép vagy egy másodpercnyi videó 30 tokennek felel meg.) Ezen már bőven túl vagyunk, de egyelőre semmi jele egy ilyen töréspontnak: úgy tűnik, ahogy nőnek az erőforrások, úgy javul a teljesítmény, és nem látszik, hol a határ.
De ennek a skálázódásának megvannak a maga természetéből fakadó korlátai. Négy tényező jön szóba: a számítási kapacitás, az adat, az energia és a tőke. (És, mondhatnánk ötödikként, az emberi tehetség. Valóban ez az egyik legfontosabb, de most éppen arról van szó, hogy milyen messze jutunk a jelenlegi megközelítéssel, gyökeres újítások nélkül.) Az Epoch AI kutatóintézet elmúlt hetekben közzétett tanulmányai ezeket a korlátokat veszik számba.
A betanítás során elvégzett számítások száma a legfejlettebb modellek, mint az OpenAI-féle GPT-4 vagy a Google által fejlesztett Gemini Ultra esetében a 10 kvadrilliós (10^25) nagyságrendben van, és évente megötszöröződik. Összehasonlításképp: az emberi agy becsült számítási teljesítménye egytrillió (10^18) művelet másodpercenként, vagyis a felnőttkor eléréséig összesen mintegy 6 x 10^26 számítást végez. Ez azt jelenti, hogy ha minden úgy megy tovább, mint eddig, akár már a jövő év közepére lesz olyan mesterséges intelligencia, amelynek tanítása során annyi műveletet végeztek, mint amennyit egy ember agya 20 év alatt. A számításokhoz szükséges chipekre hatalmas a kereslet, de éppen ez teszi biztosan megtérülő üzletté a gyártásukat (a legjelentősebb előállítójuk, az Nvidia az elmúlt egy évben megháromszorozta a piaci értékét), ami a kínálat gyors bővüléséhez vezet.
Még több adat
Ami az adatot illeti, ott a szöveg a szűk keresztmetszet: a nyilvánosan hozzáférhető, a tanításhoz megfelelő minőségű, emberek által létrehozott szöveges adatmennyiség 300 billió (3 x 10^14) token. Ha az eddigi növekedési ütemmel számolunk, 2027-re lehet olyan nyelvi modell, ami ezt teljesen kihasználja. Ezt követően a modellek méretének növelése egy darabig még az adatmennyiség növelése nélkül is tovább javíthatja a teljesítményt, de valódi megoldást csak más adatforrások bevonása jelenthet. A Meta által birtokolt azonnali üzenetküldő alkalmazásokon, a Messengeren és a WhatsAppon évi 165 billió tokennyi szöveg keletkezik, de kérdéses, hogy a minőségük alkalmassá teszi-e ezeket a szövegeket a modellek tanítására. Ennél valószínűleg jobban használhatók az e-mailek, amikből évente összesen mintegy 800 billió token jön létre, harmadrészben a Google-nél. Akárhogy is, mivel exponenciális növekedésről van szó, mindezek a nem nyilvános források együttvéve is csak legfeljebb egy-két évvel tolhatják ki azt az időt, amíg az ember által generált írott szöveg elfogy. Azért a szöveg a kritikus, mert – a képekkel, videókkal, tudományos adatokkal, virtuális világokban szerzett tapasztalatokkal ellentétben – emberi szöveget csak emberek állítanak elő. Hiába termel csak az OpenAI már most évi 35 billió tokent, a nyelvi modellek szintetikus (gépi intelligencia által előállított) szövegeken való tanítása az eddigi tapasztalatok szerint nemhogy javítja, sokkal inkább rontja a teljesítményüket, és az emberihez egyre kevésbé hasonlító, homogénebb és értelmetlenebb szövegekhez vezet.
Kevésbé ad okot aggodalomra – legalábbis egyelőre – a modellek létrehozásának villamosenergia-igénye. A Gemini Ultra tanításához használt szuperszámítógépek becslések szerint 35 megawatt áramot igényeltek. Az eddigi tendenciát előrevetítve 2028 végére elérhetjük az 1 gigawattot, ami egy erőmű teljesítményének tekintélyes hányadát teszi ki (a nagyságrendek érzékeltetése végett: a Paksi Atomerőmű négy reaktorának összteljesítménye 2 gigawatt).
A GPT-4 és a Gemini Ultra létrehozása 30-40 millió dollárba került. Ebből 15-25 millió volt a hardver amortizációs költsége, 12-15 millió a projekten dolgozók juttatása és 1-2 millió a felhasznált energia. Mivel ez nő messze a legnagyobb ütemben, a hardver ára a következő években a ráfordítás egyre nagyobb hányadát teszi majd ki, és meghatározóvá válik. Az élvonalbeli modellek létrehozásának költsége minden bizonnyal már jövőre átlépi a 100 millió, 2027-ben pedig akár az egymilliárd dollárt, amivel csak a legnagyobb technológiai vállalatok fognak tudni lépést tartani. A belépési küszöb a független intézetek, egyetemek és a legtöbb kormány számára elérhetetlen lesz, a mesterséges intelligencia jövője egy maréknyi magáncég kezébe kerül.
Mindezt egybevéve elég pontos menetrend bontakozik ki: nagyjából 2026 végére elválik, hogy mire lesz képes a gépi intelligencia a jelenlegi, a mesterséges neurális hálózatok növelésére épülő megközelítéssel; ezt követően az exponenciálisan növekvő költségek és az adatínség szinte egyszerre szab majd határt a további növekedésnek. Alig néhány év, és kiderül, hogy az MI-ben tényleg benne van-e a lehetőség, hogy a 2030-as években olyan alapvetően formálja át a világot – ahogyan támogatói hirdetik –, mint amire legutóbb az ipari forradalom kezdetén volt példa, vagy beváltatlan ígéret marad.
A szerző a jövő technológiáival kapcsolatos kutatást, oktatást és ismeretterjesztést végző Prométheusz Társaság vezetője.