Bolondok hajója

„Küldetésünk, az egész emberiség javát szolgáló AGI építése.”
– az amerikai OpenAI küldetésnyilatkozata
„Fedezd fel az AGI rejtélyét nyitottsággal. Válaszolj a lényeges kérdésre hosszú távú gondolkodással.”
– a kínai DeepSeek küldetésnyilatkozata
Áll a bál az új kínai mesterségesintelligencia-modell, a DeepSeek körül. Nem szabad még erről komolyan írni. Túl nagy a zaj, folyik a kattintásvadászat. Ki tud eligazodni a podcastok, a YouTube, a Substack, az X, a Bluesky, a mainstream média megmondóembereinek hangzavarában? Meg kellene várni, míg eloszlik a füst, de félek, hogy addigra új petárdák borzolják fel a kedélyeket.
Alig több mint egy hónapja, 2025. január 20-án tette az egész világ számára könnyen elérhetővé egy korábban csak szakmai körökben ismert, 2023-ban alapított kínai startup saját fejlesztésű, DeepSeek-V3 nevű chatbotját és a mögötte álló DeepSeek-R1 nevű nagy nyelvi modellt. A jól időzített bejelentés hatalmas visszhangot keltett: Michael Spencer futurológus nem indokolatlanul AI Zeitgeist-nek keresztelte a január 20-a óta tartó időszakot.

Január 21-én, Donald Trump, az USA elnöke a Fehér Ház Roosevelt termében Sam Altman, az Open AI, Masayoshi Son, a SoftBank vezérigazgatója és Larry Ellison, az Oracle technológiai vezetője társaságában meghirdette az Egyesült Államok második Manhattan tervének kikiáltott Stargate (Csillagkapu) projektet. A terv szerint az amerikai kormány néhány szilícium-völgybeli BigTech vállalat közreműködésével és irdatlan mennyiségű magántőke bevonásával kolosszális méretű adatközpontokat épít, amelyek megteremtik az AI-fejlesztők Szent Gráljának tartott mesterséges általános intelligencia (artificial general intelligence, AGI) modellek hardveres infrastruktúráját. A bejelentés szerint a projekt vezetője, az OpenAI még az idén 100 milliárd dollárt költ a Stargate-re. A program költségvetése a következő négy évben meghaladja az 500 milliárd dollárt. Ezt követően a Microsoft és a META is bejelentette, hogy még 2025-ben 80, illetve 65 milliárd dollárt költenek az AI-infrastruktúra fejlesztésére. Becslések szerint az amerikai Big Tech vállalatok 2025-re tervezett AI-beruházási költsége várhatóan meghaladja a 250 milliárd dollárt. Az elkövetkező öt évben ezek a cégek kb. egybillió dollárt (nagyjából 400 ezer milliárd forintot) fordítanak adatközpontok, szuperszámítógépek építésére.
Az épülő AI-központoknak már a fizikai mérete és energiaéhsége is félelmetes. A Tesla- és SpaceX alapító Elon Musk Colossus AI adatközpontja jelenleg 100 ezer Nvidia H100 GPU kártyával működik, és ezt a következő években 1 millióra akarják bővíteni. A Google tervezett adatközpontja közel akkora, mint Manhattan területe. Becslések szerint az USA területén megvalósítandó adatközpontok becsült energiaigénye 74-172 GW között alakul 2028-ban, ami az USA teljes évi energiafelhasználásának 7-12 százaléka. Mivel a hidegfúzió Szent Grálját sem sikerült még megtalálni, bezárt atomerőművet nyitnak meg, újakat kezdenek építeni, és hatalmas napelemparkokat, szélerőműveket telepítenek az elektromos áram iránti növekvő kereslet kielégítésére.
Big is beautiful
A drabális méretek mögött az a tapasztalat áll, hogy az AI modellek képességei a képzésükre használt adatbázisok méreteinek növelésével párhuzamosan nőnek. Ez a skálázási törvénynek nevezett megfigyelés az alapja annak a reménynek, hogy előbb utóbb olyan, minden területen emberfeletti képességekkel rendelkező modellek születnek meg, amelyeknek tudományos, gazdasági, katonai alkalmazásai le tudják győzni az USA globális versenytársait, mindenekelőtt Kínát. Altman és Dario Amodei, az Anthropic vezérigazgatója nemrégiben megjelent szívderítő írásai szerint az AGI megalkotása után hamarosan megszülető szuperintelligencia mindezeken túl megoldja majd az emberiség előtt álló legnagyobb kihívásokat. Visszafordítja a klímaváltozást, megszünteti a társadalmakat hatalmasokra és kiszolgáltatottakra szétszakító különbségeket. A szegények gazdagok lesznek, gyógyítani tudjuk majd a ma még végzetes betegségeket. Nem lesz többé baj, sem halál, sem félelem.
Itt tartottunk 2025. január 20-án. Azóta bárki, aki kínai telefonszámmal vagy bármilyen emailcímmel rendelkezik, felmehet a DeepSeek weboldalára vagy ellátogathat egy appáruházba, letöltheti és ingyenesen használhatja a DeepSeek alkalmazást. Az elmúlt napokban a nagy modellszolgáltatók mind beépítették a DeepSeeket a kínálatukba. Ha pedig valakinek van elég nagy memóriájú számítógépe, akár le is töltheti magának, és otthon a garázsban offline is bütykölheti a programot.
Az új kínai AI-modell valóságos kataklizmát okozott a felhasználók körében. Az Apple App Store-ban a DeepSeek pillanatok alatt az első helyre került a letöltések száma alapján felállított rangsorban. A TrendForce kimutatása szerint 20 nappal a bemutatása után a DeepSeek napi aktív felhasználóinak száma átlépte a 20 milliót, ami a ChatGPT felhasználóinak 40 százalékát teszi ki. Sokan a kínai mesterséges intelligencia „ChatGPT-pillanatának” nevezték ezt a fejleményt, utalva az OpenAI modelljének 2022. novemberi 30-ai berobbanására.
A csábítás trükkje
Önmagában az a tény is figyelemre méltó, hogy egy szinte ismeretlen kínai cég képes volt egy élvonalbeli, érvelési képességekkel is rendelkező nagy nyelvi modell kifejlesztésére. De ez még nem lett volna elég a frenetikus sikerhez. A DeepSeek-V3 csábító ereje a modell érvelő, gondolkodó képességének személyes megtapasztalása volt. A DepSeek V-3, ha bonyolult feladatot kap, a válaszadás előtt lépésről lépésre sorra veszi a lehetséges megoldásokat, és végül kiválasztja az általa legjobbnak tartott variációt. Ez a „gondolkodási képesség” (vagy annak imitálása) jelentősen javítja a modell eredményességét, különösképpen a bonyolult logikai, matematikai feladatok megoldása során. Ilyen érvelő modellt a DeepSeek előtt csak az Open-AI és a Google tudott építeni. A hozzájuk kapcsolt alkalmazások azonban a felhasználók számára nem tették láthatóvá a válaszokat megelőző gondolkodási láncok tartalmát. A mostani DeepSeek-mániát az is táplálhatta, hogy nagyon sokan nem tudtak ellenállni a kísértésnek, hogy ingyen és bérmentve belepillanthatnak egy idegen (ráadásul kínai) intelligencia „gondolataiba”.
Január 24-én magam is így jártam. Pár nappal korábban egy kollégám érdekes feladványt tett közzé egy főként közgazdászokból álló online csoportban. Kíváncsi voltam, hogy az érvelési képességekkel rendelkező új kínai modell milyen gondolati láncokon keresztül és milyen minőségben tudja megoldani a feladatot. Regisztráltam a DeepSeek weboldalán és magyarul, változtatás nélkül feltettem a modellnek a feladvány szövegét. A megoldás imponáló volt. A modell nagyon is emberi töprengéseit rögzítő gondolkodási naplók olvasása viszont, ha nem is szorongást (uncanny feeling), de, ahogy várható volt, kifejezetten furcsa (weird) érzést ébresztett bennem. (Az érdeklődők a feladványt és a beszélgetés tartalmát ezen a linken tekinthetik meg.)
A hozzám hasonló laikus felhasználók érzéseinél bizonyára nagyobb hatásuk volt a DeepSeek teljesítményét a nyugati modellekéhez hasonlító független elemzéseknek. Ezek szerint a kínai modell az AI-modellek teljesítményének standard értékelésére használt benchmarkokban megközelíti, és néhány mutatóban meg is haladja a legfejlettebb nyugati modellek teljesítményét. Az igazi megdöbbentés azonban nem is a modell képességei, sokkal inkább a modell betanításának és működésének a DeepSeek által közzétett, hihetetlenül alacsony költségei okozták. Az első hírek szerint a modellt 5,6 millió amerikai dolláros költséggel, alig két hónap alatt, mindössze 2000 darab H800-as chipet tartalmazó gépen képezték ki. Ezeket a „lebutított” chipeket az amerikai Nvidia kifejezetten a kínai piacra tervezte azzal a céllal, hogy megkerülje a legfejlettebb chipek Kínába irányuló exportját érintő korlátozásokat.
Hogyan lehetséges ez?
Az elmúlt évek során az amerikai Big Tech vállalatok napról napra, hétről hétre, hónapról hónapra dollármilliárdokat égettek el. A világ legjobb (és legjobban fizetett) mérnökeinek alkalmazásával kifejlesztették a ma ismert AI-ökoszisztémát: a képzéshez használt hatalmas adatbázisokat, az Nvidia-kártyák tíz és százezreire épített adatközpontokat, a (Meta kivételével) gondosan őrzött szabadalmakkal és drákói alkalmazási szerződésekkel védett alapmodelleket és speciális alkalmazásokat. És akkor a Szilícium-völgy cápái között megjelenik egy kínai kis hal (a cég logója alapján inkább egy kis bálna) és költséghatékonyságban kenterbe veri a teljes nyugati mezőnyt. Nem csoda, hogy Mark Zuckerberg, a Facebook és a Meta alapítója január 27-én a hírek szerint „haditanácsba” (war rooms) hívta a Meta legjobb mérnökeit, hogy magyarázatot adjanak a kialakult helyzetre.
Egyrészt nagyon is érthető a nyugati világ elképedése, hiszen Kína mindeddig nem tudott vagy nem akart előállni nyugati élvonalbeli alapmodellekhez hasonló méretű és teljesítményű mesterséges intelligenciával. Másrészt, mai szemmel visszanézve az elmúlt hónapokra, tulajdonképpen előre lehetett volna látni ezt a fejleményt. A DeepSeek, ha nem is tartozott a nagyhalak közé, azért ismert volt az AI-fejlesztők körében, és már 2024 májusában kiadta a most közzétett modell nyílt forráskódú elődjét DeepSeek-V2 néven. Ráadásul – ellentétben a napjainkban nagyon is zárt OpenAI-val – a DeepSeek nem zárt, nem szabadalmakkal védett, hanem nyílt forráskódú, katonai felhasználás és ártalmas tartalmak generálásának kivételével akár üzleti célokra is szabadon felhasználható modellt tett elérhetővé. A DeepSeek kutatói ezzel párhozamosan az amerikai Cornell Egyetem arxiv.org felületén folyamatosan publikálják a modellhez kapcsolódó kutatások friss eredményeit, a hozzáférhető modellek technikai jellemzőit.
Itt merül fel a szó szerint egytrillió dolláros kérdés: miért választja, és miért dönt úgy egy, a Kínai Kommunista Párt által nyilvánvalóan szigorúan ellenőrzött kínai AI-startup, hogy a nyugati Big Tech cégek többségétől és az összes többi kínai AI-vállalattól eltérően nem a legnagyobb titoktartás közepette, a szivárgó információs csapokat elzárva dolgozik, hanem nyíltan, mindenki által megismerhetően fejleszti a világ leghatalmasabb, a jövő globális erőviszonyait meghatározó technológiát? Némi túlzással olyan ez, mintha Robert Oppenheimer és kutatótársai a moszkvai Pravdában hetente publikálták volna az első Manhattan terv részleteit.
Liang Wenfeng és csapata
A titok sokak szerint a tulajdonos-vezérigazgató Liang Wenfeng és a cég mérnökeinek zsenialitásában rejlik. Jack Clark, az OpenAI korábbi céges irányvonalakért felelős vezetője, az Anthropic társalapítója már 2024 májusában, a DeepSeek-V2 modell adatai alapján úgy vélte, hogy a kínai cég „kifürkészhetetlen varázslók csoportját alkalmazza”. A DeepSeek kutatóinak összetétele, a vállalat tulajdonosának gondolkodásmódja, a cég humánkultúrája valóban gyökeresen eltér a vezető kínai cégek jellemzőitől. A DeepSeek nem nyugati mintákat követő, a már meglévő megoldásokat szorgalmasan másoló fejlesztői csapattal működik, hanem rendkívül innovatív, hihetetlenül motivált és kiemelkedő tudású szakemberekkel rendelkező startupként. A modell architektúrájának rendkívüli hatékonysága a hosszú ideje folyó, kimagasló színvonalú mérnöki munka és számtalan kisebb-nagyobb újítás, találmány eredménye. Emellett a siker részben a kényszernek is betudható. A DeepSeek által elismerten rendelkezésre álló hardver viszonylag szerény mérete jelentős részben a legfejlettebb chipekre kivetett, egyre szigorúbb amerikai exportkorlátozásoknak tudható be. Természetesen ehhez hozzá kell tennünk, hogy a cég rendelkezésére álló pénzügyi források, számítási kapacitások, adatbázisok a hivatalos adatoknál valószínűleg sokkal nagyobbak.
Az elmúlt napokban a Nature-ben, az Economistban, a Wiredben és még számtalan helyen megjelent igényes írások próbálták bemutatni a DeepSeek jelenség titkát, kiemelve a bőséges forrásokat, a magasan képzett munkaerőt és az erős kormányzati hátszelet. Számomra különösen érdekesek azok az elemzések, melyek a DeepSeek-mágia mögött nem valami megfejthetetlen titkot, ismeretlen technológiát sejtenek, hanem a vállalatvezetés és mindenekelőtt a tulajdonos-vezérigazgató Liang Wenfeng rendkívüli mérnöki és vezetői képességeiben látják a magyarázatot.
Január 20-a előtt Liang Wenfeng személye szinte ismeretlen volt a nyugati világban. Szemben a szilícium-völgybeli Big Tech vezérekkel, ő ritkán nyilatkozik, nem tart előadásokat, nem vendégeskedik divatos podcastokban, nem publikál esszéket és blogposztokat, nem tesz fel az X-re titokzatos vagy éppen brutális üzeneteket. Kínai lapokban viszont megjelent vele két egészen különleges, belföldi felhasználásra szánt interjú 2023. májusában és 2024. júniusában, amelyek rendkívül izgalmas betekintést kínálnak Liang gondolkodásmódjába, a vállalat létrejöttébe és működésébe.
Figyelemre méltó Liang fejtegetése arról, hogy miért a tehetség és nem a tapasztalat számított már a cég alapításától kezdve:
„Ahhoz, hogy valamit tegyen, egy tapasztalt ember gondolkodás nélkül megmondja, hogy ezt így kell csinálni, de egy tapasztalatlan ember többször is tapogatózik, nagyon alaposan átgondolja, mit kellene tenni, majd talál egy olyan megoldást, amely megfelel az aktuális valóságnak. ... Meggyőződésünk, hogy az innovációhoz a lehető legkevesebb beavatkozásra és olyan irányításra van szükség, ami mindenkinek megadja a játék szabadságát, a kipróbálás és hibázás lehetőségét. Az innováció gyakran magától jön létre, nem szándékosan szervezik, nem lehet tanítani. ... Az igazi meghatározó erő gyakran nem valamilyen kész szabály és feltétel, hanem az alkalmazkodóképesség és a változáshoz való alkalmazkodás. Sok nagyvállalat már nem képes gyorsan reagálni és cselekedni, és könnyen engedhetik, hogy a korábbi tapasztalatok és a tehetetlenség korlátok közé szorítsák őket.”
Amikor a DeepSeek „kifürkészhetetlen varázslóiról” kérdezték, Liang Wenfeng a következőket válaszolta:
„Nincsenek varázslók. Mi többnyire friss diplomások vagyunk a legjobb kínai egyetemekről, negyed- vagy ötödéves doktoranduszok, és néhány fiatal, aki csak néhány éve diplomázott. … A V2-es modell mögött álló csapatban nincs senki, aki a tengerentúlról tért vissza Kínába. Mindannyian helyiek vagyunk. Lehet, hogy a legjobb 50 AI-szakértő nem Kínában van, de talán mi magunk is tudunk ilyen tehetségeket képezni.”
Liang szerint a DeepSeek titka a rendkívül motivált, kiemelkedő képességű, nagyon fiatal kutatói gárdában, a merev vállalati hierarchia hiányában és a rugalmas vállalati munkamegosztásban van.
„A mi felvételi standardunk mindig is a szenvedély és a kíváncsiság volt. Csapattagjaink közül sokan szokatlan tapasztalatokkal rendelkeznek, és ez nagyon értékes. A kutatás iránti vágyuk gyakran előbbre való, mint a pénzkeresés. ... Szerintem az innováció a hittel kezdődik. Miért olyan innovatív a Szilícium-völgy? Mert meg mernek tenni dolgokat. Amikor a ChatGPT megjelent, a kínai technológiai közösség nem bízott az alapkutatásokhoz kapcsolódó innovációban. A befektetőktől a nagyvállalatokig mindannyian úgy gondolták, hogy a szakadék túl nagy, és inkább az alkalmazásokra összpontosítottak. Az innováció azonban a magabiztossággal kezdődik, amit gyakran inkább a fiataloktól látunk. ... A csúcstehetségeket leginkább a világ legnehezebb kihívásainak megoldása vonzza. ... Mi a legnehezebb problémákkal foglalkozunk, ami eleve vonzóvá tesz minket számukra. ... A DeepSeek még mindig teljesen alulról építkezik. Általában nem határozzuk meg előre a szerepeket; a munkamegosztás természetes módon történik. Mindenkinek megvan a maga egyedi útja, és mindenki hozza magával az ötleteit, így nem kell senkit sem erőltetni. … A csapatban bárki bármikor hozzáférhet a GPU-khoz vagy az emberekhez. Ha valakinek van egy ötlete, akkor jóváhagyás nélkül bármikor hozzáférhet az oktató klaszterkártyákhoz. Hasonlóképpen, mivel nálunk nincsenek hierarchiák vagy különálló részlegek, az emberek együttműködhetnek csapatokon átívelő módon, amennyiben kölcsönös az érdeklődés.”
Liang szerint a motivált, kimagasló technikai tudással rendelkező munkaerő, a nem hierarchikus vezetési modell mellett a DeepSeek sikere jelentős részben a kutatások nemzetközi beágyazottságában rejlik. A mostani palávert okozó DeepSeek-V3 mögött álló DeepSeek-R1 modell már 2024 júniusában elérhető volt a világ minden fejlesztője számára, nyílt forráskóddal és dokumentációval, és, mint fent említettük, a DeepSeek kutatói a szabadon elérhető arxive.org-on folyamatosan publikálták és publikálják a kutatások és fejlesztések eredményeit. Ezek a tanulmányok már a múlt évben kivívták a nyugati szakértők elismerését. A SemiAnalysis vezető elemzője például úgy vélte, hogy a DeepSeek-V2 tanulmánya „talán az év legjobbja”, míg Andrew Carr, az OpenAI korábbi alkalmazottja úgy találta, hogy az írás „tele van elképesztő bölcsességgel”, és a saját modelljeihez alkalmazta az abban publikált képzési beállításokat.
Liang szerint a nyílt forráskódú fejlesztés valóban azzal jár, hogy a versenytársak nagyon könnyen és gyorsan le tudják másolni egymás innovációit. Ez a kooperáció azonban hosszú távon sokkal több haszonnal jár, mint hátránnyal. A DeepSeek sikere valóságos „nyíltforráskód-forradalmat” indított el Kínában. A történések súlyát érzékelteti, hogy február 14-én reggel a Baidu, a legnagyobb kínai AI-cég minden előzmény nélkül bejelentette, hogy a vállalat a következő hónapokban hivatalosan is nyílt forráskódúvá teszi legfejlettebb modelljét. Nem véletlen az egybeesés az sem, hogy a DeepSeek tarolása után tíz nappal a nyílt, non-profit alapítványból szabadalmakkal védett for-profit céget formáló Altman is meghallotta az idők szavát, és így nyilatkozott a Wall Street Journalnek: „személyesen úgy gondolom, hogy a történelem rossz oldalán állunk, és ki kell találnunk egy másik, nyílt forráskódú stratégiát”.
Még egy csavar
Szó esett már róla, hogy a modell Kínán kívül is szabadon elérhető bármilyen érvényes emailcímről. A regisztráció során természetesen el kell fogadni a DeepSeek adatkezelési feltételeit. Eszerint az alkalmazás elolvashatja, letöltheti, kínai szervereken tárolhatja és a modell fejlesztéséhez felhasználhatja a vele való kommunikáció teljes dokumentációját. Láthattuk, hogy a kínai kézben lévő TikTok milyen vihart kavart az Egyesült Államokban, és nem csupán a kiskorúakra veszélyes addiktív hatásai miatt, és nyilvánvaló, hogy komoly biztonsági aggályok merültek fel a kínai vállalat adatkezelésével kapcsolatban. Az elemzők szerint leginkább ez vezetett az alkalmazás (átmeneti) amerikai betiltásához. De míg a TikTok fő pörgetői nagyrészt digitális magányban unatkozó tinédzserek, a DeepSeek használói leginkább olyan felnőttek, akik vagy szórakozásból, vagy a munkájukhoz kapcsolódó folyamat részeként adják át önként információikat a kínai vállalatnak. A Hugging Face chatbot arénájában többek között a legkiválóbb nyugati AI szakemberek tesztelték a modell teljesítményeit, és ők a regisztráció során mindannyian beleegyeztek abba, hogy adataikat Kínába exportálják.
2025. január 27-én Trump elnök is nyilatkozott a DeepSeek jelenséggel kapcsolatban: bejelentette, hogy továbbra is azt várja, hogy az amerikai technológiai cégek uralják a mesterséges intelligenciát. Nem volt azonban világos, hogy a Trump-kormányzat vagy a kongresszus milyen új AI-politikát folytathat, ha folytat egyáltalán, válaszul a DeepSeek jelenségre. John Moolenaar republikánus képviselő, a képviselőház Kínával foglalkozó bizottságának elnöke ugyanazon a napon viszont elég keményen fogalmazott: „a DeepSeek, a Kínai Kommunista Párt által ellenőrzött új mesterségesintelligencia-modell nyíltan kitörli a KKP által elkövetett atrocitások és elnyomás történetét – mondta, utalva azokra a jelentésekre, amelyek szerint a DeepSeek cenzúrázza az olyan témákat, mint az 1989-es Tienanmen téri mészárlás. – Az USA nem engedheti meg, hogy a DeepSeek-hez hasonló KKP-modellek kockáztassák a nemzetbiztonságunkat, és kihasználják technológiánkat a mesterséges intelligenciával kapcsolatos ambícióik előmozdítására. Azon kell dolgoznunk, hogy gyorsan szigorúbb exportellenőrzést vezessünk be a DeepSeek mesterségesintelligencia-infrastruktúrája szempontjából kritikus technológiákra".
Azóta sokan tesztelték a modell „politikai beállítottságát”, és eléggé egyértelmű tapasztalat, hogy a kínai modell valóban cenzúrázza a hozzá intézett kérdéseket és az általa adott válaszokat. Nem maga az alapmodell van megrendszabályozva (finoman szólva finomhangolva). A moderálást egy, a modell és a felhasználó közé felhúzott, láthatatlan, a felhasználással párhuzamosan valós időben futtatott neurális hálózat végzi. Nem csoda, hogy az amerikai haditengerészet már január 24-én emailben utasította minden rendű és rangú alkalmazottját, hogy a potenciális biztonsági és etikai aggályok miatt semmilyen munkával kapcsolatos vagy személyes feladatra nem használhatják a DeepSeek alkalmazást. Nem nehéz azonban belátni, hogy mostanra köremailekkel nehezen kezelhető helyzet alakult ki a nyugati világban. Január 28-án Anniek Bao, a az amerikai CNBC Kína rovatának riportere alighanem jogosan sopánkodott amiatt, hogy az USA jogalkotói járatlan területre vetődtek, amikor a DeepSeek használatát próbálják szabályozni.
Február 5-én a Feroot kiberbiztonsági ügynökség jelentette, hogy kutatásai szerint a DeepSeek alkalmazás rejtett programja lehetővé teszi a felhasználók adatainak exportálását a kínai állami tulajdonban lévő China Mobile szervereire. Ezután számos szövetségi ügynökség saját hatáskörben megtiltotta alkalmazottainak a DeepSeek használatát. A Wall Street Journal január 6-án azt is megírta, hogy képviselők kétpárti törvényt készülnek benyújtani, amelyben megtiltanák a DeepSeek applikáció használatát a kormányzati eszközökön. Ezen a fronton nagyjából itt tartunk.
Chipháború
Itt érkeztünk el egy újabb, ha úgy tetszik, a végső kérdéshez. Az amerikai kormányzat az utóbbi években rendkívüli erőfeszítéseket tett az AI-alapmodellek fejlesztéséhez is használható chipek kínai exportjának korlátozásában. Hogyan lehetséges az, hogy Kína ezek ellenére létre tudott hozni az amerikai csúcsmodellekkel egyenrangú mesterséges intelligenciát? Ezek után van-e értelme egyáltalán tiltani az amerikai chipek Kínába irányuló exportját?
Az OpenAI versus DeepSeek nagyhét zűrzavarában kétségkívül üdítő nyugalmat árasztott a fent már hivatkozott Diario Amodei írása, amelyben az Anthropic vezérigazgatója egyrészt megpróbálta megnyugtatni a nyugati vizeken felkorbácsolt hullámokat, másrészt igyekezett ráirányítani a figyelmet a szerinte valóban súlyos, sőt, ha tetszik, valóban élet-halál-kérdésre: miképpen akadályozhatja meg az USA, hogy végül ne a nyugat, hanem Kína fejlessze ki elsőként a mesterséges szuperintelligenciát? Amodei szerint a DeeepSeek-V3 közzététele kétségtelenül figyelemre méltó bizonyítéka annak, hogy Kína az AI-adatközpontok és szuperszámítógépek gyártásához használható legfejlettebb chipekre kivetett embargó ellenére is képes volt az amerikai csúcsmodellekéhez hasonló képességekkel rendelkező AI-modell megalkotására. Nincs azonban itt semmi látnivaló. Nincs okunk sem megrettenni, sem túlbecsülni ezt a teljesítményt. Mindössze annyi történt, hogy a kínaiak a AGI-fejlesztés területén korábban meglévő, eddig 9-12 hónapra becsült lemaradásukat 7-10 hónapra csökkentették. Ez idő alatt azonban a nyugati fejlesztőlaboratóriumok sem voltak restek, és a hírek szerint hamarosan elkészülnek (vagy talán már el is készültek) a következő AI-generáció modelljeivel. És valóban, az amerikaiak nem késlekedtek sokat a válasszal. Az OpenAi február 2-án bemutatta Deep Research nevű, ágensalapú, érvelő AI-alkalmazását, a Google DeepMind pedig február 5-én Gemini 2.0 Flesh Thinking Experimental gyűjtőnév alatt egy egész érvelő AI-ökoszisztémát mutatott be. Február-én pedig Altman, szokása szerint az X-en, közzétette a GTP-5-höz vezető útiterv részleteit – igaz ezúttal már szót sem ejtett az AGI eljöveteléről.
Amodei szerint a DeepSeek ár/teljesítmény arányáról keringő adatok teljesen félrevezetők. A kínai cég rendkívül okos mérnöki megoldásokkal valóban csökkenteni tudta a képzési időt és költségeket, de az igazi áttörést a DeepSeek fejlesztői az amerikaiak által is ismert AI-desztilláció módszerének alkalmazásával érték el. Ennek lényege, hogy egy kisebb (alacsonyabb költséggel létrehozott) modellt egy már meglévő nagy, magas költséggel létrehozott modell tanít be, kissé antropomorfizálva a helyzetet úgy, ahogyan egy mester megtanítja tanítványát a szakma fortélyaira. Ezt a módszert már a nyugati fejlesztőlaborokban is használják, rendkívüli sikerrel.
A DeepSeek közlése szerint ők a nyílt forráskódú szabadon használható modelleket használtak tanítómesternek a desztillálás során. Az OpenAi (Sam Altman) azt állítja, hogy DeepSeek a szabályokat megsértve az ő, licensszel védett modelljüket is használta a desztilláláshoz. Nem könnyű igazságot tenni, hiszen közismert, hogy az OpenAI is számtalan, licensszel védett adatbázist használt fel saját modelljeinek betanításához. A legvalószínűbb, hogy a DeepSeek-modellek képzése során több modellt és adatbázist is felhasználtak (részben valószínűleg ők is jogosulatlanul). Ez a tény jelentős részben megmagyarázza az alacsony költségeket.
Dylan Patel, a SemiAnalysis alapítója még 2024 novemberében felhívta a figyelmet arra, hogy a DeepSeek a bevallottnál valószínűleg jóval több és fejlettebb, becslések szerint 50 ezer Hopper GPU kártyát használt az alapmodell kifejlesztéséhez. Ezek embargó alá esnek, de ha nem is könnyen, lehet módot találni az embargó megkerülésére. Ha így áll a helyzet, akkor van-e egyáltalán értelme az évtizedek óta tartó chipháborúnak? Amodei szerint nagyon is van, sőt valójában ez az egyetlen eszköz, amellyel az USA elérheti (ha egyáltalán), hogy ne Kína, hanem az Egyesült Államok hozza létre először az emberi képességeket minden területen felülmúló, az AGI képességeit is meghaladó szuperintelligenciát. Ugyanis ehhez továbbra is szükség van a jelenleginél jóval fejlettebb, a hatalmas Stargate projekthez hasonló méretű infrastruktúrán képezhető alapmodellekre. Az embargó, ha nem is tökéletes, azt meg tudja akadályozni, hogy a kínaiak a közeljövőben ilyen méretű adatközpontokat építsenek.
Itt válik Amodei megnyugtatónak szánt fejtegetése végtelenül nyugtalanítóvá: szerinte ugyanis a tét valóban élet vagy halál. A nagy AI-rohanás teljes mértékben indokolt, hiszen amelyik nagyhatalom először megépíti a szuperintelligenciát a pillanatok alatt behozhatatlan előnyökre tesz szert a globális gazdasági, katonai versenyben. Ezért minden lehetséges eszközzel el kell érni, hogy az USA-ban, az amerikai kormány ellenőrzésével lépjen át az emberiség a történelem következő korszakába. Legyünk optimisták, és tegyük fel, hogy az embargó valóban sikeres lesz, és az USA Big Tech vállalatainak vezetésével átkerülünk az új történelmi korszakba. És akkor mi lesz?
A szingularitáson túl
Szó esett már arról, hogy az AGI, majd a szuperintelligencia létrehozásával miként érkezhet el az emberiség a korlátlan bőség és boldogság korszakába. A Microsoft-alapító Bill Gates Netflixen futó dokumentumfilm-sorozata optimista változatát mutatja be ennek a látomásnak, sokan azonban a veszélyekre is felhívják figyelmet. Itt nem csupán az emberi célok, értékek és egy szuperintelligencia céljainak, értékeinek összehangolására vagy egy rosszindulatú kezekbe kerülő, esetleg éppen gonosszá formálódó szuperintelligencia halálos veszélyeire gondolhatunk; sokak szerint egy ilyen, az AI által uralt világban az emberi lét értelme kérdőjeleződik meg.
A nagy rohanás közepette kevés idő jut az efféle töprengésre, de korábban volt elég időnk belenézni ebbe a mélységbe vagy fényes jövőbe. Stanislaw Ulam lengyel matematikus Neumann Jánosról írt nekrológja szerint még 1950-ben, egy Los Alamosban vele folytatott beszélgetésben a magyar származású matematikus így fogalmazott: „A technológia egyre gyorsuló fejlődése és az emberi életmód változásai olyan benyomást keltenek, mintha a történelem egy lényegi szingularitása felé közelednénk, amelyen túl az emberi ügyek a jelenlegi formájukban nem folytatódhatnak.” Ray Kurzweil amerikai futurológus és feltaláló volt az, aki bestsellereiben a szingularitás fogalmát a mesterséges intelligencia fejlődéséhez kapcsolta: „pár évtizeden belül a gépi intelligencia meg fogja haladni az emberi intelligenciát, és ez a szingularitáshoz fog vezetni: olyan gyors és alapvető technológiai változásokhoz, amelyek szakadást hoznak létre az emberi történelemben.” A probléma az, hogy nem tudjuk, nem is tudhatjuk, mi van a túloldalon. Nincsenek szavaink, nincsenek fogalmaink a szingularitáson túli valóság megragadására. Mindannyian bent ülünk ebben az inverz Noé-bárkában, és hajózunk az ismeretlen felé. Erre utal az is, hogy néhány nappal ezelőtt a DeepSeek lecserélte a cikk elején olvasható eredeti küldetésnyilatkozatának szövegét („Fedezd fel az AGI rejtélyét nyitottsággal. Válaszolj a lényeges kérdésre hosszú távú gondolkodással” erre a három szóra: „Into the unknown”, azaz bele az ismeretlenbe.
A szerző az MTA emeritus kutatója, korábbi írásai a Qubiten itt olvashatók.
További kapcsolódó cikkeink: