Valóra vált a Mátrix: a Genie 3 AI-modellel teljes, interaktív virtuális világokat lehet alkotni

augusztus 6.
TECH
  • Link másolása
  • Facebook
  • X (Twitter)
  • Tumblr
  • LinkedIn

Még 2018-ban írtuk meg, hogy a deepfake technológiák terjedésével teljesen átértékelődött, mit nevezünk valóságnak, miután egyre nehezebbé vált különbséget tenni a valódi és a mesterségesen létrehozott képek, hangok, videók között. Azóta a technológia egyre olcsóbbá és népszerűbbé, ezzel pedig egyre veszélyesebbé is vált, megjelent a politikai kampányokban is, és mára ott tartunk, hogy legyen szó Magyar Péterről készült hangfelvételekről vagy Németh Balázs élő adásban rögzített káromkodásáról, bármire rá lehet fogni, hogy azt mesterséges intelligenciával (AI) generálták – függetlenül attól, hogy ez igaz vagy sem. Hogy ez már eddig is mennyire hatásos volt, arról az olyan, több tízezer tagot számláló Facebook-csoportok árulkodnak, mint például az „Emberek, akik azt hiszik, hogy az AI által generált képek valódiak” nevű aranybánya.

Most azonban újabb szintlépés történt, még ha 2025-ben nehéz is lépést tartani az egymást követő szintlépésekkel, a nagy techcégek legfrissebb AI-modelljeinek szinte minden hónapra jutó megjelenéseivel. A ChatGPT-t fejlesztő OpenAI legnagyobb riválisa, a Google Deepmind bejelentette a Genie 3-at, amit egész egyszerűen világmodellnek neveznek. Ez azt jelenti, hogy egy szöveges utasításból (promptból) már nemcsak képet vagy videót, hanem egy teljes, 3D-s, videójáték-szerűen működő virtuális világot létre lehet hozni vele. Ha ezt nehéz elképzelni, itt a Google Deepmind bemutató videója a modellről:

Forrás

Már-már unalmas hasonlat, de nehéz megállni, hogy ne keverjük ide a Mátrixot, esetleg a Ready Player One-t: a Genie 3 is azt ígéri, hogy olyan virtuális világokat lehet vele alkotni, amelyek nemcsak passzívan leképezik a valóságot, hanem a modell értelmezi annak működését is, és így egy belső szabályrendszerrel rendelkező, szimulált világban merülhet el a felhasználó, ahol minden történésnek következményei vannak. Ha ezt a modellt ötvözzük egy VR-szemüveggel, máris az említett sci-fikben találjuk magunkat.

Hogy jutottunk idáig?

Alig három évvel ezelőtt még kevesen látták előre, hogy a mesterséges intelligencia teljesen átveszi a hatalmat az életünk – legalábbis az online életünk – felett. Mára a 2022 végén kiadott ChatGPT a legtöbbször letöltött mobilalkalmazássá vált, és a hosszú évek óta verhetetlen Google–Meta négyesfogat (Google, Youtube, Facebook, Instagram) után az ötödik leglátogatottabb weboldallá lépett elő. A szöveg- és képgenerátorokat szinte mindenki használja, és a technológia az élet minden területén megjelent – hogy mást ne mondjuk, az élethű mesterséges intelligenciának köszönhetően már az unokázós csalások sem a régik, egy februári jelentés szerint az elmúlt három évben 2137 százalékkal nőtt a deepfake-et használó pénzügyi csalási kísérletek száma.

Úgy vált mindennapossá az AI használata, hogy közben a veszélyeit még mindig nem fogtuk fel, és úgy nyúlunk reflexből a ChatGPT-hez ha valamilyen kérdésünk támad, hogy közben már az ismerősünk tengerparti fotójáról is azt gyanítjuk, hogy AI generálta a hátteret. A diákok sok esetben már meg sem próbálnak maguktól megfogalmazni egy szöveges feladatot, a kutatók pedig hol kreatívan, hol lustaságból nyúlnak az AI-hoz – márpedig az oktatás és a tudomány csak két kis szelete azoknak a területeknek, amiket a szemünk előtt alakít át az AI.

Eközben a mesterséges intelligencia fejlődési üteme egy fikarcnyit sem lassult. Ráadásul az egyes modellek egyre komplexebbé és autonómabbá válnak: megjelentek például az úgynevezett AI-ágensek, amelyek nem csak egyetlen feladatot hajtanak végre, hanem képesek a kitűzött célokat részfeladatokra bontani, azokhoz eszközöket választani és használni, és hosszabb távú stratégiák mentén dolgozni. És, hogy bezárjuk a kört, nyakunkon vannak a világmodellek is, amelyek saját, koherens világokat képesek létrehozni és működtetni. Ezek a technológiák már jókora feladat elé állítják a filozófusokat is, hiszen a valóság fogalmának újraértelmezését kívánják meg.

Mit tud a világmodell, és mikor jön?

Általában úgy tartják, hogy a jelenlegi AI-fejlesztések végkifejlete az úgynevezett mesterséges általános intelligencia (AGI), ami már bármilyen intellektuális feladatot képes elvégezni, amit egy ember el tud, és ezt egy robotba ültetve már a fizikai képességeit is képes elérni – sőt, túlszárnyalni. Az ilyen rendszerek felépítéséhez kulcsfontosságú eszközök lehetnek az ágensek és a világmodellek: míg az ágensek célokat követnek és döntéseket hoznak, a világmodellek lehetővé teszik számukra, hogy értelmezzék, szimulálják és előre jelezzék a környezetük működését.

A Google persze arra is figyelt a bejelentésében, hogy a felhasználókhoz is közelebb hozza ezt a bonyolult koncepciót. A cég szerint a Genie 3 különböző képességek elsajátításában vagy akár csak kalandok átélésében is az emberek rendelkezésére állhat, például síelést vagy kirándulást is élethűen lehet vele szimulálni, egyszerű szöveges utasítások alapján. Az így létrehozott virtuális környezet ráadásul valós időben változtatható egy-egy újabb prompttal – azonnal fenyvest varázsolhatunk a sípályára, vagy megjeleníthetünk egy szakadékot a hegyek között.

Forrás

Míg az eddigi legerősebb videógenerátorral, a szintén Google-fejlesztésű Veo 3-mal mindössze nyolc másodperces videókat lehet létrehozni, a Genie 3 több percen át bebarangolható virtuális világokat is képes alkotni HD (720p) felbontásban. Nagy újdonsága emellett a következetes vizuális emlékezet: ha az adott világon belül visszatérünk egy korábban meglátogatott helyszínre, az ottani dolgok (feliratok, tárgyak) változatlanok maradnak, nem generálja újra őket a rendszer.

A cég egyik demójában egy virtuális raktár segítségével mutatta be, hogyan lehet robotokat betanítani AI-környezetben: élethű fizikával és tárgyakkal, valós idejű változtatásokkal képezhető ki egy robot, ami aztán nagyobb eséllyel veheti el egy emberi raktáros munkáját – jó, ez utóbbi már nem volt benne a Google közleményében. „Ha egy test nélküli mesterséges intelligenciának megadjuk a képességet, hogy testet öltsön, még ha csak virtuálisan is, akkor az AI felfedezheti a világot, és ezáltal bővítheti a képességeit” – mondta a technikáról a Guardiannek Andrew Rogoyski, a brit Surrey-i Egyetem Emberközpontú AI Intézetének munkatársa.

Forrás

Az ilyen bejelentéseknél mindig eszébe jut az embernek a veterán feltaláló-futurista Ray Kurzweil jóslata, aki történetesen a Google alkalmazásában áll: szerinte az AI 2029-re eléri az emberi intelligencia szintjét, és 2045-re egyesül is vele, vagyis megvalósul a szingularitás. Hogy ehhez a Genie 3 mennyire járul hozzá, az majd kiderül – a modell egyelőre csak kiválasztott kutatóknak és alkotóknak elérhető. A Google mindenesetre érthető módon fenn akarja tartani a hype-ot saját termékei körül, miközben az OpenAI most már bármelyik pillanatban kiadhatja legújabb, várva várt nagy nyelvi modelljét, a GPT–5-öt.

Kapcsolódó cikkek