Már most a valóságunkat fenyegeti a deepfake és a generatív AI, és ez még csak a kezdet
Donald Trumpot letartóztatja a rendőrség vagy épp Anthony Faucit ölelgeti. Ferenc pápa fehér pufidzsekiben virít óriási kereszttel a nyakában. Volodimir Zelenszkij egy online videófelvételen arra biztatja a katonáit, hogy adják meg magukat az oroszoknak. Ez csak néhány kiragadott, virálissá vált példa, de az utóbbi hónapokban érzékelhetően megszaporodtak az olyan online tartalmak, amelyeket mesterségesintelligencia-alapú szoftverekkel hoztak létre, hatással voltak a közbeszédre és elbizonytalaníthatták a befogadót abban, hihetnek-e a saját szemüknek.
A szövegből képet, videót és hanganyagot gyártó algoritmusok gyorsabban fejlődnek, mint ahogy ez a cikk elkészült, és szinte lehetetlen bármiféle előrejelzést adni arról, mit hozhat a jövő. „Kilenc hónappal ezelőtt azt mondtuk volna, hogy a metaverzum lesz az a technológia, amellyel mindenki foglalkozni fog. Tavaly november környékén megjelent az OpenAI a ChatGPT hármas, majd négyes változatával és az a fajta döbbenet, ami elérte az AI-kutatókat, kommunikációval foglalkozó kutatókat és a médiában dolgozókat is, teljesen váratlan volt” – mondta Veszelszki Ágnes deepfake-kutató, a Nemzeti Közszolgálati Egyetem Digitális Média és Kommunikáció Tanszékének vezetője a Qubit tematikus podcastjában. Hozzátette, annyi látszik, hogy a generatív AI-tól további óriási fejlesztések várhatóak a közeljövőben.
Kovács Dominik, a Colossyan nevű AI-videógyártó cég alapítója és ügyvezető igazgatója a szövegből videót készítő szoftverekről szóló fejlesztésekről ugyanebben a podcastban szintén elmondta, „nagyon durva, ahogy ez a technológia fejlődik”. Szerinte két-három év múlva ezek a videók már nagyon realisztikusak tudnak lenni, „ami valljuk be, nem sok idő”. A ChatGPT, a szövegből képet előállító Midjourney, DALL-E, Stable Diffusion és a különféle hangklónozó programok pedig már most alkalmasak valóságérzékelésünk megzavarására. Körbejártuk, mihez kezdhetünk a szintetikus tartalmakat generáló programokkal, amihez kollégánk, Kun Zsuzsi szintetikus avatárrá avanzsált. Ezzel pedig bepillantást nyerhettünk abba, hogyan zajlik egy AI-videó gyártása, és ténylegesen mennyi idő, amíg egy laikus összerak egy szintetikus videót, mihez kezdhetnek ezekkel az eszközökkel rosszindulatú aktorok, és mi történhet a valóságunkkal.
Deepfake, generatív AI és társaik
A deepfake nem számít újdonságnak, maga az elnevezés 2017-ben jelent meg egy Reddit-felhasználó nevében, aki arccserés technológiával hírességek arcát applikálta pornószínészekre, és ezeket osztotta meg egy subredditen. Veszelszki megfogalmazása szerint a deepfake mára teljesen negatív konnotációval bíró kifejezéssé vált és digitális médiamanipulációt jelent, vagyis olyan videót, hangot és képszekvenciákat takar, amelyekben az eredeti szereplők arcát, arckifejezését, hangját kicserélik valaki máséra, és megtévesztő tartalmat hoznak létre.
Ez abban különbözik a generatív mesterséges intelligenciától, hogy van egy eredeti, valós képsor, amelyet különféle, akár mesterséges intelligencia-alapú algoritmusokkal manipulálnak, míg a generatív szoftverek mindeddig nem létező tartalmakat hoznak létre azokon az adatokon alapuló valós mintázatokból, amelyeken ezeket tanították. Veszelszki példaként említette a This Person Does Not Exist nevű arcgenerátort, amelyet a Flickr 70 ezer emberi arcot tartalmazó adatbázisán tanították, és egyetlen kattintással teljesen hihető, új arcokat teremthetünk vele.
Bányász Péter, a Nemzeti Közszolgálati Egyetem Kiberbiztonsági Tanszékének oktatója a Qubit orosz-ukrán információs és kiberháborúról szóló podcastjában azt mondta, ezzel a képgenerátorral például olyan álprofilok készíthetők, amelyekkel megpróbálhatnak bárki bizalmába férkőzni, és automatizált előállításukkal egész hálózatok építhetők fel. Például március elején kapcsoltak le több ezer, automatizált Twitter-álprofilt, amelyek folyamatosan Trumpot dicsőítették, és igyekeztek besározni a 2024-es republikánus elnökjelöltségre riválisaként pályázó Ron DeSantist. Orosz-ukrán relációban sem ismeretlen ez a taktika, Bányász szerint Facebook-csoportok, oldalak és álprofilok garmadáját lehet visszavezetni az oroszokra, „amelyek például egyszerre támogatták a rendőröket, az All Lives Matter mozgalmat, és értelemszerűen a fekete polgárjogi mozgalmakat. Ezek az oldalak nagyon sokszor szerveztek úgy eseményeket, hogy egyszerre mindkét oldal támogatóit feltüzelték, az érzelmileg feltüzelt csoportokat egy helyre engedték, ez pedig borítékolhatóan konfliktussá eszkalálódott. Ez nemegyszer meg is történt.”
Deepfake helyett szintetikus tartalomgyártás
A rossz szándékú aktorok manipulációs céllal használt deepfake manőverei mellett Veszelszki szerint a deepfake tartalmak több mint 90 százalékban továbbra is pornót jelentenek, de van pozitív felhasználási iránya is a technológiának, például a szórakoztatóiparban, az egészségügyben és az oktatásban. A floridai Dalí Múzeumban például Salvador Dalí spanyol festő algoritmusok segítségével generált képmása mesél a művész életéről a múzeum látogatóinak, a Sensely nevű amerikai cég pedig kifejezetten olyan virtuális avatárokat fejleszt, amelyeket később egészségbiztosítók használhatnak arra, hogy ügyfeleikkel beszélgessenek, vagy betegek használhatják tüneteik feltérképezésére, esetleg mentális egészségügyi gondjaik megvitatására.
Ezek a cégek azonban kifejezetten kerülik a deepfake kifejezést, inkább szintetikus videó- kép- és hanggyártásként beszélnek technológiájukról. A 2018-ban alapított, deeptech cégnek számító Colossyan célja például, hogy bárkinek elérhetővé és lokalizálhatóvá tegye a videógyártást – etikus célokra. Jelenleg termékeikkel nagyobb cégeknek a belső oktatási tartalmait gyártják le, amelyekre ezeknek a vállalatoknak nincsen se humán, se finanszírozási erőforrása. Mivel azonban a covid óta exponenciálisan megnőtt az igény a különféle oktatóvideókra, rendkívül versenyképes tud lenni egy olyan termék, amelyik azt ígéri, hogy pár perc alatt, bármilyen nyelven, külön a célra dedikált videókészítő csapat nélkül képes a megfelelő tartalmat legenerálni. Túl szép, hogy igaz legyen? Megnéztük mi is, hogy mit tud a Colossyan, mennyire könnyű vagy nehéz AI-videót generálni, és mennyire lesz realisztikus a végeredmény.
Így lett hús-vér kollégánkból szintetikus
Ehhez néhány héttel ezelőtt ellátogattunk a cég stúdiójába, ahol Kun Zsuzsi kollégánkból szintetikus színészt készítettek. Egyelőre a technológia azonban nem tart ott, hogy Jackie Chan-féle túlmozgásos karaktereket vagy félig-meddig eltakart arcokat tudjanak rögzíteni, és az is meg van határozva, hogy a szemből felvett, kamerába néző, kevés mozgást végző karakterek mit viseljenek. Ehhez előzetesen írásos iránymutatást kaptunk, amelyben például az szerepel, hogy a színész ne viseljen nagy fülbevalókat, amelyek visszatükrözhetik a fényeket, olyan színű ruhát, amelyik megegyezhet a háttérrel, de az aprómintás felső is nem várt effekteket és eredményeket hozhat. Nem szerencsés viselet a szemüveg sem, és Zsuzsinak azt ajánlották, fogja össze hosszú haját, hogy ne lógjon be semmi az arca elé. Az útmutatóból pedig azt vettük le, hogy a kócos, göndör, össze-vissza álló hajzattal egyszerűen nem tud mit kezdeni az AI – bár lássuk be, a legtöbb fodrász sem.
Ezután a felvételhez az első lépéseket egy erősen megvilágított, nagyjából 10 négyzetméteres, irodahelyiségből rögtönzött stúdióban tettük meg. A közel egy óráig tartó videófelvétel alatt Zsuzsit két, eltérő szögben elhelyezett kamera rögzítette egy green screen előtt, a hangját pedig egy mikrofon vette fel. A legnehezebb és legidőigényesebb része a folyamatnak 120, a Colossyan által meghatározott, angol nyelvű mondat súgógépről történő felolvasása volt. Miután ezt teljesítette, arra kérték, hogy forgassa kétszer körbe a fejét, végül pedig, mintegy levezetésként, különböző kézgesztusokat kellett eljátszania. Ezután a cég szakemberei két hét alatt elkészítették a róla mintázott szintetikus színészünket, akivel ezután szinte bármilyen szöveget fel tudunk olvastatni. Vagyis hangklónozással a hangját, videós technikával pedig az arcát és a testét virtualizálták.
Elvesztünk a géphangok és stocktájak sokaságában
Miután megkaptuk az avatárt, a cég online platformján választhattunk hozzá bármilyen hátteret – a stockfotótár több millió képet és bemozgatott, rövid gifet tartalmaz – és több mint százféle hangot. Ezek nagy részén eléggé érződik a gépi jelleg és Zsuzsi hangjából is olyan géphangot generáltak, amelyről először egyáltalán nem tudtuk megállapítani, hozzá tartozott-e valaha is. Mindenesetre tényleg bármilyen szöveget az avatár szájába adhattunk, és a videó legenerálása nem tartott tovább 13 percnél. Alább láthatjátok az eredményt.
Nagy Imre, a Colossyan vezető fejlesztője elmondta, a felvett hanganyagból magas minőségű alaphangokra transzferálnak stíluselemeket. „Így a generált hang élethű, hiszen az alaphang, amiből készül, nagyon jó minőségű, viszont cserébe nem annyira pontos mása a valóságnak. Ennek a technológiának az az előnye, hogy akár egyéb nyelveken is könnyen megvalósítható, tehát például Kun Zsuzsi hangját már le tudnánk generálni hét másik nyelven is, cserébe kevésbé pontos akcentusokkal és maga a másolat nem lesz tökéletes" - magyarázta. Hozzátette azt is, hogy a hangklónozás náluk még egyelőre kísérleti fázisban van, egyelőre kollégánk hangját is angolul tették számunkra elérhetővé, ráadásul úgy, hogy 30 másodpercnél hosszabb szöveg felolvasására nem ajánlotta, mert leromolhat a videó hangminősége. Viszont biztosított minket arról, hogy gőzerővel dolgoznak a technológia javításán.
Kovács a podcastban elmondta, „az oktatási videók esetén az ipar ahhoz van szokva, hogy ha őszintébben szeretnénk fogalmazni, akkor monoton és unalmasabb arckifejezések vannak”, kevesebb interakcióval, mint például marketingvideók esetén, és ezeket már nagyon jól reprodukálni tudja a mesterséges intelligencia, olyannyira, hogy a felhasználóik visszajelzései alapján a nézők nem is nagyon szokták észrevenni, hogy szintetikus színész szerepel a videókban. Ahhoz, hogy meg tudjátok állapítani, mennyire hasonlít kollégánk és az avatár, nézzétek meg az alábbi videót.
Etikus felhasználás és vízjelek
Kun Zsuzsi avatárjával ezek után bárki, bármilyen szöveget, bármilyen háttér előtt elmondhat egy-egy néhány másodperces videó erejéig – és annak, aki angolul beszél és nem ismeri őt, nem is biztos, hogy észrevehető lesz a különbség a szintetikus és a hús-vér Zsuzsi között.
Kovács azt mondta, ők az ügyfeleikre bízzák, elmondják-e nézőiknek azt, hogy a felvételeken szintetikus avatárok szerepelnek, az etikai elvárás ott van, hogy szerződést írnak alá azokkal az ügyfelekkel, akik nagy mennyiségben használják az avatárokat, és azt igyekeznek biztosítani, hogy etikusan használják a terméküket. A Colossyan vezetője szerint ők mára már csak a workspace learning irányban engedik a terméküket használni, politikust, híres embert nem lehet náluk avatárként megjeleníteni, és csak előzetes beleegyezéssel kreálható bárkiből avatár. Hozzátette, több mint másfél éve vannak a piacon, de idáig nem láttak olyat, hogy visszaéltek volna a termékeikkel.
Ez azonban más szoftverek esetén egyáltalán nincs így, emiatt is igyekeznek a generatív mesterséges intelligenciával kísérletező cégek olyan programokat piacra dobni, amelyek például „vízjelezik” az általuk kreált tartalmakat, amit más algoritmusok azután prímán észre tudnak venni. A Microsoft május végén tette közzé, hogy vízjelezni fogják az AI-generálta képeket, a Google beágyazott metaadatokat ígért a generált tartalmai megjelölésére, a Midjourney és a Shutterstock pedig szintén saját jelölővel fog operálni. Ez azonban egyáltalán nem garancia arra, hogy az egyre jobbá és jobbá váló szintetikus tartalmakat ki fogjuk tudni szűrni, és meg fogjuk tudni különböztetni a valóságtól.
És akkor mi lesz a valósággal?
Egyelőre a generatív AI kreálta képek, videók, hangok még nem realisztikusak annyira, hogy ne lehessen kiszűrni őket, de már most képesek sokakat elbizonytalanítani és már most sokkal jobbak, mint egy éve voltak. A hangklónozás pedig már ma ott tart, hogy elindultak a sikeres AI-alapú telefonos csalások, ugyanis bizonyos szoftverek már 3 másodperces hanganyag alapján képesek egy adott hangot reprodukálni – és például pénzt kicsalni az áldozat családjától.
És hogy mi történhet, ha nem csupán piti csalók, hanem komplett államok kezdenek a generatív AI és a deepfakek segítségével dezinformációs kampányokba? „Ezeknek a lélektani műveleteknek, amelyek több mint tíz éve nagyon komolyan globálisan és kampányszerűen zajlanak, ezeknek a kampányoknak az a célja, hogy aláássák a demokratikus intézményekbe és egyúttal a tudományba vetett bizalmat. Ez a 10 év elég volt hozzá” – mondta Bányász, aki szerint érdekes jelenség, hogy amikor nem hiszünk semmiben, hirtelen elkezdünk mindenben hinni. „Számomra nagyon furcsa volt azt tapasztalni, hogy a különböző összeesküvés-elméletek, legyen szó a laposföldről, a chemtrailről vagy »A madarak nem léteznek« Facebook-oldalról, lényegében egy új paradigmában egyesülnek, és nem egymás ellen hatnak, hanem kiegészítik egymást” – mondta. Ez alatt azt a fajta nihilizmust értette, amikor az ember elkezd minden online tartalomban kételkedni, és úgy véli, a körülöttünk lévő valóság már nem megismerhető.
Ezt abszolút kihasználják a zaj felerősítésére és a bizonytalanság növelésére játszó dezinformációs kampányok, amelyekben a generatív AI és a deepfake csak további eszközt jelent a rosszindulatú aktor kezében. És hogy mi van a másik oldalon fegyverként? Bányász hosszú távon a szabályozás, valamint az algoritmusok ellen harcoló algoritmusok mellett az oktatást és a kritikai gondolkodás fejlesztését említette, rövid távon pedig a hálózatos működést mutató aktorok gyors felkutatását és szankcionálását. Ezek nélkül esélyünk sincs.
Kapcsolódó cikkek a Qubiten: