Így vettem rá a mesterséges intelligenciát, hogy képet hamisítson

szeptember 6.
TECH
  • Link másolása
  • Facebook
  • X (Twitter)
  • Tumblr
  • LinkedIn

AI vagy nem AI? című, augusztus végén megjelent kvízünkhöz olyan fotókat válogattam, amik eredetileg tudományos képalkotó berendezésekkel vagy számítógéppel készültek, és ezeket próbáltam meghamisítani Midjourney-vel.

Nem az eredetiekhez hasonló képeket akartam létrehozni, hanem a tanulmányokban, tudományos magazinokban megjelent fotókat etikátlan módon hamisítani. Arra voltam kíváncsi, hogy a generatív képalkotás – alig három évvel a berobbanása után – képes-e tökéletesen leutánozni ezeket. Én is meglepődtem rajta, hogy a Midjourney tavasszal megjelent hetedik verziója mekkora ugrást jelent az AI- képalkotásban; egy sor új paranccsal kiegészülve szinte hibátlanul reprodukál bármit.

A folyamat

Hamisítási kísérletem a /describe paranccsal kezdődött, amikor egy-egy kép eredetijét megadtam a Midjourney-nek, ami például az 'Oumuamua üstökösről készült kompozit képről az alábbi leírásokat adta:

Ezeket végigpróbálgatva kiválasztottam az eredetihez legközelebbi eredményt hozó megoldást, majd ezt a promptot csiszolgatva egészen hasonló képig jutottam. Megadtam az eredeti kép témáját (’Oumuamua), készítésének idejét (2017), helyét (két teleszkóp kompozitja), közzétevőjét (ESA), ill. további, ismert részleteket. Ekkor már egészen közel járt az eredeti képhez, de még mindig nem tűnt egészen „eredetinek”. Majd a Midjourney stílus- és önreferencia (Style és Omni Reference) paramétereit felhasználva megadtam magát az eredeti képet, és kész is volt a szinte tökéletes hamisítvány.

Az eredeti és az AI által generált képet egymásra téve jól látszik a hasonlóság, azonban az is, hogy hol hibázik a generatív képalkotás. Nézzük őket (a totó sorrendjében) egyesével!

A válaszok

A következő összehasonlítások bal oldalán az eredeti kép, jobb oldalán a Midjourney másolata látható.

Az első képen egy medveállatka úszkál elektronmikroszkóp alatt.

Ezen azonnal látszik, hogy bár a Midjourney hibátlanul reprodukálja a témát, a kompozíciót, a generatív AI mindig sokkal élesebb végeredményt ad. A prompttal fotós kifejezésekkel életlenebb, elmosottabb képet kérve sem sikerült az eredetivel egyező, fotószerű eredményre jutni vele. (A kvízben a fotó volt a helyes válasz.)

A medveállatka volt a hamisítási kísérletem legelső képe, és azonnal beleütköztem az internetet elárasztó slop AI problémába. Az elmúlt pár évben a blogok, a közösségi média és a keresési eredmények tele lettek tömegesen gyártott generatív AI-szöveggel, képpel, videóval. Ezek általában alacsony minőségűek, és ugyan nem feltétlenül károsak, de vizuálisan mindenképpen szemétnek számítanak (lásd a ChatGPT egyenstílusát.) Ráadásul az ingyenes grafikai tartalmak legismertebb forrásai (Vecteezy, Freepik, Pixabay, stb.) is megteltek gyenge minőségű AI-képekkel. Például kétszemű medveállatkákkal. Eleinte hiába próbáltam akár latin nevén, Tardigrada-ként generálni, a Midjourney minduntalan szemeket tett rá, hiába promptoltam a –no eyes és hasonló, kizáró parancsokkal; egész egyszerűen több referenciát talál a neten két szemmel, mint valódi medveállatkát mikroszkóp alatt. Ezután kezdtem el gondolkodni a fent leírt képhamisítási metóduson.

A második képen a tőlünk 5610 fényévre fekvő Sas-köd egy részlete látható, ami a Teremtés oszlopai néven vált ismertté.

Bár az eredeti kép inkább négyzetes alakú, a Midjourney bátran kiegészítette a kvíz által elvárt 9:4 arányú téglalapra. És nem sokat hibázott, bár itt is sokkal élesebb az eredetinél, de mivel a képet alig tíz éve újra elkészítették a Hubble fejlettebb távcsöveivel, a bal oldali, harminc évvel ezelőtti eredetihez képest akár lehetne is az újabb verzió a jobb oldali Midjourney-kép. (A kvízben az AI volt a helyes válasz.)

A harmadik fotóval az állatok színlátását vizualizáló kamerarendszert mutatták be 2024 elején egy tanulmányban.

Ezen a képen látszik leginkább, hogy a Midjourney, bár a színvilágot és a témát egészen jól másolja, képtelen elboldogulni egy ennyire bonyolult mintázattal. A fák és a madár is csak körülbelül stimmelnek, de sem a faágak iránya, sem a lombozat nem sikerült neki. (A kvízben a fotó volt a helyes válasz.)

Ezért is lehet könnyedén felismerni bonyolultabb mintázatú képek AI- reprodukcióját; több embert ábrázoló fotók esetén is csak az extra lábakat és egyéb képtelenségeket kell keresni. Bár ebben is nagyot fejlődött a Midjourney, egészen szép kezeket lehet vele generálni pl. ékszerreklámhoz.

A kukoricaszemekre hasonlító plazmaminta a Nap felszínéről készült egy hawaii távcsővel.

Szokás szerint sokkal élesebb a generatív AI tökéletes másolata, de már-már eldönthetetlen, hogy mennyire részletes képet képes is egy modern űrtávcső készíteni. (A kvízben az AI volt a helyes válasz.)

Az ötödik kérdésben szereplő kép egy számítógépes render a perui sivatagban lévő Paracas Régészeti Múzeumról.

Mivel a modern építészetben már nemcsak fizikailag modellezik le a készülő épületeket, hanem számítógéppel terveznek, majd komputer által generált képeket tesznek közzé a tervekről. És mivel a Qubiten rendszeresen írunk régészeti felfedezésekről, ezért is választottam ezt a képet. Amit, ahogy az épített környezetet is – legyen az külső vagy belső – a generatív AI tökéletesen másol. A kép jobb oldalán ugyanott a felhő és a cserje, az épületről pedig képtelenség eldönteni, hogy vajon milyen rendermotorral vagy esetleg AI-jal készült-e. (A kvízben az AI volt a helyes válasz.)

A Midjourney nemcsak a klasszikus fotós szakkifejezésekkel boldogul el, de a számítógépes képalkotás szakszaivat is nyugodtan használhatjuk a promptjainkban: érteni fogja, hogy Pixar Renderman, V-Ray, esetleg Octane Render Engine-nel szeretnénk képet generálni.

A legközelebbi bolygószomszédunk felszínéről készült kép volt a hatodik kérdés.

A szovjet Venyera-12 szonda 1982-es panorámafotója a Vénusz 460 °C-os felszínéről nem volt kihívás az AI-nak; a kénsavasan sárga felhőzet és a kietlen táj reprodukálása hibátlanul sikerült. A csipkézett horizont, a távoli hegy – ami biztos, hogy vulkán, mert abból ott van bőven – és a kráterek szaggatta felszín szinte ugyanaz, mint az eredetin, csak ismét sokkal élesebben. (A kvízben a fotó volt a helyes válasz.)

A hetedik kép egy tengeri csillagot ábrázol.

A 4000 méteres mélységben alig egy hónapja készült argentin fotó bejárta a netet: mintha Csillag Patrik feküdne hason, a fenekét mutatva a mélytengeri kamerának. A Midjourney ugyan másolta a kompozíciót, a környezetet, azonban ez esetben is túl éles és túlságosan részletgazdag a generált kép. (A kvízben a fotó volt a helyes válasz.)

A következő kérdés ismét építészettel kapcsolatos volt.

A múlt századi elejei amerikai modern építészet jelentős alkotója volt Frank Lloyd Wright, akinek egyik legismertebb épülete a Vízesés-ház. Ennek számítógéppel beszkennelt tervrajza nem okozott gondot a Midjourney-nek, mivel ez is építészetet ábrázol, és hiába rajz, tökéletesen másolta, miután megadtam neki minden ismert részletet a házról és annak tervéről. Itt ismét csak a feltűnően éles kontúrok és színek figyelmeztetnek minket a generatív képalkotásra. (A kvízben a fotó volt a helyes válasz.)

A kilencedik kép volt az, ahol aztán tényleg csak tippelni lehetett.

Idén tavasszal söpört végig a neten a hír, hogy új színt fedeztek fel: az olót. Az emberi szem fotoreceptorait stimulálva a kísérletben részt vevők egy soha nem látott telítettségű kékes-zöldként (élénk türkizként) írták le a színt, amit a tanulmány szerzői neveztek el olónak. De aztán a mindenhol – legyen az nyomtatott vagy netes újság – megjelent szín nem lehetett „új”, hiszen nincs az a kijelző- vagy nyomdatechnika, amelyik képes eddig nem létező színt megjeleníteni, ezért a „fotó” is csak közelítőleges ez esetben. Minden színnek van HEX-, RGB-, HSB-, CMYK-kódja, esetleg pontos Pantone-kódja is, azonban a Midjourney nem volt képes hozni egyiket sem. A Hex-kódra méhsejteket, az RGB-, HSB- és CMYK-kódra pedig színskálákat kezdett generálni. Az olóhoz közelítő színekre azonban körülbelül hozta az elvárt Crayola tengerkéket. (A kvízben az AI volt a helyes válasz.)

A tizedik kép is trükkös volt.

A Hűha-jelet 1977. augusztus 15-én észlelte Jerry R. Ehman, és a rendkívül intenzív keskenysávú rádiójel nyomtatásának bal alsó sarkában piros Wow! felirattal jelölte azt a kódsort, amit sokáig a a kozmikus háttérzajból kiemelkedő jelként a földön kívüli civilizációktól reméltek. A legújabb kutatások szerint azonban a jel asztrofizikai eredetű, mert a kis, hideg hidrogénfelhők képesek ilyen szűk sávú jeleket generálni. A Midjourney megtévesztő módon a bal alsó Wow! feliratot is próbálta másolni, és jobb felülre dátumozást is biggyesztett, mint az eredetin; de a hetvenes évek technikáját tükröző eredeti kódsort modern mátrixra cserélte. Ezúttal is túl komplexnek bizonyult a mintázat az AI-nak. (A kvízben az AI volt a helyes válasz.)

A tizenegyedik kérdés Molnár Vera Négyszög-struktúrák c. képéről szólt.

A pár éve elhunyt festő- és médiaművész a generatív képkészítés egyik úttörője volt; Fortran és BASIC programnyelveken saját algoritmusait alkalmazta generatív, geometriai, ismétlődés- és sorozatalapú festményein és grafikáin. A generatív AI hibátlanul másolta a színeket, a geometrikus formákat; azonban jobban megnézve, amíg Molnár Vera játékos négyszögei mindig zártak, addig a Midjourney keszekusza, nyitott négyszögeket generált, ez főleg a kép jobb oldalán feltűnő. De ez esetben is avatott szem kell ennek észrevételéhez. (A kvízben az AI volt a helyes válasz.)

A tizenkettedik fotó a cikk elején említett ’Oumuamua-észlelés.

Bár egyszerű geometrikus formákból áll a kép – fekete háttéren fehér pöttyök sora, középen egy kék karikában a első ismert olyan objektum, amely a csillagközi térből érkezett –, a Midjourney ezt is túlgondolja: túl sok fehér pöttyöt rak rá, a fekete háttér is zavarossá válik, és a kék karika is vastagabb, mint az eredeti kompoziton. Az AI generálta kép inkább hasonlít egy éjszakai nagyváros fényeire, ahol kékkel kiemelnek egy ablakot a toronyházak között. (A kvízben az AI volt a helyes válasz.)

A kutyák látását utánzó kép volt az AI-totó utolsó kérdése.

A Windows XP híres hátterét feltöltöttem egy, a kutyák látását imitáló oldalra, és azt ugyanúgy mosta el, ahogyan egy másik oldalon – ugyanígy csúszkákon – mutatják meg, hogyan láthatják a kutyák a brit tájat. A Midjourney ez esetben is túlgondolta a dolgot, mert bár a domborzat és a felhőzet is nagyon hasonlóan sikerült, sokkal élesebb lett az eredmény: mintha egy szemüveges kutya (pl. Mr. Peabody) nézné a Napa-völgy lankáit. (A kvízben az AI volt a helyes válasz.)

A plusz egy kérdés is cseles volt.

Illusztráció: Qubit / Midjourney

A totó címlapképéről kellett eldönteni, hogy Photoshoppal tettem-e a téglafalra az „AI OR NOT” graffitit, vagy ez is az AI műve. Alig egy éve a Midjourney még krikszkrakszokat rakott volna a kért felirat helyére, de a hetedik verzió hibátlanul generál olvasható szöveget, tehát ez esetben is az AI volt a helyes válasz.

Az eredmények

Több mint 18 ezer olvasónk kezdte el kitölteni a totót, de alig felük fejezte be. Ezúton is szeretnék bocsánatot kérni azoktól, akik esetleg felhúzták magukat rajta. Az volt a célom, hogy olyan tesztet készítsek, amin én is megbuknék. Volt pár olyan kérdés, amit csak tippelni lehetett; képtelenség lett volna magabiztosan kiválasztani a két türkiz vagy a két elmosódott táj közül a helyes választ.

Grafika: Qubit

A tesztet kitöltők 70 százaléka a kérdések felére sem tudta a választ, és a válaszadók alig 1,5 százaléka válaszolt, vagy inkább tippelt helyesen. Hogy ez mennyire nem meglepő, íme néhány sajtócím a közelmúltból:

Megkértem két kollégámat, hogy írjanak pár sort az észrevételeikről a teszt kitöltése után, de már a csúszkás összhasonlítások ismeretében.

Nagy Gergely, újságíró:

Az AI által generált képek általában vagy túl suták, vagy túl tökéletesek - ebben a kvízben az utóbbira láttunk példákat leginkább. Tudományos képekről lévén szó, az AI itt megszólalásig (képzavar!) hű képeket képes generálni. A nagyon részletgazdag, nagyon árnyalatos látvánnyal nehezebben boldogul, de ott is hihető a végeredmény, képes imitálni a létező képeket, rekonstruálni, duplikálni a látványt. Sok esetben viszont valahogy túl tökéletes: minden túlságosan a helyén van, minden részlet egyformán fontos. Ahol pedig esetleg valamiféle helye, tere nyílna a szubjektumnak, azt vagy kitölti, vagy (még ha paradoxonnak hangzik is) ürességgel tölti fel. Feladatot teljesít. Nehéz ezt tetten érni, említhetnénk a sterilitást, az egyneműséget, a hiba hiányát, de közben persze az AI a hibát is képes reprodukálni. De éppen mert „produkció”, ezért valahogy tartalmatlan is. Persze lehet, hogy ez csak önigazoló fanyalgás a részemről: évről-évre, hétről-hétre tökéletesebbek az AI-eszközök, és egyre kevésbé izgalmasak, legalábbis számomra. Elmozdulva a tudományos képektől: nem hiszek például az AI által készített könyvborítókban, sőt, irtózom tőlük, van bennük valami olcsóság, mert pont az hiányzik, amit egy jó tervezőgrafikus agya adna hozzá. Ugyanígy az AI által írt, vagy AI segítségével írt dolgozatokban, különféle szövegekben sem. Azt gondolom, az AI nem fogja helyettesíteni a művészt, de az alkalmazott tervezőművészt és a fotográfust sem. Nem fogja helyettesíteni a szemet, ami lát, és az agyat, ami gondolkodik, értelmez. Aztán lehet, hogy másképp lesz.

Galambos Attila, állandó szerzőnk, tanulásszervező:

Platón szerint a művészet utánzás, mimészisz: a másolat másolata. A természeti létezők, a körülöttünk lévő világ maguk is az örökkévaló ideák utánzatai, a művészet pedig ezeket másolja tovább. A valósághoz az érzékszerveinken keresztül férünk hozzá, míg az ideák világához már elvont, filozófiai gondolkodás vezet (ahogy azt a Barlang-hasonlatban kifejti). A mesterséges intelligencia azonban olyan mesterien másolja a másolat másolatát, hogy a platóni nyelvi eszköztár sem elég a leírásához. Amit a gép létrehoz, skizofrén módon a másolat másolatának a másolata. Sajnos a mesterséges intelligencia által létrehozott hamis (fake) világ már a legélesebb szemű felhasználókat is próbára teheti.

És mit tehetünk?

Amikor már nem csak a kifejezetten dezinformációs céllal készített AI-tartalmak akarnak megtéveszteni minket, de a falusi hirdetőtáblákon is ChatGPT-vel készített rajzokkal találkozunk, meg kell tanulnunk az ezek felismeréséhez fejlesztett alkalmazások használatát. Ahogy mára már mindannyiunk számára természetessé vált a guglizás, úgy kell beépíteni a napi rutinunkba az AI-ellenőrző oldalak használatát is. Néhány ezek közül:

Mert ahogy a Photoshop megjelenése után megtanultuk felismerni a manipulált képek jellegzetességeit, ugyanúgy oda kel figyelnünk a hihetetlen fejlődésen átesett képgenerátorokra. Mivel a kvízünkből is kiderült: nem vagyunk felkészülve a hamisítványokra, mert egy alig húszdolláros előfizetéssel és pár jól megválasztott prompttal szinte hibátlanul lehet reprodukálni akár tudományos fotókat is. Habár a legtöbben jóindulatúan, kreatív feladatokra használják a generatív képalkotást – mint például mi a robotos művészettörténeti poénkodásunkban –, miért is bíznánk meg a dezinformációs propagandában? És akkor a videókról még nem is esett szó, holott a KlingAI vagy a Google Genie 3 már komplett reklámfilmeket és virtuális világokat képesek létrehozni – abszolút élethűen.

A Qubit minden egyes AI-generált képet a QxAI vízjellel lát el.

* * *

Szeptemberben a mesterséges intelligencia (AI) főbb kutatási irányaival, korlátaival és társadalmi kockázataival foglalkozunk az exkluzív, csak Qubit+ tagoknak meghirdetett, következő tudományos estünkön, a 12. Qubit Live-on

Velünk lesz Huszár Ferenc mérnökinformatikus, az egyik legidézettebb magyar AI-kutató, Ligeti-Nagy Noémi alkalmazott nyelvész, a Nyelvtudományi Kutatóközpont Nyelvtechnológiai Kutatócsoportjának vezetője, Jakovác Antal fizikus, a Wigner Adat- és Számításintenzív Tudományok Kutatócsoport vezetője, Gáspári Zoltán bioinformatikus, a PPKE egyetemi tanára és Kizlinger Lilla, Ezüst Medve díjas színművész. Ha nem szeretnél lemaradni, iratkozz fel mielőbb a Qubit+-ra!

Az estet az Amundi Alapkezelő Zrt. támogatja. Amundi-befektetésekkel Te is részese lehetsz az AI-forradalomnak! (x)