A nagy képrobotcsata: [imagine] Imagine!
1839-ben egy holland lap arra figyelmeztette a nemzet portréfestőit, hogy meg vannak számlálva a napjaik: egyre népszerűbb a fényképészet, úgyhogy innentől már a kutya sem fog drága és időigényes festményeket rendelni. A jóslat nem jött be, és Hans Rooseboom fotótörténész szerint az elkövetkező években egyetlen portréfestő hibáztatta a fotográfiát amiatt, hogy a csőd szélére jutott – igaz, még ő is feleségét és családját nevezte meg a pénzügyi nehézségek első számú okának.
Közel kétszáz évvel később, 2022-ben a Midjourney nevű szoftver alkotása nyerte meg a coloradói állami vásár képzőművészeti versenyét. Ez már nemcsak az újságírókat, hanem a művészvilágot is aggasztani kezdte: az ArtStation digitális művészei kikeltek a mesterséges intelligenciával (AI) generált képek ellen, amelyekről sokan úgy érzik, hogy már az is megalázó, ha a generatív művészetet valódi emberi alkotásokkal hasonlítják össze.
A fejlesztőket ez kicsit sem zavarta: az AI képgenerátorokra egyre nagyobb az igény, amit az is jól mutat, hogy most már a kép- és videószerkesztő szoftvereiről ismert Adobe is belépett a piacra.
Prompt és paraméter
Annak ellenére, hogy sokan a kreativitás haláláról beszélnek, egyelőre nem érdemes aggódni: a tervezés, ahogyan eddig is, papíron, ceruzával kezdődik, a mesterséges intelligencia itt labdába sem rúghat. Az AI-nak ugyanis meg kell mondani, hogy mit csináljon, és az sem mindegy, hogy hogyan: a legtöbb képgenerátort úgy irányítjuk, hogy az [imagine] parancs után részletesen kifejtjük neki, mit képzeljen el így vagy úgy, ilyen vagy olyan stílusban – ezek az úgynevezett promptok és paraméterek.
De mit tudnak elképzelni ezek az ördögi masinák? Ha már [imagine], hát legyen a tesztalany az Imagine, John Lennon világbékehimnusza! Kipróbáltuk, hogy az egyes programok hogyan értelmezik újra az 1971-es dalt, amit valószínűleg még az is ismer, aki életében nem hallott John Lennonról, a Beatlesről vagy úgy általában a zenéről.
[imagine]
Nézzük a szöveg első versszakát:
„Imagine there's no heaven
It's easy if you try
No hell below us
Above us only sky
Imagine all the people
living for today”
Ebben sajnos túlzottan hangsúlyos szerep hárul az égboltra („only sky”), ezért minden képgenerátor ragaszkodik a bárányfelhős megoldásokhoz:
Valljuk be, hogy a Midjourney és John Lennon itt együttes erővel sem váltotta meg a világot. Szerencsére a szöveg folytatódik:
„Imagine there's no countries
It isn't hard to do
Nothing to kill or die for
And no religion too
Imagine all the people
living life in peace”
Ez sajnos tartalmazza a „kill” és a „die” szavakat, ezek pedig a képgenerátorokban tiltottak. Nem is nagyon érdemes próbálkozni velük, ennél kevesebbért is tiltottak már ki valakit: egy újságíró szerint például azért nem használhatja többet a Midjourney-t, mert arról kért tőle képet, ahogy Donald Trumpot letartóztatják. A program be is szüntette az ingyenes próbaidőszakot, igaz, nem az ehhez hasonló képek miatt, hanem azért, mert sokan eldobható mailcímmel regisztráltak, hogy több ingyenes képhez jussanak, ez pedig nagyon leterhelte a szervereket. De nézzük a refrént, hátha azzal többre megyünk:
„You may say I'm a dreamer
But I'm not the only one
I hope some day you'll join us
And the world will be as one”
A refrén sajnos nem imagine-nel kezdődik, nem felel meg a versenyszabályzatunknak.
„Imagine no possessions
I wonder if you can
No need for greed or hunger
A brotherhood of man
Imagine all the people
sharing all the world”
Ez az! Az utolsó sorokat még az is ismeri, aki nem ismeri, és soha életében nem venne fel kerek lencsés, színes napszemüveget. A mesterséges intelligenciák Imagine-újraértelmezéséhez nem is kérhetnénk jobb versszakot, ezért ezt etettük meg a különböző programokkal, soronként vesszővel elválasztva. Az appok egyébként minden alkalommal mást és mást rajzolnak, így elképzelhető, hogy egy újabb teszt után teljesen különböző megoldásokkal állnának elő. De ez most mellékes.
Induljon az Nagy AI Deathmatch!
Első versenyzőnk a Craiyon, az egykor DALL-E mini néven indult, ingyenesen is használható weboldal és app. Legtöbbünk ezzel találkozhatott elsőre tavaly, a képgenerátorok berobbanásának idején. A program kilenc képet gyárt le, ebből választhatjuk ki a legjobbakat.
Ezzel egyből meg is van a saját lemezborítónk, bár ember legyen a talpán, akinek a hippihimnusz jut róla az eszébe, nem pedig valamilyen feltörekvő posztmetál csapat bemutatkozó kislemeze.
Shutterstock
Nem az Adobe az egyetlen nagyágyú a képgenerátorok piacán; a stockfotók királya, a Shutterstock is ajánl text-to-image funkciót. Ingyen használható, ám letöltésnél már fizetni kell a képért, ugyanúgy, mint a fotóiknál. Az Art stílust választva ezt a festményt generálta:
A jelek szerint a Shutterstock világbéke-víziójában egy csirkelábú, gigantikus orrú fej éppen hátba szúr egy sárga pólót viselő, irdatlan kezű embert, aki ettől eldobja a kezében szorongatott gumicukrot. A háttérben szellemek jajveszékelnek. Sajátos vízió ez a világbékéről, és John Lennon, aki egyébként az Imagine lemezborítóját is rajzolta, forogna tőle a sírjában, de hát semmi sem lehet tökéletes.
DeepAI
Következzen a DeepAI, amit szintén lehet ingyenesen is használni, és ahol már képarányt és stílust is választhatunk – igaz, sokat csak a fizetős verzióban. A szabadon választhatók közül a legizgalmasabb lehetőségnek a „Kortárs építészet” tűnik – ha már volt ilyen opció, megérte kipróbálni:
A képen New York látható, ahol 1980. december 8-án Mark Chapman lelőtte John Lennont. Ehhez mondjuk annak is köze lehetett, hogy az Imagine klipjét részben New Yorkban forgatták. A Dakota-ház, ahol a gyilkosság történt, nem látszik a felhőkarcolók árnyékában.
NightCafé
A naponta 5-5 ingyen kredittel használható NightCafé több különböző AI-motort ajánl: a Stable Diffusiont, a DALL-E 2-t, illetve még jobban kontrollálhatókat, amik cserébe több kreditet is fogyasztanak. Mi a új Stable XL modellt választottuk, a stílusok közül pedig a színes festményt.
A képen ezúttal is New York látható, de most egy kicsit romantikusabb színezetben. Ilyesmiket lehet kapni az utcai árusoknál a világ minden turistaközpontjában: látkép, bármiről. Ehhez nem kellett túl sok imagine, azt meg kell adni.
Dreamstudio
A Stable Diffusiont kifejlesztő Stability.ai oldalán, a DreamStudión is elérhető az SDXL, és itt választható origami is.
Ha már origami, akkor Yoko Ono, de ebbe ne menjünk túl mélyen bele: Lennon lejátszotta, megírta és még akár meg is rajzolta az Imagine-t, de az valószínű, hogy meghajtogatni már nem akarta. Sebaj, a mesterséges intelligencia megcsinálta helyette.
De mit lehet még elképzelni az Imagine-ről?
Freeway
Propagandaposztert. Első blikkre talán hülye ötletnek tűnhet, de a FreewayML ezt is felajánlja a fotórealisztikustól a szénrajzig terjedő választékban. Mi más passzolna leginkább az FBI által is megfigyelt, háborúellenes aktivizmusáról ismert Lennonhoz, mint a propaganda? Lássuk:
Az FBI propagandistái sem végeztek volna jobb munkát: a gonosz hippi a vörös ördöggel cimborál, de olyannyira, hogy már szervesen ízesül is vele. Lapozzunk.
DeepDream
De mitől is félt az FBI? A pár kép erejéig szintén ingyenes DeepDream meg is mutatja nekünk, hogy mitől mentek a falnak a szövetségiek a hetvenes években.
Úgy tűnik, hogy a legnagyobb aggodalmat a neandervölgyi hippik okozták, néhány eltévedt árja éhezővel megspékelve, illetve tarthattak az arc nélküli emberek csendes forradalmától is.
PromptHunt
A korlátozásokkal ingyenesen használható PromptHunt a ChatGPT-vel kiegészítve a megadott szövegünket elemezve ajánl fel automatikus stílusokat. Az alábbi képhez a surrounded by a serene landscape, peaceful, utopian, Highly detailed, art by banksy, Trending on Artstation, Warm lighting és blurred background filtereket ajánlotta a nyelvi modell.
A híresen rejtőzködő életmódot folytató Banksy itt úgy elbújt, hogy a nyomát sem lehet felfedezni.
DALL-E 2
Ha már ChatGPT, a chatbotot kifejlesztő OpenAI képgenerátora a DALL-E 2, ami pár kép erejéig ingyenes.
Törékeny a béke, mint egy üveglufi.
StableCog
A szintén csak pár képig szabadon használható Stablecogon választhatunk, hogy milyen AI-modellel rajzoltassunk, művünkhöz az Openjourney mellett döntöttünk:
Hogy mit keresnek itt ezek a léghajók, az rejtély, ahogyan az is, hogy miért kellett John Lennont leküldeni a Mélysötétbe, de hát legyen.
BlueWillow
A Discordon elérhető, teljesen ingyenes, BlueWillow béta verziója az előzőhöz hasonló témát generált:
Midjourney
A szintén a Discordon működő, és a nagyszámú ingyenes visszaélés (ld. pápa, Trump) miatt már csak előfizetéssel használható Midjourney-vel készítettük pár hónapja a művészettörténeti robothistóriánk képeit is – azt még v4-gyel, de azóta már az ötödik verzióra frissítették a mögötte duruzsoló motort. A Midjourney is a Paradicsom-vonalon maradt, bár érdekes módon az előző két megoldáshoz képest kevesebb Mélysötét jutott bele.
Adobe Firefly
Az egyelőre bétatesztelés alatt álló Adobe Firefly kifejezetten kreatívoknak lett kifejlesztve, és nem is kimondottan csak képgenerálásra használható, hanem inkább a Photoshopban vagy az Illustratorben megszokott feladatok AI-jal felturbózott funkcióival operál. A többi képgenerátor ehhez képest játékszernek tűnik, és elég valószínű, hogy a jövő évi Adobe programokba már be lesznek építve ezek az AI-appok.
A versenyünkben eddig szereplő képgenerátorok mindegyike képtelen olvasható szöveget legyártani – nem így a Firefly, amely ha nem is hibátlanul, de kétségtelenül felismerhetően írta le a negyedik versszak véletlenszerű szavait, a Sweet Aloha fonthoz nagyon hasonló betűtípussal:
Ezzel meg is van a lemez hátsó borítója, ha már az elsőhöz szégyentelenül korán hozzájutottunk. És ha már az AI ezt a fontot ajánlotta, az első borítót is ezzel feliratoztuk. Íme, az [imagine] the Imagine bakeliten:
A klip
Akkoriban már divat volt klipet is készíteni a zenéhez. Itt az eredeti, de a mesterséges intelligencia jobbat talált ki, mint a pókerarcú Yoko Onót, aki megrögzötten ablakokat nyitogat.
A csak előfizetéssel használható Kaiber kér tőlünk egy kezdőképet, pár stílusjegyet, egy alapvető kameramozgást, és már generálja is a klipet. De hogy mégse csak az eredeti számhoz készítsünk videót, megfordítottuk a zenét, hogy megjelenjen a tükörben az FBI szőke parókás ördöge. És mivel az AI az eredeti szövegre ész és kotta nélkül csak földgömböket és embereket rajzolt, szövegvisszafordítón áteresztve adtuk meg neki Nonnel Nhoj Enigami-ját, hátha Kozsó nyomdokain haladva az „Uoy ,dlrow eht lla gnirahs elpoep eht lla enigami" eléggé összezavarja.
Az elkészített képeink közül a legizgalmasabbnak a kubista (?) festmény és az origami szobor tűnt, ezért ezeket adtuk meg a Kaibernek mint kiinduló képek. A kubista festményhez természetesen a kubizmust adtuk meg stílusnak, és a zoom outot fő kameramozgásnak. Mivel az eredeti kép négyzetes volt, a videó is négyzetes lett.
A videó három perce alatt az AI eljut a kubizmustól a geometrikus absztraktig, sőt a legeslegvégén az utolsó kép közepéből egy futurisztikus sárga légijárgányt fejleszt. Így lett a Beatles Sárga tengeralattjárójából John Lennon Yellow Air Taxija.
A klip 2
Az origami szobor kezdőképe mellé a zoom in kameramozgást és a papír origami stílust választottuk:
A papírfarkasok itt meglepő módon életre keltek, és hevesen dörzsölgették egymáshoz az orrukat. Visszafele játszottuk le, mesterséges intelligencián futtattuk, sőt még az origamit is beletettük a dologba, erre tessék, győzött a szabad szerelem.
Már épp megörültünk volna ennek az eredménynek, amikor az ingyenes mémgenerátor, a Makememe élből az alábbi mémet gyártotta:
A feladat sikeresen sikertelen volt. Innen szép nyerni.
1-click Stable Diffusion
Ha nincs kedved online képgenerátorra előfizetni vagy ingyenkreditekre várni, ám kellően erős géped van, jobb videókártyával, a Stable Diffusion UI-t ajánljuk neked. Egyszerűen telepíthető PC-re, Macre, de akár Linuxra is. Annyi helyet foglal, mint egy játék (~20-30 GB), de aztán egy böngészőablakból irányíthatod a képgenerátort, egyszerűen és sok-sok beállítási lehetőséggel. Peace.
Kapcsolódó cikkek a Qubiten: