AI-percek: Képgenerálás egységes stílusban

Gáspár Merse Előd

2024. szeptember 7.

tudomány

Link másolása
Facebook
X (Twitter)
Tumblr
LinkedIn

Az AI-képgenerálással kapcsolatban két fő gyakorlati probléma szokott előkerülni. Az egyik, hogy miként lehet tudatosabban irányítani a tartalmat, hogy azt kapd, amit szeretnél. A másik, hogy ha végre sikerült valami hasonlót kapni ahhoz, amit elképzeltél, vagy csak megtetszik valami, amit a próbálkozásaid során kiköpött a gép, akkor hogyan lehetne ezt a stílust megismételni más tartalommal. Mi most ez utóbbival foglalkozunk.

Ez a téma azért is nagyon fontos, mert ha valódi munkához használnád a képgenerálást, általában nem elég, hogy nagy nehezen sikerül tetszetős vagy kreatív képet generálni, hanem azt meg kell tudni ismételni különféle variációkban, hogy adott esetben az ügyfél választani tudjon, vagy ugyanolyan stílusban még sok más anyagot is gyártanod kell a projekthez. Különösen aktuális most ez a téma, hiszen fut még a társasjáték-fejlesztő versenyünk, aminek a témája idén éppen az AI. Ha például valaki egy társasjáték illusztrálásához fog, akkor ott egymáshoz passzoló illusztrációkat kell készítenie a kellékekhez (például kártyákhoz), a játéktáblára, a szabálykönybe és a dobozra is.

Képgenerálással mára szinte mindenki találkozott, és sok alkalmazásba már be is van építve egy saját képgenerátor. Ezeknek a generátoroknak a használata abból áll, hogy emberi nyelven beírjuk, hogy mit szeretnénk látni a képen, és aztán izgatottan várjuk az eredményt. Már azt is megtanultuk, hogy ezt a szöveges inputot promptnak szokás nevezni, és hogy akik jól értik „a gép gondolkodását” (ők az úgynevezett promptmérnökök, angolul prompt engineers), kicsit jobb eredményre számíthatnak. Ha viszont egységes stílusban kellene képeket generálnunk, akkor a szimpla szöveges promptoláson kívül előtérbe kerülhet egy csomó más módszer és eszköz is, amik alkalmazása már haladóbb tudásnak számít. Ezekről lesz most szó, és reméljünk hogy olvasóink hasznosítani tudják majd az itt olvasottakat a mindennapjaikban, akár a munkájuk során is.

Az egységes stílusban alkotás igényét időközben természetesen az AI-cégek is felismerték, és most már születnek olyan megoldások, amiket kimondottan erre fejlesztettek, de kezdetben erre inkább trükkös módszerek voltak. Én most ezeket a módszereket szeretném összefoglalni, mert mindegyik más és más szituációban lehet jó, és akár kombinálni is lehet őket, ezért az új lehetőségek birtokában is fontos ismerni ezeket a trükköket annak, aki nap mint nap használja a képgenerálást.

Még mielőtt a lényegbe belevágnék, fontos elmondani, hogy itt nagyrészt általános módszerekről lesz szó, tehát nem feltétlenül lényeges, hogy ki milyen képgenerátorral dolgozik. Rengeteg képgenerátor-szolgáltatás létezik, és ezek között számos ingyenesen is használható, többnyire különböző mértékben korlátozott funkciókkal, ezért a módszerek többségét bárki kipróbálhatja ingyenesen. Mivel ezeket generátorokat és szolgáltatásokat folyamatosan fejlesztik, nem is lenne sok értelme egy adott platform bemutatásának, mert a felületek kinézete és az elérhető funkcióik gyorsan változnak. Azt azonban elárulom, hogy a cikkben szereplő ábrákat az utolsó kivételével mind a Leonrardo.AI szolgáltatással készítettem, aminek az ingyenes verziója napi 150 token felhasználását teszi lehetővé korlátozott funkciókkal.

I. módszer: Kollekció formátum

Nagyon egyszerű trükk, ha több hasonló stílusban készült ábrát szeretnénk, hogy beleírjuk a szöveges promptba a grid-like structure vagy a collection kifejezéseket, sőt meg is adhatjuk konkrétan, hogy mondjuk 2x2-es vagy 3x3-as gridet szeretnénk viszontlátni a képen. Itt jegyzem meg, hogy változó az, hogy a képgenerátorok értenek-e magyarul, de ha netán értenek is, az angol nyelv használata előnyösebb, mert azt jobban értik.

A módszer lényege tehát az, hogy engedünk abból az igényünkből, hogy több különböző nagy felbontású képet generáljunk azonos stílusban; ehelyett egyetlen képen belül ismételtetjük meg a témát, és így a stílus egységes lesz. Ez a módszer tehát tipikusan olyan esetben hasznos, amikor a háttér maradhat akár egységes, a téma egyszerűbb, és kisebb felbontás is elegendő. Bár meg kell jegyezni, hogy a legtöbb generátor esetében van olyan funkció, amivel a felbontást szintén AI módszerekkel utólag fel lehet javítani.

Made by Leonardo.AI.

Illusztráció: Gáspár Merse Előd

Ezzel a trükkel generáltattam például a fenti fiktív érméket, ahol azt mondtam a generátornak, hogy érméket szeretnék látni, rajtuk királyokkal, oldalnézetben. Azzal, hogy ezt grid struktúrában kértem, automatikusan megoldódott például, hogy hasonló fémből készült érméket látunk, viszonylag hasonló megvilágítással. Egyébként itt 2x2-es grideket kértem, aztán egymás mellé tettem a két generált képet, ezért van kis különbség a bal oldali négy érme és jobb oldali négy érme között.

II. módszer: Részletes stílusleíró prompt

Természetesen a legegyszerűbb módszer az lenne azonos stílusú képek generálására, ha a promptban pontosan le tudnánk írni egy stílust a saját szavainkkal. Érezhető azonban, hogy ez általában véve elég nehéz feladat. Olyan ez, mintha valakinek egy általa nem ismert festő stílusát szeretnénk szavakkal leírni, az érzelmek és hangulatok leírásának nehézségéről már nem is beszélve. Természetesen ha egy ismert festő, mondjuk Picasso stílusában szeretnénk valamit, ezt a kérésünket az AI generátor nagyon jól fogja tudni teljesíteni, hiszen az ismert festők képei benne voltak a legtöbb modell tanító adathalmazában. De ha nem ilyen elcsépelt dolgot szeretnénk, hanem valami stílusában is újszerűt, akkor már nehezebb a dolgunk.

Ennél a módszernél tehát az lenne a lényeg, hogy nagyon specifikus és részletes stílust leíró promptot adjunk, vagyis minél több dolgot meghatározzunk nyelvi eszközökkel. Ehhez nagyon fontos a háttértudás. Érdemes ismerni a képzőművészeti irányzatokat, a fotós és filmes kifejezéseket, színpalettákat, fényelési szakkifejezéseket, és még sorolhatnánk. Mivel az AI képgeneráló modellek tanító adatbázisának legnagyobb részét stockfotók teszi ki az internetről, amiket profi fotósok készítenek, az általuk használt címkék ismerete például kiemelten fontos.

A promptmérnökösködés ilyen mélységeiről külön egyetemi kurzust lehetne tartani, én azonban mindenkit csak biztatni tudok, hogy önerőből fejlessze magát: a neten rengeteg helyen találni segítséget a promtokban jól használható kifejezésekről és egyéb trükkökről. Vannak olyan hasznos alkalmazások is, ahol legördülő menüből lehet stílusokat, kamerát, színeket és mindenféle paramétereket kiválasztani úgy, hogy közben még illusztrációk is segítik a választásodat – ilyen például a prompt.noonshot.com oldal, ami ugyan Midjourney-hez készült, de más képgenerátorhoz is használható.

Ppromptokat természetesen mástól is el lehet lesni. A legtöbb szolgáltatás weboldalán van úgynevezett public feed, ahol megnézhetjük a mások által generált legjobb képeket, és kimásolhatjuk a promptokat. De vannak kimondottan erre szakosodott weboldalak is, ahol profi promptokat gyűjtenek össze, amik között lehet böngészni és válogatni. Ezek között vannak fizetős és ingyenesen használható oldalak is, a teljesség igénye nélkül: prompthunt.com, prompthero.com, publicprompts.art, lexica.art, promptbase.com. Itt érdemes megjegyezni, hogy mivel promptokat át lehet venni mástól, sőt valójában a generált képeket sem védi a legtöbb esetben semmi, az AI képgenerálás egyik hátulütője, hogy más is ugyanolyan jogon használhatja a legtöbb ilyen generált képet, ami bizonyos felhasználási területeken nemkívánatossá teszi a használatukat.

Végül még egy olyan trükköt szeretnék megemlíteni példával, amit a fent említett promptgyűjtő oldalakon is előszeretettel használnak. Annak érdekében, hogy ne egy már meglévő művész stílusát, de mégis megbízhatóan generálható újszerű stílust alkosson valaki, gyakran használatos módszer, hogy több művész stílusát összekeverik, azaz több művész nevét is beleírják a promptba. Ez nem jelenti azt, hogy bárki tudatosan tervezni tudná, hogy mi lesz ennek a hatása – itt alapvetően inkább arról van szó, hogy minél több feltételt szabunk, annál jobban csökkentjük a bizonytalanságot a képgenerátor számára, és a képgenerálás így lényegében be tud konvergálni egy olyan stílusba, ami viszonylag konzisztens képeket generál. Természetesen valamilyen lenyomata lesz a promptban használt művészeknek, és ha nem Picasso-stílust akarunk, akkor ne írjunk be Picassót, de hogy milyen mértékű és pontosan miben jelenik meg a stíluslenyomat, az nagyon nehezen tervezhető. Mindenestre ennél a módszernél az az etikus, ha nem kortárs alkotókat használunk, vagy ha mégis, akkor kérjünk tőlük engedélyt, vagy legalább hivatkozzuk meg a nevüket, ahogy könyvekben is szokás.

Az alábbi példában azt mutatom be, hogyan lehet gombnyomásra konzisztens illusztrációkat készíteni. Példaként egy kártyajátékhoz fogunk generálni kínai karaktereket. A prompthunt.com oldalán a Templates fülön belül böngészve kiválasztottam egy nekem tetsző stílusos képet, és a prompthoz hozzáírtam még annyit, hogy kínai karaktert szeretnék. Érdemes megnézni, hogy mit tartalmaz a prompt: négy művészt, köztük Rembrandtot és három modern alkotót. Ezen kívül a megkövetelt kínai karakter és a szintén a promptban szereplő szőrmeruházat szintén segít abban, hogy még egységesebbek legyenek a generált képek.

Prompt: portrait of a Chinese [?], dark mood, expertly rendered fur with a painterly style reminiscent of Rembrandt, art by George Pratt and John Howe and Dan Santos, digital painting.

A promptban a kérdőjel helyére tetszőleges karaktert írhatunk, és csak ezt az egy szót változtatjuk a generálások során. Az alábbi példa fölső sorában például balról jobbra rendre nemest, szerzetest, harcost és koldust kértünk, alul pedig földművest, sebesült katonát, hölgyet és egy fiatal férfit. Természetesen lehet játszani azzal is, hogy jelzőket is biggyesztünk a karakter elé, például: mérges harcos, de kérhetünk akár fegyveres harcost is.

III. módszer: Image prompt

A legtöbb képgenerátor nemcsak szöveget, de képet is be tud fogadni inputként. Ilyen például a Stable Diffusion (SD) modell, aminek az is előnye, hogy teljesen teljesen szabadon közzétett rendszer, sőt még a betanító adatbázisa is nyílt. Ez azt jelenti, hogy valaki szeretné, akkor az SD kezelőfelülettel együtt ingyenesen letölthető saját gépre is, és egy erős grafikus processzorral futtatható.

A cikk innentől csak a Qubit+ előfizetőinek elérhető.
Csatlakozz, és olvass tovább!

Ha már van előfizetésed, lépj be vele. Ha még nincs, válassz csomagjaink közül!

AI-percek: Képgenerálás egységes stílusban

I. módszer: Kollekció formátum

II. módszer: Részletes stílusleíró prompt

III. módszer: Image prompt

A cikk innentől csak a Qubit+ előfizetőinek elérhető. Csatlakozz, és olvass tovább!

A cikk innentől csak a Qubit+ előfizetőinek elérhető.
Csatlakozz, és olvass tovább!