Velencei kanálist álmodott a Budafoki útra a mesterséges intelligencia és egy csapat urbanista
Amióta megjelent a ChatGPT, a Midjourney és a DALL-E 2, láthattuk, mi mindenre képesek és mely területeken rettenetesek a szöveg-és képgeneráló algoritmusok. A ChatGPT írt már dalszövegeket Nick Cave stílusában, aki szerint a szövegek egyszerűen szarul sikerültek, a képgenerátorok pedig valamiért képtelenek kezeket rajzolni. A sok bénázást azonban ellensúlyozza, hogy a Midjourney-ChatGPT duó írt már komplett gyerekkönyvet, algoritmus alkotta festmény nyert első helyezést amerikai állami művészeti pályázaton, a ChatGPT pedig a szórakoztató tartalmakon túl üzleti ötleteket generál, átmegy az orvosi szakvizsgán, és kódol, méghozzá úgy, hogy egy januári cikk szerint a Google is felvenné friss diplomás fejlesztőnek.
Ezek miatt talán nem meglepő, hogy sokan elkezdtek azzal kísérletezni, hogyan lehetne beépíteni a generatív algoritmusokat a mindennapi munkába, és melyek lehetnek azok a területek, ahol a ChatGPT, a Midjourney vagy a DALL-E gyakorlati hasznokkal járhat. Egy csapat a várostervezésben dolgozó, illetve az urbanizmus iránt érdeklődő magyar fiatal elindított egy csoportot, ami a DALL-E 2-t használja arra, hogy új megvilágításba helyezzen budapesti köztereket.
Góbi Gábor, a Járókelő.hu közterületi hibabejelentő oldal önkéntese, Fónai Kende, a Közlekedő Tömeg Egyesület alapító tagja, Dalos Eszter, a Város és Mobilitás Intézet urbanistája, Fazekas Samu, a Magyar Kerékpárosklub közösségi- és projektmenedzsere és Le Marietta, az MIT várostervezéssel és városkutatással foglalkozó SUPRS programjában tanuló Humphrey-ösztöndíjas célja az volt, hogy kitapasztalják, hogyan lehet jól irányítani a DALL-E-t városi látképek létrehozására, amelyek segíthetnek a várostervezőknek alternatívák kidolgozásában.
Nehéz eltérni a sztereotipikus utcaképektől, ami sok-sok autót jelent
A DALL-E az OpenAI fejlesztése; olyan neurális hálók használatán és mélytanuláson alapuló modell, amely szöveges leírásokból, úgynevezett promptokból generál képeket. Nevét Salvador Dalí spanyol festő és WALL-E, az animált robot házasságából kapta, és míg az első verziója a GPT-3 modellt használja, a DALL-E 2 az OpenAI CLIP nevű, szövegeket képekkel összekapcsoló neurális hálóin alapul. A szoftvert az interneten megtalálható több milliós nagyságrendű kép- és szövegmennyiségen tanították az OpenAI mérnökei, mielőtt lehetővé tették, hogy emberek milliói kísérletezzenek vele.
Ez a kísérletezés roppant egyszerűnek tűnik, amikor szivárványon suhanó önvezető traktorokat vagy plüss gólyafészkeket terveztetünk a modellekkel a Bazilika tetejére, de a várostervezéshez használható képek generálásához ennél több kell. A várostervező csapat a saját képeit töltötte fel a DALL-E programba, ahol maszkolással elérhető, hogy az algoritmus csak bizonyos részeket változtasson. Ezután jön a szöveges irányítás (angolul prompt engineering, röviden prompting) majd az eredmények tükrében az újabb és újabb iteráció. A csapat eredményei eléréséhez rengetegféle promptot kipróbált és sokszor módosított a képeken, hogy értelmezhető, hihető és minél zöldebb városi látványképek szülessenek. A prompt engineering Le szerint „egyszerre túlzó és pontos, ugyanis az egyik legfontosabb tapasztalatunk az volt, hogy néha egészen apró dolgokon múlik, sikerül-e elérni a kívánt eredményt. Ugyanakkor abszolút tanulható, hogyan lehet finomítani a végeredmény a megfelelő utasításokkal.”
„Ami fontos, hogy a DALL-E koncepciókból építkezik, és nem egy az egyben azt készíti el, amit leírunk, hanem azoknak a koncepcióknak az összességéből tálal valamit, amik az adataiban vannak. Azt például nehéz volt elérni, hogy csak úgy egy szép, teraszos kávézót jelenítsen meg egy utcaképen, ha azt írtuk be, hogy „cafe”. De ha olasz vagy francia kávézónak hívtuk, már szebb eredmény jött ki. Ezeket a finomságokat tanultuk meg használni és adaptálni a magyar utcaképek kialakításához.”
„Azzal nagyon sokat küzdöttünk az elején, hogy a DALL-E azt ismétli, amit a világról tud, ezért egy csomószor visszarajzolta az autókat, amikor mi épp forgalomcsillapított utcaképet akartunk” – mondta Le. aki szerint a szoftver adataiban meglévő, rejtett sztereotípiák képesek kifejezetten előítéles eredményeket is gyártani. – Nem véletlenül kritizálják sokan a Dall-E-t vagy a ChatGPT-t, hiszen elsősorban angol nyelven adnak használható eredményeket, és előfordul, hogy sok kisebb közösség kultúrájáról, tudásából semmi nincs bennük. A Maldív-szigeteken például épp ezért a ChatGPT-nek elkészítették a helyi változatát, ami helyesen ír a helyi nyelven.”
Lehet-e látképtervező asszisztens a DALL-E 2?
„A csapatmunka eredménye az volt, hogy segített megérteni, hogy a Dall-E szerepe a várostervezésben valószínűleg nem normatív, valóságrajzoló eszköz lesz, hanem lehetőségrajzoló eszköz. Az például városi fejlesztéseknél nagyon fontos, hogy első lépésben ne riasszuk el az embereket azzal, hogy kijelentjük, márpedig itt nem lehet fát ültetni, mert ezen a helyen vezetékek futnak. Az a fontos, hogy a hangulatot meg tudjuk mutatni, a tervezés - mint minden lakossági bevonásnál - már a következő lépés lesz” – mondta Le.
A csapat tapasztalatai szerint a DALL-E 2 egyelőre biztos nem helyettesíti az emberi intellektust és kreativitást, de jól használható eszköz, ami nagyban meggyorsítja a víziók, kreatív anyagok készítését. Felmerült az is, hogy a Photoshop vagy a DALL-E 2 alkalmasabb eszköz-e a látképkészítésre, és arra jutottak, hogy az algoritmikus modell rengeteg újabb és újabb iteráció készítésére alkalmas sokkal gyorsabban, míg a Photoshopot inkább kisebb változtatásoknál használnák.
„Ebben a lakossági bevonáshoz nagy haszna látszik már most. Bostonban találkoztam például a BetterStreets AI Twitter-csatorna elindítójával, Zach Katz várostervezéssel is foglalkozó művésszel. A vele való beszélgetésem adta az inspirációt. Az ő kezdeményezése például rendkívül népszerű lett az Egyesült Államokban, mert segíti megismertetni az emberekkel egy zöldebb és sétálhatóbb város gondolatát. Nagy az érdeklődés politikusok és kampányoló civilek körében az iránt, hogy meg tudják mutatni, mennyi minden számít egy közterület hangulatának kialakításához. A népszerű képeken forgalomcsillapított utcák, zöld közterek vannak, ahol az emberek jól érzik magukat és van elég hely, ami lehetőséget teremt a helyi közösségek kialakulására, hiszen vannak padok, az emberek sétálnak, beszélgetnek.”
Kapcsolódó cikkek a Qubiten: