Már a zörejművészek munkáját is elvennék a robotok

Nincsen túlélhető és fenntartható jövőnk tudomány nélkül, ahogy nekünk sincsen nélkületek. Támogasd a Qubit munkáját!

Amerikai kutatók olyan automatizált, mélytanuló algoritmust hoztak létre, amely elemzi a filmjelenetek történéseit és hangeffektusokat generál hozzá. Az AutoFoley nevű modell által létrehozott hangokat egy felmérés szerint a legtöbb ember nem tudta megkülönböztetni az eredeti hanghatásoktól – olvasható az IEEE Spectrum oldalán, vagyis az amerikai Elektromos és Elektronikai Mérnökök Intézetének magazinjában.

Mi az a zörejezés, és kik a zörejművészek?

Arra mindenki emlékszik, amikor egy horrorfilmben vészjóslóan megnyikordul a pinceajtó, egy westernfilmben valaki végighúzza a csizmája szárán a gyufaszálat vagy elsétál a kihalt vasútállomás mellett – számtalan jellegzetes zaj tesz átélhetővé, izgalmassá vagy borzongatóvá egy filmet. Ezek pedig nagy valószínűséggel az utómunkák során kerülnek az egyes jelenetekbe. 

A filmhang elkészítésének többféle módját is használják a filmkészítők. Az egyik legalapvetőbb, amikor a forgatás idején a képpel együtt felveszik a hangot is. Ez elsősorban a párbeszédeket jelenti, mert a forgatási körülmények, például a kameramozgatás zaja, a szélgép, az esőgép vagy az alapból zajos környezet (például az utcazaj), nem mindig teszik lehetővé az egyéb zajok rögzítését. Ilyenkor az ilyen típusú hangokat a kép összevágása után, stúdióban veszik fel utószinkronnal. A szükséges zörejek és zajok egy részét hangarchívumból keresik ki, más részüket viszont zörejstúdióban hozzák létre az úgynevezett zörejművészek (Foley artists). 

Ők azok, akik a néma képsorokat nézve leutánozzák a történések hangját: ha az erdőben az avar zörög a karakterek talpa alatt, ha levernek egy csészét az asztalról, vagy éppen kardokkal csapnak össze egy harci jelenetben. Nevüket a szakma első jeles képviselőjéről, Jack Foley-ról kapták, aki az 1920-as években még némafilmeket rendezett, majd a hang megjelenésével fokozatosan átevezett a zörejgyártás területére.

 Esőhangokat és pattogó tüzet imitáló AI

Jeff Prevost, a Texasi Egyetem (San Antonio) professzora, az AutoFoley egyik alkotója szerint a filmek üresnek és távolinak tűnnének a valósághű zörejezés nélkül, ugyanakkor a zajok létrehozásának folyamata jelentős idő- és költségvonzattal jár. Ezért Prevost egyik doktorandusz hallgatójával közösen megalkotta az AutoFoley automatizált, mesterséges neurális hálózatokon alapuló algoritmusát a hangeffektusok létrehozására.

Az AutoFoley kétféle modellt alkalmaz a hanghatások előállítására. Az első azonosítja a jelenetben látható történéseket, vagyis kijelöli a képek tulajdonságait (pl. színek és mozgás), hogy ezután hangot illeszthessen hozzá. A második pedig az objektumok temporális viszonyát elemzi, azaz relációs érvelést használva összehasonlítja az időben eltérő felvételeket, és ennek segítségével állapítja meg, mi történik a videón. Ezt követően szintetizálja a hangot és hozzáilleszti az adott történéshez. 

A kutatók mintegy ezer rövid videoklipet készítettek, amelyekben számos szokványos jelenet hangjait rögzítették: vágtató lovakat, ketyegő órákat vagy hulló esőt. Az okos algoritmus egyelőre akkor a legjobb, ha olyan hangeffektusokat kell előállítania, ahol az időzítésnek nem kell tökéletesen passzolnia – például ha pattogó tábortűz hangjára van szükség. Arra azonban, hogy a gépeléshez vagy villámláshoz hasonló történések hangjai is tökéletesen szinkronban legyenek a képekkel, még várnunk kell.

Egy felmérés alanyait mindenesetre sikerült megtévesztenie az algoritmusnak. A kutatók 57 amerikai egyetemistát kértek meg arra, hogy állapítsák meg, melyik hang valódi, és melyiket generálta az AutoFoley. Az első modell által létrehozott hanghatások esetén a megkérdezettek 73 százaléka vélte eredetinek az algoritmus által generált zörejeket, míg a második modell esetén ugyanez az arány 66 százalék volt.

Kapcsolódó cikkek a Qubiten: