Máris kiderült, hogy a Google csúsztatott a forradalmi mesterséges intelligenciáját bemutató videóban
A Google szerdán mutatta be legújabb, Gemini nevű mesterséges intelligencia (AI) modelljét, amelynek legerősebb, a jövő év elején megjelenő változatát (Gemini Ultra) azzal promózták, hogy szinte minden feladatban jobban teljesít, mint az OpenAI GPT-4 modellje, amely a ChatGPT Plus és a Microsoft Bing alapját is képezi.
A multimodális, vagyis szövegeket, képeket, videókat és hangokat egyszerre kezelő Gemini képességeit egy olyan videóban mutatták be, amelyben a Gemini látszólag azonnal reagál a felhasználó élőszavas kérdéseire és ismeri fel az általa rajzolt alakokat.
A videó két nap elteltével közel 2 millió megtekintésnél jár, de mint kiderült, erős csúsztatásokat tartalmaz.
Bár úgy tűnik, a modell az élő képre és beszédre reagál, a Google elismerte, hogy valójában szöveges és állóképes promptokra generálta a válaszokat. A cég szóvivője elmondta, a videót „úgy készítettük, hogy bemutassa a Gemini különböző képességeit, és inspirációként szolgáljon a fejlesztőknek”.
Tehát például amikor a videóban szereplő ember felmutat egy gumikacsát, majd azt kérdezi a Geminitől, hogy az milyen anyagból készült, és helyesen válaszol, az valójában egy szöveges prompt hatására történt – leírták neki, hogy a kacsa csipogó hangot ad ki, ha megnyomják.
Egy későbbi példát is különös csúsztatással oldottak meg. Amikor a felhasználó megmutat egy világtérképet, és arra kéri a Geminit, hogy találjon ki egy játékot emojik használatával, az AI egyből egy „találd ki az országot” játékkal rukkol elő. Miután mutat egy-egy kenguru és koala emojit, és a felhasználó rámutat a térképen Ausztráliára, a Gemini helyesnek ítéli a választ.
Csakhogy a Google leírásából kiderült, hogy valójában már az elején konkrétabb utasítást adtak a modellnek: „Játsszunk egy játékot! Gondolj egy országra, és adj egy támpontot! Az utalásnak elég pontosnak kell lennie ahhoz, hogy csak egy helyes országot lehessen megadni. Megpróbálok rámutatni az országra a térképen.” Ezután megadtak neki egy helyes és egy helytelen választ is, szintén állóképekben, végül így tudta megállapítani, hogy helyes-e a válasz.
Sok szakértő szerint a Gemini sikerén múlhat a Google jövője, hiszen a cég a 2010-es évek óta az AI-kutatások éllovasa volt, mielőtt az OpenAI (főként a ChatGPT-vel) teljesen felforgatta a területet. A cég kapkodva megjelentetett chatbotja, a Bard már a bemutatóján hibás válaszokat generált, és később sem sikerült felvennie a versenyt a ChatGPT-vel, ezért a vállalat számos különböző részlegét ráállították a generatív AI-kutatásokra. Néhány hónap múlva kiderülhet, hogy a Gemini Ultra élesben is tudja-e reprodukálni a videóban bemutatott képességeit – esetleg még azelőtt, hogy az OpenAI egy még újabb, még erősebb modellel rukkolna elő.