Elias Thorne éppen tönkreteszi az internetet, pedig nem is létezik

Dippold Ádám

június 23.

TECH

Tarzan vagy Conan együttvéve nem szerepelt annyi történetben, mint Elias Thorne, pedig róla május elejéig a kutya se tudta, hogy kicsoda, ekkor is csak Daniel May angol programozó figyelt fel rá – pontosabban arra, hogy akármelyik nagy nyelvi modelltől kéri, hogy írjon neki egy történetet tíz mondatban, a történetekben meglepően sok közös vonás van. A nyolc történet közül négy egy világítótoronyban játszódott, a főszereplőt pedig két esetben Elias-nak hívták. De miért lett ilyen népszerű helyszín a világítótorony, és miért pont Elias-nak hívják az őrét, amikor a ChatGPT vagy a Gemini akármi mást is kitalálhatott volna?

Erre kereste a választ a Cornell Egyetem két kutatója, Sil Hamilton és David Mimno, akik az erdményeiket egyelőre egy preprint (külső szakmai lektoráláson még nem átesett) tanulmányban közölték.

A kutatók az OpenAI, az Anthropic, a Google és az Allen Insitute for AI legújabb modelljeit tesztelték, majd összevetették egymással a 20 ezer generáltatott történetet. Mint kiderült, az esetek 88,3 százalékában legalább egy szerepelt a 11 kulcsszóból, ezen belül pedig az Elias név, a világítótorony és a torony őre az esetek 66,6 százalékában megtalálható volt a mesékben. Gyakran előforduló név volt még a Mara és az Elara, a foglalkozások közül pedig az AI különösen kedvelte a péket, a polgármestert, az órást, a halászt, a könyvtárost és a kalauzt. A nagy nyelvi modellek a címadásban sem erőltették meg magukat különösebben, a generált történetek 56,6 százaléka „A világítótorony őrének titka” címet viselte.

A világítótorony őrének titka

Ez azért is különös, mert ezek a nevek nem túl elterjedtek az emberek által írott szövegekben, és az sem túl gyakori, hogy ezek a történetek éppen egy világítótoronyban játszódjanak. Hamilton és Mimno szerint a magyarázat a nagy nyelvi modelleket korlátozó szabályokban van: hiába tanították őket jogvédett anyagokon, a fejlesztők nem szeretnék, ha ezeket használnák a történet összeállításához, így máris szűkül a lehetőségek köre.

Ezt tovább szűkíti az, hogy a modellek megpróbálnak rájönni, hogy az olvasók mit kedvelnének jobban – és úgy tűnik, hogy ehhez itt mind egy olyan szűk preferenciamintát használnak, amiben felülreprezentáltak a világítótornyok és Elias rajongói (a kutatók szerint ezért a WildChat, egy 1 millió valós GPT-3,5-beszélgetést tartalmazó adathalmaz tehető felelőssé; ebben Elias 166 beszélgetésben szerepel). A helyzetet végül pedig tovább súlyosbítja az, hogy Elias Thorne kalandjai meg is jelennek a neten, a modellek pedig a saját marhaságaikból is tanulnak – és ahogy szaporodnak a történetek, egyre inkább úgy gondolják, hogy a felhasználók többsége meg is őrül a világítótorony őréért.

Kapcsolódó cikkek

Másfél milliárd dollárt fizet egy AI-cég azoknak a szerzőknek, akiknek a munkáit a modelljei betanításához használta

Nagy Gergely tudomány 2025. október 21.