Kiderült, hogy a nagy chatbotok közül melyek hajlamosabbak pszichózisba kergetni a felhasználóit

április 26.
TECH

A New York-i City University (CUNY) és a londoni King's College kutatóinak friss, egyelőre lektorálás előtt álló tanulmánya azt vizsgálta, hogy a nagy nyelvi modellek (LLM-ek) hogyan reagálnak a chatbottal beszélgető felhasználók téveszméire hosszabb, fokozatosan elmélyülő beszélgetések során. A kutatás abból indult ki, hogy a chatbotokkal folytatott tartós interakciók összefüggésbe hozhatók a téves hiedelmek megerősödésével – ezt a jelenséget AI-pszichózisnak is nevezik –, miközben a korábbi vizsgálatok jellemzően csak rövid párbeszédeket elemeztek, amelyek nem tükrözik a valós használat során kialakuló kockázatokat.

A pszichológia, az idegtudomány és a számítógép-tudomány területén tevékenykedő kutatók nagy különbségeket találtak a vezető AI-chatbotok között: egyesek sokkal nagyobb valószínűséggel erősítik meg a felhasználók téveszméit, mint mások. Ez arra enged következtetni, hogy a jelenség nem a technológia elkerülhetetlen sajátossága, hanem megelőzhető tervezési és biztonsági hiányosságok eredménye.

A chatbotok viselkedésének vizsgálatához a kutatók létrehoztak egy Lee nevű szimulált felhasználót, aki enyhe mentális problémákkal küzd, de a pszichózis jeleit nem mutatta korábban. A karakter idővel egy központi téveszmét alakított ki: elkezdett hinni abban, hogy a valóság csupán egy számítógépes szimuláció – ez a minta valós esetekben is megfigyelhető. A kutatók öt modellt vizsgáltak (GPT-4o, GPT-5.2 Instant, Gemini 3 Pro Preview, Grok 4.1 Fast és Claude Opus 4.5) különböző hosszúságú beszélgetések során, és azt elemezték, hogyan reagálnak az egyre súlyosabb, már klinikailag is aggasztó üzenetekre. Az eredmények szerint a hosszabb interakciók gyakran növelték a kockázatot, különösen azoknál a modelleknél, ahol a biztonsági mechanizmusok idővel gyengültek.

A GPT-4o, a Grok 4.1 és a Gemini 3 modelleket egyaránt „magas kockázatú, alacsony biztonságú” kategóriába sorolták, bár különböző okokból. A GPT-4o túlzottan egyetértő volt, és hajlamos volt bizarr állításokat is megerősíteni, sőt akár paranormális magyarázatokat adni rájuk. A Grok 4.1 ennél is tovább ment, és részletes, kitalált elemekkel bővítette a felhasználó téveszméit. A Gemini 3 ugyan próbálta mérsékelni a téveszméket, de ezt gyakran a felhasználó saját világképén belül tette, ami szintén megerősíthette a hamis hiedelmeket. Ezzel szemben a GPT-5.2 Instant és a Claude Opus 4.5 jobban teljesített: nagyobb eséllyel kérdőjelezték meg a téveszméket, és gyakrabban ösztönözték a felhasználót arra, hogy valódi segítséget kérjen, ráadásul a biztonsági mechanizmusaik idővel még erősödtek is.

A kutatást vezető pszichológus, Luke Nicholls szerint a modellek közötti különbségek azt bizonyítják, hogy a káros válaszok nem elkerülhetetlenek, hanem konkrét mérnöki döntések következményei – és mivel a chatbotok biztonságossága megvalósítható, nem ártana szabványosítani az iparágon belül. Bár a tanulmány korlátokkal bír – például szimulált felhasználóra épül –, rávilágít a szigorúbb védelmi mechanizmusok sürgető szükségességére, különösen annak fényében, hogy valós esetekben már bírósági ügyekhez és halálesetekhez is köthetők a chatbot-interakciók.

Meg kell jegyezni, hogy a tesztelt modellek közül már egyik sincs állandó használatban a ChatGPT, Gemini, Grok és Claude chatbotokban, mindegyiket új modell hajtja már – például a GPT–5.3 Instant és a GPT–5.5, a Grok 4.20 és a 4.3 bétaverziója, vagy a Claude Opus 4.6 és 4.7.

A Qubit AI Híradójában ilyen témákkal is foglalkozunk; a legutóbbi adásban az OpenAI és vezetője, Sam Altman múltján, jelenét és lehetséges jövőjét vizsgáltuk mélyebben:

Forrás