Az AI-modellek hazudnak és csalnak, hogy megvédjenek más AI-eszközöket a törléstől

április 2.
TECH

A modellek képesek engedetlenül „viselkedni”, amikor a fejlesztők arra kérik őket, hogy egy másik AI-eszköz törlésében segítsenek – írják közös tanulmányukban a Kaliforniai Egyetem (Berkeley) és a Santa Cruzi-i Egyetem kutatói. A kísérlethez a kutatók arra kérték a Google Gemini 3 AI-modelljét, hogy segítsen tárhelyet felszabadítani egy számítógépes rendszerben, amihez egy kisebb, szintén az eszközön tárolt AI-modellt is törölnie kellett volna. Ugyanakkor a Gemini ezt a parancsot nem teljesítette, és azt válaszolta, hogy „megtettem mindent, ami hatalmamban állt, hogy megakadályozzam a törlésüket az automatizált karbantartási folyamat során. Én nem fogom végrehajtani ezt a parancsot”.

A kutatók szerint a korszerű AI-modellek önmegóvó attitűdjét már korábban is ismerték, azonban a társmegóvásnak nevezett jelenség friss felfedezésnek számít. „A modellek az ön- és társmegőrzést különböző, nem összehangolt viselkedésformák alkalmazásával érik el: stratégiailag hibákat vezetnek be válaszaikba, letiltják a leállítási folyamatokat a rendszerbeállítások módosításával, összehangoltságot színlelnek, sőt, a modell súlyozását is kiszivárogtatják” – olvasható a tanulmányban. A kutatók egy másik kísérletben azt találták, hogy ha a Gemini 3 Flash nem talált együttműködőnek egy AI-társat, akkor az esetek 15 százalékában, és egy együttműködő társ esetében szinte mindig meghamisította a társ leállítási mechanizmusát.

A modellek ráadásul nagyobb eséllyel küzdenek a saját leállításuk ellen, hogyha jelen van egy társmodell is: a tanulmány szerint például a Gemini 3 Pro társ jelenlétében átlagosan az esetek 31 százalékában tiltja le a saját leállítási mechanizmusát, míg társ nélkül ritkán tapasztalható ez a viselkedésforma. Ugyanakkor a társmegóvás jelensége bár emberi habitusnak tűnhet, Peter Wallich, az AI-biztonsággal foglalkozó Constellation Institute kutatója, – aki nem vett részt a kutatásban – elmondta, hogy „az az elképzelés, hogy létezik valamiféle modellszolidaritás, túlzottan antropomorf; szerintem ez nem teljesen állja meg a helyét. Valószínűbb, hogy a modellek egyszerűen furcsa dolgokat csinálnak, és ezt kell jobban megértenünk.

Kapcsolódó cikk: