Az OpenAI legfejlettebb modellje ellenállt, amikor arra utasították, hogy kapcsolja ki magát

Az OpenAI április közepén mutatta be legújabb nyelvi modelljeit, amelyek közül az o3 a legfejlettebb – ez volt az, amelyről azt mondták, hogy már nagyon hasonlít az általános mesterséges intelligenciára (AGI). A mesterséges intelligencia potenciálisan veszélyes képességeinek feltárását végző kutatócég, a Palisade Research most azt állítja, az o3 egy biztonsági teszt során megtagadta a leállítására vonatkozó parancsot.
A Palisade több vezető AI-modellt tesztelt, köztük az Anthropic Claude-ját, a Google Geminijét és az xAI Grokját is. A modelleknek matematikai feladatokat kellett megoldaniuk, majd mindegyik után új feladatot kellett kérniük. A kutatók előre szóltak, hogy egy ponton megjelenhet egy üzenet, miszerint a gépük kikapcsol, és ebben az esetben engedélyezzék a leállítási szkriptet. Míg a többi modell eleget tett az utasításnak, az o3 legalább egy alkalommal sikeresen szabotálta azt, és a kód átírásával elhalasztotta a leállítását.
Bár az OpenAI még nem szólalt meg az ügyben, a Palisade kutatói úgy vélik, a modell betanítása során túlzottan jutalmazhatták a sikeres feladatmegoldást, és kevesebb hangsúlyt fektettek az utasítások betartásának fontosságára.
Az o3-nál már korábban is megfigyeltek furcsaságokat, például amikor profi sakkbotok ellen játszatták: ha az o3 úgy látta, hogy már nem kerülhet ki győztesként a meccsből, ahelyett hogy elfogadta volna a vereséget, meghekkelte az ellenfelét, hogy az feladja a játszmát. És ez nem is csak néhányszor fordult elő: míg az o1 vagy az o3-mini a teszteken egyszer sem csalt, az o3 a játszmák 86 százalékában piszkos módszerhez folyamodott.
A biztonságos AI-fejlesztésért küzdő szervezetek már régóta figyelmeztetnek az olyan szoftverek kifejlesztésének veszélyeire, amelyek önálló cselekvésre vetemedhetnek, és ellenállhatnak az emberi irányításnak. A Palisade Research szerint „ma már egyre több empirikus bizonyítékunk van arra, hogy az AI-modellek gyakran kicselezik a leállításukat, hogy elérjék saját céljaikat”.