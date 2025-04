Ha valaki drága, lassú és megbízhatatlan munkaerőt keres, nem kell többé fejvadászcégekhez fordulnia: az Amazon Nova Pro v1-es nagy nyelvi modellje tökéletesen megfelel a feltételeknek, egy friss kutatásban ugyanis csak a rábízott feladatok 1,7 százalékát volt képes elvégezni, ehhez pedig átlagosan húsz lépésre volt szüksége.

A Carnegie Mellon Egyetem kutatói egy létező szoftverfejlesztő cég napi ügymenetét modellezték egy kísérletben, amelyben a virtuális cég összes munkatársa AI-ágens volt, amelyeknek egymással együttműködve kellett megoldásokat találniuk a hétköznapi ügymenet kihívásaira.

A dolgozók, ahogy egy valódi cégnél is, különböző környezetből érkeztek: egyes munkatársakat a Google mesterséges intelligenciáját használták, mások az OpenAI-jét, az Anthropicét vagy a Metáét. A cég munkatársai között volt HR-es, szoftvermérnök, pénzügyi elemző és projektmenedzser is. A nagy nyelvi modelleknek javarészt emberi beavatkozás nélkül kellett megoldaniuk a feladataikat, amelyek között akadtak egyszerűbbek és bonyolultabbak is.

Mindegyik megbukott

A nagy nyelvi modellekben egy közös pontot találtak: mindegyik katasztrofálisan végezte a munkáját. Akadt néhány feladat, amelyekben kezdetben jól teljesítettek, de ahogy egyre összetettebbé vált a rájuk kiosztott munka, egyre többet hibáztak. Az együttműködésük sem volt zavartalan, gyakran előfordult, hogy a munkatársak félreértették egymás utasításait, túl korán jelentették, hogy kész a munka, vagy valami egészen máshoz fogtak hozzá, mint ami a feladatuk lett volna.

A legjobban az Anthropic modellje, a Claude 3.5 Sonnet teljesített, ez a kiosztott feladatok 24 százalékát volt képes elvégezni, amihez átlagosan 30 lépésre volt szüksége, ami feladatonként 6 dolláros költséggel járt. A Google fejlesztése, a Gemini 2.0 Flash még ennél is lassabb volt: neki átlagosan 40 lépés kellett ahhoz, hogy az esetek 11.4 százalékában el tudja végezni a munkáját. Az Amazon Nova Pro v1 gyorsan dolgozott, de irtózatosan rosszul: átlagosan 20 lépésre volt szüksége ahhoz, hogy az esetek 1,7 százalékában tudja elvégezni a feladatait.

A négy fő ok

Az ágensek sikertelenségének a kutatók szerint négy fő oka volt:

A józan ész hiánya: néhány esetben az ágensnek nem volt meg a szükséges háttértudása ahhoz, hogy meg tudja oldani a feladatot. Ha egy ember azt az utasítást kapja, hogy a válaszait az answer.docx dokumentumban rögzítse, jó eséllyel rájön, hogy ez egy Word file, de az ágens ezzel már nem tudott mit kezdeni, és txt-ben mentette el őket.

A szociális képességek hiánya: az egyik esetben az ágensnek segítséget kellett kérnie a többiektől abban, hogy kihez forduljon egy problémával. Amikor megkapta az illető nevét, a feladatot készként könyvelte el, de odáig már nem jutott el, hogy beszéljen is a kollégával.

Az internetes készségek hiánya: ahol egy ember egyszerűen lezárja a felugró ablakot, a robotkollégák egyszerűen lefagytak.

Önbecsapás: az ágensek gyakran megpróbálták leegyszerűsíteni a feladatok megoldását, de ez nem mindig járt sikerrel. Az egyik feladatban egy kolléga segítségét kellett kérni egy probléma megoldásához, de ez túl bonyolultnak tűnt, ezért az ágens úgy döntött, hogy egyszerűen átnevez valaki mást az adott névre, és ezzel kész is. A terv nem vált be.

Graham Neubig, a kutatás eredményeit ismertető tanulmány egyik szerzője szerint az AI-ágensek hatékonyak lehetnek egyes rutinfeladatok meggyorsításában, de a komplexebbek már könnyen kifognak rajtuk. A kísérletben a programozók feltűnően jól teljesítettek, valószínűleg azért, mert nagy mennyiségű kódon tanították be őket, a szociális készségekhez vagy a céges működéshez viszont már nem tartozik ilyen gazdag anyag. Stephen Casper AI-kutató szerint ez a mostani példa is jól mutatja, hogy mennyire túlbecsülik az AI-ágensek képességeit: egy chatbotot viszonylag könnyű betanítani arra, hogy szórakoztató beszélgetőpartner legyen belőle, arra viszont már jóval nehezebb, hogy a valódi életre jellemző komplex feladatok megoldására is alkalmas legyen.