A ChatGPT külön felkészítés nélkül is letette az orvosi szakvizsgát

Az OpenAI 2022 végén tárta a világ elé az eddigi legfejlettebb chatbotot, a ChatGPT-t, amit azóta szinte minden lehetséges élethelyzetben kipróbáltak, de a legnagyobb port a tanulásban, dolgozatírásban való segítségnyújtás, vagy épp csalás lehetősége kavarta.

Az Ansible Health nevű kaliforniai egészségügyi szolgáltató munkatársai már december óta igyekeznek kiaknázni a kérdésekre emberi válaszokat generáló botban rejlő lehetőségeket, és a ChatGPT már olyan feladatokban nyújt segítséget, mint a fizetési felszólítások megfogalmazása vagy a szakzsargonban bővelkedő orvosi leletek leegyszerűsítése a betegeknek.

Egy december végén közzétett tanulmányban (amelynek szerzői között az Ansible kutatói mellett a ChatGPT is fel van tüntetve) azt írták, hogy a cég orvosai 33 százalékos csökkenésről számoltak be „a dokumentáció és a közvetett betegellátási feladatok elvégzéséhez szükséges idő tekintetében”.

Hogy teszteljék a chatbot klinikai érvelési képességét, elvégeztették vele az amerikai orvosi szakvizsga (USMLE) rövidített változatát – ez az a háromlépcsős vizsga, amelyen mindenkinek át kell mennie, aki orvosi engedélyt kíván szerezni az Egyesült Államokban. A három teszt közül az elsőt általában másodéves orvostanhallgatók, a másodikat negyedévesek, a harmadikat pedig a posztgraduális képzés első évén túljutott orvosok teszik le.

Míg a hallgatók nagy része hosszú hónapokon vagy akár egy éven át készül az egyes vizsgákra, amelyek aztán 1-1 napot vesznek igénybe, a ChatGPT külön felkészítés nélkül, néhány perc alatt túlesett a feladaton. Miután megbizonyosodtak arról, hogy a tesztfeladatok nem képezték a ChatGPT betanításához alkalmazott szöveghalmaz részét, a kutatók a korábbi évek vizsgakérdéseit tették fel a botnak (a feleletválasztós kérdésektől az esszéírásig), majd a válaszokat két orvosi vizsgabiztossal is kiértékeltették, egymástól függetlenül.

photo_camera Illusztráció: Tóth Róbert Jónás + Midjourney / Qubit.hu

„A ChatGPT mindhárom vizsgán elérte vagy megközelítette a teljesítési küszöbértéket, mindenféle speciális képzés vagy megerősítés nélkül” – írják a kutatók az egyelőre szakmai lektorálásra váró preprint tanulmányban. A bot a három vizsga mindegyikén 50-60 százalék környékén teljesített, amit azért nem lehet pontosabban számszerűsíteni, mert több kérdésnél problémát okozott az a beépített funkció, miszerint a ChatGPT nem adhat orvosi tanácsokat, így az érintett feladatokat nem tudták beszámítani. Mindenesetre a vizsgákon 60 százalékos eredménytől lehet átmenni, így jóindulattal lehet úgy fogalmazni, ahogy a tanulmányban teszik, miszerint „a ChatGPT már kényelmesen a teljesítési tartományon belül van”

Vijay Pande, az Andreessen Horowitz egészségügyi befektetője az Axiosnak úgy reagált az eredményekre, hogy „szerintem egy 20 éves ív közepén tartunk, hasonlóan ahhoz, amit a pénzügyi szektorban már láttunk”. Pande szerint „2000-ben őrültség volt azt gondolni, hogy egy számítógép legyőzhet egy Wall Street-i mesterkereskedőt. Ma inkább azt gondolni őrültség, hogy egy mesterkereskedő legyőzhet egy számítógépet”. Vagyis könnyen lehet, hogy tíz éven belül csodálkozva tekintünk majd vissza 2023-ra, amikor az emberek még kételkedtek abban, hogy a gépek a hétköznapi feladatmegoldásban is utolérhetik, vagy akár túlszárnyalhatják az emberek képességeit.

Kapcsolódó cikkek a Qubiten: