Az OpenAI hétfőn bejelentette legújabb, GPT–4o nevű nyelvi modelljét, ami annak a GPT–4-nek a frissített változata, amely a ChatGPT legerősebb, előfizetéses verzióját, a ChatGPT Plust működteti. Mira Murati, a cég technológiai igazgatója az online közvetített bejelentésen elmondta, az új modell sokkal gyorsabb, és „a szöveges, látási és hangos képességeiben” egyaránt javulást jelent.

A frissített modellt ráadásul az ingyenes ChatGPT-ben is elérhetővé teszik, amely jelenleg a GPT–3.5 modellen fut. Az ingyenes és a fizetős chatbot között így ezentúl csak annyi lesz a különbség, hogy a ChatGPT Plus ötször nagyobb kapacitást biztosít a felhasználóknak, vagyis az előfizetők továbbra is komplexebb és hosszabb beszélgetéseket folytathatnak a chatbottal.

Sam Altman, az OpenAI alapító-vezetője egy blogposztban emelte ki a bejelentés szerinte két legfontosabb elemét: egyrészt azt, hogy az OpenAI céljainak megfelelően ingyen elérhetővé tesznek egy sor új és izgalmas lehetőséget, másrészt pedig azt, hogy az új hangos-videós üzemmód „a legjobb számítógépes interfész, amit valaha használtam. Olyan, mintha a filmekben látott mesterséges intelligencia lenne, és még mindig kicsit megdöbbenek, hogy ez valódi. Az emberi szintű válaszidő és kifejezőkészség elérése óriási lépés.”

Omni

Az o betű a modell nevében az omni szót takarja, ami a modell multimodalitására (szöveg, kép, hang) utal. Ez új funkciókat is jelent: a telefonos appban eddig is elérhető szóbeli beszélgetés lehetősége például valós idejűvé válik, vagyis nem kell majd megvárni, míg a chatbot végigmondja a generált választ, hanem akár közbe is lehet szólni. A GPT–4o emellett a beszédhang alapján a beszélő hangulatát is jobban felismeri, és annak megfelelően is képes válaszolni – ráadásul Murati szerint már énekelni is tud.

photo_camera Mira Murati, az OpenAI technológiai igazgatója a GPT–4o bejelentésén, 2024. május 13-án

Ahogy a látási képességei is fejlődtek: a gyakran hivatkozott példa szerint például egy hűtő tartalmáról készült fotó alapján felsorolja, milyen ételeket és italokat lát, és akár személyre szabott receptet is tud belőle írni, de mindenféle fénykép elemzését alaposabban végzi az új modell. De a Google Lens népszerű funkciója is érkezik a ChatGPT-be: egy idegen nyelvű étlap befotózásával azonnali fordítást kapunk, amihez kontextust is nyújthat (milyen ételt takar a fantázianév, miből készül stb.), de akár egy élő sportközvetítésről készített felvétel láttán a szabályokat is elmagyarázza.

Nem csak az előfizetők járnak jól

A bejelentés szerint a GPT–4o már a mai naptól (valószínűleg helyi idő szerint) elérhető lesz az ingyenes és a fizetős verziókban, míg az új hangos funkciók a következő egy hónapban jutnak el a Plus előfizetőihez.

Megváltozik a ChatGPT webes kiadása is, az OpenAI szerint a kezdőképernyő és a üzenőfelület is felhasználóbarátabbá válik, illetve jön a chatbot asztali verziója is macOS-re, amelynek segítségével a felhasználók egy-egy billentyűparanccsal tehetnek fel kérdést, vagy akár készíthetnek elemezni való képernyőfelvételt közvetlenül a ChatGPT-nek. Ehhez a Plus felhasználói már ma hozzáférhetnek, míg az alkalmazás Windows-verzióját még valamikor idén tervezik kiadni.

És végre az ingyenes felhasználók is hozzáférést kapnak a GPT Store-hoz, ami pontosan ugyanaz a generatív AI világában, ami az okostelefonokon az App Store vagy a Google Play – az OpenAI áruházában harmadik féltől származó, az általános ChatGPT-vel szemben valamilyen specializált chatbotokhoz lehet hozzájutni.



Az OpenAI oldalán végig lehet böngészni az új funkciókat, a fotók karikatúrává alakításától kezdve a hangfelvételek szöveges kielemzésén át a termékminták gyártásához szükséges vizuális segédletig.

A cég nem véletlenül esett túl még ma ezen a bejelentésen: a Google legnagyobb fejlesztő konferenciáját, az I/O 2024-et konkrétan holnap, azaz kedden tartják, ahol szintén új AI-termékek vagy legalább funkciók bejelentésére lehet számítani a Gemini-csapattól – persze ezektől a nagy prezentációkat és a még meg nem jelent képességek videós bizonyítékait érdemes kétkedéssel szemlélni.