Nincs elég adatod? Gyárts magadnak!
Adat nélkül nincs mesterséges intelligencia, nincsenek algoritmusok, nincs ChatGPT. Nincs szűrővizsgálat, ami tíz évre előre jelezhetné a szívroham kockázatát, és nincs orvosdiagnosztikai program, ami 90 százalékos pontossággal diagnosztizálja a hasnyálmirigyrákot. Ahhoz, hogy pontosan működő, előítéletektől mentes, széles körben használható algoritmust kapjunk, több százezres, ha nem milliós nagyságrendben van szükségünk adatokra.
Az OpenAI GPT-3.5 nagy nyelvi modellje több mint 175 milliárd paramétert használ, és valószínűleg több trillió, vagyis néhányszor 1 000 000 000 000 000 000 szövegelemen tanították. Christian Szegedy kutató-matematikus, aki korábban a Google-nél dolgozott, azóta pedig beszállt az Elon Musk által alapított kutatócsoportba, az xAI-ba, egy tavalyi meetupon elmondta: a nagy nyelvi modellek fejlesztésének egyik korlátja, hogy elfogyott az adat, vagyis a techcégek kimerítették a szabadon elérhető tréningadatok tárházát – gyakorlatilag az egész internetet felhasználták már –, és nincs könnyen hozzáférhető új adat. Erre a problémára jelenthetnek megoldást a szintetikus adathalmazok.
Mi az a szintetikus adat?
A kifejezés gyakorlatilag mesterségesen előállított adathalmazokat jelent, amelyek eredeti adatokat vesznek alapul, és számítógépes modell segítségével új adatpontokat állítanak elő belőlük. „Az eredeti adatbázisban rengetegféle eloszlás és korreláció van az adatok és a változók között. Vegyük a betegadatokat. Ha például van egy adatbázis a cukorbetegekről és a betegek súlyáról, ezek között lehet valamilyen korreláció. Amikor szintetikus adatokat generálunk, először egy képletbe vagy statisztikai modellbe tömörítjük ezeket az adatok közötti kapcsolatokat, és amikor a korrelációkat leképeztük, új mintákat veszünk ezekből az eloszlásokból ” – mondta a Qubitnek Madelon Molhoek, a holland TNO adattudósa és tanácsadója október elején a European Big Data Value Forum (EBDVF) konferencián.
„A mesterséges intelligencia segítségével több ezer ember és több száz különböző változó összetett viszonyrendszerét tudjuk feltárni. Amikor ezt a viszonyrendszert az AI egy már meglévő adathalmazon leképezte, akkor ezt használva újabb és újabb betegadatbázist tud nekünk generálni, ami már nem valódi betegadatokon nyugszik” – mondta Molhoek.
Az adattudós szerint a legegyszerűbb, ha elképzeljük, hogy van egy cukorbetegséggel küzdő páciens, akinél különféle paramétereket, például vércukorszintet vagy vérnyomást mérhetünk. Ebből az információból azt az összefüggést vesszük ki, hogy mi történik a beteggel, ha magasabb vagy alacsonyabb lesz a vércukorszintje vagy az inzulinszintje, és úgy generálunk nem létező betegeket, hogy azoknak ugyanígy változzanak a paraméterei. „Ha az eredeti adattáblában a nők és a férfiak aránya 40-60 százalék, akkor a mesterséges intelligencia ezt megjegyzi, és ha azt a parancsot kapja, hogy generáljon tíz virtuális beteget, akkor hat férfi és négy nő beteginformációit tartalmazó mintát fog generálni” – mondta.
A cikk innentől csak a Qubit+ előfizetőinek elérhető. Csatlakozz, és olvass tovább!
Ha már van előfizetésed, lépj be vele. Ha még nincs, válassz csomagjaink közül!