A világ legnagyobb tudományos kiadója is beperli a Metát, amiért lopott tartalmakkal tanította be AI-modelljét
Az Elsevier, a világ legnagyobbnak tartott tudományos kiadója (amely olyan folyóiratokat gondoz, mint a Cell vagy a Lancet) is csatlakozott ahhoz a csoportos keresethez, amelyet május 5-én nyújtottak be a Meta és Mark Zuckerberg ellen a New York-i szövetségi bíróságon – írja a Nature. A felperesek között szerepel még a Hachette és a Macmillan könyvkiadó, valamint Scott Turow amerikai szerző is. A per lényege, hogy a Meta szerzői jogi engedély nélkül használta fel a kiadók szellemi tulajdonát ahhoz, hogy betanítsa Llama nevű nagy nyelvi modelljét (LLM). Az Amerikai Kiadók Szövetsége szerint ez az első olyan AI-per, amelyet nagy kiadók indítottak.
A vádirat szerint a Meta a Common Crawl adatbázist használta betanítási forrásként, vagyis azt a több milliárd weboldalból álló gyűjteményt, amely nagy valószínűséggel szerzői joggal védett tudományos absztraktokat és fizetős cikkeket is tartalmaz. Emellett a vád azt is állítja, hogy a cég a LibGenről és a Sci-Hubról is töltött le, illetve torrentezett anyagokat – ezek olyan platformok, amelyek szerzői joggal védett könyveket, tanulmányokat és tankönyveket tesznek szabadon elérhetővé. A bizonyítékok egy része egy korábbi, szerzők által indított perből (Kadrey kontra Meta) nyilvánosságra került belső Meta-levelezéseken alapul.
A Meta „agresszív védelemre” készül, és várhatóan a „fair use" (méltányos használat) elvére hivatkozik majd. A cég szóvivője elmondta: „A mesterséges intelligencia forradalmi innovációkat, termelékenységet és kreativitást tesz lehetővé az egyének és a vállalatok számára, bíróságokon pedig már helyesen megállapították, hogy az AI szerzői joggal védett anyagokon való betanítása a méltányos használat körébe tartozhat.” Ugyanakkor 2025-ben két mérföldkőnek számító ítélet kimondta, hogy a kalóztartalmak megszerzése és tárolása önmagában szerzőijog-sértést valósíthat meg, és a fair use érvelés is megdőlhet, ha a kiadók bizonyítani tudják, hogy a modellek által generált tartalmak érzékenyen érintik a kereskedelmüket.
A tudományos szövegek azért különösen értékesek az AI-cégek számára, mert kiváló minőségű, emberek által írt, információban gazdag forrásokat jelentenek, és javítják a modellek pontosságát szaktudományos területeken. Egyre több kiadó köt üzleti megállapodást technológiai vállalatokkal az adataik értékesítéséről vagy licenceléséről – ez ugyan erősítheti a nagy AI-szereplőket, de megnehezítheti a nyílt forráskódú modellek (amilyen a Llama is) fejlesztőinek a hozzáférést. A per kimenetele így nemcsak jogi, hanem az egész tudományos adat-ökoszisztémára nézve is komoly következményekkel járhat.
A Llama modellről és a Meta AI-törekvéseiről nemrég beszélgettünk az AI Híradóban:
Kapcsolódó cikk:
Másfél milliárd dollárt fizet egy AI-cég azoknak a szerzőknek, akiknek a munkáit a modelljei betanításához használta
Az Anthropic a könyveket és cikkeket a LibGen-ről és hasonló oldalakról töltötte le, de most a maga nemében egyedülálló megállapodást kötött a szerzőkkel.