Lementjük a magyar webet, jön a Magyar Internet Archívum

2018.12.07. · TECH

„A magyar internetoldalakon közzétett tartalmak nemzetünk kulturális örökségének részét képezik, megőrzésükről és későbbi megismerhetőségük biztosításáról kötelességünk gondoskodni” – ezzel nyitotta meg november közepén az Országos Széchényi Könyvtár (OSZK) webarchiválásról tartott konferenciáját Latorcai Csaba közigazgatási államtitkár. A magyar kormányzat 7,5 milliárd forintos keretösszeget szán a nemzeti könyvtár digitális infrastruktúrájának megújítására, és tavaly további 1, idén pedig 1,3 milliárd forintot az épülő rendszer fenntartására. Ennek az összegnek egy még nem ismert részéből kellene a könyvtárosoknak lementeniük a magyar internetet, pontosabban a .hu domén alá tartozó weboldalakat.

Az oldalak mentése, tárolása és a tartalom használható, kereshető formában való tálalása viszont számtalan további kérdést felvet, amelyek közül nem mindegyikre létezik frappáns válasz, legalábbis egyelőre.

Az olyan magánvállalkozások, mint a Google vagy a szintén az USA-ban, alapítványi pénzből, felajánlásokból működő Internet Archive (IA) hosszú évek óta folyamatosan mentik az interneten található tartalmat. Ezek a vállalkozások ráadásul globális léptékekben gondolkodnak, nem korlátozzák tevékenységüket például az „amerikai internetre”. Alapvető kérdés, hogy az államnak, illetve egy olyan központi büdzséből, vagyis az adófizetők pénzéből fenntartott intézménynek, mint az OSZK kell-e szerepet vállalnia a „magyar internet” archiválásában.

Az sem teljesen világos, hogy az archiválás mennyi adatot érint, az mekkora tárhelyen fér el, illetve mindez mennyibe kerül. Nem mindegy, milyen gyakran végzik a mentést, nem beszélve arról, hogy milyen oldalakat mentenek el, és főleg arról, hogy esetleg milyeneket nem. Ki dönti el, mi lesz a „nemzeti webtér” része?

További kérdés, hogy mennyire lesz használható egy olyan archívum, amely már a tervezéskor is figyelmen kívül hagyja a magyar felhasználók által feltöltött Instagram-fotókat, Tumblr- és Twitter-posztokat, Facebook-novellákat, YouTube-videókat és Disqus-kommenteket? Ezek ugyanis nyugodtan tekinthetők a „magyar internet” szerves részének, de miután nem a .hu domén alatt találhatók, archiválási szempontból szóba sem kerülnek.

Az internet mentésére vállalkozó projektekben ráadásul világszerte sem egységes a gyakorlata annak, ahogyan az archivált tartalomhoz utóbb hozzá lehet férni. Vajon közvetve vagy közvetlenül fizetni kell-e majd olyan cikkekért, képekért vagy videókért, amelyek eredetileg ingyen voltak elérhetők az interneten, majd közpénzből archiválták őket? Hogyan, honnan lehet majd hozzáférni az archívumhoz? Mi lesz a szerzői jogokkal és az adatvédelmi szempontokkal?

Magyar embernek magyar könyvtárat!

A magyar „webtér” első megközelítésben a .hu domén alá bejegyzett internetes tartalmak összessége, de közben mindenki számára világos, hogy az is a magyar webtér részét képezi, amit magyarok hoznak létre az internet bármely zugában – szögezte le nyitó előadásában Drótos László, az OSZK kísérleti webarchiválási projektjének a vezetője. Sőt, magyar webtartalom az a digitális tartalom is, ami ma már nincs az interneten, de egyszer ott volt, mondta Drótos, aki a Magyar Elektronikus Könyvtár, a MEK létrehozásával írta be nevét a magyar internet történetébe, és 2006 óta szorgalmazza a .hu domén alá tartozó oldalak archiválását.

A nemzeti webarchívumnak Drótos szerint nem kell a teljességre törekednie. Első körben bőven elég lenne a nyilvános vagy a korlátozottan nyilvános (például regisztráció vagy a felhasználási feltételek elfogadása után hozzáférhető) digitális tartalmakat elmenteni. Drótos szerint elsősorban a „nemzeti webtér” kulturális, tudományos, oktatási és közéleti részeire érdemes koncentrálni, az elsődleges cél pedig a kutathatóság, a bizonyíthatóság, a helyreállíthatóság és az idézhetőség, a stabil hivatkozás megteremtése.

A Magyar Elektronikus Könyvtárat életre hívó Drótos László, Kokas Károly és Moldován István a webarchiválási konferencián
photo_camera A Magyar Elektronikus Könyvtárat életre hívó Drótos László (balra), Kokas Károly és Moldován István a webarchiválási konferencián Fotó: kaleu/Visky Akos Laszlo

Az OSZK két könyvtárosból és két informatikusból álló gárdája 2017 tavaszán kezdte a konkrét előkészületeket, és idén ősszel sor került egy nagyszabású kísérletre is, amikor négy nap leforgása alatt a .hu domén alatt létező 739 ezer webszájt csaknem felét, 291 ezret lementették – ez összesen 73 millió weboldalt, 10 terabájtnyi adatot jelent.

Az adatokat a webrobot, az Internet Archive által kifejlesztett és az OSZK-ban is használt Heritrix virtuális konténerekbe gyűjti, és .warc fájlok formájában tárolja. Utóbbiak ebben a formában nem megtekinthetők, mert a megjelenítéshez további szoftverekre van szükség, statisztikai információ kinyerésére viszont már így is alkalmasak. Kiderül például belőlük a lementett oldalak fájltípusok, illetve fájlméret szerinti összetétele.

Milyen fájlokból áll a magyar internet?
photo_camera Milyen fájlokból áll a magyar internet? Forrás: Drótos László / OSZK

Ami a mentések gyakoriságát illeti, Drótosék a teljes .hu doménre a tervek szerint évente legfeljebb 1-2 alkalommal eresztenék rá az aratószoftvereket, míg a kitüntetett, az archiválásra különösen alkalmasnak ítélt webhelyek tartalmát ennél gyakrabban, akár akár hetente lementenék. Drótos elmondta: a kulturális örökség archiválásában kiterjedt tapasztalattal bíró könyvtáros, levéltáros, múzeológus szakértők mellett valamilyen szinten a felhasználók is beleszólhatnak abba, milyen oldalak kerüljenek az archívumba: az OSZK itt várja a javaslatokat.

Humán munkaerő kell a robotok mellé

A robotok által válogatás nélkül virtuális konténerekbe dobált tartalmakat mindenesetre a webkönyvtárosok egyelőre csak néhány száz, elsősorban közgyűjteményes dokumentumokat tartalmazó webhely esetében ellenőrizték és hozták böngészhető állapotba metaadatolással. A magyar webkönyvtárosok szerint az aprólékos műgonddal (és leginkább emberi erővel) végzett ellenőrzés szükséges ahhoz, hogy a webarchívum céljai (a kutathatóság, hivatkozhatóság, rekonstruálhatóság, stb.) teljesülhessenek. Ezeknek a kritériumoknak a csoport munkája nyomán most félezer könyvtári oldal, 846 galéria és múzeum honlapja, blogja, illetve néhány magánoldal felel meg. A tesztállomány, mint Drótos elmondta, nem tökéletes, de a demó elérhető az OSZK honlapján.

A marcali, a keszthelyi, vagy a pápai városi könyvtár oldalai mellett a Magyar Nemzeti Múzeum, a visegrádi Zugfőzde Pálinkamúzeum, az Országos Rabbiképző-Zsidó Egyetem, a MaNDA blog vagy például Ambrus Attila József magánoldala is a bemutató repertoár része. A táblázatban a piros pöttyről az OSZK által lementett változathoz lehet jutni, a kék pedig a mentés pillanatában látható oldalra vezet. A sárga pötty a linktérképhez, a lila a San Franciscó-i IA által mentett oldalra, a zöld az eredeti weboldalra, a barna pedig a metaadatokra, a hagyományos könyvtári katalóguscédulák digitális megfelelőire mutat.

Ki mondja meg, mit mentsünk el?

Miközben a demóverzióban bemutatott honlapok viszonylag változatos képet mutatnak, még a webarchiválásban érdekelt szakemberek is elbizonytalanodnak, amikor a „nemzeti webtér”, vagy annak reprezentatív mintájának meghatározása kerül szóba. Abban még könnyű egyetérteni, hogy a sok duplikátum, vagy a kizárólag levelezőszolgáltatásra fenntartott webhely esetében eleve nem kell az archiváláson gondolkodni – ezek kihagyásával kevesebb mint felére csökken a a lementendő tartalom mennyisége.

Csakhogy a fennmaradó mintegy 300 ezer webhely több tízmilliónyi, összesen több tíz terabájtnyi adatot tartalmazó oldalának mentését is nehézkes (más megközelítésben esetleg felesleges) lenne ellenőrizgetni, pláne felcédulázni. Az OSZK konferenciáján egybegyűlt szakemberek csak első megközelítésben értettek abban egyet, hogy a közgyűjteményes adatok archiválása és könyvtári rendszerű rendszerezése lenne igazán fontos. Az előadásokat követő kerekasztalbeszélgetésen a budapesti fővárosi levéltár képviseletében felszólaló Gerhard Péter például fontosnak tartaná a magántulajdonban lévő tartalmak, személyes blogok, vállalati adatsorok mentését is. Megeshet, mondta Gerhard, hogy a tömegek – úgy is, mint az archiválást finanszírozó nemzeti végfelhasználók – esetleg egészen mást tartanak archiválásra érdemesnek, mint a társadalomkutatók vagy a történészek.

A Petőfi Irodalmi Múzeumot képviselő Bánki Zsolt ezek után a Magyar Nemzeti Múzeum képviseletében beszélő Sz. Fejes Ildikóval szemben leszögezte, hogy a PIM részéről „ünneprontó jelleggel” nem érzi intézményi feladatnak az archiválási munkában való részvételt. Többek között azért nem, mert szerinte az különféle múzeumok, levéltárak sem tudásban, sem technológiában nincsenek felkészülve az időről időre frissülő és megújuló, a történetiség igényeit kielégítő mentésére.

Gerhard Péter és Bánki Zsolt a webarchiválási konferencián: ők sem tudják pontosan, kinek és mit kellene mentenie
photo_camera Gerhard Péter és Bánki Zsolt a webarchiválási konferencián: ők sem tudják pontosan, kinek és mit kellene mentenie Fotó: kaleu/Visky Akos Laszlo

Bánki szerint a feladat alapvetően a nemzeti könyvtáré, ugyanakkor kétségeket fogalmazott meg arról, hogy lehet-e és érdemes-e egyáltalán az internethez hasonló, dinamikusan változó és fejlődő „élő organizmusról” pillanatképek alapján bármilyen messzemenő következtetést leszűrni.

San Franciscóban közben vígan mentik a magyar webet

A világ legrégebbi és legátfogóbb webarchiválási projektje, a San Franciscó-i Internet Archive már 1996 óta mentegeti a weboldalak tartalmát. Vagy legalábbis annak a mindenki által látható és böngészhető részét, mert az IA gyűjtései sem terjednek ki az úgynevezett deep, illetve a dark webre, azaz egyes becslések szerint a teljes világháló mintegy 90-95 százalékára.

Az IA szerverein még így is mintegy 300 milliárd internetes oldalt őriznek, több száz terabájtnyi mennyiségben, köztük szép számmal magyar oldalakat is. Mint azt Drótosék a San Franciscó-i alapítványtól nemrégiben megtudták, náluk egymilliárd magyar weboldal van elmentve, 44 terabájtba tömörítve: Ambrus Attila Józsefnek az OSZK demóján elérhető archivált honlapját például a kaliforniai robotok négy alkalommal mentették le idén július 4-e és augusztus 18-a, vagyis alig másfél hónap alatt.

Az IA szerverein elérhető magyar vonatkozású adathalmazon viszont Drótos szerint nemigen lehetne komolyabb társadalomtudományi kutatást végezni, és szövegelemzéses vagy adatbányászaton alapuló következtetések leszűrésére sem alkalmas. Mégpedig azért, mert Kaliforniában senki nem katalogizálgatja és ellenőrizgeti a magyar webhelyek tartalmát, a mentés minőségét és hibamentességét. Ráadásul, miután szponzori adományokból tartja fenn magát és állandó forráshiánnyal küzd, akármilyen régóta működik is, Drótos szerint fennáll a veszély, az IA egyszer csak megszünteti a szolgáltatást.

Könyvtárba zárt internet

Ami a magyar internet archiválásának jogi részét illeti, Latorcai államtitkár elmondta: az „online tartalmak üzemszerű archiválása megfelelő jogszabályi háttér hiányában egyelőre nem lehetséges”. Az erre vonatkozó jogszabály már a tervezési fázisban van, bár azt nem tudni, hogyan tervezik kezelni a születőfélben lévő törvény a szerzői jogi és adatvédelmi szempontokat. Halász Annamária, az OSZK jogtanácsosa a novemberi konferencián elmondta: az uniós tagállamok webarchívumokra vonatkozó szabályozásának alapja az, hogy az általános szabályozástól eltérően is rendelkezhetnek, ha az adatkezelés archiválási céllal történik. Az adatkezelőnek nincs törlési kötelezettsége, ha az adatkezelés archiválási céllal történik, vagyis adott pillanatban mentett tartalom bármeddig őrizgethető.

Szerencsére nem a semmiből kell építkezni: korántsem Magyarország lesz az első ország, ahol törvénybe foglalják a világhálón található digitális tartalom mentési és kezelési módját. Több EU-tagállamban, valamint Izlandon, Kanadában, Norvégiában és Új-Zélandon is létezik központi webarchiválási szabályozás. A magyar törvény mintája Halász szerint a még épp EU-tagállam Nagy-Britannia lehetne, ahol 2013-ban indult el a UK Web Archive (UKWA).

A britek évente kétszer mentik le a .uk domén alatti oldalakat, de a fontosnak tartott webhelyeket ennél sűrűbben is archiválják. Az archívum egésze csak zárt hálózaton érhető el, egy-két nemzeti intézményben, létezik viszont egy nyilvánosan elérhető, kereshető, bár nem teljes archívum is.

A magyar elképzelések részben az észt gyakorlatból is merítenek. Észtországban a tárhelyszolgáltatóknak és a honlaptulajdonosoknak a könyvkiadókra érvényes kötelespéldány-szolgáltatáshoz hasonlóan be kell jelenteniük az online tartalmakat a nemzeti könyvtárnak. Ha pedig ay aratósyoftver nem boldogul egy-egy oldallal, például mert a honlaptulajdonos kitiltja a robotokat az oldalairól, a doménszolgáltatók kötelesek „beszolgáltatni” az érintett tartalmakat. Az észt nemzeti könyvtár által ily módon begyűjtött tartalom nem nyilvános, kizárólag zárt hálózaton elérhető a nemzeti könyvtárban. Hasonló rendszert több országban, például a szomszédos Ausztriában is működtetnek.

A magyar webarchívumhoz a felhasználók a tervek szerint kezdetben kizárólag a Széchényi könyvtárban férhetnek majd hozzá, ami meglehetősen anakronisztikusnak tűnik egy olyan globális médium esetében, mint az internet, ráadásul a hozzáférésért fizetni is kell majd, ha máshogy nem, olvasójegy formájában: a könyvtárba egy éves teljes árú belépő most 6500, egy napijegy 1200 forintba kerül. A projekt vezetői mondjuk úgy tervezik, hogy az eleinte csak az könyvtár olvasótermeiben elérhető archívum idővel az ország más könyvtáraiban is böngészhető lesz majd.