Az erdélyi magyar sajtótörténet több százezer oldalnyi archívuma vált kereshetővé
Az Eötvös Loránd Tudományegyetem (ELTE) vezetésével működő Digitális Örökség Nemzeti Laboratórium (DH-LAB) és az Erdélyi Digitális Tudománytár (Digitéka) közös projektje keretében több százezer oldalnyi erdélyi magyar sajtóanyag vált kereshetővé és hosszú távon megőrizhetővé, adja hírül az ELTE.
A munka első szakaszában 26 erdélyi történeti újság mintegy 273 ezer oldalnyi képfelvételét alakították kereshető szövegfájlokká optikai karakterfelismerés (OCR) segítségével, majd további 60 ezer oldalnyi anyagot.
Így összesen 333 492 oldal magyar nyelvű erdélyi sajtóanyag feldolgozása készült el. Az elkészült állományokat a Digitéka számára kétrétegű, kereshető PDF formátumban, egységes vízjellel ellátva adták át. A projekt nem pusztán a digitalizálásról szólt, az OCR-folyamatok hatékonyságának növelése érdekében a projektben résztvevő felek – az ELTE kutatási és fejlesztési kompetenciáira és infrastruktúrájára is támaszkodva – közösen fejlesztették a dokumentumok szerkezeti felismerését végző, úgynevezett layout analysis rendszert. Ez az adatállomány egy olyan, kifejezetten az erdélyi és magyar történeti dokumentumokra optimalizált layout-felismerő rendszer kialakítását alapozza meg, amely számottevően javítja az OCR eredmények pontosságát.
Kapcsolódó cikkek a Qubiten:
A propaganda nem vész el, csak átalakul: szabadon kutathatók a Magyar Rádió 1951 és 1992 közötti adásai
Az Arcanum és a Blinken OSA Archívum bő negyven év rádióműsorait digitalizálta és tette elérhetővé írásos formában. A kétmillió oldalas anyag hiánypótló, már csak azért is, mert a Magyar Rádió archívumában gyakorlatilag lehetetlen kutatni.
Ingyen hozzáférhetőek a timbuktui könyvtár kincsei
A Google Arts and Culture negyvenezer dokumentumot tett elérhetővé, a digitalizált kéziratok között akad orvostudomány, filozófia, de még gyereknevelésről is esik bennük szó. A kultúrkincsek 2012-ben majdnem elvesztek, most már nem fenyeget az a veszély, hogy máglyán kötnek ki.