A múltat végképp letörölni: megőrizhetjük a világ adatállományát az utókornak?
Ez az írás egy háromrészes cikksorozat nyitó fejezete. Az első részben adatkezelési tendenciákkal, az archiválás gyakorlatával, az adathordozók megbízhatóságával foglalkozunk. A második részben körüljárjuk, hogy miért fontos a kontextus ismerete a megőrzött adatok helyes értelmezéséhez. A záró fejezetben bemutatjuk, hogy mennyire reménytelen vállalkozásnak tűnik a múlt konzerválása, és miért fontos, hogy mégis megpróbáljuk.
Az alexandriai könyvtárat, az I. Ptolemaiosz fáraó által alapított Muszeiont azért építették, hogy egy helyen gyűjtsék össze az emberiség tudáskincsét. Ambiciózus vállalkozás volt, a teljes gyűjtemény több százezer papírtekercset tett ki. Az időszámításunk előtti III. században ez volt a kor legnagyobb írásosemlék-gyűjteménye. És bár a könyvtár i. e. 48-ban Julius Caesar csetepatéi miatt legalábbis részben leégett, i. sz. 300-ra pedig teljesen megsemmisült, az azóta eltelt évszázadok alatt elképesztő adatmennyiséget halmozott föl az emberiség: 2013-ra nagyjából 1200 exabájtnyit (1200 milliárd gigabájt). Nincs annyi fa a világon, hogy ezt papírra nyomtathassuk, és ha lenne is, az egész bolygó felszínét elborítaná az 52 kötet vastagságú könyvréteg. Ha ezt az adatmennyiséget egyenlő arányban osztanánk szét a földlakók között, egy főre háromszázszor annyi adat jutna, mint amennyit az alexandriai könyvtárban őriztek.
A fenti számítások hét évvel ezelőtti adatokra épülnek. Hogy mekkora adatmennyiség-növekedésre számíthatunk a jövőben, azt jól illusztrálja az IDC piackutató cég adatforgalmi jelentése, a Sandisk megbízásából készített Data Age 2025. Eszerint a globális adatszféra mérete 2019-ben 45 zettabájt (45 ezer exabájt) volt, de 2025-re 175 zettabájtra nőhet – vagyis a hét évvel ezelőtti érték huszonhatszorosára.
Ekkora adatmennyiség még fél évszázada is elképzelhetetlen volt. 1955-ben, amikor a John Hancock Mutual Life Insurance Company számítógépre vitte az ügyfeleik adatait, kétmillió életbiztosítás digitalizálása egy 600 megabájtos adatállományt eredményezett. A maga idejében ez úttörő vállalkozás volt, hiszen az IBM csak egy évvel később mutatta be az első, 24 hüvelykes, egyenként 5 megabájt kapacitású mágneslemezt. De nem volt visszaút: 1960-ra az American Airlines is vérszemet kapott, és bevezette a digitális repülőjegy-foglalást, ami naponta 800 megabájtnyi adatot generált. Ami 60 éve egy óriásvállalat napi adatforgalma volt, az ma – kis túlzással – a telefonunk szoftverfrissítéséhez sem elég.
Bináris Bábel
A digitális adatmennyiség és -forgalom elképesztő ütemű növekedése láttán felmerül a kérdés: vajon létrehozható egy digitális alexandriai könyvtár, ahol az emberiség összes tudáskincsét felhalmozhatjuk? Igény, az volna rá. A modern adatkezelési elvek az adat-örökkévalóság (data forever) paradigmájára épülnek; arra a feltételezésre, hogy a már létrejött digitális adatok mindig és korlátlan mennyiségben hozzáférhetők lesznek. A nagyvállalatoknak egyre több lehetőségük van nagy mennyiségű adat tárolására és elemzésére; az előrejelzések szerint a jövőben ők állíthatják elő és kezelhetik a big data 60 százalékát. Ugyanakkor az önálló fogyasztóknak is nagy szerepük van a növekedésben. Az online streamerek térnyerése és a közösségimédia-platformok videómegosztásai miatt az online adatforgalom 70 százalékát ma a fel- és letöltött videók adják.
A műszaki fejlődés más területeken is adatforgalom-növekedéssel járt. Amikor a mammográfiai képalkotásban a régi kétdimenziós felvételeket háromdimenziósra cserélték, már nem néhány megabájtos képeket, hanem több gigabájtos állományokat kellett tárolni. Minél fejlettebbé válnak az orvosi képalkotó eszközök, annál nagyobb felbontású képeket készíthetnek, ami a tárolás drágulásához vezet. És akkor még szó sem esett a milliárdszám burjánzó IoT (internet of things) eszközökről, az intelligens szenzorokról, az önvezető autókról, a 4K filmek 5G hálózatokon való streameléséről, sem arról, hogy mi minden történik az interneten egy perc leforgása alatt.
Felfoghatatlanul sok adatról beszélünk. A data forever nem véletlenül tűnik utópisztikus gondolatnak, hiszen a gyakorlatba ültetésével már vannak (és lesznek is) problémák. Nem elég, hogy a digitális kor előtti információkat sem sikerült maradéktalanul archiválni, még az eleve digitális platformokra készült, az online térben megosztott adatokat sem tudjuk megőrizni. A weboldalakat archiváló szoftverek (crawler) a szó szoros értelmében felszínesek. A növekvő adatmennyiségen túl azzal is megszenvednek, hogy az erős HTML-orientációjuk miatt nem boldogulnak olyan programnyelvekkel, mint a Javascript, és csak a felszínt kapargatják.
Mi lenne, ha csak értékes adatokat archiválnánk? Jól hangzik, de ki dönti el, hogy mi értékes adat és mi nem az? Egy Facebook-felhasználót nem érdekli az aktivitása alapján felállítható viselkedési modellje, de a Facebook dollármilliárdokat keres vele a reklámpiacon. Az öt évvel ezelőtti forgalmi adatok hidegen hagyják az éjszakai műszakos autópálya-felügyelőt, de a forgalmimodell-tervezők közlekedési trendek leírására használhatják. A data forever vezérelve, hogy értéktelen adat márpedig nem létezik: megfelelő kontextusban az elavultnak hitt adat is új értelmet és értéket nyerhet. A bigdata-elemzésben például bevett gyakorlat a historikus és a valós idejű adatok összevetése, ami a gépi tanulási algoritmusok betanításának értékes nyersanyaga lehet.
A kézzelfogható múlt
Amíg az emberiség nem hagyta el a Gutenberg-galaxist, az archiválás elsősorban a papíralapú írásos emlékek megőrzését jelentette. Ez nem volt túl nehéz. A könyvek és a papírból készült dokumentumok évszázadokon át fennmaradtak a kolostorokban, könyvtárakban és levéltárakban. A Celtic Psalter csaknem ezer éves, de ma is olvasható, akárcsak a XV. századi Gutenberg-bibliák; ennél jobb eredményt csak kőtáblákkal lehet elérni. A XIX. századtól savas adalékanyagokat kezdtek használni a papírgyártásban, ami minőségromlással járt, de a papír ennek ellenére is az egyik legtartósabb adattároló formátum maradt. Bár egy körömnyi flash memórián egész könyvtárak férnek el, feltételezhető, hogy ezek nemhogy ötszáz, de ötven évig sem fogják megőrizni a rajtuk tárolt adatokat.
Az analóg adathordozók (fényképek, papíralapú dokumentumok, lemezek, mágnes- és filmszalagok stb.) azért is tartósabbak, mert nemcsak az információtárolásuk, hanem a sérüléseik is analóg jellegűek. A papír eláztatható, bemocskolható, lekávézható és összegyűrhető, de amíg a szöveg olvasható marad, az információtartalom sem sérül. A mágnesszalag, amit analóg hang- és képrögzítéshez használnak (orsós magnó, kazetta, VHS stb.) szakad és gyűrődik, de a néhány másodperces kép- vagy hangtorzulás csak a sérült szalagszakaszt érinti. A hanglemez karcolódik, de a jó állapotú ötvenes évekbeli korongok ma is kifogástalanul szólnak, és a lestrapált példányokból is kihámozható a zenei információ (némi pattogás kíséretében). A fénykép megfakulhat vagy elszakadhat, de a szakadás megragasztható, és még a száz-százötven éves homályos fotók is értelmezhetők.
Akkor az analóg médiatárolás jelentené az információbiztonság jövőjét? Korántsem. Az analóg technológiáknak is számos hátrányuk van:
- Fénykép. A színes nyomatok fény, hő, vagy magas páratartalom hatására fakulni kezdenek, de a színezőanyagok laborkörülmények között is bomlásnak indulnak: a színes nyomtatóval készült képek hónapok alatt veszíthetnek az eredeti színeikből. Csak az ezüst-haliddal emulgeált fekete-fehér fotók minősége marad változatlan.
- Film. A nitro-cellulóz film gyorsan bomlik, ráadásul gyúlékony is, a cellulóz-nitrátot leváltó cellulóz-acetátról meg csak később derült ki, hogy hajlamos a savasodásra. Az 1980-as években bevezetett poliészteralapú filmszalagok már jóval strapabíróbbak. Forrásanyagnak nem a legjobbak, mert a mozigépészek néha ellopnak néhány képkockányi filmet a vetítésre szánt tekercsekből. Ha megvan a mesterfelvétel, a veszteség pótolható, legfeljebb akkor bosszankodhatunk, ha a lemezes kiadások is meglopott filmszalagról készülnek (például a Kincs, ami nincs hazai DVD kiadása).
- Papír. A kén-dioxid és a salétromsav magas légköri koncentrációja sárgítja a papírt, az UV-fény kifakítja a nyomtatványokat, a páratartalom pedig beindíthatja a baktériumképződést. Szerencsére a papír archiválása nem bonyolult: egy fénymásolóval vagy egy szkennerrel sérülésmentesen kinyerhetjük belőlük az információt.
- Mágnes. Az évtizedeken át használt mágneses adathordozók (mágnesdobok és mágneslemezek, film- és magnószalagok, floppyk és magnetooptikai adattárolók) 10-20 éves élettartama megfelelő tárolással meghosszabbítható; a szakszerű archiválás gyakorlatát részletes útmutatók taglalják. De ha meg is fogadjuk az ezekben leírtakat, arra nincs megoldás, hogy ma már nem gyártják az ilyen adathordozókat olvasni képes lejátszókat és meghajtókat.
Digitális középkor
Mint látjuk, az analóg formátumok megőrzése is komoly nehézségekkel jár. És most képzeljük el, hogy a digitális adathordozók ennél is kényesebbek. A digitális adatokról elvileg számtalan, az eredetivel bitszintig egyező másolat készíthető minőségromlás nélkül, de már néhány kilobájtos adatvesztés is tönkreteheti az adatállomány információtartalmát. A digitális adatok nem kézzelfoghatók, mint egy könyv vagy egy lemez, de a tárolásukhoz használt eszközök azok, és igen érzékenyek a fizikai behatásokra.
Azokat a merevlemezeket, amik magas fordulatszámon pörgő lemezeken tárolják az adatokat, egy porszem is kinyírhatja, ha az olvasófej megkarcolja vele a lemezt. A pendrive-okat egy csepp víz hazavágja, ha korrodálódik vagy zárlatos lesz az adattároló csip, ráadásul a flash memóriák újraírhatósága is korlátozott. Az optikai adathordozókon egy karcolás nemcsak néhány másodpercnyi hangzó anyagot, hanem az egész lemezt tönkreteheti. És a digitális adatokat helyreállítani is nehezebb, mint az analógokat: egy indulatos Shift+Del rögtön megsemmisít egy dokumentumot, míg egy széttépett kézirat kellő türelemmel rekonstruálható.
A digitális adatoknak vannak közös, a formátumtól független jellemzői: a bitre pontos másolat készítése, a digitális hibajavítás és a tömöríthetőség. Noha tudjuk, hogy a veszteséges tömörítés minőségromlást okoz, meglepő látni a digitális tömörítés analóg jellegzetességeit. Ha sokszor küldünk el egy képfájlt egy üzenetküldő programban, a belső tömörítés egy idő után szemcséssé és homályosabbá teszi a fotót. (A népszerű mémeken is azért van annyi képzaj, mert sokszor küldték őket ide-oda.) Az összhatás egy agyonhallgatott magnószalagot idéz, amin egyre több a zaj és egyre kevesebb az információ.
Mentés másként
A digitális adatok könnyen sokszorosíthatók, de illékonyak is. Ha meg akarjuk őrizni, muszáj archiválni őket, vagy biztonsági másolatot készíteni róluk. Bár az archiválás (archiving) és a biztonsági másolat (backup) között látszólag nincs különbség, más célokat szolgálnak. Biztonsági másolatot rendszeresen használt adatokról kell készíteni: ha sérülnek vagy elvesznek, a másolatról állíthatjuk helyre őket. Az archívum viszont nem rendszeresen használt adatokból áll: ilyenek a fotók, a befejezett dokumentumok és a nem használt adatok, amiket nem törlünk. (Példa: a digitális zenegyűjteményünk régóta érintetlen mappái, vagy az a 2000 DOS-játék, amikkel sose fogunk játszani, de kinek van szíve letörölni?)
Az archiválásnál ezeket az adatokat elkülönített tárolón helyezzük el, ahol hosszú távon megőrizhetjük őket. Az archívumokhoz nehezebb hozzáférni, mint a biztonsági másolatokhoz, de nem is a gyors hozzáférés kedvéért hozzák létre őket. (A nem változó és a nem használt adatokat érdemes archiválni: így megspórolhatjuk a biztonságimásolat-készítést.)
Hogy milyen adathordozót használjunk a művelethez, az az archívum céljától is függ. Az adatok megőrzése más adatkezelési stratégiát kíván, mint a redundancia biztosítása: az előbbihez strapabíró, hűvös és száraz helyen tartott háttértárat kell használni, az utóbbihoz felhőalapú tárolót. Az alábbiakban bemutatunk néhány, archiválásra használt adathordozót.
- Merevlemez (költség: 16-20 dollár / terabájt). Ha archiválásról van szó, alighanem a merevlemez jut eszünkbe elsőként, mint megbízható, költséghatékony, nagy tárkapacitású adathordozó. Hátrányuk, hogy viszonylag nagy helyet foglalnak – főleg a 3,5 hüvelykes modellek –, és érzékeny a mechanikájuk. Az áramtalanított, elzárt helyen tartott merevlemezek 15 évig is megőrizhetik az adatainkat, de egy-két évente érdemes felpörgetni őket, hogy a mozgó alkatrészek ne vetemedjenek el.)
- Flash memória (költség: 235 dollár / terabájt). Az USB-s pendrive-ok, a memóriakártyák és az SSD (solid-state disc) meghajtók a flash technológiára épülnek. Archiválásra is használhatjuk, de ez nem lenne költséghatékony megoldás. Mivel a merevlemeznél fiatalabb technológia, a flash memóriák tartósságát nem ismerjük pontosan – mindenesetre vannak 10 év után is hibátlanul működő memóriamodulok. A flash memóriatárolók jóval kisebbek és kevésbé érzékenyek, mint a mozgó alkatrészes merevlemezek, így a használatuk sem igényel akkora elővigyázatosságot.
- Blu-ray lemez (költség: 19,20 dollár / terabájt). A Blu-ray lemezeket elsősorban a filmipar használja, de ha van egy lemezírásra képes meghajtónk, adattárolásra is használhatjuk őket. A szabvány specifikációja szerint a lemezek évszázadokon át olvashatók maradnak, de ezt érdemes fenntartásokkal kezelni: ma már tudjuk, hogy a kompakt lemezek (cd) élettartamára vonatkozó becslések is túl optimisták voltak. A Blu-ray mégis praktikus tároló lehet az adatok archiválásához – legfeljebb az átlagosnál lassúbb írási sebességet említhetjük, mint negatívumot.
- LTO szalagok (költség: 11,50 dollár / terabájt). A hétköznapi felhasználók valószínűleg nem is hallottak még az LTO-ról (Linear Tape-Open), pedig a mágnesszalag-alaú adathordozó a kiváló ár-érték aránya miatt igen népszerű – legalábbis az archiválással foglalkozó szakértők körében. Az amatőröket elijesztheti a magas kezdőár. 20 darab LTO-7 adatkazettáért 1500 dollárba és a meghajtó is legalább ennyibe kerül. Az egy terabájtra lebontott tárolási költség igen kedvező, de mivel a befektetés hosszú távon térül meg, főleg azoknak éri meg, akik több száz terabájtos archívumokat kezelnek.
- Cloud / felhő (költség: szolgáltatónként változik). Az adatkezelési szakértők szerint az egyre növekvő adatmennyiség előbb-utóbb a felhőalapú adattárolókban fog kikötni. A bigdata-elemzéssel foglalkozó cégeknek ez jó hír, és a felhasználónak is kényelmes lehet, hogy nem kell por-, füst- és páramentes helyen őrizni az adathordozókat, hanem fix havidíjas, tervezhető költségű adattárhely-szolgáltatásokat vehetnek igénybe. A felhő hátránya, hogy érzékeny adatok tárolására nem alkalmas, és az adataink biztonsága az adatkezelőtől, illetve a rendszer hekkertámadások elleni védekező képességétől függ.
Vajon meddig és mennyire lesznek megbízhatók a ma használt archiválási eszközök és módszerek? Lesz USB-A meghajtó az öt év múlva megjelenő számítógépekben? Hát optikai meghajtó? (Aligha; már a maiakból is kispórolják őket.) A holnapi szoftverkörnyezet felismeri majd a tegnapi fájltípusokat? Az eddigi tapasztalatok alapján semmire sincs garancia.
Az eddigiekből következik, hogy az archiválás sosem lehet egyszeri, befejezhető és lezárható aktus. Folyamatos munka ez, versenyfutás az idővel, melynek során a tegnapi adatokat próbáljuk kompatibilissé tenni a holnap szoftver- és hardverkörnyezetével. Már ha sikerül megőriznünk és helyesen értelmeznünk az adatokat – de erről majd a folytatásban beszélünk.
Kapcsolódó cikkek a Qubiten: