Ezeréves nyelvek és kétnapos ételfotók: mit ér a mentett adat, ha nem tudjuk értelmezni?

Nincsen jövőnk tudomány nélkül, nincsen Qubit nélkületek. Támogasd a munkánkat!

Ez az írás egy háromrészes cikksorozat második fejezete. Az első részben adatkezelési tendenciákkal, az archiválás gyakorlatával és az adathordozók megbízhatóságával foglalkoztunk. Ebben a részben körbejárjuk, hogy miért fontos a megfelelő kontextus biztosítása a megőrzött adatok értelmezéséhez. A záró fejezetben bemutatjuk, hogy mennyire reménytelen vállalkozásnak tűnik a múlt konzerválása, és miért fontos, hogy mégis megpróbáljuk.

Howard Besser, a New York-i Egyetem professzora, az amerikai Kongresszusi Könyvtár digitális archívumának társalapítója siralmasnak tartja a modern adathordozók tartósságát. Az élettartamukat években mérhetjük, nem évtizedekben vagy évszázadokban. Egy 1998-as konferencián Besser és kollégái kifejtették, hogy a tökéletes adathordozó egy platinarúd, amibe képeket és szövegeket gravíroznak lézerrel, majd elássák egy nukleáris hulladéktároló mellett; így sosem felejtenék el, hol van.

Lesújtó véleménye ellenére Besser úgy látja, hogy az archiválásban nem az adathordozók tartóssága okozza a legtöbb fejfájást. Az archivisták nemcsak az adatok szakszerű tárolásával, hanem az adatok kinyerésével, feldolgozásával és értelmezésével is foglalkoznak. Besser szerint az adatok dekódolása a modern archiválási gyakorlat leggyengébb láncszeme, pedig ez nélkülözhetetlen ahhoz, hogy kinyerjük az információt az adatokból.

Lost in translation

Az adatot és az információt gyakran használjuk szinonimaként, pedig külön fogalmakról van szó. Az adatok olyan elemi ismeretek, amikből gondolkodással vagy gépi feldolgozással információt nyerhetünk ki. Vegyünk például egy bináris kódot! A „01000011” számsort a programozásban járatlanok egyesek és nullák összefüggéstelen sorozatának látják. Egy számítógép többféleképpen értelmezheti a kódot. Attól függően, hogy melyik hardveregység dolgozza föl, a számsor jelentheti

  • a C betűt (ha a karakterkódoló interpretálja);
  • a 67-es számot (ha számjegyként értelmezi);
  • egy 67-es sötétségértékű képpontot (ha a videokártya olvassa be);
  • vagy egy 67 decibeles hangmintát (ha a hangkártya dolgozza fel).

A „01000011” a nyers adat; a kimenet (a hang, a képpont színe, illetve a megjelenített szám vagy karakter) maga az információ.

Vegyünk egy másik példát, egy ógörög írásos emléket! Az eredeti szöveg karakterjegyei az információs alapegységek, az ógörög nyelv ismerete pedig az információ értelmezéséhez szükséges kontextus. Enélkül az archivált szöveg olyan értelmetlen lenne, mint a Voynich-kézirat. Ugyanígy a digitális adatok értelmezéséhez is fontos a megfelelő kontextus. Egy kilencvenes évekbeli Microsoft-szoftver futtatásához nélkülözhetetlen a Windows 95 operációs rendszer és az azt futtatni képes hardverkörnyezet. 20-25 éve ez nem jelentett problémát, de ma már ritkaságszámba mennek az ilyen eszközök.

Aki digitális archívumot tervez, annak fel kell készülnie a szoftver- és hardverkörnyezet változásaira is. Ma már kevesen emlékeznek a pfs:Write szövegszerkesztőre, pedig a nyolcvanas-kilencvenes években legalább olyan népszerű volt, mint ma a Microsoft Word docx-e. A mai szövegszerkesztők viszont már nem ismerik föl és nem kezelik az alkalmazás natív fájltípusát.

16 milliméteres film által homályosan

Biztosan sokan ismerik a médiafilozófus Marshall McLuhan híres mondását, miszerint a médium maga az üzenet. Aki dolgozott adathordozókkal, és belekóstolt az archiválásba is, alighanem egyetért McLuhannel – még ha máshogy értelmezi is a szavait. Az adattároló (médium) ugyanis az adatok, illetve az adatokból kinyerhető információ minőségére is kihat.

Hogy ez miért baj? Azért, mert a kortársaink többsége Google-re cserélte a memóriáját, felhőalapú fotóalbumban őrzi az emlékképeit, és mobilkamera által homályosan lát. Eldobtuk az emlékezőtehetségünket, és könnyen hozzáférhető adatokkal helyettesítettük. Persze, miért pazarolnánk az agykapacitásunkat? Sose jegyezz meg semmit, aminek utána is nézhetsz, mondta Albert Einstein; ő még nem tudhatta, hogy az információ torzulása az emlékeinkre is kihat. Egy zenei újságíró, Simon Reynolds a Retromania: Pop Culture’s Addiction To It’s Own Past című könyvében az alábbi sztorival illusztrálta, hogy ez milyen következményekkel járhat.

„Az 1998-as Rock ’N’ Roll Suicide újra színpadra vitte az 1973 júliusában tartott Ziggy Stardust búcsúkoncertet – amin David Bowie megölte az alteregóját –, pontosan 25 évvel a megrendezése után. Az álságosságnak ez a szintje – hogy egy színészt bíznak meg vele, hogy játssza el a saját meta-rocksztár énjét alakító Bowie-t – ellenállhatatlannak ígérkezett.

Forsyth és Pollard ezúttal saját tribute-zenekart raktak össze. A Still Ills-szel szemben ez egy történelmi esemény rekreációja volt, így bőségesen meríthettek az esemény dokumentációjából; többek között Donald Pennebaker filmjéből (Ziggy Stardust and the Spiders from Mars), illetve a rajongók által készített szupernyolcas felvételekből.

„Csakhogy – mondta Forsyth – Pennebaker filmjén a koncert vörösnek látszott; mint kiderült, a felvételhez használt 16 milliméteres filmmel volt gond. Mégis úgy döntöttünk, hogy vörös megvilágítást használunk a koncerten, mert az emberek annyiszor nézték meg a filmet – még azok is, akik ott voltak a koncerten –, hogy a látottak eltorzították az emlékeiket.”

A Ziggy-filmben volt egy másik torzítás is: a koncertet fényképező fotósok vakuinak villanása jóval nagyobbnak tűnt a celluloidon, mint amilyennek azok látták őket, akik ott voltak a koncerten. „Stroboszkópot használtunk, hogy ugyanazt a hatást idézzük elő.”

Az információveszteség megváltoztatja a múlthoz, az időhöz és az emlékeinkhez fűződő viszonyunkat. Ezért fontos, hogy mindent a lehető legjobb minőségben őrizzünk meg – különösen akkor, ha az információt nemcsak kortárs, hanem történelmi kontextusban is vizsgálni akarjuk.

Az információ a körülmények áldozata

A Compact Oxford English Dictionary 2005-ös kiadása így definiálja a kontextust: „Azok a körülmények, amik egy esemény, állítás vagy egy ötlet keretét adják”. Christopher A. Lee 2010-es tanulmánya (A Framework For Contextual Information in Digital Collections) szerint a kontextus a természeténél fogva viszonylagos jellegű: adott egy célentitás (target entity, TE), és adottak azok a körülmények, állapotok, tények és összefüggések, amik nem a célentitás részei, de szoros kapcsolatban állnak vele. Lee szerint a különböző tudományterületek más-más módon definiálják a kontextust, de alapvetően három kategóriát különíthetünk el:

  • K1: a célentitást övező szimbolikus kifejezések vagy ábrázolások halmaza, amik megkönnyítik az értelmezést. Ez a kontextus helyezi el a célentitást egy információs rendszeren belül. Ilyen viszonyrendszer létesül az egyazon kategóriába tartozó dokumentumok, valamint a fogalmak és állítások értelmezéséhez szükséges elméletek között. De ide sorolható a kontextuális elemzés is, ami elősegítheti, hogy egy művet a műhöz kapcsolódó szövegek alapján értelmezhessünk.
  • K2: a célentitás megjelenésének vagy előfordulásának objektív, illetve mesterségesen konstruált jellemzői. Ide soroljuk a célentitást körülvevő, objektív vagy interszubjektív módon felismert tényezőket. Ez lehet az egyén pozíciója a szervezeti hierarchiában, vagy objektumok egymáshoz viszonyított helyzete és elrendeződése, esetleg más objektumok létezése és hozzáférhetősége.
  • K3: A cselekvő mentális vagy fizikai állapotának, szándékainak, identitásának vagy tapasztalatainak szempontjai, amik befolyásolják, hogy egy adott helyzetben hogyan észlel, értelmez és cselekszik. Ez a kontextus a cselekvő szubjektív állapotát jelöli. Nemcsak azt írja le, hogy ki honnan és milyen szempontból vizsgálja az eseményeket, hanem azt is, hogy milyen a kapcsolat a cselekvő és az őt körülvevő világ között.

A modern digitális archívumok nemcsak megőrzik, prezentálják és elérhetővé teszik az adatokat, hanem kontextust is teremtenek közöttük. Csakhogy a történelmi és az archiválási kontextus nem ugyanaz. A nyers adatok egymáshoz fűződő viszonyát a metaadatok, a természetes nyelvfeldolgozás, az adatok időbeli relációja és a hálózati analízis határozza meg. A historikus kontextus abban segít, hogy megértsük az adatok keletkezési körülményeit.

Az eltűnt idő nyomában

Illusztráljuk az elhangzottakat egy közérthető példával, az evés és az étel ábrázolásával. Ötszáz éve is ettünk, és ötszáz éve is készültek ételeket ábrázoló képek. Ma is eszünk, és ma is készítünk ételfotókat; milliószámra burjánzanak az Instagramon. A tematikai hasonlóságot fél évezred távlatából is felismerhetjük a Frans Snyders- és Joachim Beuckelaer-csendéletek, illetve a modern ételfotók között: mindkettő ennivalókat ábrázol, és nagyjából realisztikus lenyomatai a kornak, amelyben megalkották őket. Csakhogy a XVI. században teljesen más funkciója volt az ételek ábrázolásnak. Akkoriban az ennivalók (különösen az egzotikus gyümölcsök) méregdrágák voltak. A minőségi étel luxus volt; egy fényűző lakoma akkora kiváltságnak számított, mint ma egy XVI. századi festmény birtoklása.

Az instagramos ételfotóknak nincs több rétegű üzenetük: annyit közölnek, hogy van ennivalónk, amit megehetünk, telefonunk, amivel lefotózhatjuk az ennivalót, és internetünk, amivel megoszthatjuk a fotót. Ki tudja, talán 500 év múlva ennek is lesz másodlagos jelentéstartalma, ha a jövő történészei úgy vizsgálják majd a XXI. századi emberek étkezési szokásait, ahogy ma Snyders festményeit elemzik a művészettörténészek, illetve a gyümölcsök evolúcióját kutató biológusok. A naponta milliószámra készített ételfotók mai funkciója, illetve a hétköznapiságuk miatt azonban a Snyders- és Beuckelaer-festmények eredeti szerepe és funkciója is átértelmeződik. Az eredeti jelentéstartalom megismeréséhez értenünk kell a kortárs kontextust is.

Hogy mi köze mindennek az archiváláshoz? Az, hogy a régi adatok megőrzésekor nemcsak arra kell törekednünk, hogy futtatással kinyerhessük belőlük az információt, hanem arra is, hogy a felhasználó is helyesen értelmezhesse azt. Ezért foglakozunk ennyit a kontextussal; így érthető meg, hogy az adatok megőrzése nem a tárolási módszer kiválasztásánál kezdődik, és nem az adatok másolásával ér véget. Legalább ilyen fontos szempont az adatok rögzítésének módja, az átmeneti tárolás kérdése, az információ sértetlenségének biztosítása, az adatreprezentációs módszerek biztosítása, és a kortárs viszonyok ismerete.

Járvány, klímaváltozás, forradalmak – mindez csak három dermesztő arca annak a felbolydult világnak, ami ránk vár. Lesz még neki jó pár. Ha teheted, segítsd a munkánkat, mi megháláljuk a bizalmadat, és ebben a nagy zavarodottságban hitelesen, alaposan és közérthetően magyarázzuk el, hogy a legégetőbb kérdésekre milyen válaszokat adnak a sárgolyó legnagyobb elméi. Maradj velünk. Támogatom a Qubit szerkesztőségét!

Kapcsolódó cikkek a Qubiten: