53. évfolyam (2006) 6. szám

Eredeti cim:LIU, Yan Quan: Best practices, standards and techniques for digitizing library materials: a snapshot of library digitization practices in the USA.

E-tmt – Jó példák, szabványok és módszerek a könyvtári dokumentumok digitalizálásához: állapotjelentés az amerikai könyvtárak digitalizálási gyakorlatáról

Bevezetés

Az elmúlt néhány évben a könyvtári digitalizálás jelentős hatást gyakorolt a könyvtártudományra. Az Egyesült Államokban a digitalizálás a napi munka része lett a Kongresszusi Könyvtártól az egyetemi könyvtárakig, a közkönyvtáraktól az intézményi könyvtárakig. Ahogy egyre több könyvtár digitalizálja saját gyűjteményét, a folyamatot körülvevő elvi megfontolások és technológiai problémák egyre fontosabbak lesznek. A Múzeumi és Könyvtári Szolgáltatások Intézetének (Institute of Museum and Library Services) felmérése alapján az egyetemi könyvtárak egyharmada, a közkönyvtáraknak pedig egynegyede végez digitalizálást, jóllehet sokuknak nincsenek irányelveik ezeknek a munkálatoknak a formáját és kivitelezését illetően. A beszámoló indítványozza, hogy a könyvtáraknak meg kell valósítaniuk a digitalizált anyagokra vonatkozó szabványok, a megőrzés és a kiválasztás célkitűzéseit. Technikailag több ezer könyvtárnak van működő digitális könyvtári állománya, amelyik a többivel nem kompatibilis, közös keresésre alkalmatlan, és sok esetben nehezen integrálható. Kutatók és gyakorlati szakemberek arra voltak kíváncsiak, hogy milyen eljárásokat fejlesztettek ki a könyvtári digitalizálás problémáinak kezelésére.

A szerző, a Dél-Conneticuti Állami Információ- és Könyvtártudományi Egyetem Kommunikációelméleti Intézetének „Digitális könyvtárak” és más kapcsolódó kurzusok előadója, diákjai segítségével vizsgálta a témát 2003 vége és 2004 eleje között. Az adatgyűjtést online felméréssel, széles körű kutatással, a vonatkozó szakirodalom feldolgozásával és internetes információkereséssel végezték. Több mint 100 egyesült államokbeli egyetemi, iskolai, szak- és közkönyvtár, valamint információközpont digitalizálási projektjét tanulmányozták. Az állapotjelentés, amit itt közzéteszünk, adott időre vonatkozik.

A felmérést motiváló kérdések azok voltak, amelyeket meg kell vizsgálni a könyvtári digitalizálás mérlegelése során:

  • Milyen dokumentumokat digitalizálnak a könyvtárak digitális gyűjteményük számára?
  • Milyen szabályokat, irányelveket és/vagy szabványokat használnak a digitalizálási gyakorlat során?
  • Milyen, a szerzői joggal és szellemi tulajdonjoggal kapcsolatos aktuális információpolitikai kérdések vonatkoznak a könyvtári digitalizálásra?
  • Melyek azok a technológiai kérdések, amelyek a legfontosabb problémákat és aggodalmakat jelentik a könyvtári digitalizálásban?
  • Milyen tendenciák vagy érdekeltségek érvényesülnek a könyvtár-technológia piacán a szoftver- és hardverfejlesztésekben, a rendszertervezésben és a szolgáltatásokban a digitalizálási projekteknél?

Jó példának számít minden olyan eljárás, amelyet megfelelően alkalmaznak, egyenletesen kiemelkedő eredményt mutat fel, és ezért viszonyítási pontként használható az azonos feladatok alternatív módszerekkel történő végrehajtásának megítélésében.

Milyen dokumentumokat digitalizálnak?

Az Egyesült Államokban leginkább az egyetemi könyvtárak vesznek részt digitalizálási projektekben, általában más intézményekkel, például nemzeti könyvtárakkal és múzeumokkal együttműködésben. Ezek általában sokkal nagyobb volumenűek, mint az iskolai vagy közkönyvtári próbálkozások, aminek az az oka, hogy az egyetemi könyvtárak könnyebben férnek hozzá történelmi dokumentumokhoz és tárgyakhoz, ráadásul sokkal több anyagi támogatást és alapítványi segítséget kapnak az anyagok hosszú távú megőrzéséhez. Az egyetemi könyvtárak más országokból származó régi folyóiratokat és tárgyakat, pénzérméket, művészeti és zenei anyagokat, gyermekirodalmat, történelmi képeket és dokumentumokat digitalizálnak, amelyek nemzetközi és kulturális érdeklődésre tartanak számot elsősorban Amerika és Európa történelméből. A közkönyvtárak inkább a kisebb, helytörténeti gyűjteményekre koncentrálnak. Az iskolai könyvtárak elsősorban a nagyobb könyvtárak online gyűjteményeihez kapcsolódó virtuális könyvtárakat, más könyvtárak speciális közösségek igényeit kielégítő digitális gyűjteményeket hoznak létre.

1997 előtt a digitalizálási projektek elsősorban nagy egyetemi könyvtárakhoz kapcsolódtak, napjainkban azonban a közkönyvtárakban is növekszik a számuk. Scally 1997-es felmérésében csak az 50 000-en felüli közönséget kiszolgáló közkönyvtári igazgatókat kérdezték meg. A válaszok alapján megállapították, hogy elsöprő többséggel a fényképgyűjtemények (77,1%) élveznek prioritást a digitalizálás során. Ezt követték a kéziratok (31,2%), könyvek és naplók (28,6%), képeslapok (25,7%), térképek és folyóiratok (14,3%), hangfelvételek (2,9%) és más dokumentumok (20%). Miért választották az igazgatók ezeket a dokumentumokat? Egyharmaduk mondta azt, hogy hozzáférhetővé akarták tenni a sérülékeny anyagokat, míg a különleges gyűjteményekhez való internetes hozzáférés 66,7%-ban volt motiváló tényező.

Az Internet Archívum (The Internet Archive, 1996) nonprofit szervezet. Célja, hogy szabad, ingyenes és folyamatos hozzáférést valósítson meg történelmi és kulturális digitális gyűjteményekhez. Ezért fejlesztették ki saját digitális gyűjteményüket, és ösztönzik más szervezetek közreműködését. Gyűjteményük szöveges, hangzó és mozgóképállományokat tartalmaz. A kezdeményezés alapjának elsődleges motivációja a civilizáció rögzített alkotásainak csökkenése, valamint a világméretű érdeklődés támogatása a gyűjteményezés és az internetes könyvtárak terén. Szöveges gyűjteményeik: Digitális Gyermekkönyvtár (Childrens' Digital Library), Gutenberg Projekt (Gutenberg Project), Arpanet, Millió Könyv Projekt (Million Book Project) és a Nyitott Forrás Könyvek (Open Source Books). Érdekes, nyomtatható könyvgyűjteményük útmutatót ad a könyvek nyomtatásához és kötéséhez.

Az Internet Archívum hanganyaggyűjteménye élőzenei anyagok átörökítését szolgálja. A gyűjteménybe kerülés feltétele meglehetősen különös: azoknak a művészeknek a felvételeit foglalja magába, akik engedélyezik ennek a nem kereskedelmi, élő hanganyagnak a szabad terjesztését és letöltését. A zenészeknek elmondják, hogy ezeket az előadásokat rögzíthetik, vagy eladhatják, de kereskedelmi anyagok nem lehetnek részei a gyűjteménynek. A művész megtartja a szerzői jogot, tehát a szokásos korlátozások érvényesek. A legtöbb felvételt a rajongók készítették.

Az Internet Archívum másik érdekes alkotóeleme a Régmúlt Gépezet (The Wayback Machine, 2003); lenyűgöző próbálkozás a web archiválására URL és dátum alapján. Az 1996-ban indult kezdeményezés elérhetővé teszi a közönség számára a honlapokat függetlenül attól, hogy mi volt eltűnésük oka. Az archívum 11 billió oldalt tartalmaz, amellyel jogosan tart igényt a világ legnagyobb gyűjteménye címre, megelőzve ezzel a Kongresszusi Könyvtárat (2003-ban).

Az amerikai iskolai könyvtárak pénz- és időhiány miatt elsősorban ugrópontokat tartalmazó digitális könyvtárakat hoznak létre más online gyűjteményekhez, ahelyett, hogy maguk digitalizálnának. „Elengedhetetlen egy nagyszámú ugrópontgyűjtemény létrehozása, szabványok készítése az információ közlésére, és az ezekhez való ragaszkodás.” Az internetalapú gyűjtemények használatával, mint például a Kongresszusi Könyvtár Amerika Emlékezete Gyűjtemény (Library of Congress' American Memory Collection) és más történelmi gyűjtemények, a tanárok arra ösztönzik a diákokat, hogy történészek legyenek.

Más könyvtárak különleges gyűjteményeket digitalizálnak a fogyatékkal élők igényeinek kielégítésére. A Kanadai Nemzeti Intézet olyan digitális könyvtárat fejleszt, ami lehetővé teszi „az elektronikus könyvek Braille és nagybetűs verzióinak nyomtatását, valamint hangoskönyvek letöltését az internetről.”

Habár a megőrzés az elsődleges célja számtalan digitalizálási projektnek az Egyesült Államokban, a legtöbb projekt végcélja a szélesebb hozzáférés lehetővé tétele ezekhez a gyűjteményekhez, elősegítve az oktatást, a megismertetést és a további kutatásokat.

Milyen szabványokat és irányelveket használnak a könyvtári digitalizálásban?

A könyvtári digitalizálási gyakorlatokban használt szabványok és irányelvek projektenként változnak. Az évek során az egyetemi, iskolai és szakkönyvtárak kialakították saját digitalizálási eljárásukat. Néhány régebbi és több újabb szabvány széles körben elfogadott, és alkalmazzák őket a könyvtári digitalizálási projektekben. A metaadat- és képminőségszabványok és irányelvek általánosan keresettek a digitalizálási projektek tervezésekor. A Digitális Könyvtári Szövetség (Digital Library Federation) honlapján található szabványok közül néhányat kiemelten használnak.

A mai napig elterjedt metaadatszabványok a Dublin Core, az RDF, az EAD, a TEI, az SGML, az XML és a HTML. A MARC formátum szabványos adatcsere-formátumként használatos a katalógusrekordok elektronikus megjelenítéséhez; ezt használják a Kongresszusi Könyvtár Amerika Emlékezete digitális könyvtári projektben is. A MARC bonyolultsága, és a forrásmunkák közötti komplex hierarchikus és más kapcsolatok kifejezésének nehézségei miatt, más szabványok is elterjedtek, mint például a Dublin Core és az RDF (Resource Description Framework = Forrásleíró keretrendszer). Habár kifejezetten a webhez fejlesztették ki, a Dublin Core 15 elemes metajelölő mezőinek túlzott egyszerűsége miatt vegyes volt a fogadtatása. Az RDF háromrészes szabályát, ami a forrást, a tulajdonságot és a metajelölési utasítást tartalmazza, hasonlóan fogadták. A Dublin Core és az RDF korlátai a komplex metaadat-leírás során derülnek ki.

A másik részletes és kidolgozott online leírási szabvány az EAD (Encoded Archival Description = Kódolt levéltári leírás). A TEI-t (Text Encoding Initiative = Szövegkódolási Kezdeményezés) eredetileg közösségalapú szabványnak fejlesztették ki szövegek kódolására és cseréjére. Azóta „nemzetközi és interdiszciplináris szabvánnyá lépett elő, amely segít a könyvtáraknak és múzeumoknak, kiadóknak és az egyes kutatóknak bemutatni irodalmi és nyelvészeti szövegeket online kutatás és tanítás céljából, egy kódolt sémával, mely maximálisan kifejező és minimálisan elavult.” (TEI weboldal.)

A metaadatszabványok egyre rugalmassabbak, egyre komplexebb jelölési kérdésekkel számolnak, de még mindig relatíve könnyű őket használni. Az SGML és az XML metaadat mezőjelölő lehetőségeket kínál, amelyek más metaadat-szabványokkal kombinálva sokkal nagyobb rugalmasságot eredményez; a Virginiabeli Alexandriai Könyvtár történelmi gyűjteménye például előszeretettel használ XML-t a forrásdokumentumok jelölésére.

A képminőségre vonatkozó szabványokat szintén a független könyvtári projektek és digitális könyvtári szervezetek tették népszerűvé. A Vizuális Források Egyesületének (Visual Resources Association = VRA, 2004.) alapvető kategóriái leírják a vizuális kultúra alkotásait, és az azokat dokumentáló képeket. A könyvtári kezdeményezések a minimális dpi használatra, a bitmélységre, a tömörítésre és a fájlformátumokra vonatkozó szabványokat dolgoznak ki a digitális könyvtári galériák és az elsődleges, ún. mesterpéldányokra. A Brown Egyetem Afro-Amerikai kottagyűjtemény képleírásai például a mesterképeket jó minőségben tartalmazzák: TIFF formátumban 300 dpi-vel, míg a képgalériában lévő képeket JPEG formátumban, speciális pixelméretben és színmélységben tárolják (Library of Congress, 2003.). A PDF fájl az egyik legelterjedtebb formátum a szöveges és képi állományok formázására.

A Digitális Könyvtári Szövetség saját ajánlásokat és útmutatókat állított össze a jó példa kritériumaihoz. Ez elsősorban a metaadat-kódolást, átvitelt, elektronikus erőforrás-menedzsmentet, útmutatást a gyűjteményépítéshez, tartalmat, engedélyeket, monográfiák sokszorosítását, képminőség és keresési protokollokat tartalmaz.

Milyen szerzői jogok vonatkoznak a könyvtári digitalizálásra?

A szerzői jog az egyik legfontosabb kérdés a könyvtári gyűjtemények digitalizálásában. A digitalizálás elkezdését megelőzően kell a könyvtárosoknak átgondolniuk, hogy a digitalizálandó dokumentum megsérti-e a szerzői jogot vagy a szellemi tulajdonjogot.

Az Egyesült Államok 108 bekezdésből álló szerzői jogi törvénye kimondja, hogy a könyvtáraknak és levéltáraknak joguk van másolatok készítésére még akkor is, ha a művek szerzői joggal védettek. A könyvtárak és a levéltárak nem készíthetnek másolatot kereskedelmi céllal, és minden másolatnak tartalmaznia kell egy, a szerzői jogról szóló megjegyzést.

Minden 1922 előtt megjelent dokumentum szabadon felhasználható, és a szerző beleegyezése nélkül digitalizálható. Ha azonban bármilyen formátumban lévő mű nem a szerzői jogvédett időszak utolsó 20 évében van, nem biztos, hogy legálisan közzétehető az interneten. Ha egy dokumentum még szerzői jogvédelem alatt áll, csak házi használatra digitalizálható. A szerzői jogvédelem ismertetése intézetenként eltérő, de az oktatási célú hozzáférést és letöltést lehetővé kell tenni.

Mihez van joga az átlagos embernek, aki a képet egy beszámolóban akarja használni, vagy a könyvtárnak, ahol digitalizálni akarják? A képeket közzé lehet tenni egy honlapon, amíg a következő feltételek fennállnak:

  • ha a felhasználás „tisztességesnek” tekinthető,
  • ha kizárólag oktatási célokra készült,
  • ha a dokumentum már nem áll szerzői jogvédelem alatt.

A nemzetközi szabályozást még mindig nem egységes. Amíg nincs globális szabályzat, a legjobb egy szerzői jogi ügyvéddel konzultálni a projekt megkezdése előtt.

Milyen technológiai kérdéseket kell átgondolniuk a könyvtáraknak digitalizálási projektjük elkezdésekor?

A legfontosabb technológiai kérdések és problémák a könyvtárak számára gyűjteményük digitalizálásakor a nyomtatott információk beviteli eljárásai. A folyamatnak egyszerűnek, a berendezések használatának könnyűnek kell lennie. A kötéseket ne kelljen eltávolítani a könyvekről. A képfeldolgozó szoftvereknek legyen kiegyenesítő funkciójuk, a létrehozott képet rendbe lehessen hozni, azaz, maradjon meg a könyv eredeti állapota. Egyre szélesebb körben terjednek a színskálás és az egyszerűsített képfeldolgozó szoftverek, mint amilyenek a Paint Shop Pro és az Adobe Photoshop adott verziói. Másik tendencia a felszerelt kamerák használata digitalizálásra, a síkágyas szkennerekkel szemben. A legfontosabb technológiai kérdés a digitális kép méretének eldöntése a könyvtár honlapján. A nagyobb képek letöltéséhez hosszabb időre van szükségük a felhasználóknak. Egy másik kérdés a több ezer kép tárolása a könyvtár belső szerverén.

A Nyílt Archívum Kezdeményezés (Open Archive Initiative = OAI) két fő célja olyan protokollok kifejlesztése, amelyek létező internet-protokollokon alapul (HTTP, IP, TCP), valamint egyszerűsíti a metaadatok átvitelét az információkeresés és megtalálás számára; valamint olyan protokoll kifejlesztése, amely a létező metaadat-szabványokon alapul, meghagyja a 15 Dublin Core adatelemet minimális segédinformációként a dokumentumhoz. Az OAI-PMH (Protocol for Metadata Harvesting = Metaadatgyűjtő Protokoll) első verziójának (2001-ben jelent meg) alapvető céljai: egyszerűsítse a kivitelezést és megvalósítást, lehetővé tegye az összetett keresést, felhasználja a létező internet-protokollokat és metaadatszabányokat.

Az OAI-PMH kétféle közreműködőből áll: adatszolgáltatókból, akiknek az információ a birtokában van és hozzáférhetővé teszik mataadataikat az OAI-PMH szabványokon és protokollokon keresztül; valamint a hálózati szolgáltatókból, akik összegyűjtik a metaadatokat új információforrások, portálok építéséhez adott témakörökben. Az adat- és hálózati szolgáltatókon alapuló OAI-PMH protokoll a korábban a felhasználók számára nem elérhető információkat három egyszerű lépésben szolgáltatja:

  • metaadatrekordok gyűjtése a hálózati szolgáltató adatbázisának feltöltéséhez;
  • metaadatok keresése a hálózati szolgáltató adatbázisában;
  • a kiválasztott dokumentumok megjelenítése, amelyek még mindig a tárolószervereken vannak.

Az OAI-PMH egyszerűen és hatékonyan oldja meg a metaadatrekordok összetett keresését, a protokoll rugalmassága pedig lehetővé teszi, hogy különböző tudományágakhoz és különböző típusú erőforrásokhoz igazodjon, ami a könyvtárosok számára leginkább szimpatikus. Az OAI-PMH nem korlátozódik a digitális világra (szövegekre, állóképekre, hanganyagokra, animációkra vagy videókra), hanem a fizikai gyűjteményeknél is használható. Nem korlátozódik semmilyen konkrét tudományágra, hanem úgy tervezték, hogy bármilyen formátumot vagy információtípust és -forrást kezelni tudjon. Az OAI-PMH a Dublin Core-t tekinti alapvető metaadatszabványnak, de bármelyik más metaadatszabvánnyal összeegyeztethető: a Medical Subject Headings-szel (MeSH), a TEI-vel, az EAD-dal, az Instructional Management Systemmel (IMS), és a MARC formátummal. Az OAI-PMH több programnyelvvel érhető el (Perl, JAVA, C++ és mások), és általában csak néhány napos programozást igényel egy keresésre kész digitális könyvtár vagy más információtár létrehozása.

Jelenleg 118 nyilvántartott adatszolgáltató reprezentálja a különféle tudományágakat, valamint 16 hálózati szolgáltató működik. Az adatszolgáltatók sokfélék: az irodalmi gyűjteményektől (A Celebration of Woman Writers, 2004. a szájhagyomány (oral history) történeteit őrző gyűjteményekig (Caltech Archives Oral Histories Online, 2002.), a matematikaitól (Mathematical Science Eprint Archive, 2003.) a vallásiig (Mormons and Their Neighbors, 2003.). A hálózati szolgáltatók elsősorban egyetemi intézetekhez kapcsolódnak. A legtöbb hálózati szolgáltató szoftvert is szolgáltat a felhasználónak a mataadatgyűjtéshez. Néhány példa ezek közül: Grenstone, EPrints, The Arc és Torii. Az OAI-PMH metaadat-keresés a könyvtárak közötti átjárhatóság szempontjából lesz fontos eszköz.

A FEDORA nyílt forrású digitális gyűjteménykezelő rendszer, amely Rugalmas Kiterjeszthető Digitális Dokumentumtároló Architektúrán (Flexible Extensible Digital Object and Repository Architecture) alapul. Tulajdonságai közül a legfontosabbak: a hozzáférés-szabályozás, hitelesítés, XML-alkalmazás és tárolás, OAI metaadatgyűjtő szolgáltatás, keresőfelület a teljes szövegű és mezőspecifikus kérésekhez.

Melyek a digitalizálási projektekkel kapcsolatos aktuális kérdések?

A könyvtáraknak hasonló technológiai és elvi kihívásokkal kell szembenézniük, akár digitális anyagokat állítanak elő, akár a terjesztők elől helyezik azokat biztonságba. Minden, a digitalizálásban érdekelt könyvtárnak gondolnia kell az állományvédelemre. Mit digitalizáljon? Milyen tág a tárgykör? Milyen adathordozót kell használni a gyűjteményhez? Hogyan lehet megóvni a digitális információt az állagromlástól? Hogyan tervezhető az adatátvitel? Milyen gyakran lesz szükség az adatátvitelre? A már digitalizált dokumentumokat fogja-e gyűjteni a könyvtár, vagy sor kerül-e majd a jelenleg meglévő művek digitalizálására is? Akárhogyan is, kerülnek-e a gyűjteménybe eleve digitálisan készített dokumentumok?

A másik kérdéscsoport a közös gyűjtemények lehetőségére vonatkozik, mint az együttműködés és a konzorcium. Szükséges-e a más könyvtárakkal való megegyezés ahhoz, hogy megfelelő számú dokumentumot tegyenek hozzáférhetővé? Milyen irányelvekben és szabályokban kell megegyezni a közös projektekben? Hogyan hat mindez a hardver, szoftver és hálózati döntésekre?

Milyen kihívások várnak a digitalizálási projektekre a könyvtár-technológia piacán?

Az egyik legnagyobb probléma, hogy a digitális képek különböző formátumokban léteznek a különböző számítógépes hálózatokon: a könyvtárosoknak meg kell határozniuk az elérési útvonalat a képekhez, és meg kell könnyíteni a hozzáférést a felhasználóknak. Meg kell tanulniuk, hogy miképpen lehet integrálni a digitális állományokat saját gyűjteményükbe, és számolniuk kell azzal, hogy a digitalizált képek sokkal inkább okozhatják a szerzői jog megsértését, mint a hagyományos gyűjtemények. Meg kell tanulniuk azt is, hogyan kell megkeresni a digitális szoftvert, és hogyan kell megszerezni azokat az oktatási erőforrásokat, amelyek ahhoz szükségesek, hogy a használóknak megfelelő kiszolgálást nyújtsanak. Meg kell őrizniük a digitális képeket, mert a digitális dokumentumok nem tartanak olyan sokáig, mint a hagyományosak.

Következtetések

A digitalizálás a könyvtári hozzáférés, a tárolás, elosztás és megőrzés forradalmasítását ígéri. A jó példák és a hozzá kapcsolódó szabványok intézményenként változnak, és a hangsúly a hozzáféréssel szemben a megőrzésre tevődik. Bár a legtöbb projekt elsődleges célja a történelmi emlékek megőrzése, a végső cél számos gyűjtemény esetében a hozzáférés megoldása, a megismertetés, az oktatás és további kutatás elősegítése.

Igaz, hogy a szabványok kifejezést gyakran használják, ezen a ponton a fogalmak inkább csak irányelvek. Nem valószínű egy olyan szabvány kifejlesztése, amely minden könyvtár igényeit kielégíti. A könyvtárak a projektek különböző fázisaiban vannak, ami megnehezíti és megdrágítja azok megváltoztatását: az átfogó szabványosítás ábránd. Ennek ellenére néhány államban a könyvtárak megpróbálják összehangolni kezdeményezéseik irányítását, hogy az átjárhatóságot a lehetséges mértékben megvalósítsák. Az átkelők létrehozása és a formátumok közti fordítás szintén az átjárhatóságot szolgálják.

A digitalizálás kétségtelenül megváltoztatja a hagyományos a könyvtárképet. Sok kérdés vár máig megoldásra, amelyeket különböző szervezetekkel együtt kell megoldani. Csak remélhetjük, hogy ezek az erőfeszítések nagyobb egységesítéssel fognak járni ahelyett, hogy még több szabványváltozat jönne létre.

/Online Information Review, 28. köt. 5. sz. 2004. p. 338–445./

(Szalóki Gabriella)

Nyomtatható verzió