57. évfolyam (2010) 2. szám

Retrospektív konverzió nagyüzemi módon: az ADAM-projekt

Dancs Szabolcs

A könyvtári szolgáltatások elektronikussá válásával, a WebOPAC-ok elterjedésével olyan helyzet állt elő, amelyben azok az állományrészek, amelyeket nem dolgoztak fel elektronikusan, és így online visszakereshetőségükre nincs mód, szinte "halottnak" tekinthetők. Újraélesztésük vagy rekatalogizálással, vagy visszamenőleges rekordátalakítással, közkeletű nevén retrospektív konverzióval valósulhat meg. A kérdés az utóbbi időben többszörösen is aktuálissá vált: egyrészt az ilyen célú projektek megvalósítását támogató pályázati lehetőségek megjelenésével (TÁMOP), másrészt a digitális dokumentumszolgáltatás különféle válfajai, illetve az elektronikus raktári kikérést lehetővé tevő rendszerek térnyerésével. A szerző ugyan tisztában van azzal, hogy az igazi eljárás, a "totális" megoldás a kartonrekordok valamely formájú újrakatalogizálása, jelen cikkben mégis, figyelembe véve a könyvtárak számára ma megszerezhető pénzek szűkösségét, egy gyors és gazdaságos megoldást javasol a régi katalóguscédulák online kereshetővé tételére.

Bevezető

Szembe kell néznünk a ténnyel, hogy az olvasók újabb nemzedékei egyre kevesebb hajlandóságot mutatnak arra, hogy katalógusszekrényekből "kotorásszák elő" a keresett művek leírásait, sőt lehetőség szerint - érthető módon (?) - magát a könyvtárlátogatást is megspórolnák maguknak. Így azok az állományrészek, amelyek online nem visszakereshetők, mintha nem is léteznének. Komoly elszántság, egy unikális cím iránti igény kell ahhoz, hogy az olvasó telefonon érdeklődjön egy mű megléte iránt. A közös katalógusok világában pedig az esélyeink még tovább csökkennek, ha nem tartunk lépést a többiekkel. Sajnálatos módon a hagyományos katalóguscédulák feltámasztása-elektronizá-lása az első fellendülést, az 1990-es évek második felét követően megtorpant a források apadása folytán, nem utolsósorban azért, mert a Nemzeti Kulturális Alap Könyvtári Kollégiuma az évtized vége felé radikálisan csökkentette az ilyen célra fordítható pályázati pénzeket. Ez a máig érthetetlen döntés visszavetette a nagykönyvtárak állományi újrafeldolgozását és a kérdés krónikusan megoldatlan maradt az egyes könyvtárak (Országgyűlési Könyvtár, Fővárosi Szabó Ervin Könyvtár, OSZK stb.) hatalmas erőfeszítések árán elért ered-ményei ellenére.

Az olyan digitalizálási projektek, mint az EOD ("E-könyvek igény szerint") [1], a szerzői jogi védelem alatt nem álló művekre vonatkoznak, és lényegük szerint a távoli, interneten keresztül küldött egyedi megrendelések feldolgozását célozzák. Ennek elengedhetetlen feltétele, hogy az említett művek leírásai szerepeljenek a projektben részt vevő könyvtár internetes katalógusában. Jó esetben maga a szolgáltatás is a katalógus integráns része: a rendelési űrlapok az egyes rekordokhoz közvetlen módon kapcsolódnak (1. ábra)

.

1. ábra Szkennelt katalóguscédula és a hozzá tartozó EOD-megrendelő űrlap a pozsonyi Egyetemi Könyvtár digitalizált cédulakatalógusában

A katalógusok hálózatra költözésének - így az azt elősegítő eljárásnak, a retrospektív konverziónak - előnyei között szokás említeni a helymegtakarítást, jelesül, hogy a katalógusszekrények felszámolásával nagyobb közösségi tér kialakítására nyílik lehetőség. Az ADAM-féle alkalmazások előfutáraként említsük meg az ún. CIPAC-ot, a digitális "kártyakép-katalógust", amelyet a Princeton Egyetem Könyvtára úttörő vállalkozása nyomán az 1990-es évek második felétől rengeteg nyugat-európai könyvtárban - sokszor ugyan csak ideiglenes megoldásként - bevezettek pontosan a gyors hozzáférés érdekében. [2]

Mindebből érzékelhető, hogy mielőbb szükséges online kereshetővé tenni az elektronikus feldolgozás bevezetése előtt állományba vett dokumentumainkat. Kérdés, adott esetben mely megoldás ígérkezik célszerűnek?

A rekatalogizálás és a retrospektív konverzió főbb szempontjai

Nézzük meg, mely szempontok játszanak közre a rekatalogizálás vagy retrokonverzió mikéntjének eldöntésekor, illetve e szempontok adott esetben milyen mértékben nyomnak a latban!

Főbb szempontok:

  • időhatékonyság: a visszakereshetőség mielőbbi megoldása;
  • költséghatékonyság: minél több mű visszakereshetővé tétele a rendelkezésre álló anyagi források felhasználásával;
  • minőség: a leírásoknak a visszakereshetőséget minél nagyobb mértékben nyújtó mélysége, színvonala.

Könnyen belátható, hogy adott esetben, tekintve a rendelkezésre álló anyagi források szűkös voltát és a humán potenciálban mutatkozó hiányt, a három szempont egyikének mindenképp sérülnie kell. Magyarul sok, magas színvonalú, részletes leírást kevés idő alatt csak abban az esetben tudunk létrehozni, ha vagy autopsziával dolgozunk (rekatalogizálunk), vagy rekordimporttal, amely utóbbi esetén még szükség lehet a rekordhonosítás, illetve a rekordrevízió manuális lépéseire. Mindez azt jelenti, hogy az újra katalogizálandó dokumentumok sokaságának feldolgozása esetenként jelentős számú munkatárs, illetve - kiszervezés esetén - külső szakember közreműködését kívánja, az ő bérezésükhöz a kellő anyagi fedezetre a főként pályázati források aligha elegendők. Nincs más tehát, mint engedni abból a szempontból, amely pillanatnyilag a legkevésbé lényegbevágónak tűnik. Ez pedig, lévén a fő feladat, hogy minél több régebbi megjelenési művet minél kevesebb idő alatt tegyünk visszakereshetővé, a harmadik, azaz a minőségi szempont. Érdemes persze mindenekelőtt közelebbről megnézni, hogy mennyi engedmény tehető a minőség rovására.

Egy feldolgozásra kerülő dokumentum esetén a feltárás mélysége, színvonala a minél több szempontú visszakereshetőséget jelenti. Egy jó keresőrendszer fejlesztője persze mindig felteszi a kérdést: mi az a minimális információ, amely elegendő egy adott dokumentum visszakereshetőségéhez. Az adatok bevivőjét - jó esetben - ugyanez a kérdés, a kulcsinformációk kérdése foglalkoztatja. Miután az egyértelmű rekordazonosításhoz szükséges, elsődleges kulcsként funkcionáló ISBN-adatokról régebbi kiadású művek esetén nem beszélhetünk, valamint az olvasószolgálati tapasztalatok alapján az olvasók elvétve keresnek ISBN-számokra, valamely attribútumhalmazt (meta-adatokat) kell kijelölnünk a lehető legrelevánsabb találatot hozó keresés előfeltételeként. A visszakereshetőséget megoldó (meta)adatok minimuma állhat: a szerzőségi, a címadatokból, illetve a megjelenési adatok valamelyikéből (kiadó, megjelenés éve stb.). Ez a néhány ismérv generikus jellegű adatok esetén is nagy biztonsággal hozza az elvárt rekordot találatként. (A tartalmi, ETO-jelzet vagy tárgyszó alapján történő visszakeresés természetesen ilyesformán nem megoldott. Pillanatnyilag azonban sürgetőbb, hogy a régi állományrészeket (tetsz)halott állapotukból kiemeljük, mint hogy minden szempontból ragyogóan feltárt leírásokat hozzunk létre, amely utóbbi jelentős anyagi és humán erőforrást felemésztő, s - nagyszámú dokumentum esetén - az időben is messze elhúzódó feladat lenne.)

A visszakereshetőséget lehetővé tevő adatok bevitele történhet a könyvek kézbevételével, autopszi-ával (rekatalogizálás) vagy a katalóguscédulák alapján (retrospektív konverzió). Utóbbi esetben az elektronikus rekordok létrehozása lehet manuális vagy automatikus (ez utóbbi munkafolyamatai: szkennelés, optikai karakterfelismerés, XML-kon-verzió). Költség- és időhatékonyság szempontjából a manuális beavatkozást bizonyos mértékig ugyancsak igénylő, automatizált retrospektív feldolgozás ígérkezik a legjobb megoldásnak. Ennek bizonyítására nézzünk meg egy létező technikai megoldást.

A digitális gyűjteménykezelő szoftver mint a retrokonverzió eszköze

A digitális gyűjtemények kezelésére fejlesztett rendszerek a digitális objektumok, például szkennelt dokumentumok, illetve egyéb kép-, audio- vagy videofájlok rendezését, visszakereshetőségét teszik lehetővé az egyes objektumokhoz rendelt metaadatok segítségével. Ilyen például az Ex Libris szoftverfejlesztő világcég DigiTool elnevezésű eszköze, vagy a magyar fejlesztésű JaDox. Hasonló szerepet tölt be - nem mellesleg az Ex Libris zászlóshajó-termékébe, az ALEPH-be integrálva - az ADAM (ALEPH Digital Asset Module), amely voltaképp az ALEPH digitális tartalomkezelő modulja.

Az ADAM, amely tehát az ALEPH hézagmentesen beépített része, 2004 júniusában debütált az integrált könyvtári rendszer 16.03-as verziójában. A modul a digitális objektumok ALEPH környezetben történő katalogizálását, archiválását, kereshetővé tételét, megjelenítését teszi lehetővé. Segítségével a könyvtárosok az ALEPH grafikus beviteli felületén (GUI) feltölthetik és metaadatokkal láthatják el digitális gyűjteményük egyes darabjait, avagy digitális objektumokat rendelhetnek hozzá már kész MARC tételeikhez, vagy egyéb szabványban rögzített (pl. Dublin Core) rekordjaikhoz. (Látni fogjuk, hogy a széles eszköztárat felvonultató modul együttműködik olyan eszközökkel, mint pl. a lapolvasó.) Mindezek eredményeképpen a könyvtári katalógusban a hagyományos dokumentumok mellett az elektronikusak is beágyazottan kereshetővé válnak. Lehetőségünk van ugyancsak az utóbbiakhoz való hozzáférés szabályozására a felhasználói jogosultságok beállításával. Így egy adott digitális objektum megjelenítésének és letöltésének lehetőségét korlátozhatjuk például egy IP-tartományra vagy egy egyetemi kurzus résztvevőire, mindezt az ALEPH grafikus felhasználói interfészén belül.

A modul alkalmazásával tehát a digitális gyűjtemény a metaadatok alapján az ALEPH WebOPAC-jában kereshetővé, a webkatalógus integráns részévé válik. Az évek során az ADAM-ot a világ több ezer, ALEPH-et használó könyvtárában változatos célokra alkalmazták. Példának okáért a British Library a régi, sérülékeny térképeinek megóvása érdekében implementálta a modult. [3]

Ahogy az 2. ábrán látható, a dokumentumleírás mellett megjelenik a térkép kisméretű - automatikusan generált - előképe ("thumbnail"-je), amelyre kattintva a nagyobb felbontású képfájl letölthető.

2. ábra Az ALEPH ADAM-moduljának alkalmazása a British Libraryben

Jóllehet elsősorban digitális tartalomkezelésre szolgál, az ADAM-nek jó hasznát vehetjük a retrospektív konverzió során, ahol a karakterfelismeréssel és XML-konverzióval létrehozott egyszerűsített rekordjaink mellé odahelyezhetjük a beszken-nelt katalóguscédulák képállományait. Ekképpen céduláinknak nem csupán a tartalmát tesszük kereshetővé, hanem egyszersmind magukat a cédulákat is "átmentjük az örökkévalóságnak", vagyis az automatikus feldolgozásban "nem érintett", magyarán nem indexelt adatok is megjeleníthetők a katalóguscédula képfájljának megnyitásával.

Nézzünk egy konkrét példát az ADAM ilyen típusú alkalmazására!

A jászvásári ADAM-projekt

Az ADAM-ot és hasonló rendszereket nem elsősorban kevés tételű, hanem "nagyüzemi" jellegű retrokonverziós projektekben lehet eszményien alkalmazni. Nem véletlenül folyamodott a Luxemburgi Nemzeti Könyvtár (Bibliothčque nationale de Luxembourg) éppen ehhez a műszaki megoldáshoz 1985 előtti "nem luxemburgikáinak" feldolgozásakor (3. ábra). Valószínűleg a luxemburgiakéhoz hasonló megfontolások alapján választották a Jászvásári "Mihai Eminescu" Központi Egyetemi Könyvtár munkatársai az automatikus (szken-neléses) megoldást, amelynek köszönhetően 1,3 millió bibliográfiai és 1,7 millió példányadatot töltöttek fel a könyvtár online katalógusába [4], s mindezt körülbelül fél év leforgása alatt. E projekt rövid ismertetésére vállalkozom az alábbiakban.

A jászvásári kollégák elsődleges céljuknak a helyfelszabadítást tekintették. Úgy döntöttek ugyanis, hogy internettermet alakítanak ki a katalógusszekrények által elfoglalt területen.

3. ábra Az ADAM alkalmazása a Luxemburgi Nemzeti Könyvtár digitalizált katalóguscéduláinak kezelésére

A retrokonverzió első lépésében egy németországi cég romániai leányvállalatának két munkatársa elvégezte helyben a cédulák beszkennelését. Ez körülbelül négy hónapot vett igénybe. Ezután a képfájlokat FTP-vel juttatták el Bukarestbe feldolgozásra. Itt került ugyanis sor az XML konverzióra. A létrejövő XML fájlok egyfelől az optikai karakterfelismerő szoftver segítségével a cédulák tartalmából kinyert bibliográfiai adatokat tartalmazzák, másfelől a képfájlokra vonatkozó metaadatokat (4., 5. ábra). Ennek megfelelően tartalmazzák a fájlok mind a bibliográfiai leíráshoz, mind a cédulaképek leírásához szükséges adatmezőket. Egy XML fájlhoz adott esetben több képfájl is tartozhat attól függően, hogy az egy könyvhöz tartozó bibliográfiai leírás hány katalóguscédulát foglalt el. Az XML-ek és a hozzájuk tartozó JPG fájlok nagyjából egy hónap alatt készültek el.

A végső fázisban a magyarországi Ex-Lh cég munkatársai a kész XML fájlokat az ALEPH rendszerbe importálták (6. ábra). Az "Elhelyezés" mező adatai, a raktári jelzetek száma alapján készültek el - automatikus módon - az egyes bibliográfiai tételekhez tartozó példányrekordok. (Magyarán: ha egy katalóguscédulán két raktári jelzet szerepelt, az adott tételhez két példányrekord generálódott.)

4. ábra Katalóguscédula képfájlja és a hozzá tartozó leírás a Jászvásári "Mihai Eminescu" Központi Egyetemi Könyvtár online katalógusából

5. ábra Digitalizált katalóguscédula XML konverziójának eredménye

6. ábra Az ADAM-projekt három fő szakasza

Fontos, hogy a bibliográfiai rekordok külön adatbázisba kerültek, mivel a leírások kevésbé részletesek, mint a fő adatbázisban találhatók, valamint a nagyüzemi feldolgozás (szkennelés, karakterfelismerés) miatt az adatok egy része javításra szorul, s jobb, ha a mindennapi feldolgozó munka során ellenőrzött szerzői és címindexek nem "hígulnak fel".

Ebben a külön adatbázisban tehát csak a szerzői és címindexben böngészhetünk, de a szabadszöveges keresés (7. ábra) a teljes szkennelt tartalomra, így a megjelenés adataira is kiterjed.

7. ábra Szabadszöveges keresés és eredménye a jászvásári egyetemi könyvtár online katalógusában

A szabadszöveges keresési opció előnye, hogy a keresés így egyszerre több adatbázison is megvalósítható, vagyis ennek alkalmazásakor nem szükséges, hogy a könyvtár WebOPAC-jában a keresést megelőzően a felhasználó válasszon a különböző adatbázisok közül.

Hosszabb távon, főleg, ha erre van helyi kapacitás, megvalósítható az OCR-es feldolgozás során hibásan átkerült adatok javítása, kiegészítése, végső soron a fő indexekkel való összefésülése. Nagyban megkönnyítheti ezt a fajta munkát, hogy az ALEPH katalogizáló moduljában a szkennelt katalóguscédulákhoz tartozó egyszerűsített rekordok egybevethetők a képfájlok tartalmával, a 8. ábrán illusztrált módon.

8. ábra Rekordkészítés/-módosítás szkennelt katalóguscédula alapján az ALEPH katalogizáló moduljában

(Ez a fajta ablakfelosztás egyébiránt a digitális objektumok leírásánál ugyancsak hasznosnak bizonyul.)

Összefoglalás/Konklúzió

Végezetül érdemes közelebbről megvizsgálnunk, hogy a fentebb vázolt három szempont milyen mértékben érvényesül az ADAM-projekt során, összevetve a további kínálkozó megoldásokkal.

Időhatékonyság

Mint említettük, a projekt alatt 1,3 millió bibliográfiai és 1,7 millió példányadattal bővült az online katalógus. Az adatoknak a cédulákról való vagy autopsziával történő manuális bevitele esetén egy-egy leírás elkészítése a hozzá kapcsolódó példányrekorddal vagy példányrekordokkal együtt jó esetben is legalább negyedórába kerül. Ez 19,5 millió perc, azaz 325 ezer munkaóra. 40 órás munkahetekkel számolva egy ember ilyen célú, teljes munkaidőben történő foglalkoztatása esetén 8125 hét, 156 év alatt kerül az összes rekord az adatbázisba.

Fél év 130 munkanapból, 1 040 munkaórából, 62 400 "munkapercből" áll (az ünnepnapokat leszámítva). A 19,5 milliót elosztva a 62 400-zal megkapjuk, hány ember teljes munkaidejű foglalkoztatására volna szükség, hogy az 1,3 millió rekord fél év alatt elkészüljön. Ez a szám: 312,5. Gondolhatjuk, hogy ennél jóval kevesebben, kb. egy tucatnyian vettek részt az ADAM-projektben, s többségük számára természetesen nem is jelentett ez teljes munkaidejű elfoglaltságot.

Költséghatékonyság

A retrospektív feldolgozást (is) célzó pályázati források megnyílása kapcsán az utóbbi egy-két esztendőben a szakmai közvéleményt meglehetősen felbolygatta a kérdés: mennyi egy bibliográfiai leírás munkadíja? A válaszadás bonyolultságára, a probléma sokszempontúságára sok kiváló szakember, köztük Dudás Anikó is felhívja a figyelmet egyik KATALIST-es hozzászólásában [5]. Mindezek alapján a többek által kikalkulált, és különböző árajánlatokban is megjelenő, bibliográfiai leírásonkénti bruttó 1 eurós összeg igen alacsonynak mondható, ugyanakkor egyszerűbb (más adatbázisból letölthető, nem transzliterálandó, tartalmi feltárást nem tartalmazó) leírások esetén vehetjük alapnak, hozzátéve, hogy ez az összeg a leíráshoz készítendő példányrekord(ok) létrehozásának árát nem tartalmazza. (Ez utóbbi, a példányrekordok elkészítése, amiként az állománykezelés egyéb precizitást igénylő feladatai, érzésem szerint amúgy is az adott könyvtár illetékes munkatársainak munkaköréhez tartozik.)

Az ADAM-projekt esetében egy bibliográfiai leírás és a hozzá generált példányrekord(ok) elkészítése nagyjából 1/2 euróba, vagyis a manuális leírás - szerényen számított - költségeinek a felébe kerül. Ez a jászvásárihoz hasonló tetemes rekordszám esetén óriási megtakarítást jelent.

Minőség

Ami a projekt elindításának tervezésekor némi mérlegelésre adhat okot, az a minőségi elvárások érvényesülése. Az optikai karakterfelismerés alkalmazása - a cédulák állapotának függvényében - rengeteg hibalehetőséget hordoz magában. A rosszul vagy éppenséggel egyáltalán nem értelmezett karakterek helytelen/hiányos leírásokhoz vezetnek, nem kis mértékben rontva a visszakeresés esélyeit. Célszerű tehát mindenekelőtt létrehoznunk egy tesztadatbázist a katalóguscéduláink tudatosan kiválasztott részhalmaza alapján. A próba-visszakeresések eredményessége alapján kiszámíthatjuk, mennyi további idő-, illetve pénzráfordítást igényel az adatbázis használhatóvá tétele. Ha úgy találjuk, hogy a próba-visszakeresések találathalmazai nagyjából fedik elvárásainkat, érdemes lehet kompromisszumkésznek mutatkoznunk, hacsak nem úgy látjuk, hogy sem anyagi forrásokban, sem a - "használható", megfelelően szakképzett - emberi erőforrások tekintetében nem szenvedünk hiányt. Ilyen édeni állapotokkal azonban a közeli jövendő nemigen kecsegtet...

A pályázati pénzek felhasználásakor arra vállalunk kötelezettséget, hogy a pénzek kiutalása fejében elvártakat záros határidőn belül teljesítjük. A felvázolt eljárás előnye, hogy állományunk teljes körű kereshetővé tételét a határidőre vonatkozó kritériumok szem előtt tartásával tudjuk megvalósítani úgy, hogy az anyagi ráfordításunk jóval kevesebb, mint a nagyobb minőségi garanciát nyújtó, ugyanakkor kevéssé idő- és költséghatékony megoldások esetében. Nem utolsó szempont, hogy az elektronikus katalógusunkba rövid időn belül felkerült, s bizonyos szintű visszakereshetőséget mégiscsak nyújtani képes leírások a későbbiekben, a mindennapi feldolgozó munka során korrigálhatók, kiegészíthetők. Így idővel a minőséggel kapcsolatos igényeinknek/elvárásainknak minden szempontból megfelelő rekordokra tehetünk szert.

Köszönet

Köszönettel tartozom Ecaterina Croitornak, a Jászvásári "Mihai Eminescu" Központi Egyetemi Könyvtár munkatársának, valamint az Ex-Lh Kft. munkatársainak a rendelkezésemre bocsátott információkért, amelyek nélkül nem állt volna módomban e cikk megírása.

Beérkezett: 2010. I. 6-án.

Dancs Szabolcs az MTA Könyvtára Gyűjteményfeltáró Osztályának főkönyvtárosa.
E-mail: dancsz@mtak.hu


Irodalom és jegyzetek

  1. Az EOD-ról bővebben: SZALÓKI G.: Az "E-könyvek igény szerint" (EOD) szolgáltatás használói szemmel. = TMT, 55. köt. 10. sz. 2008. p. 461-469.
  2. A retrokonverzió mellett további érveket találunk Otto Oberhausernek a CIPAC-okról, azaz "Nyilvánosan Elérhető Cédulakép Katalógusokról" szóló cikkében: OBERHAUSER, O. C.: Card-Image Public Access Catalogues (CIPACs): Issues Concerned with their Planning and Implementation. = Libri, 53. köt. 1. sz. 2003. p. 54-70.
  3. http://liber.library.uu.nl/publish/articles/000247/article.pdf
  4. http://193.231.13.10:8991/F - a megjelenő képernyőn előbb kattintsunk a "Vizitator" feliratú gombra, majd válasszuk ki a "Bază de date" felirat mellett megjelenő opciók közül a "CATALOGUL TRADIŢI-ONAL - FIŞE DIGITIZATE BCU IAŞI" adatbázist!
  5. https://listserv.niif.hu/pipermail/katalist/2008-December/017360.html

Nyomtatható verzió