![]() | ||||||||||||||||||||||||||||||
|
![]() |
51. évfolyam (2004) 6. szám Eredeti cim:JODELIS, Remigijus: Harvesting and archiving of electronic resources in Lithuania: towards virtual library. Elektronikus források begyűjtése és archiválása Litvániában: úton egy virtuális könyvtár felé
Az utóbbi években az elektronikus információ mennyiségének növelésével igény keletkezett ezek hosszú távú megőrzésére. A digitális környezet, amelyben ezek az információk keringenek, lehetőséget ad dokumentumok bizonyos fokú mobilitására és cserélhetőségére. Ez a helyzet csak romlik, mivel a létrehozatal és megőrzés közötti időt egyre csökkenti a technológiai fejlődés. A webdokumentumok átlagos élettartama 44 nap, és emellett tartalmuk könnyen módosítható, anélkül, hogy a változásokat észrevennénk. A hosszú távú megőrzést leginkább azok a könyvtárak vállalják, amelyek arra törekszenek, hogy digitális könyvtárrá váljanak. Újfajta objektumokat kell megőrizniük, mint pl. adatbázisok, e-folyóiratok, e-könyvek, weboldalak, mivel az eredeti kiadók nem mindig képesek a nagy terjedelmű archív másolatok kezelésére. A nemzeti könyvtárak sokszor különleges helyzetben vannak, mert az állami szabályozás értelmében az ő kötelességük az elektronikus dokumentumok nemzeti szintű megőrzése. Ilyen indíttatású a Litván Nemzeti Könyvtár Elektronikus Források Archívuma (Archive of Electronic Resources = AER) is, célja a Litvániában kiadott elektronikus dokumentumok, valamint a Litvániával kapcsolatos külföldi kiadványok gyűjtése. Az Elektronikus Források Archívuma projektA LIBIS (Lithuanian Integrated Library Information System = Litván Integrált Könyvtári-Információs Rendszer) elektronikus források alrendszere egyik, 2001-ben befejezett projektje az Elektronikus Források Archívumának vízióját volt hívatott bemutatni, megtervezve a megvalósítás szakaszait, és a szükséges pénzügyi forrásokat. A projekt az Elektronikus Kiadványok Letéti Rendszerének modelljére és a NEDLIB (Network European Deposit Libraries = Letéti Könyvtárak Európai Hálózata) projekt dokumentumaira épül. A NEDLIB egy EU által támogatott törekvés, célja a nemzeti könyvtárak együttműködésében a digitális publikációk európai letéti könyvtári hálózatának létrehozása. Javaslatai között szerepel az archívumok beépítése az integrált könyvtári rendszerekbe, és a Nyílt Archívum Információs Rendszer modelljeinek adaptálása. Az ER (electronic resources = elektronikus források) alrendszer ugyanazokon az elveken működik, mint a többi LIBIS modul, melynek céljai:
A LIBIS Elektronikus Forrás Alrendszere virtuális könyvtárként nemcsak az archívumot fogja bővíteni, hanem az egyéb LIBIS termékeket és szolgáltatásokat is, köztük a kurrens nemzeti bibliográfiát, az információszolgáltatást, a teljes szövegű elektronikus források szolgáltatását, és különböző bibliográfiai kiadványokat. Az ER Archívum jogi alapját „a kiadványok kötelespéldány-másolatainak és egyéb dokumentumok elosztásának rendjéről” szóló 1996. évi kormányrendelet jelenti. Mivel ez a rendelet nem fedi le az elektronikus forrásokat, ki kellett dolgozni az ER Archívumokra vonatkozó elveket; ezek a következők:
Nem gyűjtik a következő forrásokat:
Az elektronikus források fajtáiAz elektronikus forrásoknak több fajtájuk van, amelyeket lehetőség szerint az ER Archívum különböző alrendszereiben külön kell kezelni:
WebarchiválásA nagy léptékű webarchiválás eltérő megoldásokat igényel, mint amelyeket a könyvtárak általában használnak. A fő különbség az, hogy a webdokumentumok nincsenek ellenőrzés alatt. Általában nincs pontosan jelölve a metaadat, jelenlétük az interneten bármely pillanatban megszűnhet, és a tartalom folyamatosan változhat (portálok esetében). A helyzetet nem szabályozza rendelet, és csak a hivatalos kiadók vethetők alá a kötelespéldány-törvénynek. Az államot átfogó webarchiválásnak több szintje létezhet. Össze lehet gyűjteni a nemzeti domainnév alatt létező dokumentumokat, vagy válogatott kritériumok alapján végzett keresésekkel beszerezni a külföldieket. A döntést nagyban befolyásolják a meglévő technológiai lehetőségek. A legelterjedtebb megközelítés az információgyűjtés. A webgyűjtés (web harvester) olyan rendszer, amely weboldalakat tölt le, új URL-eket szűr ki a meglévő HTML kódokból, és egy olyan listába teszi őket, amelyek további letöltésre várnak, ha még nincsenek meg. A rendszer engedélyezi a meghatározott webhelyek összegyűjtését több sikeres kezdő URL után, viszont nem garantálja, hogy minden meglévő online forrást összegyűjtött. Ezért a gyűjtési folyamathoz szükség van az ellenőrzésre és új URL-ek lehetséges hozzáadására. Több olyan szoftvercsomag van, amelyet különböző országokban átfogó vagy szelektív webhelygyűjtésre használnak. Európában a legtöbben a NEDLIB és COMBINE gyűjtőket alkalmazzák. Ezek képesek nagyméretű gyűjtésre, és elég erősek ahhoz, hogy folyamatos használatban legyenek. A NEDLIB gyűjtő egy freeware, amelyet a Helsinki Egyetemi Könyvtár fejlesztett tovább. Legnagyobb előnye, hogy kimondottan webarchiválások létrehozására alakították. A webdokumentumok archiválásának másik megközelítése a kiadókkal való együttműködés, melynek során a kiadók megküldik kiadványaikat a könyvtáraknak. Ez lehet időszakos, amikor a weboldalakat frissítik. Az együttműködés alapja lehet a kötelespéldány-törvény, vagy ennek megfelelője, amelynek nyomán a folyamat hasonlít a papír alapú dokumentumok beszerzésére. Nyilvánvaló hátránya ennek a megközelítésnek, hogy csak a hivatalosan bejegyzett kiadók vonhatók be, és rengeteg kiadvány nem kerül be az archívumba. Előnye, hogy a kiváló minőségű metaadat megkönnyíti a katalogizálást. Gyűjtési problémákTöbb probléma merülhet fel akkor, amikor csak egy automatikus webgyűjtési módszert alkalmazunk:
A fentiekből az a következtetés vonható le, hogy a mai információgyűjtő szoftverek még túl rugalmatlanok, és csak statikus online információ gyűjtésére alkalmasak. EredményekA LIBIS ER alrendszer projektjében a NEDLIB gyűjtő mellett döntöttek. A gyűjtés az összes meglévő „lt” domainre és a kapcsolódó weboldalakra vonatkozott. Egy kb. 300 tételes lista gyűlt össze a „com”, „net”, és egyéb végződésű litván oldalakról. A munkát a népszerű litván webcímtárral („Lithuania Online”) kezdték. A Litván Nemzeti Könyvtár rendelkezésre bocsátotta szerverét, amelyre a NEDLIB-et installálták. A gyűjtő a belső adatokat és URL listákat egy MySQL 3.23-as adatbázisban tartja. Úgy állították be, hogy hagyja ki a paraméterezett URL-eket, és csak a statikus dokumentumokat próbálja meg összegyűjteni. Az összegyűjtött dokumentumokat gzip-pel csomagolja a napi gyűjtési időszak befejeztével. A kezdeti jó eredmények után 2002 októberében kezdődött az első gyűjtési ciklus. Három héten át, napi működés után az elérhető dokumentumok nagy részét lefedték. A másik NEDLIB 2002 novemberében indult, azzal a céllal, hogy szelektíven gyűjtse össze az időszakos webkiadványokat. Kb. 60 hivatalosan bejegyzett URL-t vettek fel a jegyzékbe, e-folyóiratokat vagy folyóiratok elektronikus másolatait, megjelenési gyakoriságukkal. Egy saját fejlesztésű szoftver az időben történő gyűjtést biztosítja, mivel a NEDLIB nem alkalmas a változtatható időzítésre. Mivel a legtöbb weboldal dinamikusan készül, a litván webhelyek teljesebb reprezentációja érdekében az a döntés született, hogy a közvetlenül a kiadóktól beszerezhető elektronikus kiadványok élvezzenek elsőbbséget. A Litván Nemzeti Könyvtár által készített, az e-kiadványok összegyűjtésére és a szerzői jogokra vonatkozó szerződést a legfontosabb kiadóknak 2003 márciusában küldték el. A szerződések aláírása után megérkeztek az első dokumentumok is a metaadatokkal együtt. A korai eredmények egészen kielégítőek: a NEDLIB gyűjtő jó működési jellemzőket mutatott, nem omlott össze, és képes nagyon nagy adatmennyiséget kezelni, beleértve az 1 GB méretű MySQL adatbázist. Az archívum mérete 2002 decemberében a következőképpen alakult:
2002. október–2003. május között négy gyűjtési ciklus volt. Mivel ezek alkalmával az adatbázis mérete jelentősen nő, megnövelve az archívum hozzáférési idejét, az a döntés született, hogy a továbbiakban évente két gyűjtés legyen. A folyóiratok gyűjtése természetesen folyamatos lesz, mivel nem nagy a tárolási költségük. A fejlesztés másik iránya az összegyűjtött információ indexelése és katalogizálása. Csak a válogatás kritériumainak megfelelő forrásokat dolgozzák fel, a bibliográfiai rekordok UNIMARC formátumban készülnek. Ezek a rekordok bekerülnek a Nemzeti Bibliográfiai Adatbázisba, és az OPAC-on keresztül érhetők el. Az adatbázisba nem kerülő dokumentumról egy automatikus konvertáló szoftverrel csak rövid bibliográfiai rekord készül, a dokumentumban található metaadat alapján. Mivel nagyon kevés HTML oldalnak van minőségi metaadata, a kiadóknak a Dublin Core szabvány alkalmazását ajánlották. Az összegyűjtött dokumentumok indexelésére még nem találtak megoldást. Az ER Archívum továbbfejlesztéseEgy teljes digitális könyvtárhoz a következő lépések vezetnek:
/INFORUM 2003. http://www.inforum.cz/inforum2003/english/sekce.asp?CisloSekce=9// (Birkás Bence)
| ||||||||||||||||||||||||||||
![]() ![]() |