2011. március 14.

Early English Books Online (EEBO) és a történelmi változások



Március 8-án a Bodleian Library bejelentette, hogy 1 millió GBP-t különített el arra, hogy az EEBO-n található könyveket—az EEBO-TCP programon belül megkezdett munkát támogatandó—szövegeken belül is kereshetővé, illetve hogy néhány éven belül ingyenesen hozzáférhetővé tegye. Mindkét bejelentés történelmi a kutatók, különösen pedig a magyar kutatók számára. Miért is? Mert, ahogy az EEBO manapság működik, igazából szinte több rosszat tesz a reneszánsz kutatásoknak, mint jót, ugyanis legesleginkább is üzleti vállalkozásnak hat, semmint kutatást elősegítő adatbázisnak. A jelenlegi majdnem használhatatlanságnak és károkozásnak a következő okai vannak: az árából fakadó elérhetetlenség (ez persze nálunk gazdagabb országokat nem nagyon érint), illetve az adatbázison belüli kereshetőség nehézségei.

Először is, különösen a magyar kutatásnak, a legnagyobb rosszat azzal teszi, hogy gyakorlatilag elérhetetlen, hiszen masszívan a fizetési fal mögött van. Mivel nálunk, a Pázmányon néhány évig elő tudtunk rá fizetni, ezért első kézből tudom, hogy nagyságrendileg minden járulékkal együtt kb. 1, 2 millió Ft-ba kerül egyetlen éves előfizetés. Ugyan nagyon hasznosnak bizonyult, hiszen olyan szövegkorpuszhoz jutottunk, amelyről addig álmodni sem mertünk, fellendítve a kutatást és a szakdolgozatok minőségét is, ugyanakkor kérészélete miatt bizonytalanná tette a hosszabbtávú kutatásokat. Az előfizetéseket OTKA pályázatokból finanszíroztuk, de ez a forrás az utóbbi években elapadt. Persze örülhetnék, hogy most március 31-ig az MTA Könyvtárában próbaidőre hozzáférhető, és aztán talán elérhetővé válik hosszabb időre, mégis az anyagi erőforrások bizonytalan volta megkérdőjelezi a hosszú távú kutatások tervezését.

A másik nehézség abból adódik, hogy egy adatbázisnak erénye a kereshetőség. Az EEBO adatbázis nagyon egyszerű metaadatok alapján tette eddig lehetővé a keresést, úgymint szerző, cím, egy meglehetősen esetleges címke rendszer alapján, a keresést pedig publikálási évek megadásával lehetett szűkíteni. Ez a keresési lehetőség sajnos nem sokkal több, mint egy digitalizált, hagyományos, könyvtári katalógusrendszer. A Google Books idejében azonban ilyen metaadatok alapján keresni inkább vicces, mint komoly, persze ez a vicc leginkább is keserűséggel tölt el. Ma ezeken a metaadatokon alapuló keresés mellett elengedhetetlen a teljes szövegekben való kutatás is. Ez azonban lehetetlen az EEBO-n belül, mert csak képként léteznek a könyvoldalak, tehát bennük egyelőre keresni nem lehet. A Bodleian Library és a Michigani Egyetem Text Creation Partnership szervezete 2001. óta közösen dolgoznak az EEBO-TCP (EEBO-Text Creation Partnership) projekten, amelynek első fázisa 2011. január elsején zárult 25 ezer könyv szöveges dokumentummá alakításával. Ezeket az első fázisban elért eredményeket díjazza a Bodleian 1 millió fontja, illetve teszi lehetővé a munka folytatását.

A munka és az anyagi befektetés így lassan két történelmi eredménnyel kecsegtet: mai mértékkel mérve elfogadható keresési lehetőség és a hozzáférés megkönnyítése. Először is irtózatos befektetéssel megváltozik tehát az adatbázis formátuma, a képekből szövegekké alakulnak a dokumentumok, amelyek immár nemcsak egyszerű metaadatok segítségével válnak kereshetővé, hanem a keresés a teljes szövegkorpuszon fog alapulni. Másodszor pedig kiszabadul a ProQuest markából a teljes adatbázis, és a bejelentés szerint hosszú távon ingyenesen hozzáférhetővé válik. Az átállást három fázisban tervezik, és minden fázis befejezése után öt évvel az elkészült adatbázis ingyenesen elérhető lesz, ami azt jelenti, hogy az első rész 2016. január 1-én válik szabadon hozzáférhetővé.

Az örömbe azonban nem kevés üröm is vegyül. Ha ugyanis ilyen tempóban haladnak a munkálatok, akkor az én generációm már csak nyugdíjasként az unokákat vezetheti be ennek a hihetetlen kincsestárnak a használatába, már ha egyáltalán érdekelni fogja őket. Ha esetleg érdekelni fogja őket, akkor pedig az ő igényeik már mások lesznek, ugyanis a terv szerint csak a latin betűs szövegeket teszi kereshetővé az új formátum, azaz az arab és görög szövegrészek, szövegek kereshetetlenek maradnak, hasonlóan az illusztrációkhoz, képekhez és matematikai jelekhez. Unokáink pedig majd joggal kérdezhetik, miért nem tartalmaz fontos információt az adatok utóbb említett halmaza? Különösen azért mert nagyszüleik virágkorában már léteztek képfelismerő szoftverek, és nem latin betűs szövegekben való keresési lehetőségek. Azt már ne is említsem, hogy ez a keresési modell csak szintaktikai egységekben tud működni, míg már ma is vannak majdnem szemantikus keresési modelleken alapuló szövegelemző alkalmazások. De jó, ezt már tényleg nem lehet számon kérni, nem is teszem. Mindenestre a történelem íródik, és remélem, a javunkra.