Digitising and making accessible his torical records. Experiences of the Dutch Historical Data Archive The Dutch Historical Data Archive (dhda) is a Leiden-based expertise centre which operates on the interface of history and information science. What the dhda does is documenting and making accessible scientific his torical computer records, it carries out projects in volving optical character reading (ocr) of historical texts, and is closely associated with a postdoctoral Een belangrijk aspect van dit deel van het project was de structurering van de informatie. Het iisg hanteert een uitgebreide 'taglist' waarmee de titel beschrijvingen worden gecodeerd, zodat ze kunnen worden opgenomen in het ontsluitingssysteem.10 In overleg met het iisg is besloten de titelbeschrij vingen uit Stammhammer als volgt te coderen (waarbij zo nauw mogelijk wordt aangesloten bij de genoemde 'taglist') <na> naam auteur <bt> titel boek (indien relevant: met volgnum mer) <tt> titel tijdschrift (indien relevant: met volg nummer) <ta> titel artikel (indien relevant: met volg nummer) <ref> referentie (formaat, plaats en jaar van uit gave) <vw> verwijzing <ga> geen auteur <com> commentaar (klein gedrukte informatie) Deze codes worden in het bestand aangebracht door de activering van een macro (bestaande uit 16 aparte macro's.) Hierbij is gebruik gemaakt van on der andere de fontmarkeringen die met behulp van ProLector zijn aangebracht. Deze macro's zijn voor een deel semi-automatisch, waarbij ingrijpen van een operator noodzakelijk is.11 Digitalisering van kranten De kran tencollectie vormt een kwetsbare bron ten gevolge van papierverval. Om deze bron te sparen is reeds zoveel mogelijk overgaan tot microverfilming ge wenst.11 Tijdens het onderzoek is gebruik gemaakt van de volgende originelen: a de voorpagina van de 'Sint Louis Dispatch van 28 juli 19x3 en b De 'Havenarbeider' van 1903. Ook zij n periodieken op 3 5 mm rolfilm (negatief en positief) gebruikt. De nadruk van het onderzoek heeft gelegen op het digitaliseren van reeds verfilmd krantenmateri aal. Tevens is enig onderzoek gedaan naar systemen die kranten rechtstreeks digitaliseren en opnemen in een ontsluitingssysteem. De toepassing van mi crofilmscanning, gevolgd door een oCR-fase is een goede oplossing om de kranten op te nemen in in formatiesystemen. Om de relevantie van digitalise ring van documenten vast te stellen zijn tijdens het onderzoek de voor- en nadelen van enkele opslag media bepaald. Deze worden in het eindrapport be schreven. Voor het scannen van krantenpagina's is een Ao-scanner noodzakelijk. De verwerking van het met de Ao-scanner gemaakte beeldbestand vereist beeldverwerkingsprogrammatuur (o.a. ocr) die in staat is deze grote bestanden te verwerken. De soft ware die het nhda tot haar beschikking heeft is hiertoe niet in staat. Verwerking van Ao-formaat is mogelijk met het zogeheten 'Newbase Darwin' sys teem. Omdat het nhda ten tijde van het project niet beschikte over de benodigde apparatuur zijn bij ver schillende bedrijven digitaliseringsproeven uitge voerd. Hieruit bleek dat het digitaliseren van mi crofilms en opname van de resultaten in beeldver- werkende applicaties nog in de kinderschoenen staat. In principe zijn losse componenten beschik baar die deelproblemen oplossen (microfilmscan ning, beeldverbetering, ocr, ontsluiting), maar geïntegreerde systemen zijn niet beschikbaar (een uitzondering is wellicht het al genoemde Newbase Darwin' systeem). Overigens is het zo dat momen teel in enkele Amerikaanse projecten door middel van digitalisering van microfilms, informatiesyste men worden ontwikkeld. Deze projecten zullen veel ervaring en kennis opleveren.1' Ook het nhda zal in de nabije toekomst de expertise op dit gebied verder uitbreiden. 4.14 Conclusies van het IISG-project Het onderzoeksrapport geeft aan op welke wijze een gedrukte bron automatisch geconverteerd kan wor den. Handmatige verrichtingen blijven hierbij noodzakelijk, maar worden tot een minimum be perkt. Optische tekenherkenning bleek in alle geval len sneller te zijn dan handmatige invoer. Het is ui teraard pas zinvol automatische conversie toe te pas sen als de verbeterde ontsluiting en dienstverlening opwegen tegen de noodzakelijke inspanningen. [168] Het onderzoeksproject heeft verder aangetoond welk nut ocR-technieken kunnen hebben voor het iisg. Tevens kan het eindrapport dienen als uit gangspunt vooreen 'produktieproject', waarin de in het rapport beschreven werkwijzen toegepast wor den. Het digitaliseren van kranten kent zeer veel as pecten. Door de enorme hoeveelheid en diverse ver schijningsvormen, alsmede de slechte toestand waarin gedeelten van het materiaal zich bevinden, moeten hoge eisen worden gesteld aan de te gebrui ken apparatuur en menselijke expertise. Ook met de grote rol die microverfilming speelt bij de con versie van krantenmateriaal moet rekening worden gehouden. Het nhda heeft onderzocht welke ap paratuur en kennis nodig is om een informatiesys teem te bouwen waarin krantenmateriaal kan wor den ondergebracht. De techniek bleek in principe in onderdelen beschikbaar, maar van een geïnte greerde toepassing is nog geen sprake. 5 Slot Naslagwerken zoals bibliografieën en biografieën, alsmede archief- en bibliotheektoegangen, lenen zich uitstekend voor digitalisering, omdat deze in formatie gestructureerd is en opgenomen kan wor den in ontsluitingssystemen. Scanning en ocr biedt in de meeste gevallen aanzienlijke voordelen boven het handmatig intypen van het materiaal, al thans voor zover het drukwerk van een redelijke kwaliteit betreft. Geautomatiseerde invoer is dan sneller en goedkoper, zelfs als men dit vergelijkt met handmatige invoer in een 'lage-lonen-land'. De stand van de techniek laat het nog niet toe om hoogwaardige scan-apparatuur en ocR-software te gebruiken als een fotokopieerapparaat. Voor goede bediening is gespecialiseerde kennis van het gehele conversieproces vereist. Dit proces bestaat uit een aantal fasen, die niet los van elkaar gezien kunnen worden. Al bij het scannen moet rekening gehou den worden met de vraag op welke wijze het gedigi taliseerde materiaal moet worden ontsloten. Cor rectie- en formatteringsroutines kunnen behulp zaam zijn bij het opschonen en structureren van de informatie. Ook blijkt er niet één systeem te zijn dat alle soorten bronnen het best verwerkt. De keuze van apparatuur en software is steeds weer afhanke lijk van de aard van het document. In het geval van het Repertorium bleek zelfs voor de ene helft van het materiaal systeem x beter te functioneren en voor de andere helft systeem y. Ieder conversieproces heeft een eigen break-even point in de afweging van ocr versus handmatige invoer. Veel factoren spelen hierbij een rol. Voor grote digitaliseringsprojecten is een vooronderzoek sterk aan te bevelen. Ook moet er rekening mee ge houden worden dat in een digitaliseringsproject van papieren kaartenbak tot elektronisch raad pleegbaar bestand de feitelijke invoerfase de meeste tijd in beslag neemt en daarmee het duurste ele ment vormt. Men dient er rekening mee te houden dat de data-invoer vooralsnog kostbaar blijft. Ook al wordt met behulp van ocr een efficiencyverbete ring van 50% bereikt, dan nog kan gegevensinvoer lang duren en kostbaar zijn. Handmatige invoer is dan echter nog duurder. In de nabije toekomst zal microfilmscanning be langrijk worden. Vooral voor het scannen van grote formaten (zoals kranten) lijkt microverfilming als tussenstap het meest efficiënt. Hierdoor is de preser vering (preservation, dit ter onderscheid van con servering) in principe gewaarborgd. Aangezien het opzoeken van informatie op microfilm traag en om slachtig is, zou digitalisering vooral de ontsluiting ten goede komen. De benodigde combinatie van apparatuur (microfilm-scanner) en expertise hier voor is echter nog nauwelijks beschikbaar. Het nhda hoopt op korte termijn in deze leemte te kunnen voorzien. Summary [169

Periodiekviewer Koninklijke Vereniging van Archivarissen

Nederlandsch Archievenblad | 1993 | | pagina 9