Digitising and making accessible his
torical records. Experiences of the Dutch
Historical Data Archive The Dutch Historical
Data Archive (dhda) is a Leiden-based expertise
centre which operates on the interface of history
and information science. What the dhda does is
documenting and making accessible scientific his
torical computer records, it carries out projects in
volving optical character reading (ocr) of historical
texts, and is closely associated with a postdoctoral
Een belangrijk aspect van dit deel van het project
was de structurering van de informatie. Het iisg
hanteert een uitgebreide 'taglist' waarmee de titel
beschrijvingen worden gecodeerd, zodat ze kunnen
worden opgenomen in het ontsluitingssysteem.10
In overleg met het iisg is besloten de titelbeschrij
vingen uit Stammhammer als volgt te coderen
(waarbij zo nauw mogelijk wordt aangesloten bij de
genoemde 'taglist')
<na> naam auteur
<bt> titel boek (indien relevant: met volgnum
mer)
<tt> titel tijdschrift (indien relevant: met volg
nummer)
<ta> titel artikel (indien relevant: met volg
nummer)
<ref> referentie (formaat, plaats en jaar van uit
gave)
<vw> verwijzing
<ga> geen auteur
<com> commentaar (klein gedrukte informatie)
Deze codes worden in het bestand aangebracht
door de activering van een macro (bestaande uit 16
aparte macro's.) Hierbij is gebruik gemaakt van on
der andere de fontmarkeringen die met behulp van
ProLector zijn aangebracht. Deze macro's zijn voor
een deel semi-automatisch, waarbij ingrijpen van
een operator noodzakelijk is.11
Digitalisering van kranten De kran
tencollectie vormt een kwetsbare bron ten gevolge
van papierverval. Om deze bron te sparen is reeds
zoveel mogelijk overgaan tot microverfilming ge
wenst.11 Tijdens het onderzoek is gebruik gemaakt
van de volgende originelen:
a de voorpagina van de 'Sint Louis Dispatch van
28 juli 19x3 en
b De 'Havenarbeider' van 1903.
Ook zij n periodieken op 3 5 mm rolfilm (negatief en
positief) gebruikt.
De nadruk van het onderzoek heeft gelegen op
het digitaliseren van reeds verfilmd krantenmateri
aal. Tevens is enig onderzoek gedaan naar systemen
die kranten rechtstreeks digitaliseren en opnemen
in een ontsluitingssysteem. De toepassing van mi
crofilmscanning, gevolgd door een oCR-fase is een
goede oplossing om de kranten op te nemen in in
formatiesystemen. Om de relevantie van digitalise
ring van documenten vast te stellen zijn tijdens het
onderzoek de voor- en nadelen van enkele opslag
media bepaald. Deze worden in het eindrapport be
schreven.
Voor het scannen van krantenpagina's is een
Ao-scanner noodzakelijk. De verwerking van het
met de Ao-scanner gemaakte beeldbestand vereist
beeldverwerkingsprogrammatuur (o.a. ocr) die in
staat is deze grote bestanden te verwerken. De soft
ware die het nhda tot haar beschikking heeft is
hiertoe niet in staat. Verwerking van Ao-formaat is
mogelijk met het zogeheten 'Newbase Darwin' sys
teem.
Omdat het nhda ten tijde van het project niet
beschikte over de benodigde apparatuur zijn bij ver
schillende bedrijven digitaliseringsproeven uitge
voerd. Hieruit bleek dat het digitaliseren van mi
crofilms en opname van de resultaten in beeldver-
werkende applicaties nog in de kinderschoenen
staat. In principe zijn losse componenten beschik
baar die deelproblemen oplossen (microfilmscan
ning, beeldverbetering, ocr, ontsluiting), maar
geïntegreerde systemen zijn niet beschikbaar (een
uitzondering is wellicht het al genoemde Newbase
Darwin' systeem). Overigens is het zo dat momen
teel in enkele Amerikaanse projecten door middel
van digitalisering van microfilms, informatiesyste
men worden ontwikkeld. Deze projecten zullen
veel ervaring en kennis opleveren.1' Ook het nhda
zal in de nabije toekomst de expertise op dit gebied
verder uitbreiden.
4.14 Conclusies
van het IISG-project
Het onderzoeksrapport geeft aan op welke wijze een
gedrukte bron automatisch geconverteerd kan wor
den. Handmatige verrichtingen blijven hierbij
noodzakelijk, maar worden tot een minimum be
perkt. Optische tekenherkenning bleek in alle geval
len sneller te zijn dan handmatige invoer. Het is ui
teraard pas zinvol automatische conversie toe te pas
sen als de verbeterde ontsluiting en dienstverlening
opwegen tegen de noodzakelijke inspanningen.
[168]
Het onderzoeksproject heeft verder aangetoond
welk nut ocR-technieken kunnen hebben voor het
iisg. Tevens kan het eindrapport dienen als uit
gangspunt vooreen 'produktieproject', waarin de in
het rapport beschreven werkwijzen toegepast wor
den.
Het digitaliseren van kranten kent zeer veel as
pecten. Door de enorme hoeveelheid en diverse ver
schijningsvormen, alsmede de slechte toestand
waarin gedeelten van het materiaal zich bevinden,
moeten hoge eisen worden gesteld aan de te gebrui
ken apparatuur en menselijke expertise. Ook met
de grote rol die microverfilming speelt bij de con
versie van krantenmateriaal moet rekening worden
gehouden. Het nhda heeft onderzocht welke ap
paratuur en kennis nodig is om een informatiesys
teem te bouwen waarin krantenmateriaal kan wor
den ondergebracht. De techniek bleek in principe
in onderdelen beschikbaar, maar van een geïnte
greerde toepassing is nog geen sprake.
5
Slot
Naslagwerken zoals bibliografieën en biografieën,
alsmede archief- en bibliotheektoegangen, lenen
zich uitstekend voor digitalisering, omdat deze in
formatie gestructureerd is en opgenomen kan wor
den in ontsluitingssystemen. Scanning en ocr
biedt in de meeste gevallen aanzienlijke voordelen
boven het handmatig intypen van het materiaal, al
thans voor zover het drukwerk van een redelijke
kwaliteit betreft. Geautomatiseerde invoer is dan
sneller en goedkoper, zelfs als men dit vergelijkt met
handmatige invoer in een 'lage-lonen-land'.
De stand van de techniek laat het nog niet toe om
hoogwaardige scan-apparatuur en ocR-software te
gebruiken als een fotokopieerapparaat. Voor goede
bediening is gespecialiseerde kennis van het gehele
conversieproces vereist. Dit proces bestaat uit een
aantal fasen, die niet los van elkaar gezien kunnen
worden. Al bij het scannen moet rekening gehou
den worden met de vraag op welke wijze het gedigi
taliseerde materiaal moet worden ontsloten. Cor
rectie- en formatteringsroutines kunnen behulp
zaam zijn bij het opschonen en structureren van de
informatie. Ook blijkt er niet één systeem te zijn dat
alle soorten bronnen het best verwerkt. De keuze
van apparatuur en software is steeds weer afhanke
lijk van de aard van het document. In het geval van
het Repertorium bleek zelfs voor de ene helft van
het materiaal systeem x beter te functioneren en
voor de andere helft systeem y.
Ieder conversieproces heeft een eigen break-even
point in de afweging van ocr versus handmatige
invoer. Veel factoren spelen hierbij een rol. Voor
grote digitaliseringsprojecten is een vooronderzoek
sterk aan te bevelen. Ook moet er rekening mee ge
houden worden dat in een digitaliseringsproject
van papieren kaartenbak tot elektronisch raad
pleegbaar bestand de feitelijke invoerfase de meeste
tijd in beslag neemt en daarmee het duurste ele
ment vormt. Men dient er rekening mee te houden
dat de data-invoer vooralsnog kostbaar blijft. Ook
al wordt met behulp van ocr een efficiencyverbete
ring van 50% bereikt, dan nog kan gegevensinvoer
lang duren en kostbaar zijn. Handmatige invoer is
dan echter nog duurder.
In de nabije toekomst zal microfilmscanning be
langrijk worden. Vooral voor het scannen van grote
formaten (zoals kranten) lijkt microverfilming als
tussenstap het meest efficiënt. Hierdoor is de preser
vering (preservation, dit ter onderscheid van con
servering) in principe gewaarborgd. Aangezien het
opzoeken van informatie op microfilm traag en om
slachtig is, zou digitalisering vooral de ontsluiting
ten goede komen. De benodigde combinatie van
apparatuur (microfilm-scanner) en expertise hier
voor is echter nog nauwelijks beschikbaar. Het
nhda hoopt op korte termijn in deze leemte te
kunnen voorzien.
Summary
[169