Digitaliseren en ontsluiten
van historische bescheiden
Ervaringen van het Nederlands Historisch Data Archief
P. K. Doorn, R. van Horik, M. Balkestein,
R.M. van derZwan
ujtr.Bcnti.in Dc Sf
to (iet Bc locft-afc
onüooificljtismn
gticlücilochtcn k
hcntiooj't mcnftl
I CU ui otjccn op m
Het nhda: 'expertisecentrum' voor 'scanningen optical character recogni
tion'. Foto Hilde Goossens
[i54]
Het Nederlands Historisch Data Archief (nhda)
is een expertisecentrum op het grensvlak van ge
schiedenis en informatica. Het nhda houdt zich
bezig met het documenteren en ontsluiten van we
tenschappelijke historische computerbestanden.
Het voert projecten uit met het optisch lezen van
historisch drukwerk en is nauw betrokken bij een
postacademische opleiding tot wetenschappelijk
informatieverwerker. Het nhda verleent diensten
aan instellingen op het vlak van digitalisering en
ontsluiting. Binnen het kader van de belangwek
kende discussie over de invloed van de informatie
technologie op het archiefwezen, biedt onder
staand artikel niet alleen een goed inzicht in de
stand van zaken ten aanzien van digitalisering van
historische bescheiden, maar helpt het de archi
varis wellicht ook zijn eigen informatiebeleid na
der vorm te geven. Dr P. K. Doorn, hoofd van het
nhda en docent computerkunde aan de vakgroep
Geschiedenis van de Rijksuniversiteit Leiden, drs
R. van Horik, hoofd van de afdeling Scanning en
OCR van het nhda, mw drs M. Balkestein, tijde
lijk verbonden aan het nhda voor de uitvoering
van het in dit artikel beschreven riod-project, en
drs R. M. van der Zwan, medewerker van de afde
ling Scanning en ocr, beschrijven hier hun erva
ringen.
1
Inleiding
In de tweede helft van de jaren tachtig werd het
steeds duidelijker dat ook historici niet konden ont
komen aan de opmars van de computer. De kaar
tenbak, waarmee menig historicus zich wapende bij
het archiefonderzoek, werd steeds meer verdrongen
door zijn elektronische pendant, de database. In het
archief weerklinkt steeds vaker het geratel van het
toetsenbord van de Notebook pc. Met de toename
van het gebruik van computers door historici is ook
het aantal historische bestanden de laatste jaren fors
gegroeid.
Het invoeren van archiefmateriaal in databases
doet enigszins denken aan de arbeid van middel
eeuwse kopiisten, in ieder geval voor wat betreft het
arbeidsintensieve karakter van het werk. Met be
hulp van leesapparaten (scanners) en computerpro-
grammas voor optische tekenherkenning (ocr -
Optical Character Recognition) kan het invoeren
van gedrukt materiaal worden versneld. De tech
niek kan echter ook zinvol worden toegepast in ar
chief en bibliotheek. Het digitaliseren en ontsluiten
van historisch materiaal is één van de activiteiten
van het Nederlands Historisch Data Archief.
In dit artikel gaan wij na in hoeverre heuristieke
hulpmiddelen, zoals bibliografische naslagwerken
en archieftoegangen, zich lenen om gedigitaliseerd
te worden. Eerst wordt een beknopt overzicht ge
geven van het ontstaan en de activiteiten van het
nhda. Daarna volgt een schets van de techniek van
scanning en ocr. Vervolgens gaan we in op de
praktische ervaringen met het digitaliseren van
bibliografieën en archieftoegangen in een drietal
projecten, die het nhda in opdracht heeft uitge
voerd.
2
Het Nederlands Historisch Data
Archief (NHDA)
2.1 Algemeen
In 1987 werd het initiatief genomen om te komen
tot de oprichting van een historisch data archief,
een plaats waar computerbestanden van geschied
kundig belang zouden kunnen worden gedo
cumenteerd en ontsloten. Dit initiatief van de Ver
eniging voor Geschiedenis en Informatica en het
sociaal-wetenschappelijk Steinmetzarchief heeft
uiteindelijk geleid tot oprichting van het nhda.'
Van een leien dakje is dat niet gegaan. Het nhda
mag zich van nwo (de Nederlandse Organisatie
voor Wetenschappelijk Onderzoek) weliswaar met
de fraaie titel 'Expertisecentrum' tooien, maar het
centrum heeft geen structurele financiering en
functioneert geheel op projectbasis.2
Organisatorisch heeft het nhda de vorm van een
stichting, die gastvrijheid geniet van de Rijksuni
versiteit Leiden. De activiteiten van het nhda kun
nen worden onderverdeeld in drie werkgebieden:
data-archivering en -documentatie, scanning en
optische tekenherkenning, en (postdoctorale) cur
sussen.
Daarnaast beoogt het nhda een ondersteunen-
[155]