4.1 De bron
Het 'Repertorium van boeken en tijdschriften be
treffende de geschiedenis van Nederland' (verder
aangeduid als Repertorium) wordt sinds enkele ja
ren uitgegeven door het Instituut voor Nederlandse
Geschiedenis (ing).8 Het eerste Repertorium ver
scheen echter al in 1863. Het onderzoek heeft zich
beperkt tot de delen die na 1940 gepubliceerd zijn.
De kwaliteit en de opzet van de vóór 1940 uitgeko
men exemplaren is zeer wisselend.
De centrale eenheid in het Repertorium is een
publikatie, ook wel lemma genoemd. Het Reperto
rium over de jaren 1940-1988 bestaat uit 27 losse
delen waarin 115.354 publikaties zijn beschreven
op in totaal 9767 bladzijden. Elk lemma heeft een
aantal vaste kenmerken, zoals een nummer, au
teursnaam en titel. Daarnaast zijn er nog kenmer
ken die afhankelijk zijn van de vraag of er sprake is
van een tijdschriftartikel of een boektitel.
Op het eerste gezicht lijkt het Repertorium een
eenduidige opbouw en structuur te hebben, maar
toch zijn er in de loop der tijd wijzigingen aange
bracht. Zo is de rubrieksindeling niet dezelfde ge
durende de hele periode, zodat een eenduidige clas
sificatie voor alle lemma's niet mogelijk is.
Ook het gebruikte lettertype en de tekstopmaak
veranderen in de loop der tijd. Het lettertype bij
voorbeeld wordt kleiner, zodat er meer informatie
op een pagina verschijnt. Structuur-elementen,
aanvankelijk in klein kapitaal, worden later vet ge
drukt.
Sinds 1987 wordt een database management sys
teem gebruikt om het drukken van het Repertori
um te vergemakkelijken. In gestructureerde velden
wordt de informatie handmatig ingevoerd, inclu
sief de opmaakcodes voor de drukker. Verder gene
reert het programma automatisch de indices. Ui
teraard is nagegaan of deze bestanden opgenomen
kunnen worden in een ontsluitingssysteem.
4.2 Het project
Het Repertorium is een zeer veel geraadpleegd na
slagwerk bij historisch onderzoek. Hoe het Reper
torium gebruikt wordt is moeilijk na te gaan. De in
dex die achter in elk Repertorium is afgedrukt, is de
meest voor de hand liggende ingang, maar ook de
rubrieksindeling zal vaak geraadpleegd worden. Er
wordt momenteel gewerkt aan een cumulatieve in
dex overdejaren 1940-1974.
Digitalisering van het Repertorium heeft een
aantal voordelen. De belangrijkste is dat de snel
heid waarmee informatie gevonden kan worden
vele malen hoger ligt dan bij handmatig zoeken in
een gedrukte versie van het Repertorium. Verder
maakt een cumulatieve opname van alle Reperto-
riumdelen zoeken over meer jaren mogelijk. Ook
kan er flexibeler gezocht worden door de zoeksleu
tel uit te breiden of in te perken. Tenslotte is bij
voorbeeld rechtstreekse uitvoer van een selectie pu
blikaties naar een printer of computerbestand mo-
gelijk.
Het project bestond uit vier onderdelen. Aller
eerst is de huidige vorm van het Repertorium ge
analyseerd. Daarnaast zijn enkele alternatieven
voor een toekomstige gedigitaliseerde versie van het
Repertorium aangegeven. In de derde fase stond de
conversie van de gedrukte vorm naar een digitale
versie centraal. Uiteraard is onderzocht of het ge
bruik van geavanceerde scanners en ocR-program-
ma's efficiënter is dan handmatige invoer. Ten slotte
werden de kosten van digitalisering van het Reper
torium vastgesteld.
4.3 De conversie van het Reper
torium naar computerbestanden
Informatie kan op twee manieren naar computer
bestanden geconverteerd worden: via het toetsen
bord of door middel van optisch lezen door scan
ning en OCR. In het project zijn zowel de mogelijk
heden van handmatige invoer als van invoer met
behulp van scanning en optische tekenherkenning,
onderzocht.
Hierbij moet op twee aspecten worden gelet. Al
lereerst moeten de letters en cijfers correct omgezet
worden in computercodes. In de tweede plaats
moet de informatie gestructureerd worden. Met
andere woorden: de informatie moet in velden
worden geplaatst. De vorm waarin dit gebeurt, is
afhankelijk van het gekozen ontsluitingssysteem.
Verder moet er informatie ingevoerd worden, die
een optimale werking van het ontsluitingssysteem
[160]
ondersteunt. Hiertoe hoort bijvoorbeeld het stan
daardiseren van afkortingen.
Het meest efficiënt wordt het Repertorium ge
scand als alle pagina's afzonderlijk losgesneden kun
nen worden, zodat ze stapelsgewijs verwerkt kun
nen worden.
Bij de ocR-proeven zijn twee geavanceerde pro
gramma's gebruikt, die respectievelijk gebruik ma
ken van patroonherkenning (ProLector) en eigen
schapsherkenning (Kurzweil K5200). Op basis van
proeven bleek dat tot het Repertorium van 1965
Kurzweil K5200 beter presteerde dan ProLector.
Tot het Repertorium van 1982 zijn de prestaties na
genoeg gelijk. Daarna presteert ProLector beter,
voornamelijk door de scansnelheid.
Als voorbeeld van de verwerking van het Reper
torium laten we hier zien hoe de structurering van
één lemma verloopt. Het resultaat van het ocr-
proces staat hieronder afgedrukt. Met ProLector
kunnen de wisselingen van lettertype in de uitvoer
gemarkeerd worden. Dit gebeurt met de spitse ha
ken
3477. <2>Backer Dirks (F.C.) <i> Een mail
boot bij Timor Laut vergaan. <3>Moes-
son, <1 87/88, dl 32., nr. 7, p 6-7.
1 markeert het begin van font 1normaal
<2> markeert het begin van font 2: vet
<3> markeert het begin van font 3: cursief
Met een programma (macro) kan vervolgens de
oorspronkelijke letteropmaak weer hersteld wor
den. Het resultaat ziet er dan als volgt uit:
3477. Backer Dirks (F.C.) Een mailboot bij
Timor Laut vergaan. Moesson, 87/88, dl
32., nr. 7, p 6-7.
In plaats van het aanbrengen van tekstopmaakcodes
kunnen ook veldscheidingtekens aangebracht wor
den. Op deze manier kan de informatie gestructu
reerd en ingevoerd worden in het ontsluitingssys
teem. Het resultaat van zo'n bewerking is bijvoor
beeld:
lemmanr.: 3477
Auteur: Backer Dirks (F. C.)
TitelEen mailboot bij Timor Laut vergaan.
Tijdschrift: Moesson
Specificatie: 87/88, dl 32., nr. 7, p 607.
4.4 Opslag en ontsluiting
Tijdens het project is nagegaan welke opslagmedia
voor de gedigitaliseerde versie van het Repertorium
in aanmerking zouden kunnen komen. In de eerste
plaats is er de mogelijkheid van opslag op een cen
trale computer, die via computernetwerken te be
reiken is. In de tweede plaats kan gedacht worden
aan decentrale opslag op (Compact Disc Read Only
Memory) cd-rom. Een cd-rom heeft een opslag
capaciteit van 600 Megabyte (600 miljoen tekens).
Het te digitaliseren deel van het Repertorium be
slaat bijna 10.000 bladzijden. Een gemiddelde pagi
na telt tussen de 2000 en 3000 tekens. Voor opslag
van deze informatie is derhalve maximaal 30 Mega
byte noodzakelijk. Dit past ruimschoots op een cd-
rom. Er is dan nog voldoende ruimte voor indices
en de ontsluitingssoftware.
Centrale ontsluiting heeft als voordeel, dat de
databank met Repertoriumgegevens op één plaats
wordt onderhouden en dat veranderingen snel be
schikbaar zijn. Opslag op een cd-rom heeft als
voordeel dat gebruikers bereikt kunnen worden die
niet aangesloten zijn op een centrale ontsluiting,
bijvoorbeeld ook in het buitenland. Wanneer een
cd-rom gemaakt wordt, is sprake van een concreet
produkt, dat eventueel in combinatie met het ge
drukte Repertorium één geheel kan vormen.
Een van de uitkomsten van het onderzoek was
verder dat bij het ontwerp van het ontsluitings
systeem keuzes gemaakt moeten worden, die veel
invloed hebben op de noodzakelijke werkzaamhe
den in de conversiefase. Wanneer het bijvoorbeeld
mogelijk moet zijn te zoeken naar alleen boeken
met het woord 'Amsterdam' in de titel, impliceert
dat, dat van elk lemma vastgelegd is of het een boek
of tijdschriftartikel is. De werkzaamheden die
noodzakelijk zijn bij de structurering van de infor
matie tijdens de conversie, worden bepaald door de
eisen die aan het zoekprogramma worden gesteld.
Daarom is het noodzakelijk informatievelden te
onderscheiden, die de basis vormen voor een zoek
opdracht.
[161]