chief. Het project is begin juli 1993 succesvol afge
rond.
4.8 De werkwijze
De inventaris- en regestlijsten van het DOC-11-ar-
chief bestaan uit bijna 5000 getypte vellen vanA4 of
legal-formaat die in verschillende mappen zijn op
geborgen. Een groot aantal lijsten is gestencild,
maar er zijn ook fotokopieën en laserprints bij. Dit
geeft al aan dat er verschillende kwaliteitsniveaus te
onderscheiden zijn. De eerste stap in het project
was om per map de verschillende kwaliteiten te
groeperen, waarbij gelet werd op het soort papier
(dikte, gladheid, vergeeld, wit e.d.), het lettertype
en de drukkwaliteit (gebroken of dichtgelopen ka
rakters e.d.).
De aldus ontstane stapels zijn, afhankelijk van de
kwaliteit, met de meest geschikte OCR-software ver
werkt. Het kwalitatief betere materiaal, dat wil zeg
gen de laserprints en de goede fotokopieën, is met
behulp van het Omnipage-pakket geconverteerd,
terwijl het slechte en middelmatige materiaal voor
al met het Kurzweil 5200 systeem is verwerkt (en
voor een klein deel met ProLector)Om een zo goed
mogelijke herkenning te bewerkstelligen is per
kwaliteit/lettertype een verificatie-bestand (Kur
zweil) of een fontbase ProLector) aangemaakt. Dit
zijn aparte bestanden, met behulp waarvan de bit
maps door de ocR-programma's 'gelezen' worden.
Deze verificatie/fontbase-bestanden worden bij het
converteren van andere stapels gelijksoortig materi
aal opnieuw gebruikt. Het 'trainen' van enkele pagi
na's informatie is in eerste instantie zeer intensief en
tijdrovend, maar loont uiteindelijk de moeite, om
dat het een betere herkenning oplevert en voor elke
kwaliteit en lettertype slechts eenmaal hoeft te wor
den gedaan.
Overigens was bij met name de conversie van de
gestencilde vellen, het resultaat betrekkelijk teleur
stellend. De kwaliteit van de documenten was vaak
bijzonder slecht, met veel gebroken en vlekkerige
karakters. In enkele gevallen waren woorden en
stukken tekst niet goed leesbaar.
Na het scannen en converteren, volgde de meest
tijdrovende fase: het corrigeren. In het begin van
het project is veel gebruik gemaakt van de spell-
checker van Wordperfect. Omdat echter bij het
slechte materiaal woorden vaak niet goed leesbaar
zijn, werkt de spell-checker langzaam en laat deze
veel fouten zitten. Om deze reden ook, is in de loop
van het project besloten om de bestanden alleen
handmatig te corrigeren.
Na het conversieproces en de correctiefase, volg
de als laatste onderdeel de structurering van het
materiaal. De inventarislijsten van het RIOD zijn
opgebouwd uit drie soorten informatie: de inlei
dingen op de archieven (collectie), de beschrijvin
gen van de archiefstukken en de trefwoordverwij
zingen. Gedurende de 'structureringsslag' zijn de
inleidingen en de trefwoorden met behulp van een
programma (macro) uit de tekstbestanden gehaald
en in aparte bestanden ondergebracht. Op basis
van de door het riod aangegeven wensen be
treffende de ontsluitingsstructuur, zijn verschillen
de programma's (macro's) ontwikkeld die structuur
brengen in de lay-out van de verschillende bestan
den en de hieronder beschreven veld-codes toevoe
gen:
bestand codes omschrijving
collectie (inleiding)
<cd>
doosnummer
<nm>
naam
<in>
inleiding
beschrijving
<dn>
doosnummer
<mn>
mapnummer
<sn>
stuknummer
<bs>
beschrijving
<dt>
datering
trefwoordverwijzing
<dn>
doosnummer
<mn>
mapnummer
<sn>
stuknummer
<tw>
trefwoord
4.9 Conclusies van het riod-project
Een belangrijke reden voor het nhda dit project
aan te nemen was om ervaring op te doen met een
zo efficiënt mogelijke conversie van een grote hoe
veelheid gedrukt materiaal. Zoals hierboven reeds is
aangegeven, gaf met name het converteren van het
[164
gestencilde materiaal nogal wat problemen. Een an
der praktisch probleem was dat de sheetfeeders van
de verschillende scanners een te geringe capaciteit
hebben. Ze bleken niet geschikt te zijn voor de
doorvoer van een grote hoeveelheid documenten.
Het meest tijdrovende onderdeel van het project
bleek het nalopen en handmatig corrigeren van de
tekstbestanden. Het versnellen van deze fase zal
derhalve ook veel tijdwinst opleveren. Het nhda is
bezig met het verbeteren van de nabewerkingsfase.
Zo wordt bijvoorbeeld aandacht besteed aan on
derzoek naar de ontwikkeling van software voor
spellingscontrole en speciale programma's (ma
cro's) die de meest voorkomende ocR-fouten corri
geren.
Na afloop van het project is berekend of het digi
taliseren van de inventarislijsten inderdaad een be
sparing oplevert. De conclusie is dat een handmati
ge invoer bij dit project ongeveer even veel tijd en
geld zou hebben gekost. Hierbij moet echter wor
den opgemerkt dat het hier een proefproject betrof,
en dat voor het nhda een belangrijk nevendoel was
het uitbreiden van expertise en het onderzoeken
van de problemen betreffende de conversie van gro
te hoeveelheden materiaal.
C
Internationaal Instituut voor Sociale Geschie
denis (iisg): proefproject digitalisering gedrukt
materiaal
4.10 Beschrijving van de collectie
Het Internationaal Instituut voor Sociale Geschie
denis (iisg) te Amsterdam bezit een uitgebreide
collectie archief- en documentatiemateriaal, alsme
de een omvangrijke bibliotheek, betrekking heb
bend op de nationale en internationale sociale ge
schiedenis. De collectie omvat naast binnenlandse
en buitenlandse archieven (totaal 6 kilometer), een
groot aantal heuristieke naslagwerken (20000 ti
tels), periodieken (30000 titels), kranten (12000 ti
tels) en afbeeldingen. Deze bijzondere collectie is
toegankelijk via een tweetal archiefgidsen en via een
geautomatiseerde catalogus (opac). Daarnaast
heeft het iisg een geavanceerd visueel informatie
systeem waarmee 75000 portretfoto's via beeld
schermen geraadpleegd kunnen worden.
Het iisg heeft onder andere een groot aantal spe
cialistische bibliografieën in haar bezit. Bijna elke
bibliografie heeft een eigen rubrieksindeling en
tekstopmaak. De kwaliteit van deze werken is wis
selend: naast goed verzorgde uitgaven zijn er ook
getypte exemplaren. De meeste bibliografieën heb
ben een Latijns lettertype, maar er komen ook niet-
Latijnse tekens voor, bijvoorbeeld Cyrillisch en Go
tisch. Er zijn uitgaven waar met de hand aanteke
ningen op geplaatst zijn. De beschrijvingen van de
bibliografieën zijn opgenomen in het oPAC-sys-
teem.
Kranten en andere folio's vormen ook een be
langrijk onderdeel van de collectie. Ze worden be
waard in banden. De titels van de kranten en andere
periodieken (totaal 60000 titels) zijn eveneens
raadpleegbaar via het OPAC-systeem.
4.11 Het project
De gedachte dat met name de naslagwerken wel
licht meer geraadpleegd zullen worden als ze opge
nomen zijn in een geautomatiseerd informatiesys
teem, was voor het iisg aanleiding het nhda een
proefproject te laten uitvoeren. Doel hiervan was te
onderzoeken op welke wijze onderdelen van de
IISG-collectie opgenomen kunnen worden in der
gelijke systemen. Dit vereist een conversie van pa
pier naar computerbestand.
De nadruk van het onderzoek lag op de toepas
singvan OCR en speciale structureringsprogramma's
als alternatief voor handmatige invoer. Daarnaast
zijn ook alternatieven voor de ontsluiting gedemon
streerd. Bij het onderzoek werden biografische
woordenboeken, bibliografieën, inhoudsopgaven
van tijdschriftartikelen (Current Contents)9 en de
krantencollectie van het Instituut betrokken. In de
loop van het project is het onderzoek steeds meer
toegespitst op enerzijds de conversie van bibliogra
fieën en biografische woordenboeken, en anderzijds
de krantencollectie. Dit proefproject, getiteld: 'Di
gitalisering en ontsluiting van een selectie gedrukt
materiaal aanwezig in het iisg' werd in mei 1993 af
gesloten. In een eindrapport zijn het verloop en de
uitkomsten van het project uitvoerig beschreven.
[165