4.1 De bron Het 'Repertorium van boeken en tijdschriften be treffende de geschiedenis van Nederland' (verder aangeduid als Repertorium) wordt sinds enkele ja ren uitgegeven door het Instituut voor Nederlandse Geschiedenis (ing).8 Het eerste Repertorium ver scheen echter al in 1863. Het onderzoek heeft zich beperkt tot de delen die na 1940 gepubliceerd zijn. De kwaliteit en de opzet van de vóór 1940 uitgeko men exemplaren is zeer wisselend. De centrale eenheid in het Repertorium is een publikatie, ook wel lemma genoemd. Het Reperto rium over de jaren 1940-1988 bestaat uit 27 losse delen waarin 115.354 publikaties zijn beschreven op in totaal 9767 bladzijden. Elk lemma heeft een aantal vaste kenmerken, zoals een nummer, au teursnaam en titel. Daarnaast zijn er nog kenmer ken die afhankelijk zijn van de vraag of er sprake is van een tijdschriftartikel of een boektitel. Op het eerste gezicht lijkt het Repertorium een eenduidige opbouw en structuur te hebben, maar toch zijn er in de loop der tijd wijzigingen aange bracht. Zo is de rubrieksindeling niet dezelfde ge durende de hele periode, zodat een eenduidige clas sificatie voor alle lemma's niet mogelijk is. Ook het gebruikte lettertype en de tekstopmaak veranderen in de loop der tijd. Het lettertype bij voorbeeld wordt kleiner, zodat er meer informatie op een pagina verschijnt. Structuur-elementen, aanvankelijk in klein kapitaal, worden later vet ge drukt. Sinds 1987 wordt een database management sys teem gebruikt om het drukken van het Repertori um te vergemakkelijken. In gestructureerde velden wordt de informatie handmatig ingevoerd, inclu sief de opmaakcodes voor de drukker. Verder gene reert het programma automatisch de indices. Ui teraard is nagegaan of deze bestanden opgenomen kunnen worden in een ontsluitingssysteem. 4.2 Het project Het Repertorium is een zeer veel geraadpleegd na slagwerk bij historisch onderzoek. Hoe het Reper torium gebruikt wordt is moeilijk na te gaan. De in dex die achter in elk Repertorium is afgedrukt, is de meest voor de hand liggende ingang, maar ook de rubrieksindeling zal vaak geraadpleegd worden. Er wordt momenteel gewerkt aan een cumulatieve in dex overdejaren 1940-1974. Digitalisering van het Repertorium heeft een aantal voordelen. De belangrijkste is dat de snel heid waarmee informatie gevonden kan worden vele malen hoger ligt dan bij handmatig zoeken in een gedrukte versie van het Repertorium. Verder maakt een cumulatieve opname van alle Reperto- riumdelen zoeken over meer jaren mogelijk. Ook kan er flexibeler gezocht worden door de zoeksleu tel uit te breiden of in te perken. Tenslotte is bij voorbeeld rechtstreekse uitvoer van een selectie pu blikaties naar een printer of computerbestand mo- gelijk. Het project bestond uit vier onderdelen. Aller eerst is de huidige vorm van het Repertorium ge analyseerd. Daarnaast zijn enkele alternatieven voor een toekomstige gedigitaliseerde versie van het Repertorium aangegeven. In de derde fase stond de conversie van de gedrukte vorm naar een digitale versie centraal. Uiteraard is onderzocht of het ge bruik van geavanceerde scanners en ocR-program- ma's efficiënter is dan handmatige invoer. Ten slotte werden de kosten van digitalisering van het Reper torium vastgesteld. 4.3 De conversie van het Reper torium naar computerbestanden Informatie kan op twee manieren naar computer bestanden geconverteerd worden: via het toetsen bord of door middel van optisch lezen door scan ning en OCR. In het project zijn zowel de mogelijk heden van handmatige invoer als van invoer met behulp van scanning en optische tekenherkenning, onderzocht. Hierbij moet op twee aspecten worden gelet. Al lereerst moeten de letters en cijfers correct omgezet worden in computercodes. In de tweede plaats moet de informatie gestructureerd worden. Met andere woorden: de informatie moet in velden worden geplaatst. De vorm waarin dit gebeurt, is afhankelijk van het gekozen ontsluitingssysteem. Verder moet er informatie ingevoerd worden, die een optimale werking van het ontsluitingssysteem [160] ondersteunt. Hiertoe hoort bijvoorbeeld het stan daardiseren van afkortingen. Het meest efficiënt wordt het Repertorium ge scand als alle pagina's afzonderlijk losgesneden kun nen worden, zodat ze stapelsgewijs verwerkt kun nen worden. Bij de ocR-proeven zijn twee geavanceerde pro gramma's gebruikt, die respectievelijk gebruik ma ken van patroonherkenning (ProLector) en eigen schapsherkenning (Kurzweil K5200). Op basis van proeven bleek dat tot het Repertorium van 1965 Kurzweil K5200 beter presteerde dan ProLector. Tot het Repertorium van 1982 zijn de prestaties na genoeg gelijk. Daarna presteert ProLector beter, voornamelijk door de scansnelheid. Als voorbeeld van de verwerking van het Reper torium laten we hier zien hoe de structurering van één lemma verloopt. Het resultaat van het ocr- proces staat hieronder afgedrukt. Met ProLector kunnen de wisselingen van lettertype in de uitvoer gemarkeerd worden. Dit gebeurt met de spitse ha ken 3477. <2>Backer Dirks (F.C.) <i> Een mail boot bij Timor Laut vergaan. <3>Moes- son, <1 87/88, dl 32., nr. 7, p 6-7. 1 markeert het begin van font 1normaal <2> markeert het begin van font 2: vet <3> markeert het begin van font 3: cursief Met een programma (macro) kan vervolgens de oorspronkelijke letteropmaak weer hersteld wor den. Het resultaat ziet er dan als volgt uit: 3477. Backer Dirks (F.C.) Een mailboot bij Timor Laut vergaan. Moesson, 87/88, dl 32., nr. 7, p 6-7. In plaats van het aanbrengen van tekstopmaakcodes kunnen ook veldscheidingtekens aangebracht wor den. Op deze manier kan de informatie gestructu reerd en ingevoerd worden in het ontsluitingssys teem. Het resultaat van zo'n bewerking is bijvoor beeld: lemmanr.: 3477 Auteur: Backer Dirks (F. C.) TitelEen mailboot bij Timor Laut vergaan. Tijdschrift: Moesson Specificatie: 87/88, dl 32., nr. 7, p 607. 4.4 Opslag en ontsluiting Tijdens het project is nagegaan welke opslagmedia voor de gedigitaliseerde versie van het Repertorium in aanmerking zouden kunnen komen. In de eerste plaats is er de mogelijkheid van opslag op een cen trale computer, die via computernetwerken te be reiken is. In de tweede plaats kan gedacht worden aan decentrale opslag op (Compact Disc Read Only Memory) cd-rom. Een cd-rom heeft een opslag capaciteit van 600 Megabyte (600 miljoen tekens). Het te digitaliseren deel van het Repertorium be slaat bijna 10.000 bladzijden. Een gemiddelde pagi na telt tussen de 2000 en 3000 tekens. Voor opslag van deze informatie is derhalve maximaal 30 Mega byte noodzakelijk. Dit past ruimschoots op een cd- rom. Er is dan nog voldoende ruimte voor indices en de ontsluitingssoftware. Centrale ontsluiting heeft als voordeel, dat de databank met Repertoriumgegevens op één plaats wordt onderhouden en dat veranderingen snel be schikbaar zijn. Opslag op een cd-rom heeft als voordeel dat gebruikers bereikt kunnen worden die niet aangesloten zijn op een centrale ontsluiting, bijvoorbeeld ook in het buitenland. Wanneer een cd-rom gemaakt wordt, is sprake van een concreet produkt, dat eventueel in combinatie met het ge drukte Repertorium één geheel kan vormen. Een van de uitkomsten van het onderzoek was verder dat bij het ontwerp van het ontsluitings systeem keuzes gemaakt moeten worden, die veel invloed hebben op de noodzakelijke werkzaamhe den in de conversiefase. Wanneer het bijvoorbeeld mogelijk moet zijn te zoeken naar alleen boeken met het woord 'Amsterdam' in de titel, impliceert dat, dat van elk lemma vastgelegd is of het een boek of tijdschriftartikel is. De werkzaamheden die noodzakelijk zijn bij de structurering van de infor matie tijdens de conversie, worden bepaald door de eisen die aan het zoekprogramma worden gesteld. Daarom is het noodzakelijk informatievelden te onderscheiden, die de basis vormen voor een zoek opdracht. [161]

Periodiekviewer Koninklijke Vereniging van Archivarissen

Nederlandsch Archievenblad | 1993 | | pagina 5