Nederlandsch Archievenblad | 1 september 1993 | pagina 7 - Periodiekviewer Koninklijke Vereniging van Archivarissen

chief. Het project is begin juli 1993 succesvol afge rond. 4.8 De werkwijze De inventaris- en regestlijsten van het DOC-11-ar- chief bestaan uit bijna 5000 getypte vellen vanA4 of legal-formaat die in verschillende mappen zijn op geborgen. Een groot aantal lijsten is gestencild, maar er zijn ook fotokopieën en laserprints bij. Dit geeft al aan dat er verschillende kwaliteitsniveaus te onderscheiden zijn. De eerste stap in het project was om per map de verschillende kwaliteiten te groeperen, waarbij gelet werd op het soort papier (dikte, gladheid, vergeeld, wit e.d.), het lettertype en de drukkwaliteit (gebroken of dichtgelopen ka rakters e.d.). De aldus ontstane stapels zijn, afhankelijk van de kwaliteit, met de meest geschikte OCR-software ver werkt. Het kwalitatief betere materiaal, dat wil zeg gen de laserprints en de goede fotokopieën, is met behulp van het Omnipage-pakket geconverteerd, terwijl het slechte en middelmatige materiaal voor al met het Kurzweil 5200 systeem is verwerkt (en voor een klein deel met ProLector)Om een zo goed mogelijke herkenning te bewerkstelligen is per kwaliteit/lettertype een verificatie-bestand (Kur zweil) of een fontbase ProLector) aangemaakt. Dit zijn aparte bestanden, met behulp waarvan de bit maps door de ocR-programma's 'gelezen' worden. Deze verificatie/fontbase-bestanden worden bij het converteren van andere stapels gelijksoortig materi aal opnieuw gebruikt. Het 'trainen' van enkele pagi na's informatie is in eerste instantie zeer intensief en tijdrovend, maar loont uiteindelijk de moeite, om dat het een betere herkenning oplevert en voor elke kwaliteit en lettertype slechts eenmaal hoeft te wor den gedaan. Overigens was bij met name de conversie van de gestencilde vellen, het resultaat betrekkelijk teleur stellend. De kwaliteit van de documenten was vaak bijzonder slecht, met veel gebroken en vlekkerige karakters. In enkele gevallen waren woorden en stukken tekst niet goed leesbaar. Na het scannen en converteren, volgde de meest tijdrovende fase: het corrigeren. In het begin van het project is veel gebruik gemaakt van de spell- checker van Wordperfect. Omdat echter bij het slechte materiaal woorden vaak niet goed leesbaar zijn, werkt de spell-checker langzaam en laat deze veel fouten zitten. Om deze reden ook, is in de loop van het project besloten om de bestanden alleen handmatig te corrigeren. Na het conversieproces en de correctiefase, volg de als laatste onderdeel de structurering van het materiaal. De inventarislijsten van het RIOD zijn opgebouwd uit drie soorten informatie: de inlei dingen op de archieven (collectie), de beschrijvin gen van de archiefstukken en de trefwoordverwij zingen. Gedurende de 'structureringsslag' zijn de inleidingen en de trefwoorden met behulp van een programma (macro) uit de tekstbestanden gehaald en in aparte bestanden ondergebracht. Op basis van de door het riod aangegeven wensen be treffende de ontsluitingsstructuur, zijn verschillen de programma's (macro's) ontwikkeld die structuur brengen in de lay-out van de verschillende bestan den en de hieronder beschreven veld-codes toevoe gen: bestand codes omschrijving collectie (inleiding) <cd> doosnummer <nm> naam <in> inleiding beschrijving <dn> doosnummer <mn> mapnummer <sn> stuknummer <bs> beschrijving <dt> datering trefwoordverwijzing <dn> doosnummer <mn> mapnummer <sn> stuknummer <tw> trefwoord 4.9 Conclusies van het riod-project Een belangrijke reden voor het nhda dit project aan te nemen was om ervaring op te doen met een zo efficiënt mogelijke conversie van een grote hoe veelheid gedrukt materiaal. Zoals hierboven reeds is aangegeven, gaf met name het converteren van het [164 gestencilde materiaal nogal wat problemen. Een an der praktisch probleem was dat de sheetfeeders van de verschillende scanners een te geringe capaciteit hebben. Ze bleken niet geschikt te zijn voor de doorvoer van een grote hoeveelheid documenten. Het meest tijdrovende onderdeel van het project bleek het nalopen en handmatig corrigeren van de tekstbestanden. Het versnellen van deze fase zal derhalve ook veel tijdwinst opleveren. Het nhda is bezig met het verbeteren van de nabewerkingsfase. Zo wordt bijvoorbeeld aandacht besteed aan on derzoek naar de ontwikkeling van software voor spellingscontrole en speciale programma's (ma cro's) die de meest voorkomende ocR-fouten corri geren. Na afloop van het project is berekend of het digi taliseren van de inventarislijsten inderdaad een be sparing oplevert. De conclusie is dat een handmati ge invoer bij dit project ongeveer even veel tijd en geld zou hebben gekost. Hierbij moet echter wor den opgemerkt dat het hier een proefproject betrof, en dat voor het nhda een belangrijk nevendoel was het uitbreiden van expertise en het onderzoeken van de problemen betreffende de conversie van gro te hoeveelheden materiaal. C Internationaal Instituut voor Sociale Geschie denis (iisg): proefproject digitalisering gedrukt materiaal 4.10 Beschrijving van de collectie Het Internationaal Instituut voor Sociale Geschie denis (iisg) te Amsterdam bezit een uitgebreide collectie archief- en documentatiemateriaal, alsme de een omvangrijke bibliotheek, betrekking heb bend op de nationale en internationale sociale ge schiedenis. De collectie omvat naast binnenlandse en buitenlandse archieven (totaal 6 kilometer), een groot aantal heuristieke naslagwerken (20000 ti tels), periodieken (30000 titels), kranten (12000 ti tels) en afbeeldingen. Deze bijzondere collectie is toegankelijk via een tweetal archiefgidsen en via een geautomatiseerde catalogus (opac). Daarnaast heeft het iisg een geavanceerd visueel informatie systeem waarmee 75000 portretfoto's via beeld schermen geraadpleegd kunnen worden. Het iisg heeft onder andere een groot aantal spe cialistische bibliografieën in haar bezit. Bijna elke bibliografie heeft een eigen rubrieksindeling en tekstopmaak. De kwaliteit van deze werken is wis selend: naast goed verzorgde uitgaven zijn er ook getypte exemplaren. De meeste bibliografieën heb ben een Latijns lettertype, maar er komen ook niet- Latijnse tekens voor, bijvoorbeeld Cyrillisch en Go tisch. Er zijn uitgaven waar met de hand aanteke ningen op geplaatst zijn. De beschrijvingen van de bibliografieën zijn opgenomen in het oPAC-sys- teem. Kranten en andere folio's vormen ook een be langrijk onderdeel van de collectie. Ze worden be waard in banden. De titels van de kranten en andere periodieken (totaal 60000 titels) zijn eveneens raadpleegbaar via het OPAC-systeem. 4.11 Het project De gedachte dat met name de naslagwerken wel licht meer geraadpleegd zullen worden als ze opge nomen zijn in een geautomatiseerd informatiesys teem, was voor het iisg aanleiding het nhda een proefproject te laten uitvoeren. Doel hiervan was te onderzoeken op welke wijze onderdelen van de IISG-collectie opgenomen kunnen worden in der gelijke systemen. Dit vereist een conversie van pa pier naar computerbestand. De nadruk van het onderzoek lag op de toepas singvan OCR en speciale structureringsprogramma's als alternatief voor handmatige invoer. Daarnaast zijn ook alternatieven voor de ontsluiting gedemon streerd. Bij het onderzoek werden biografische woordenboeken, bibliografieën, inhoudsopgaven van tijdschriftartikelen (Current Contents)9 en de krantencollectie van het Instituut betrokken. In de loop van het project is het onderzoek steeds meer toegespitst op enerzijds de conversie van bibliogra fieën en biografische woordenboeken, en anderzijds de krantencollectie. Dit proefproject, getiteld: 'Di gitalisering en ontsluiting van een selectie gedrukt materiaal aanwezig in het iisg' werd in mei 1993 af gesloten. In een eindrapport zijn het verloop en de uitkomsten van het project uitvoerig beschreven. [165

Vorige Volgende