Naast deze eenjarige voltijdse opleiding organi seert het nhda ook korte computercursussen voor andere groepen afgestudeerden in de geschiedenis, zoals voor onderzoekers in opleiding (oio's en aio's). 3 Scanning en optische tekenherken ning 3.1 De ontwikkeling van OCR6 Hoewel al in 1929 een patent verleend werd op een machine die met behulp van een lichtdetector be paalde patronen kon herkennen, raakte de ont wikkeling van ocr pas in een stroomversnelling vanaf de jaren '50 toen de computer opkwam. De eerste commerciële paginalezer werd ontwikkeld in 1959. Deze machine kon slechts één lettertype le zen met behulp van het zogenaamde patroonher kenningsprincipe (pattern recognition of matrix matching). Deze techniek isoleert een groep beeld punten in een met behulp van scanning gemaakt beeldbestand (bitmap) en vergelijkt deze met een serie in het geheugen opgeslagen beeldpunten, waaraan een betekenis is toegekend. Is er sprake van overeenkomst of slechts een kleine afwijking, dan krijgt deze verzameling beeldpunten uit de bit map de computercode die gekoppeld is aan de verzameling in het geheugen opgeslagen beeldpun ten. Halverwege de jaren '60 werden speciale letterty pes - ocr-a en ocr-b - ontwikkeld om de leespres taties te verbeteren. In 1978 kwam een systeem op de markt dat door de gebruiker getraind kon wor den, en waarmee maximaal negen verschillende let tertypes simultaan herkend konden worden. Een andere ontwikkeling vond plaats in het midden van de jaren '80. Er ontstond toen een nieuw ocR-algo- ritme dat gebruik maakt van de eigenschapsherken ning (feature extraction). De software beschrijft de eigenschappen van een getal of letter. Zodra deze beschrijving overeenkomt met voor de software 'be kende' tekens, is herkenning een feit. Deze zoge naamde omnifont' herkenning maakt een aanleer- fase overbodig waardoor in principe elke Latijnse drukletter herkend kan worden. Inmiddels is de ocR-technologie verder verfijnd. De grenzen van de mogelijkheden van de huidige generatie ocR-programma's lijken echter bereikt te zijn. Er kunnen nu grote hoeveelheden gedrukte documenten met een enorme snelheid en steeds goedkoper automatisch ingevoerd worden. Terwijl gebruikers steeds hogere eisen stellen, blijven ge compliceerde documenten (fax-uitvoer, meerma len gekopieerde documenten en bijvoorbeeld docu menten met scheeflopende regels etc.) de oCR-sys- temen echter voor problemen stellen. Het beste ocR-systeem ter wereld is nog altijd de mens. In de nieuwe oCR-systemen die momenteel worden ontwikkeld, wordt getracht de wijze waar op de mens leest te imiteren. Hierbij wordt op een flexibele manier informatie uit verschillende bron nen met elkaar geïntegreerd. Op het gebied van de automatische handschrift herkenning zijn de ontwikkelingen minder ver ge vorderd. Handgeschreven getallen kunnen inmid dels vrij goed herkend worden. Dit komt omdat er maar een beperkt aantal tekens voor kan komen (de getallen o tot en met 9) en omdat de tekens van el kaar gescheiden zijn. Cursief handschrift stelt de OCR-software nog voor onoverkomelijke proble men omdat de tekens elkaar raken en vaak verschil lend van vorm zijn. Het is de vraag of er ooit een programma zal zijn dat bijvoorbeeld het hand schrift van uw huisarts kan herkennen.7 3.2 De mogelijkheden van OCR Met de huidige generatie ocR-programmatuur kan zeer veel gedrukt materiaal geconverteerd worden. Het is daarbij van belang dat gelet wordt op het totale conversieproces, zodat het meest ge schikte ocR-programma gebruikt wordt. Het is bijvoorbeeld van belang te weten of wisselingen in lettertype vaak voorkomen. Ook speciale termen in de tekst, de aanwezigheid van tekstkolommen en niet-Latijnse tekens zijn voorbeelden van struc tuurelementen die van invloed zijn op de keuze van een bepaald ocR-pakket en de instellingen daarvan. De prestatie van een ocR-systeem is voor een groot deel afhankelijk van externe factoren, zoals de kwaliteit van het document, de resolutie van de [158] scanner, het gebruikte lettertype en de complexi teit van de pagina-opmaak. Ook de programma-in stellingen bepalen voor een groot gedeelte het eind resultaat. Een drietal voorbeelden kan dit toelich ten. Activering van de spellingcontrole - vaak een on derdeel van een ocR-programma - tijdens het her kenningsproces kan leiden tot de juiste herken ning van een woord, waarbij het algoritme getwij feld heeft. Het is echter ook mogelijk dat een juist herkend woord ten onrechte veranderd wordt. Ver der kan bij sommige programma's een 'herken- ningsdrempel' ingesteld worden. Hoe hoger deze drempel, hoe accurater het systeem zal zijn. Niet herkende tekens worden in dat geval gemarkeerd, maar het kan ook voorkomen dat goed herkende tekens ten onrechte als twijfelgeval vastgelegd wor den. Verlaging van de drempel leidt tot minder markeringen, maar het gevaar bestaat dat veel te kens 'door de mazen van het net glippen' en ver keerd gelezen worden. Tenslotte verdient bijvoor beeld ook de instelling van de contrastdrempel veel aandacht. ocR-programma's kunnen alleen beeld bestanden interpreteren, waarin maar twee tonale waarden voorkomen: zwart en wit; voor grijswaar den is geen plaats. Vergroting van het contrast leidt tot een beeldbestand waarop vlekken beter zicht baar zijn. Verkleining van de contrastwaarde echter maakt vlekken minder zichtbaar, maar de cijfers en letters in het beeldbestand raken gebroken. Het 'Beste ocR-programma' bestaat niet. Wel kan per document vastgesteld worden of en zo ja in welke mate optische tekenherkenning gebruikt kan worden bij de conversie. 3.3 OCR als onderdeel van het totale conversieproces Optische tekenherkenning is slechts één fase in het conversieproces. Allereerst moet de te converteren bron geëvalueerd worden. Soort, vorm, afmeting en omvang bepalen welke scanner en welk ocR-pro- gramma gebruikt dient te worden. In de tweede fase staan de keuze van de juiste scanner en de instellingen daarvan centraal. Ver geeld papier kan bijvoorbeeld het beste gescand worden met een scanner, die een rode drop-out co lour heeft: dit is de kleur van de lichtbron, waar mee het document belicht wordt. Met behulp van sensoren wordt de lichtweerkaatsing opgevangen en geregistreerd. Deze sensoren zijn blind voor de drop-out colour. In de derde fase van het conversie proces wordt nagegaan in welk formaat de bitmap opgeslagen dient te worden en of er bewerkingen noodzakelijk zijn om het leesproces te verbeteren, zoals het verwijderen van vlekken of het (elektro nisch) rechtzetten van scheeflopende regels. De vierde fase bestaat uit het kiezen van een ocR-pro- gramma en het optimaal benutten van de moge lijkheden van de software. Factoren hierbij zijn bij voorbeeld: mogelijkheden om het herkenningsbe- reik te beperken tot bijvoorbeeld alleen getallen, spellingcontrole tijdens of na het leesproces en de mate waarin het mogelijk is alle fout-herkende te kens of tekens waarbij getwijfeld is, te laten mar keren. Programma's die een in te stellen herken ningsdrempel hebben, geven de gebruiker de mees te controle over het leesproces. Na het optisch lezen van de bitmap volgt in de vijfde fase de nabe werking van het gevormde computerbestand. In deze fase kunnen controle- en correctieprocedures het eindresultaat verbeteren. Ook de definitieve structurering van het uitvoerbestand maakt deel uit van deze fase. Hierbij kunnen bijvoorbeeld in het geval van een optisch gelezen bibliografie, co des worden aangebracht bij de onderdelen van een titelbeschrijving. De voorlaatste fase bestaat uit een oriëntatie op de wijze van opslaan van de geconver teerde gegevens. Tenslotte moet als laatste onder deel van het conversieproces aandacht besteed worden aan de ontsluiting van het materiaal. Gege vens worden pas informatie als relevante zoekvra gen aan een verzameling gegevens door een appli catie op een zinvolle manier beantwoord kunnen worden. 4 Een drietal projectbeschrijvingen A Instituut voor Nederlandse Geschiedenis: ver kenning van de mogelijkheden tot digitalisering van het 'Repertorium van boeken en tijdschrif ten betrejfende de geschiedenis van Nederland' [159J

Periodiekviewer Koninklijke Vereniging van Archivarissen

Nederlandsch Archievenblad | 1993 | | pagina 4