Naast deze eenjarige voltijdse opleiding organi
seert het nhda ook korte computercursussen voor
andere groepen afgestudeerden in de geschiedenis,
zoals voor onderzoekers in opleiding (oio's en
aio's).
3
Scanning en optische tekenherken
ning
3.1 De ontwikkeling van OCR6
Hoewel al in 1929 een patent verleend werd op een
machine die met behulp van een lichtdetector be
paalde patronen kon herkennen, raakte de ont
wikkeling van ocr pas in een stroomversnelling
vanaf de jaren '50 toen de computer opkwam. De
eerste commerciële paginalezer werd ontwikkeld in
1959. Deze machine kon slechts één lettertype le
zen met behulp van het zogenaamde patroonher
kenningsprincipe (pattern recognition of matrix
matching). Deze techniek isoleert een groep beeld
punten in een met behulp van scanning gemaakt
beeldbestand (bitmap) en vergelijkt deze met een
serie in het geheugen opgeslagen beeldpunten,
waaraan een betekenis is toegekend. Is er sprake
van overeenkomst of slechts een kleine afwijking,
dan krijgt deze verzameling beeldpunten uit de bit
map de computercode die gekoppeld is aan de
verzameling in het geheugen opgeslagen beeldpun
ten.
Halverwege de jaren '60 werden speciale letterty
pes - ocr-a en ocr-b - ontwikkeld om de leespres
taties te verbeteren. In 1978 kwam een systeem op
de markt dat door de gebruiker getraind kon wor
den, en waarmee maximaal negen verschillende let
tertypes simultaan herkend konden worden. Een
andere ontwikkeling vond plaats in het midden van
de jaren '80. Er ontstond toen een nieuw ocR-algo-
ritme dat gebruik maakt van de eigenschapsherken
ning (feature extraction). De software beschrijft de
eigenschappen van een getal of letter. Zodra deze
beschrijving overeenkomt met voor de software 'be
kende' tekens, is herkenning een feit. Deze zoge
naamde omnifont' herkenning maakt een aanleer-
fase overbodig waardoor in principe elke Latijnse
drukletter herkend kan worden.
Inmiddels is de ocR-technologie verder verfijnd.
De grenzen van de mogelijkheden van de huidige
generatie ocR-programma's lijken echter bereikt te
zijn. Er kunnen nu grote hoeveelheden gedrukte
documenten met een enorme snelheid en steeds
goedkoper automatisch ingevoerd worden. Terwijl
gebruikers steeds hogere eisen stellen, blijven ge
compliceerde documenten (fax-uitvoer, meerma
len gekopieerde documenten en bijvoorbeeld docu
menten met scheeflopende regels etc.) de oCR-sys-
temen echter voor problemen stellen.
Het beste ocR-systeem ter wereld is nog altijd de
mens. In de nieuwe oCR-systemen die momenteel
worden ontwikkeld, wordt getracht de wijze waar
op de mens leest te imiteren. Hierbij wordt op een
flexibele manier informatie uit verschillende bron
nen met elkaar geïntegreerd.
Op het gebied van de automatische handschrift
herkenning zijn de ontwikkelingen minder ver ge
vorderd. Handgeschreven getallen kunnen inmid
dels vrij goed herkend worden. Dit komt omdat er
maar een beperkt aantal tekens voor kan komen (de
getallen o tot en met 9) en omdat de tekens van el
kaar gescheiden zijn. Cursief handschrift stelt de
OCR-software nog voor onoverkomelijke proble
men omdat de tekens elkaar raken en vaak verschil
lend van vorm zijn. Het is de vraag of er ooit een
programma zal zijn dat bijvoorbeeld het hand
schrift van uw huisarts kan herkennen.7
3.2 De mogelijkheden van OCR
Met de huidige generatie ocR-programmatuur
kan zeer veel gedrukt materiaal geconverteerd
worden. Het is daarbij van belang dat gelet wordt
op het totale conversieproces, zodat het meest ge
schikte ocR-programma gebruikt wordt. Het is
bijvoorbeeld van belang te weten of wisselingen in
lettertype vaak voorkomen. Ook speciale termen
in de tekst, de aanwezigheid van tekstkolommen
en niet-Latijnse tekens zijn voorbeelden van struc
tuurelementen die van invloed zijn op de keuze
van een bepaald ocR-pakket en de instellingen
daarvan.
De prestatie van een ocR-systeem is voor een
groot deel afhankelijk van externe factoren, zoals de
kwaliteit van het document, de resolutie van de
[158]
scanner, het gebruikte lettertype en de complexi
teit van de pagina-opmaak. Ook de programma-in
stellingen bepalen voor een groot gedeelte het eind
resultaat. Een drietal voorbeelden kan dit toelich
ten.
Activering van de spellingcontrole - vaak een on
derdeel van een ocR-programma - tijdens het her
kenningsproces kan leiden tot de juiste herken
ning van een woord, waarbij het algoritme getwij
feld heeft. Het is echter ook mogelijk dat een juist
herkend woord ten onrechte veranderd wordt. Ver
der kan bij sommige programma's een 'herken-
ningsdrempel' ingesteld worden. Hoe hoger deze
drempel, hoe accurater het systeem zal zijn. Niet
herkende tekens worden in dat geval gemarkeerd,
maar het kan ook voorkomen dat goed herkende
tekens ten onrechte als twijfelgeval vastgelegd wor
den. Verlaging van de drempel leidt tot minder
markeringen, maar het gevaar bestaat dat veel te
kens 'door de mazen van het net glippen' en ver
keerd gelezen worden. Tenslotte verdient bijvoor
beeld ook de instelling van de contrastdrempel veel
aandacht. ocR-programma's kunnen alleen beeld
bestanden interpreteren, waarin maar twee tonale
waarden voorkomen: zwart en wit; voor grijswaar
den is geen plaats. Vergroting van het contrast leidt
tot een beeldbestand waarop vlekken beter zicht
baar zijn. Verkleining van de contrastwaarde echter
maakt vlekken minder zichtbaar, maar de cijfers en
letters in het beeldbestand raken gebroken.
Het 'Beste ocR-programma' bestaat niet. Wel
kan per document vastgesteld worden of en zo ja in
welke mate optische tekenherkenning gebruikt kan
worden bij de conversie.
3.3 OCR als onderdeel
van het totale conversieproces
Optische tekenherkenning is slechts één fase in het
conversieproces. Allereerst moet de te converteren
bron geëvalueerd worden. Soort, vorm, afmeting en
omvang bepalen welke scanner en welk ocR-pro-
gramma gebruikt dient te worden.
In de tweede fase staan de keuze van de juiste
scanner en de instellingen daarvan centraal. Ver
geeld papier kan bijvoorbeeld het beste gescand
worden met een scanner, die een rode drop-out co
lour heeft: dit is de kleur van de lichtbron, waar
mee het document belicht wordt. Met behulp van
sensoren wordt de lichtweerkaatsing opgevangen
en geregistreerd. Deze sensoren zijn blind voor de
drop-out colour. In de derde fase van het conversie
proces wordt nagegaan in welk formaat de bitmap
opgeslagen dient te worden en of er bewerkingen
noodzakelijk zijn om het leesproces te verbeteren,
zoals het verwijderen van vlekken of het (elektro
nisch) rechtzetten van scheeflopende regels. De
vierde fase bestaat uit het kiezen van een ocR-pro-
gramma en het optimaal benutten van de moge
lijkheden van de software. Factoren hierbij zijn bij
voorbeeld: mogelijkheden om het herkenningsbe-
reik te beperken tot bijvoorbeeld alleen getallen,
spellingcontrole tijdens of na het leesproces en de
mate waarin het mogelijk is alle fout-herkende te
kens of tekens waarbij getwijfeld is, te laten mar
keren. Programma's die een in te stellen herken
ningsdrempel hebben, geven de gebruiker de mees
te controle over het leesproces. Na het optisch
lezen van de bitmap volgt in de vijfde fase de nabe
werking van het gevormde computerbestand. In
deze fase kunnen controle- en correctieprocedures
het eindresultaat verbeteren. Ook de definitieve
structurering van het uitvoerbestand maakt deel
uit van deze fase. Hierbij kunnen bijvoorbeeld in
het geval van een optisch gelezen bibliografie, co
des worden aangebracht bij de onderdelen van een
titelbeschrijving. De voorlaatste fase bestaat uit een
oriëntatie op de wijze van opslaan van de geconver
teerde gegevens. Tenslotte moet als laatste onder
deel van het conversieproces aandacht besteed
worden aan de ontsluiting van het materiaal. Gege
vens worden pas informatie als relevante zoekvra
gen aan een verzameling gegevens door een appli
catie op een zinvolle manier beantwoord kunnen
worden.
4
Een drietal projectbeschrijvingen
A
Instituut voor Nederlandse Geschiedenis: ver
kenning van de mogelijkheden tot digitalisering
van het 'Repertorium van boeken en tijdschrif
ten betrejfende de geschiedenis van Nederland'
[159J