JJ3B ÓA
A-A
tj
mc
Ine
10
ng
CR
mim\
Ml
NVBA nieuws
nederlandse vereniging van bedrijfsarchivarissen
OPTICAL CHARACTER RECOGNITION
Optical Character Recognition is het
herkennen van getypte tekens door een
computersysteem. Vrij vertaald zou je over
'karakterherkenningsoftware' kunnen
spreken. Door middel van dergelijke soft
ware kan men via de computer ingescande
teksten omzetten in een bestand dat
meteen door een tekstverwerker kan wor
den gebruikt. Hierdoor is men niet meer
verplicht om een reeds bestaande tekst
klakkeloos over te typen in de tekstverwer
ker, als die tekst nagenoeg ongewijzigd
kan worden hergebruikt.
Bij de meeste scanners wordt een 'lichte'
versie van een OCR-programma meegele
verd. Deze programma's zijn meestal in
staat om duidelijk geprinte tekst vrij goed
in een tekstbestand om te zetten. Wanneer
het origineel wat te wensen overlaat, of
wanneer het in een exotisch lettertype
gedrukt is, krijgt men automatisch meer
herkenningsfouten. De professionele
OCR-programma's scoren dan duidelijk
beter, maar deze kosten dan ook tot tien
maal meer dan de 'lichte' versies.
Het allereerste OCR-programma werd
in 1959 geïntroduceerd door Intelligent
Machine Corporation. Dit programma kon
slechts één lettertype van één puntgrootte
inlezen en werd gebruikt voor de verwer
king van voorgedrukte hypotheekaanvra-
gen in de banksector. In de loop der tijd
werden er machines voor meerdere letter
typen ontwikkeld. Deze konden tien of
meer lettertypen
lezen door gebruik
te maken van 'sja-
bloonovereenstem-
ming'. Hierbij werd
het beeld vergeleken met 'bitmap' afbeel
dingen in een bibliotheek. De nauwkeurig
heid was goed zolang de lettertypen in de
bibliotheek zorgvuldig werden gekozen.
Machines voor meer lettertypen die waren
ontworpen voor kantoorgebruik, beschik
ten over bibliotheken met lettertypen van
typemachines. Machines die werden
gebruikt door instellingen zoals overheids-
(OCR)
diensten en creditcardbedrijven, waar een
bijzonder grote nauwkeurigheid vereist
was, gebruikten op maat gemaakte letter
typen die waren ontworpen om verwar
ring met vergelijkbare lettertekens tot een
minimum te beperken. In 1966, werden
een Amerikaans standaardlettertype -
OCR-A geheten - en een Europees letterty
pe - OCR-B - ontwikkeld.
Kurzweil
Kurzweil Computer Products introdu
ceerde in 1978 een systeem dat door de
gebruiker kon worden getraind om elk let
tertype te lezen. Wanneer de training na
een aantal uren was
voltooid, werd de
informatie op schijf
opgeslagen zodat een
nieuwe training niet
meer nodig was. De
meeste OCR-syste-
men van eind jaren zeventig en begin
jaren tachtig waren gebaseerd op regels. Ze
verdeelden ieder letterteken in een aantal
kenmerken, zoals rechte en gebogen lij
nen. De regels bepaalden vervolgens welk
letterteken het beste overeenkwam met de
gevonden kenmerken. Deze methode
werkte goed bij schone afbeeldingen, maar
deed het niet goed bij slecht leesbare let
tertekens en 'drukke' pagina's. In 1986
introduceerde Calera Recognition Systems
- toen Palantir geheten - een meervoudig
lettertypesysteem dat complexe pagina's
met een aantal lettertypen kon lezen, zon
der dat hiervoor een training nodig was.
Dit systeem was niet gebaseerd op regels,
maar maakte gebruik van neurale netwer
ken; dit zijn algoritmes die leren door te
oefenen met voorbeelden. De systeemont
wikkelaars voerden meer dan tienduizend
voorbeelden in van elk letterteken afkom
stig uit alle soorten bronnen, inclusief
slecht leesbare pagina's.
De computer maakte vervolgens zelf een
generalisatie over hoe de afzonderlijke let
tertekens eruit zagen. Het resultaat was
een OCR-systeem dat intelligent genoeg
was om lettertypen te herkennen die het
nog nooit eerder had gezien. Het werkte
vooral beter dan andere systemen wanneer
het ging om slecht leesbare documenten.
In 1993 integreerde Calera, met de
Adaptive Recognition Technology™,
hogere niveaus van contextuele intelligen
tie in de neuraal netwerk-engine. Voor
iedere nieuwe pagina werd een model ont
wikkeld om van tevoren de kenmerken
van de ingelezen pagina te bepalen, met
inbegrip van informatie zoals puntgrootte,
lettertype en de mate van leesbaarheid.
Deze paginaspecifieke gegevens werden
gecombineerd met van tevoren verzamel
de OCR-kennis. Dit zorgde voor betere
resultaten en een beduidend grotere nauw
keurigheid bij slecht leesbare documenten
zoals faxen.
Caere Corporation
gebruikte ook contex
tuele informatie in de
Language Analyst™.
Hierbij werd gebruik
gemaakt van linguï
stische informatie, trigramanalyse (drielet
tercombinaties) en woordenboeken om de
herkenning aanzienlijk te verbeteren.
Zowel OmniPage Pro als WordScan maak
ten veel gebruik van 'experts' - algoritmes
die functioneren als specialisten op ver
schillende gebieden van lettertekenher
kenning. Zo bevat één expert bijvoorbeeld
veel kennis over de stijl van lettertypen,
een andere over informatie uit woorden
boeken en weer een andere over de slechte
leesbaarheid van faxen.
Ieder expertsysteem bracht vervolgens een
'stem' uit voor een bepaalde interpretatie
van het letterteken en de interpretatie met
de meeste stemmen won. Hoewel deze
stemprocedure een verbetering was ten
opzichte van vergelijking met de sjabloon-
overeenstemming, was hier ook een aantal
nadelen aan verbonden. Zo waren bijvoor
beeld niet alle experts even goed.
Sommige hadden meer zwakke punten en
blinde vlekken dan andere. Toch kregen
hun stemmen evenveel gewicht als die van
de betrouwbaardere experts.
OmniPage Pro maakte gebruik van de
neuraal netwerktechnologie, maar bleef
voor het grootste gedeelte gebruikmaken
van de op regels gebaseerde benadering.
42 I
nederlandse vereniging van bedrijfsarchivarissen
De twee methoden hadden
ieder hun sterke en zwakke
punten en de consument
was gedwongen om voor één
van de twee te kiezen.
In 1994 nam Caere echter Calera over.
De OCR-gebruikers verheugden zich direct
op het vooruitzicht van een gecombineerd
product. In hetzelfde jaar 1994 bracht
Caere reeds het pakket WordScan Plus 4.0
uit, waarbij Predictive Optical Word
Recognition™ (POWR™) in de neuraal
netwerk-engine was geïntegreerd.
Wanneer de afzonderlijke lettertekens in
een woord moeilijk te isoleren en te her
kennen waren, wat gebruikelijk is bij
slecht leesbare documenten, stelde POWR
de engine in staat om het hele woord te
herkennen zonder dat eerst de afzonderlij
ke lettertekens hoefden te worden her
kend. De versie 4.0 was de laatste versie
van WordScan Plus, maar de POWR-tech-
nologie leefde voort in OmniPage Pro 9,
waarin zij werd verbeterd en bekend werd
onder de naam POWR+. In 1996 nam
Caere Recognita over en voegde toen ook
die herkenningstechnologie, samen met
het grote aantal daarin opgenomen
experts, toe aan haar product. Het resul
taat was het pakket POWR++ het hart van
OmniPage Pro 10. Het pakket POWR++ is
een mathematische, probabilistische
infrastructuur die op een dynamische
wijze alle verschillende mogelijkheden
'onderzoekt' van de lettertekens waaruit
een bepaald woord bestaat. POWR++
begint de herkenningsprocedure door vra
gen te stellen aan een aantal verschillende
herkenningsalgoritmes of 'experts' en door
een aanvankelijke set van algemene hypo
theses aan te maken. Het bewijs voor en
tegen iedere hypothese wordt afgewogen
en aan iedere hypothese wordt een waar
schijnlijkheidsfactor toegekend. Tijdens
het afwegen van het bewijs, weegt
POWR++ de mening van iedere expert op
basis van de relevantie voor de bijzondere
kenmerken van de situatie, de automa
tisch bepaalde mate van zekerheid en de
betrouwbaarheid hiervan (zoals vastge
steld bij laboratoriumtests in vergelijkbare
situaties). POWR++ zet het onderzoek dan
voort door vragen te stellen
aan andere experts en door
de hypotheses en de waar
schijnlijkheid aan te passen.
Het onderzoek gaat door tot
dat er een helder en duidelijk
antwoord naar voren komt.
In iedere fase van het onderzoek wordt een
nieuwe set experts geselecteerd op basis
van de relevantie van hun expertise voor
deze bepaalde situatie en hun succes in het
verleden in soortgelijke situaties.
In de huidige OCR-engine van Caere zijn
duizenden experts geïntegreerd die elkaar
aanvullen op het gebied van expertise,
sterke punten, zwakke punten en blinde
vlekken. Het voordeel van de nieuwe
POWR++-technologie is dat dit bijzonder
grote aantal experts op intelligente wijze
kan worden samengebracht om de herken
ningsnauwkeurigheid zo groot mogelijk te
maken.
De nieuwe POWR++-engine is een intelli
gentere benadering dan een eenvoudig
'stemsysteem' waarbij de mening van iede
re expert evenveel gewicht in de schaal
legt. Het gevolg is dat POWR++ veel nauw
keuriger en sneller is dan het traditionele
stemsysteem.
In zowel expertsystemen als neurale
netwerken worden de gespecialiseerde
algoritmes, die op basis van hun kennis
van kleine herkenningsaspecten hun stem
uitbrengen voor één bepaald letterteken,
sorteerders genoemd. Het pakket POWR++
heeft duizenden sorteerders, veel meer dan
de oorspronkelijke geïntegreerde engines
hadden, wat betekent dat er meer moge
lijkheden overwogen kunnen worden
wanneer er twijfel bestaat over een letter
teken.
Maar meer mogelijkheden betekent ook
een grotere waarschijnlijkheid van tegen
strijdige stemmen en te veel onzekerheid
zou de engine lam kunnen leggen.
Daarom heeft POWR++ tevens een module
die optreedt als een soort 'superdetective',
die het bewijs en de tegenstrijdige verkla
ringen van verschillende getuigen bekijkt
en dan de statistisch meest waarschijnlijke
beslissing neemt. Ondanks het feit dat er
misschien miljoenen mogelijkheden over
wogen moeten worden, is de engine in
staat om in meer dan 99 procent van de
gevallen met het juiste antwoord te
komen. Het is alsof de spreekwoordelijke
naald in een hooiberg telkens weer wordt
teruggevonden. De engine is hiertoe in
staat omdat hij niet alleen briljant, maar
ook nog eens onvermoeibaar is. Ieder stuk
je bewijs wordt onderzocht en opnieuw
bekeken. Bovendien is hij bijzonder slim.
Hij weet aan welke sorteerders hij aan
dacht moet besteden en hoeveel gewicht
hij moet toekennen aan hun afzonderlijke
meningen in de verschillende fases van
het proces.
De POWR++-engine onderzoekt op dyna
mische wijze alle denkbare mogelijkhe
den, waarbij hij niet alleen te maken heeft
met lettertekens, maar ook met piepkleine
deeltjes van lettertekens, de algemene
staat van het document, het soort docu
ment en ga zo maar door. Hij volgt ver-
OCR Technology
schillende mogelijke paden, zoekt naar
bewijs voor en tegen, interviewt experts,
weegt hun meningen af op basis van hun
relevantie, betrouwbaarheid en mate van
zekerheid. Hij combineert de meningen
van een aantal experts en past het onder
zoek steeds weer op een dynamische wijze
aan wanneer er nieuwe informatie bekend
wordt.
De detective combineert alle waarschijn
lijkheden en conditionele waarschijnlijk
heden en komt hierna tot een bijna altijd
juist oordeel.
Uitleg, werking en gebruik
Geschiedenis
Integratie
BITMAP ECHTABtE
TEXT
1 archievenblad mei 2001
Combinatiepakket
Detective
Maurice Penders/Harry Strijkers
(Bron: diverse websites)
Page 168 done
English (U.S.)
Cancel
mei 2001
archievenblad