Archievenblad | 1 mei 2001 | pagina 21 - Periodiekviewer Koninklijke Vereniging van Archivarissen

JJ3B ÓA A-A tj mc Ine 10 ng CR mim\ Ml NVBA nieuws nederlandse vereniging van bedrijfsarchivarissen OPTICAL CHARACTER RECOGNITION Optical Character Recognition is het herkennen van getypte tekens door een computersysteem. Vrij vertaald zou je over 'karakterherkenningsoftware' kunnen spreken. Door middel van dergelijke soft ware kan men via de computer ingescande teksten omzetten in een bestand dat meteen door een tekstverwerker kan wor den gebruikt. Hierdoor is men niet meer verplicht om een reeds bestaande tekst klakkeloos over te typen in de tekstverwer ker, als die tekst nagenoeg ongewijzigd kan worden hergebruikt. Bij de meeste scanners wordt een 'lichte' versie van een OCR-programma meegele verd. Deze programma's zijn meestal in staat om duidelijk geprinte tekst vrij goed in een tekstbestand om te zetten. Wanneer het origineel wat te wensen overlaat, of wanneer het in een exotisch lettertype gedrukt is, krijgt men automatisch meer herkenningsfouten. De professionele OCR-programma's scoren dan duidelijk beter, maar deze kosten dan ook tot tien maal meer dan de 'lichte' versies. Het allereerste OCR-programma werd in 1959 geïntroduceerd door Intelligent Machine Corporation. Dit programma kon slechts één lettertype van één puntgrootte inlezen en werd gebruikt voor de verwer king van voorgedrukte hypotheekaanvra- gen in de banksector. In de loop der tijd werden er machines voor meerdere letter typen ontwikkeld. Deze konden tien of meer lettertypen lezen door gebruik te maken van 'sja- bloonovereenstem- ming'. Hierbij werd het beeld vergeleken met 'bitmap' afbeel dingen in een bibliotheek. De nauwkeurig heid was goed zolang de lettertypen in de bibliotheek zorgvuldig werden gekozen. Machines voor meer lettertypen die waren ontworpen voor kantoorgebruik, beschik ten over bibliotheken met lettertypen van typemachines. Machines die werden gebruikt door instellingen zoals overheids- (OCR) diensten en creditcardbedrijven, waar een bijzonder grote nauwkeurigheid vereist was, gebruikten op maat gemaakte letter typen die waren ontworpen om verwar ring met vergelijkbare lettertekens tot een minimum te beperken. In 1966, werden een Amerikaans standaardlettertype - OCR-A geheten - en een Europees letterty pe - OCR-B - ontwikkeld. Kurzweil Kurzweil Computer Products introdu ceerde in 1978 een systeem dat door de gebruiker kon worden getraind om elk let tertype te lezen. Wanneer de training na een aantal uren was voltooid, werd de informatie op schijf opgeslagen zodat een nieuwe training niet meer nodig was. De meeste OCR-syste- men van eind jaren zeventig en begin jaren tachtig waren gebaseerd op regels. Ze verdeelden ieder letterteken in een aantal kenmerken, zoals rechte en gebogen lij nen. De regels bepaalden vervolgens welk letterteken het beste overeenkwam met de gevonden kenmerken. Deze methode werkte goed bij schone afbeeldingen, maar deed het niet goed bij slecht leesbare let tertekens en 'drukke' pagina's. In 1986 introduceerde Calera Recognition Systems - toen Palantir geheten - een meervoudig lettertypesysteem dat complexe pagina's met een aantal lettertypen kon lezen, zon der dat hiervoor een training nodig was. Dit systeem was niet gebaseerd op regels, maar maakte gebruik van neurale netwer ken; dit zijn algoritmes die leren door te oefenen met voorbeelden. De systeemont wikkelaars voerden meer dan tienduizend voorbeelden in van elk letterteken afkom stig uit alle soorten bronnen, inclusief slecht leesbare pagina's. De computer maakte vervolgens zelf een generalisatie over hoe de afzonderlijke let tertekens eruit zagen. Het resultaat was een OCR-systeem dat intelligent genoeg was om lettertypen te herkennen die het nog nooit eerder had gezien. Het werkte vooral beter dan andere systemen wanneer het ging om slecht leesbare documenten. In 1993 integreerde Calera, met de Adaptive Recognition Technology™, hogere niveaus van contextuele intelligen tie in de neuraal netwerk-engine. Voor iedere nieuwe pagina werd een model ont wikkeld om van tevoren de kenmerken van de ingelezen pagina te bepalen, met inbegrip van informatie zoals puntgrootte, lettertype en de mate van leesbaarheid. Deze paginaspecifieke gegevens werden gecombineerd met van tevoren verzamel de OCR-kennis. Dit zorgde voor betere resultaten en een beduidend grotere nauw keurigheid bij slecht leesbare documenten zoals faxen. Caere Corporation gebruikte ook contex tuele informatie in de Language Analyst™. Hierbij werd gebruik gemaakt van linguï stische informatie, trigramanalyse (drielet tercombinaties) en woordenboeken om de herkenning aanzienlijk te verbeteren. Zowel OmniPage Pro als WordScan maak ten veel gebruik van 'experts' - algoritmes die functioneren als specialisten op ver schillende gebieden van lettertekenher kenning. Zo bevat één expert bijvoorbeeld veel kennis over de stijl van lettertypen, een andere over informatie uit woorden boeken en weer een andere over de slechte leesbaarheid van faxen. Ieder expertsysteem bracht vervolgens een 'stem' uit voor een bepaalde interpretatie van het letterteken en de interpretatie met de meeste stemmen won. Hoewel deze stemprocedure een verbetering was ten opzichte van vergelijking met de sjabloon- overeenstemming, was hier ook een aantal nadelen aan verbonden. Zo waren bijvoor beeld niet alle experts even goed. Sommige hadden meer zwakke punten en blinde vlekken dan andere. Toch kregen hun stemmen evenveel gewicht als die van de betrouwbaardere experts. OmniPage Pro maakte gebruik van de neuraal netwerktechnologie, maar bleef voor het grootste gedeelte gebruikmaken van de op regels gebaseerde benadering. 42 I nederlandse vereniging van bedrijfsarchivarissen De twee methoden hadden ieder hun sterke en zwakke punten en de consument was gedwongen om voor één van de twee te kiezen. In 1994 nam Caere echter Calera over. De OCR-gebruikers verheugden zich direct op het vooruitzicht van een gecombineerd product. In hetzelfde jaar 1994 bracht Caere reeds het pakket WordScan Plus 4.0 uit, waarbij Predictive Optical Word Recognition™ (POWR™) in de neuraal netwerk-engine was geïntegreerd. Wanneer de afzonderlijke lettertekens in een woord moeilijk te isoleren en te her kennen waren, wat gebruikelijk is bij slecht leesbare documenten, stelde POWR de engine in staat om het hele woord te herkennen zonder dat eerst de afzonderlij ke lettertekens hoefden te worden her kend. De versie 4.0 was de laatste versie van WordScan Plus, maar de POWR-tech- nologie leefde voort in OmniPage Pro 9, waarin zij werd verbeterd en bekend werd onder de naam POWR+. In 1996 nam Caere Recognita over en voegde toen ook die herkenningstechnologie, samen met het grote aantal daarin opgenomen experts, toe aan haar product. Het resul taat was het pakket POWR++ het hart van OmniPage Pro 10. Het pakket POWR++ is een mathematische, probabilistische infrastructuur die op een dynamische wijze alle verschillende mogelijkheden 'onderzoekt' van de lettertekens waaruit een bepaald woord bestaat. POWR++ begint de herkenningsprocedure door vra gen te stellen aan een aantal verschillende herkenningsalgoritmes of 'experts' en door een aanvankelijke set van algemene hypo theses aan te maken. Het bewijs voor en tegen iedere hypothese wordt afgewogen en aan iedere hypothese wordt een waar schijnlijkheidsfactor toegekend. Tijdens het afwegen van het bewijs, weegt POWR++ de mening van iedere expert op basis van de relevantie voor de bijzondere kenmerken van de situatie, de automa tisch bepaalde mate van zekerheid en de betrouwbaarheid hiervan (zoals vastge steld bij laboratoriumtests in vergelijkbare situaties). POWR++ zet het onderzoek dan voort door vragen te stellen aan andere experts en door de hypotheses en de waar schijnlijkheid aan te passen. Het onderzoek gaat door tot dat er een helder en duidelijk antwoord naar voren komt. In iedere fase van het onderzoek wordt een nieuwe set experts geselecteerd op basis van de relevantie van hun expertise voor deze bepaalde situatie en hun succes in het verleden in soortgelijke situaties. In de huidige OCR-engine van Caere zijn duizenden experts geïntegreerd die elkaar aanvullen op het gebied van expertise, sterke punten, zwakke punten en blinde vlekken. Het voordeel van de nieuwe POWR++-technologie is dat dit bijzonder grote aantal experts op intelligente wijze kan worden samengebracht om de herken ningsnauwkeurigheid zo groot mogelijk te maken. De nieuwe POWR++-engine is een intelli gentere benadering dan een eenvoudig 'stemsysteem' waarbij de mening van iede re expert evenveel gewicht in de schaal legt. Het gevolg is dat POWR++ veel nauw keuriger en sneller is dan het traditionele stemsysteem. In zowel expertsystemen als neurale netwerken worden de gespecialiseerde algoritmes, die op basis van hun kennis van kleine herkenningsaspecten hun stem uitbrengen voor één bepaald letterteken, sorteerders genoemd. Het pakket POWR++ heeft duizenden sorteerders, veel meer dan de oorspronkelijke geïntegreerde engines hadden, wat betekent dat er meer moge lijkheden overwogen kunnen worden wanneer er twijfel bestaat over een letter teken. Maar meer mogelijkheden betekent ook een grotere waarschijnlijkheid van tegen strijdige stemmen en te veel onzekerheid zou de engine lam kunnen leggen. Daarom heeft POWR++ tevens een module die optreedt als een soort 'superdetective', die het bewijs en de tegenstrijdige verkla ringen van verschillende getuigen bekijkt en dan de statistisch meest waarschijnlijke beslissing neemt. Ondanks het feit dat er misschien miljoenen mogelijkheden over wogen moeten worden, is de engine in staat om in meer dan 99 procent van de gevallen met het juiste antwoord te komen. Het is alsof de spreekwoordelijke naald in een hooiberg telkens weer wordt teruggevonden. De engine is hiertoe in staat omdat hij niet alleen briljant, maar ook nog eens onvermoeibaar is. Ieder stuk je bewijs wordt onderzocht en opnieuw bekeken. Bovendien is hij bijzonder slim. Hij weet aan welke sorteerders hij aan dacht moet besteden en hoeveel gewicht hij moet toekennen aan hun afzonderlijke meningen in de verschillende fases van het proces. De POWR++-engine onderzoekt op dyna mische wijze alle denkbare mogelijkhe den, waarbij hij niet alleen te maken heeft met lettertekens, maar ook met piepkleine deeltjes van lettertekens, de algemene staat van het document, het soort docu ment en ga zo maar door. Hij volgt ver- OCR Technology schillende mogelijke paden, zoekt naar bewijs voor en tegen, interviewt experts, weegt hun meningen af op basis van hun relevantie, betrouwbaarheid en mate van zekerheid. Hij combineert de meningen van een aantal experts en past het onder zoek steeds weer op een dynamische wijze aan wanneer er nieuwe informatie bekend wordt. De detective combineert alle waarschijn lijkheden en conditionele waarschijnlijk heden en komt hierna tot een bijna altijd juist oordeel. Uitleg, werking en gebruik Geschiedenis Integratie BITMAP ECHTABtE TEXT 1 archievenblad mei 2001 Combinatiepakket Detective Maurice Penders/Harry Strijkers (Bron: diverse websites) Page 168 done English (U.S.) Cancel mei 2001 archievenblad

Vorige Volgende