Noten
Promovendus Jean-Paul van Oosten en prof. dr. Lambert Schomaker (tweede van links) ontvangen de
IAPR Best Paper Award op de internationale handschrift-herkenningsconferentie ICFHR 2012. De IAPR
is de internationale associatie voor onderzoek in patroonherkenning. Tevens werd aan Schomaker de
dr. Ching Yee Suen Special Award voor onderzoek naar schriftherkenning uitgereikt.
"Monk kan alle soorten bronnen
verwerken, maar sommige bronnen zijn
ingewikkeld. We moeten dan veel tijd
steken in het goed verwerken van de
scans. Als het handschrift in één kolom
staat, in mooie horizontale regels, is dat
handiger. Ook kreukels, vocht en
inktvlekken verstoren de herkenning."
Is het mogelijk een vergezicht te
schetsen? Wat gaat de toekomst ons
brengen op dit gebied?
overgestelde. In plaats van dat je de
overeenkomsten tussen de woorden wilt
vaststellen om te concluderen dat er
hetzelfde woord staat, is bij schrijver
identificatie van belang vast te stellen
wat het verschil is. In vergelijking met
woordbeeldherkenning is dat relatief
gemakkelijk, want de menselijke schrijf
motoriek hangt af van de schrijfmethode
op school, de pen grip en de verhoudingen
van de lengtes van botjes in de hand."
"Er was een grote vraag naar deze
toepassing na 11 september 2001. Toen
er anthrax brieven werden verstuurd
wilden opsporingsdiensten snel en
trefzeker de afzender kunnen traceren,
of brieven met een verdacht handschrift
zelfs al in de sorteermachines van de
postbedrijven kunnen isoleren. We
hebben daarom geld gekregen om deze
toepassing te ontwikkelen, waarvan ook
het Nederlands Forensisch Instituut
gebruik kon maken. De toepassing heet
GIWIS. Onder meer Jinna Smit ontdekte
onze toepassing op internet en wilde
deze toepassen om de schrijvers van
charters te identificeren."
Je zegt dat het iets heel anders is, maar
toch komt het allebei uit jullie keuken.
Er moet toch iets gemeenschappelijks
aan zijn?
"De overeenkomsten zijn natuurlijk het
werken met handschriften en beelden.
En verder een belangrijk basisprincipe
uit de Kunstmatige Intelligentie: van de
dingen die we onderzoeken (of het nu
woorden of schrijfstijlen zijn) stellen we
kenmerken vast die handig zijn te
berekenen voor computers. Onder de
motorkap zijn de berekeningen verder
heel vergelijkbaar: het systeem moet
een getal berekenen dat overeenkomt
met de mate van gelijkenis tussen een
model en een onbekend object. Hoe
meer overlap, hoe groter de kans dat de
schrijver of het woord identiek zijn. We
noemen dat 'patroonherkenning'."
"Op dezelfde manier konden we ook
oorkonden met dezelfde kenmerken
groeperen, waardoor we konden
concluderen dat ze in dezelfde periode
en regio waren opgesteld. Jan Burgers
maakt hiervan gebruik in zijn projecten."
"Een ander voorbeeld is de afstudeer
opdracht van historica Marianne Ritsema
van Eck. Zij deed onderzoek in een
middeleeuwse bron en we modelleerden
de lay-out van een akte. Op basis van
dat model konden we aangeven waar
de handeling stond geschreven en waar
de datum. En de aantekening in de
kantlijn die aangaf of het probleem was
opgelost. De handelingen en datum
konden we vervolgens proberen te
herkennen."
Ben je op zoek naar specifiek materiaal
om je systeem verder te verbeteren?
"Altijd. Maar meer nog dan dat zoek ik
'commitment'. Behalve een harde schijf
met scans is het noodzakelijk dat het
systeem met het bewuste handschrift
wordt getraind. Hiervoor moeten
inhoudsdeskundigen (bijvoorbeeld
vrijwilligers of studenten) over een
langere periode informatie kunnen
invoeren. We kunnen dan gezamenlijk
verschillende bronnen ontsluiten en het
systeem verder perfectioneren."
"Het leerproces in Monk lijkt op de
'Fahrkunst'4, een ladder die vroeger
werd gebruikt in de mijnbouw.
Mijnwerkers konden daarmee via twee
eenvoudig op en neer bewegende
ladders in de mijn afdalen of omhoog
gaan. De twee ladderdelen, links en
rechts, komen overeen met respectievelijk
mens en machine. Beiden doen hun
best. Elke stap, elk bevestigd woord
voorbeeld brengt het systeem op een
beter plan."
"Dat is heel erg afhankelijk van de
kritische massa die we kunnen halen.
Hoe meer vergelijkingsmateriaal er is,
hoe beter het systeem wordt. We
hebben ons binnen het SCRATCH-project
geconcentreerd op één bron geschreven
door één klerk in één jaar. We merken
nu al dat als we een archief proberen te
herkennen uit een andere periode en
met een andere hand, we toch al
verrassend goede resultaten behalen.
Inmiddels zijn we met heel divers
materiaal bezig, ook niet-Europese
schriftsoorten. Door de inzet van meer
mankracht en bronnen zal dit snel veel
beter kunnen worden."
1 Een overzicht van zijn werk is te
vinden op www.ai.rug.nl/~lambert.
2 www.ai.rug.nl/alice/nwo-catch-
scratch
3 www.rug.nl/target/index
4 nl.wikipedia.org/wiki/Fahrkunst
Ivo Zandhuis redacteur Archievenblad
en zelfstandig adviseur/projectleider
(www.zandhuis.nl).
'Fahrkunst' in de mijnbouw (foto JuTeCLZ,
Wikimedia Commons).
26 2012 nummer 10