Werken voor de kritische massa
In dit Archievenblad staan onafhankelijk van elkaar twee initiatieven beschreven waarin de achter
liggende techniek afkomstig is uit de keuken van hoogleraar Kunstmatige Intelligentie Lambert
Schomaker. Een derde (SCRATCH) is al vaker in dit blad ter sprake gekomen. Schomaker, directeur van
onderzoeksinstituut ALICE aan de Rijksuniversiteit Groningen, doet onderzoek naar de automatische
herkenning van handschriften. Hij kan archivarissen helpen bij datering en lokalisering van handschriften
en schrijveridentificatie. Maar het ultieme doel is het vinden van het juiste gescande handgeschreven
document op basis van een zoekterm, zonder dat volledige transcriptie noodzakelijk is.1 Naar aan
leiding van dit speciale nummer van het Archievenblad maakte hij tijd vrij voor een interview.
"Voor ons is de naam van het computer
systeem 'Monk' leidend. Monk hebben
we mede dankzij SCRATCH en SCRATCHplus
kunnen ontwikkelen.2 Ook andere
geldbronnen, zoals het Groningse
Target-project3, spelen een rol."
"We trainen Monk om een woordbeeld
terug te vinden op een scan. De training
bestaat eruit dat een computermodel
berekend wordt van een aantal uitgeknipte
plaatjes van woorden, waarvan gebruikers
hebben bepaald dat het om hetzelfde
woord gaat, zeg 'Generaal'. Vervolgens
zoekt Monk in haar collectie van
honderden miljoenen woordafbeeldingen
naar woorden die op dat model lijken.
De beste resultaten worden gegroepeerd
opgeslagen in een 'hit list', net als bij
Google. Het fraaiste exemplaar staat
daarin voorop. Met een bepaalde kans
heeft Monk dan een treffer gevonden.
Als gebruikers de juiste gevonden
voorbeelden vervolgens weer van het
label 'Generaal' voorzien, wordt het
model beter en zal de zoeklijst binnen
een paar dagen van hogere kwaliteit
zijn. Het is een continu leerproces. In
modern jargon: 24/7."
"Ons ultieme doel is om een taxonomie
te ontwikkelen voor handgeschreven
woordvormen in vele schriftsoorten. Met
behulp van zo'n taxonomie wordt het
mogelijk om te zoeken in de scans van
archieven in heel Europa. Hiervoor
hebben we nu al honderden miljoenen
plaatjes van woorden in het systeem
opgenomen. Daarvan hebben meer dan
150.000 woordbeelden een door mensen
bevestigde inhoud, een geweldige basis
voor 'goud zoeken' in grote collecties."
"Het is niet altijd makkelijk om Monk
goed voor het voetlicht te krijgen. Het
blijkt lastig uit te leggen wat het verschil
is tussen het zoeken op basis van
machineleesbare tekst in bijvoorbeeld
ASCII (zoals Google doet) en de manier
van zoeken door het vergelijken van de
plaatjes van de handgeschreven woorden.
Bovendien zijn veel archivarissen en
historici niet tevreden als het geen
100% correct resultaat oplevert. Als de
plaatjes van de woorden van elkaar
afwijken, zien we als mensen of het om
hetzelfde woord gaat. Maar een
computer heeft dat, zeker na slechts een
paar voorbeeldjes, nog niet door.
Bovendien kan uitputtendheid niet
beloofd worden: niet alle mogelijkheden
worden gevonden. Misschien staat de
gezochte naam ergens scheef in de
marge. Wij weten dat de grote hoeveel
heid data - in ons vak 'big data' genoemd -
altijd met een antwoord komt. Maar ben
je tevreden met wat je krijgt? Veel
historici zijn dat niet, maar je zou het
glas ook half vol kunnen zien in plaats
van half leeg. Het goede nieuws is: hoe
langer Monk leeft, hoe beter hij wordt."
Ivo Zandhuis
Voor buitenstaanders lijken deze
toepassingen heel verschillend, maar
blijkbaar ligt er een algemeen
basisprincipe aan ten grondslag.
Hoe zit dat?
"Ja, inderdaad lijken de projecten heel
verschillend. Maar natuurlijk hebben ze
allemaal met handschriften te maken,
met de juiste bewerking van een scan
en in het bijzonder met technieken uit
de Kunstmatige Intelligentie."
"Onze manier van ontsluiting heeft veel
toe te voegen. Als archiefdiensten hun
materiaal ontsluiten kiezen ze een
beperkt rijtje velden. Archivarissen
verwachten dat mensen ze kunnen
gebruiken om het materiaal te vinden.
Het invullen van deze informatie kost
veel tijd. Er is bovendien weinig
structuur in deze informatie en het is
verkokerd. Dat is doodzonde. Tijd voor
een rigoureus andere aanpak."
Met het SCRATCH-project maak je het
mogelijk rechtstreeks te zoeken naar
informatie op basis van de
gedigitaliseerde archiefstukken, zonder
toegang of nadere toegang.
Werkt het vaststellen dat een charter
door dezelfde persoon is geschreven, of
in een bepaalde periode of regio, op
dezelfde manier?
"Eigenlijk is het zo ongeveer het tegen-
nummer 10 2012 25