Werken voor de kritische massa In dit Archievenblad staan onafhankelijk van elkaar twee initiatieven beschreven waarin de achter liggende techniek afkomstig is uit de keuken van hoogleraar Kunstmatige Intelligentie Lambert Schomaker. Een derde (SCRATCH) is al vaker in dit blad ter sprake gekomen. Schomaker, directeur van onderzoeksinstituut ALICE aan de Rijksuniversiteit Groningen, doet onderzoek naar de automatische herkenning van handschriften. Hij kan archivarissen helpen bij datering en lokalisering van handschriften en schrijveridentificatie. Maar het ultieme doel is het vinden van het juiste gescande handgeschreven document op basis van een zoekterm, zonder dat volledige transcriptie noodzakelijk is.1 Naar aan leiding van dit speciale nummer van het Archievenblad maakte hij tijd vrij voor een interview. "Voor ons is de naam van het computer systeem 'Monk' leidend. Monk hebben we mede dankzij SCRATCH en SCRATCHplus kunnen ontwikkelen.2 Ook andere geldbronnen, zoals het Groningse Target-project3, spelen een rol." "We trainen Monk om een woordbeeld terug te vinden op een scan. De training bestaat eruit dat een computermodel berekend wordt van een aantal uitgeknipte plaatjes van woorden, waarvan gebruikers hebben bepaald dat het om hetzelfde woord gaat, zeg 'Generaal'. Vervolgens zoekt Monk in haar collectie van honderden miljoenen woordafbeeldingen naar woorden die op dat model lijken. De beste resultaten worden gegroepeerd opgeslagen in een 'hit list', net als bij Google. Het fraaiste exemplaar staat daarin voorop. Met een bepaalde kans heeft Monk dan een treffer gevonden. Als gebruikers de juiste gevonden voorbeelden vervolgens weer van het label 'Generaal' voorzien, wordt het model beter en zal de zoeklijst binnen een paar dagen van hogere kwaliteit zijn. Het is een continu leerproces. In modern jargon: 24/7." "Ons ultieme doel is om een taxonomie te ontwikkelen voor handgeschreven woordvormen in vele schriftsoorten. Met behulp van zo'n taxonomie wordt het mogelijk om te zoeken in de scans van archieven in heel Europa. Hiervoor hebben we nu al honderden miljoenen plaatjes van woorden in het systeem opgenomen. Daarvan hebben meer dan 150.000 woordbeelden een door mensen bevestigde inhoud, een geweldige basis voor 'goud zoeken' in grote collecties." "Het is niet altijd makkelijk om Monk goed voor het voetlicht te krijgen. Het blijkt lastig uit te leggen wat het verschil is tussen het zoeken op basis van machineleesbare tekst in bijvoorbeeld ASCII (zoals Google doet) en de manier van zoeken door het vergelijken van de plaatjes van de handgeschreven woorden. Bovendien zijn veel archivarissen en historici niet tevreden als het geen 100% correct resultaat oplevert. Als de plaatjes van de woorden van elkaar afwijken, zien we als mensen of het om hetzelfde woord gaat. Maar een computer heeft dat, zeker na slechts een paar voorbeeldjes, nog niet door. Bovendien kan uitputtendheid niet beloofd worden: niet alle mogelijkheden worden gevonden. Misschien staat de gezochte naam ergens scheef in de marge. Wij weten dat de grote hoeveel heid data - in ons vak 'big data' genoemd - altijd met een antwoord komt. Maar ben je tevreden met wat je krijgt? Veel historici zijn dat niet, maar je zou het glas ook half vol kunnen zien in plaats van half leeg. Het goede nieuws is: hoe langer Monk leeft, hoe beter hij wordt." Ivo Zandhuis Voor buitenstaanders lijken deze toepassingen heel verschillend, maar blijkbaar ligt er een algemeen basisprincipe aan ten grondslag. Hoe zit dat? "Ja, inderdaad lijken de projecten heel verschillend. Maar natuurlijk hebben ze allemaal met handschriften te maken, met de juiste bewerking van een scan en in het bijzonder met technieken uit de Kunstmatige Intelligentie." "Onze manier van ontsluiting heeft veel toe te voegen. Als archiefdiensten hun materiaal ontsluiten kiezen ze een beperkt rijtje velden. Archivarissen verwachten dat mensen ze kunnen gebruiken om het materiaal te vinden. Het invullen van deze informatie kost veel tijd. Er is bovendien weinig structuur in deze informatie en het is verkokerd. Dat is doodzonde. Tijd voor een rigoureus andere aanpak." Met het SCRATCH-project maak je het mogelijk rechtstreeks te zoeken naar informatie op basis van de gedigitaliseerde archiefstukken, zonder toegang of nadere toegang. Werkt het vaststellen dat een charter door dezelfde persoon is geschreven, of in een bepaalde periode of regio, op dezelfde manier? "Eigenlijk is het zo ongeveer het tegen- nummer 10 2012 25

Periodiekviewer Koninklijke Vereniging van Archivarissen

Archievenblad | 2012 | | pagina 25