n
068 p p
Handwritten Text Recognition (HTR)
Vervolgonderzoek
datum van het verbaal worden gerepresenteerd op scherm-
weergave 7. Het registratiekenmerk van de onderliggende
documenten, in dit geval het verbaal, wordt gebruikt om ook
(op zijn minst) de inventarisnummers aan te bieden waaronder
de stukken worden geborgen.
Model 2 omhelst een ontsluiting van seriearchieven op een veel
dieperliggend niveau dan in model 1. Een kanttekening is dat
dit model arbeidsintensiever is. Handwritten Text Recognition
(HTR) zou echter een rol kunnen spelen om dit model, maar ook
het eerstgenoemde, minder arbeidsintensief te maken.
Al enkele jaren kunnen door middel van Optical Character
Recognition (OCR) gedrukte teksten zoals kranten full-text
worden doorzocht. Maar ook met de ontwikkeling van enigszins
vergelijkbare, maar op basis van andere technieken tot stand
komende automatische tekstherkenning voor handgeschreven
bronnen wordt de afgelopen jaren snel progressie geboekt.
Een voorbeeld is het MONK-programma van de Rijksuniversiteit
Groningen, waarin patroonherkenning van afbeeldingen
(van woorden) centraal staat. In dit programma traint de mens
een systeem om (afbeeldingen van) woorden steeds beter te
herkennen. De herkende woorden worden per geval voorzien
van een label, met als eindresultaat een steeds verfijnder
resultaat op specifieke, doorzoekbare woorden. Een iets andere
insteek heeft het Transkribus-project van de Universiteit
Innsbruck. Anders dan MONK, streeft Transkribus per document
namelijk een volledige transcriptie na. Daarbij wordt niet alleen
gebruik gemaakt van een optisch model (vergelijkbaar met
MONK), maar ook van een taalmodel. Bij dit laatste wordt
nagegaan welk woord op een bepaalde plek verwacht mag
worden, bijvoorbeeld afgaande op de zinsopbouw.
De gelijkvormigheid van de aangeboden documenten, qua
structuur en taalgebruik, is daarom ook belangrijk en heeft
consequenties voor de prestaties van het systeem. Gezien de
behaalde foutmarges op woordniveau kunnen met HTR
overigens vergelijkbare resultaten worden behaald als bij OCR
(zie onder andere Sanchez 2015). Daar staat tegenover dat het
aantal door de mens uit te voeren handelingen groot is (woorden
labelen, eerste transcripties maken, tekstvlakken markeren,
enzovoorts) en ook dit dus arbeidsintensief kan zijn. Vergeleken
met het handmatig transcriberen van (gehele) teksten, zal de
tijdswinst door het toepassen van HTR echter aanzienlijk zijn.
Bij model 1 zou HTR ingezet kunnen worden om de eigentijdse
trefwoordeningangen (bijvoorbeeld klappers) versneld te
transcriberen. Bij het tweede model kan HTR worden gebruikt
om (gespecificeerde tekstvlakken of woorden uit) de index te
transcriberen. Een belangrijk aandachtspunt is dat in alle
gevallen, maar vooral in het laatste, informatie goed gekoppeld
moet worden. Een voorbeeld hiervan zijn de individuele
documentbeschrijvingen uit de index, waarbij de informatie uit
de kolom 'korte inhoud' steeds gekoppeld moet worden aan
de registratiekenmerken van de onderliggende documenten.
Een laatste aandachtspunt is de wijze van onlinepresentatie van
de getranscribeerde woorden. Gezien de blijvend aanwezige
foutmarges is het aan te bevelen om het resultaat van de HTR
apart beschikbaar te hebben voor onderzoekers, dus naast de
weergave van de bijbehorende scan.
Verder onderzoek is noodzakelijk om beide modellen verder met
elkaar te kunnen vergelijken en te achterhalen of de uitgedachte
modellen ook in de praktijk uitvoerbaar zijn. Het Nationaal