Schetsboek | 1 januari 2016 | pagina 67 - Periodiekviewer Koninklijke Vereniging van Archivarissen

n 068 p p Handwritten Text Recognition (HTR) Vervolgonderzoek datum van het verbaal worden gerepresenteerd op scherm- weergave 7. Het registratiekenmerk van de onderliggende documenten, in dit geval het verbaal, wordt gebruikt om ook (op zijn minst) de inventarisnummers aan te bieden waaronder de stukken worden geborgen. Model 2 omhelst een ontsluiting van seriearchieven op een veel dieperliggend niveau dan in model 1. Een kanttekening is dat dit model arbeidsintensiever is. Handwritten Text Recognition (HTR) zou echter een rol kunnen spelen om dit model, maar ook het eerstgenoemde, minder arbeidsintensief te maken. Al enkele jaren kunnen door middel van Optical Character Recognition (OCR) gedrukte teksten zoals kranten full-text worden doorzocht. Maar ook met de ontwikkeling van enigszins vergelijkbare, maar op basis van andere technieken tot stand komende automatische tekstherkenning voor handgeschreven bronnen wordt de afgelopen jaren snel progressie geboekt. Een voorbeeld is het MONK-programma van de Rijksuniversiteit Groningen, waarin patroonherkenning van afbeeldingen (van woorden) centraal staat. In dit programma traint de mens een systeem om (afbeeldingen van) woorden steeds beter te herkennen. De herkende woorden worden per geval voorzien van een label, met als eindresultaat een steeds verfijnder resultaat op specifieke, doorzoekbare woorden. Een iets andere insteek heeft het Transkribus-project van de Universiteit Innsbruck. Anders dan MONK, streeft Transkribus per document namelijk een volledige transcriptie na. Daarbij wordt niet alleen gebruik gemaakt van een optisch model (vergelijkbaar met MONK), maar ook van een taalmodel. Bij dit laatste wordt nagegaan welk woord op een bepaalde plek verwacht mag worden, bijvoorbeeld afgaande op de zinsopbouw. De gelijkvormigheid van de aangeboden documenten, qua structuur en taalgebruik, is daarom ook belangrijk en heeft consequenties voor de prestaties van het systeem. Gezien de behaalde foutmarges op woordniveau kunnen met HTR overigens vergelijkbare resultaten worden behaald als bij OCR (zie onder andere Sanchez 2015). Daar staat tegenover dat het aantal door de mens uit te voeren handelingen groot is (woorden labelen, eerste transcripties maken, tekstvlakken markeren, enzovoorts) en ook dit dus arbeidsintensief kan zijn. Vergeleken met het handmatig transcriberen van (gehele) teksten, zal de tijdswinst door het toepassen van HTR echter aanzienlijk zijn. Bij model 1 zou HTR ingezet kunnen worden om de eigentijdse trefwoordeningangen (bijvoorbeeld klappers) versneld te transcriberen. Bij het tweede model kan HTR worden gebruikt om (gespecificeerde tekstvlakken of woorden uit) de index te transcriberen. Een belangrijk aandachtspunt is dat in alle gevallen, maar vooral in het laatste, informatie goed gekoppeld moet worden. Een voorbeeld hiervan zijn de individuele documentbeschrijvingen uit de index, waarbij de informatie uit de kolom 'korte inhoud' steeds gekoppeld moet worden aan de registratiekenmerken van de onderliggende documenten. Een laatste aandachtspunt is de wijze van onlinepresentatie van de getranscribeerde woorden. Gezien de blijvend aanwezige foutmarges is het aan te bevelen om het resultaat van de HTR apart beschikbaar te hebben voor onderzoekers, dus naast de weergave van de bijbehorende scan. Verder onderzoek is noodzakelijk om beide modellen verder met elkaar te kunnen vergelijken en te achterhalen of de uitgedachte modellen ook in de praktijk uitvoerbaar zijn. Het Nationaal

Vorige Volgende