Archievenblad | 1 juni 2007 | pagina 6 - Periodiekviewer Koninklijke Vereniging van Archivarissen

BLUE GENE LEERT LEZEN Proef met supercomputer alpaleograaf WGJi '.iü II k/ 4 J L2? ir 7 /li.,.:.,' Het lezen van oude handschriften is voor leken niet eenvoudig. Maar oefe ning baart kunst. Na een specifieke trai ning in de paleografie lukt het meestal wel. De onderzoekers die zich bezig houden met het laten leren lezen van handgeschreven tekst door een compu ter zitten in ongeveer dezelfde situatie. Handgeschreven tekst is een stuk lasti ger dan getypte tekst, simpelweg omdat iedereen anders schrijft. Huidige Optical Character Recognition-technologie is al niet in staat om moderne handgeschre ven tekst te lezen. Het is daarom niet te verwachten dat de computer binnen vijf tien jaar bijvoorbeeld een logboek van een VOC-kapitein kan lezen. Maar de eerste stappen worden gezet: in het vak gebied 'Kunstmatige Intelligentie' kun nen computers getraind worden om in een handschrift patronen te herkennen, waardoor niet alle patronen zelf hoeven te worden geprogrammeerd. Aangezien informatici zelf geen oude handschriften kunnen lezen, wordt een beroep gedaan op de archivaris. Daarnaast is een com puter nodig die snel veel patronen kan vergelijken: de Groningse supercomputer Blue Gene. Blue Gene is de nieuwste telg uit een lange generatie supercomputers in Groningen. Met haar 12.288 processors staat ze op de zesde plaats op de wereld ranglijst (www.top500.org) van snelste computers. Blue Gene is aangeschaft voor het Lofar-project (www.lofar.org) waarin 15.000 schotels een superantenne vormen om in de dieptes van het heelal te staren. Op deze supercomputer wordt nu in het kader van het SCRATCH-pro ject kunstmatige intelligentie uitgevoerd. Blue Gene is zo snel dat niet is te ver wachten dat deze rekenkracht in de eer ste vijfentwintig jaar op een bureaucom puter is te vinden. Om een vergelijking te maken: een kwart eeuw geleden werd de eerste hard disk voor microcompu ters, ter grootte van 5 Mb, op de markt gebracht. Nu heeft een beetje compu- Blue Gene is zo snel dat niet is te verwachten dat deze rekenkracht in de eerste vijfentwintig jaar op een bureaucomputer is te vinden ter 10.000 keer zoveel opslagcapaciteit. De eerste gigabyte hard disk was net zo groot als een grote koelkast, woog 150 kilo en kostte 40.000 dollar. Een MP3- speler vandaag de dag heeft net zoveel capaciteit en past in de broekzak, weegt een ons en kost minder dan 100 dollar, en hij is nog sneller ook. De rekenkracht van een dure computer van toen wordt vandaag de dag door menig mobiele tele foon overtroffen. Gedurende het onderzoek wordt geprobeerd om Blue Gene gedeelten van het archief van het Kabinet der Koningin te laten lezen. Dat archief loopt over de periode van 1798 tot 1988. Het aan het Nationaal Archief overgedragen archief - j heeft een omvang van ruim driedui zend strekkende meter en bevat alle ori ginele wetten en Koninklijke Besluiten, geordend in een chronologische serie. Inhoudelijk is het een interessante bron, want over alle onderwerpen van rege ringsbemoeienis kun je er materiaal in aantreffen. Omdat in het archief ook alle correspondentie tussen de Koningin en de ministers is opgeborgen, is het tevens een hulpmiddel bij het zoeken en vinden in de ministeriearchieven. Het Kabinet heeft vanaf 1798 steeds een index als eigentijdse toegang op het archief bijgehouden. Deze indices zijn jaarlijks opgemaakt en hebben tot 1946 de vorm van een boek (register) en van 1946 tot 1988 die van een kaartsysteem. Chronologische archieven zijn lastig te raadplegen. De inventarissen beperken zich tot formele beschrijvingen van de aard der stukken (Koninklijke Besluiten, correspondentie, agenda's, jaarversla gen), waardoor deze bij het zoeken op onderwerp geen resultaat opleveren. Het gebruik van die eigentijdse indices is dus altijd onvermijdelijk. Indien nu deze indices op het chronologische archief gemakkelijk (lees: digitaal) doorzoekbaar zouden zijn, wordt het archief veel toe gankelijker en zullen ongetwijfeld verras sende ontdekkingen worden gedaan. Met het digitaliseren van één meter indices wordt ongeveer 25 meter chronologisch archief toegankelijk gemaakt. De indices hebben nog een ander voor deel om als testmateriaal te dienen. Ze zijn gedurende vele jaren door dezelf de commies geschreven, in hetzelfde handschrift dus. De besluiten en cor respondentie daarentegen bevatten vele verschillende handschriften. Blue Gene zal uiteindelijk alle handschriften moe ten kunnen lezen, maar zal voorlopig eerst maar eens getraind worden op dat éne handschrift. De stappen die de computer onder neemt zijn gebaseerd op vormen. Er is eerst nog geen begrip aanwezig van de tekst. De eerste stap is het onderscheiden van de voor- en achtergrond: de tekst en het papier. Vervolgens wordt de dichtheid van de inkt gemeten. We gebruiken de voorkennis dat men meestal horizontaal schrijft en de computer kijkt vervolgens naar dichtheid van de inkt in horizontale richting. Is er veel inkt en is het horizon taal, dan is het een regel. Vervolgens kijkt ze naar de afwezigheid van inkt, en waar er de minste inkt is tussen twee horizon tale gebieden met veel inkt daar wordt de pagina horizontaal doormidden geknipt. Dit doen we over de hele pagina en zo ontstaan zogeheten 'line-strips'Met behulp van een annotatie-tooi wordt het voor een archivaris mogelijk om de line- strips op een handige manier te annote ren. De transcriptie van de tekst wordt samen met het patroon opgeslagen. Alle regels uit de indexen annoteren kost te veel te tijd, maar hoe meer verschillende regels worden geannoteerd, hoe preciezer Blue Gene gaat lezen. De 'leraren' op het Nationaal Archief zijn hiermee in 2006 begonnen en helpen haar zo leren lezen. Daarna maakt Blue Gene van de line- strips nog kleinere stukjes, die we connec ted components noemen, oftewel CoCo's. Zo'n CoCo bestaat uit een stuk inkt dat aan elkaar zit. Dit kan wel eens lastig zijn, omdat soms woorden aan elkaar vastzit ten en er in woorden zelf (door het optil len van de inktpen om te dippen in het inktpotje) gaten zitten. Als mens kan je dit makkelijk onderscheiden, maar voor Blue Gene is dat heel erg lastig. Ons probleem is het volgende: om een CoCo goed uit te knippen, moet je het woord herkennen, maar om het woord te herkennen, moet je de CoCo's kunnen uitknippen. Het is dus een kip-en-ei-probleem. De volgende stap is om te onderzoeken welke CoCo's op elkaar lijken. De ver schillende CoCo's worden geclusterd in op elkaar lijkende groepjes. Na het clusteren inspecteert een expert of de computer het goed gedaan heeft. Op de bijgaande afbeelding heeft de computer de CoCo 'erdam' correct gevonden. Wil deze techniek echter goed werken dan heeft de computer heel erg veel voorbeel den nodig. We hopen dan ook dat Blue Gene snel vele tienduizenden pagina's geannoteerde pagina's beschikbaar krijgt. Naar verwachting wordt in de tweede helft van dit jaar een tooi beschikbaar gesteld, waardoor iedereen zelf een bij drage kan leveren om zo snel mogelijk aan zoveel mogelijk geannoteerde pagi na's te komen. Iedereen heeft een ander handschrift. Sommigen zullen bij 'Amsterdam' na de 'e' hun pen optillen, anderen na de 'r' of op een willekeurige andere plaats. Tevens schrijft de één rond en de ander hoekig, de één scheef en de ander recht of scheef de andere kant op. Om deze reden is het Natuurlijk mag Blue Gene vragen stellen, maar als het goed is hoeft ze steeds minder te vragen niet genoeg dat Blue Gene leert lezen, nee, ze moet leren hoe ze het lezen moet leren. Als ze dat niet zelfstandig leert, dan kunnen we haar voor elke nieuwe schrij ver opnieuw trainen. En het is juist de bedoeling dat ze zelf strategieën ontwik kelt om een nieuwe schrijver te kunnen lezen. Natuurlijk mag Blue Gene vragen stel len, maar als het goed is hoeft ze steeds minder te vragen. Wanneer de basis /van dit systeem is opgezet, kunnen we haar ook andere talen en schriften leren, als er maar mensen zijn die het geduld hebben haar vragen te beant woorden. En dan kan ze (of waarschijnlijker, haar nage slacht), ergens rond 2025, inderdaad voorlezen uit log boeken van de VOC. Dan kunnen we haar ook gaan vragen om bijvoorbeeld span nende passages van zeerovers en kielhalen voor te lezen, of romantische brieven van Willem van Oranje, of een samenvatting van de Nederlands-Japanse handelsre laties in de achttiende eeuw. Als zij, of een opvolger, andere talen gaat leren, dan kan je haar bijvoorbeeld ook ver halen van het platteland van Turkije in het Nederlands laten vertellen, of verha len van de Hollandse walvisvaarders in het Turks, of oude Chinese verhalen in het Russisch. Dat zou een grote bijdrage zijn aan de multiculturele wereld en een openbaring zijn voor velen. 12 DoorTijn van Zant m.m.v. Henny van Schie* In het kader van het SCRATCH-project doet Tijn van der Zant promotieonderzoek naar de automatische transcriptie van oude handgeschreven teksten. In dit project - een samenwerkingsverband tussen wetenschap (Rijksuniversiteit Groningen) en erfgoed (Nationaal Archief) - moet het mogelijk wor den om te kunnen 'googlen' door digitale beelden van oude handschriften. Het project staat onder begeleiding van prof. Lambert Schomaker en wordt gefinancierd in het kader van het NWO-programma 'Continuous Access To Cultural Heritage' (CATCH). De supercomputer Blue Gene van de Rijksuniversiteit Groningen (foto Rijksuniversiteit Groningen). Supercomputer 'Eenvoudig' testmateriaal J n yrti a/.. /r Y'Yt. - fd*"' f-T S». fit &Y* S' ■/dd/kaY'- 136.') -r - ,y, j f as- fd- Y'f 4-r -X 'Jk*. rd A*y,~ ,1. y/Y y-p I -^.•SSjrs- ifst/S'*.. Sa Sr*'^/iSyn'i r/ /V». I //ssr., S- '/d i ik'/:*/ Y rdd-iy/i'*- fA I - i Pagina uit de registers van het archief van het Kabinet der Koningin, gedateerd 1903 (coll. Nationaal Archief, Den Haag). Line-strips en Coco's Amsterdam](navis-H24001_7824_1314-line-009 (Amst[erdaml) (navis-ffi4001_7824J2'»-line-006 ■EHSm Rott[erdam]} (navis-H24001_7824_1307-line-015 missak I Amsterdam]} (navis-H24001_7824_1343-line-020 (Rotterdam]) (T,avb-H2«OL7824_132Hine-OI2 Andere handschriften en talen Tijn van der Zant is als PhD-student verbonden aan het SCRATCH-project aan de Rijksuniversiteit Groningen en het Nationaal Archief. Henny van Schie is senior medewerker toegangen bij het Nationaal Archief in Den Haag. archievenblad juni 2007 juni 2007 archievenblad

Vorige Volgende