BLUE GENE LEERT LEZEN
Proef met supercomputer alpaleograaf
WGJi '.iü
II k/ 4
J
L2?
ir
7 /li.,.:.,'
Het lezen van oude handschriften
is voor leken niet eenvoudig. Maar oefe
ning baart kunst. Na een specifieke trai
ning in de paleografie lukt het meestal
wel. De onderzoekers die zich bezig
houden met het laten leren lezen van
handgeschreven tekst door een compu
ter zitten in ongeveer dezelfde situatie.
Handgeschreven tekst is een stuk lasti
ger dan getypte tekst, simpelweg omdat
iedereen anders schrijft. Huidige Optical
Character Recognition-technologie is al
niet in staat om moderne handgeschre
ven tekst te lezen. Het is daarom niet te
verwachten dat de computer binnen vijf
tien jaar bijvoorbeeld een logboek van
een VOC-kapitein kan lezen. Maar de
eerste stappen worden gezet: in het vak
gebied 'Kunstmatige Intelligentie' kun
nen computers getraind worden om in
een handschrift patronen te herkennen,
waardoor niet alle patronen zelf hoeven
te worden geprogrammeerd. Aangezien
informatici zelf geen oude handschriften
kunnen lezen, wordt een beroep gedaan
op de archivaris. Daarnaast is een com
puter nodig die snel veel patronen kan
vergelijken: de Groningse supercomputer
Blue Gene.
Blue Gene is de nieuwste telg uit
een lange generatie supercomputers in
Groningen. Met haar 12.288 processors
staat ze op de zesde plaats op de wereld
ranglijst (www.top500.org) van snelste
computers. Blue Gene is aangeschaft
voor het Lofar-project (www.lofar.org)
waarin 15.000 schotels een superantenne
vormen om in de dieptes van het heelal
te staren. Op deze supercomputer wordt
nu in het kader van het SCRATCH-pro
ject kunstmatige intelligentie uitgevoerd.
Blue Gene is zo snel dat niet is te ver
wachten dat deze rekenkracht in de eer
ste vijfentwintig jaar op een bureaucom
puter is te vinden. Om een vergelijking
te maken: een kwart eeuw geleden werd
de eerste hard disk voor microcompu
ters, ter grootte van 5 Mb, op de markt
gebracht. Nu heeft een beetje compu-
Blue Gene is zo snel dat niet is te
verwachten dat deze rekenkracht in
de eerste vijfentwintig jaar op een
bureaucomputer is te vinden
ter 10.000 keer zoveel opslagcapaciteit.
De eerste gigabyte hard disk was net zo
groot als een grote koelkast, woog 150
kilo en kostte 40.000 dollar. Een MP3-
speler vandaag de dag heeft net zoveel
capaciteit en past in de broekzak, weegt
een ons en kost minder dan 100 dollar,
en hij is nog sneller ook. De rekenkracht
van een dure computer van toen wordt
vandaag de dag door menig mobiele tele
foon overtroffen.
Gedurende het onderzoek wordt
geprobeerd om Blue Gene gedeelten van
het archief van het Kabinet der Koningin
te laten lezen. Dat archief loopt over de
periode van 1798 tot 1988. Het aan het
Nationaal Archief overgedragen archief
-
j
heeft een omvang van ruim driedui
zend strekkende meter en bevat alle ori
ginele wetten en Koninklijke Besluiten,
geordend in een chronologische serie.
Inhoudelijk is het een interessante bron,
want over alle onderwerpen van rege
ringsbemoeienis kun je er materiaal in
aantreffen. Omdat in het archief ook
alle correspondentie tussen de Koningin
en de ministers is opgeborgen, is het
tevens een hulpmiddel bij het zoeken
en vinden in de ministeriearchieven.
Het Kabinet heeft vanaf 1798 steeds
een index als eigentijdse toegang op het
archief bijgehouden. Deze indices zijn
jaarlijks opgemaakt en hebben tot 1946
de vorm van een boek (register) en van
1946 tot 1988 die van een kaartsysteem.
Chronologische archieven zijn lastig te
raadplegen. De inventarissen beperken
zich tot formele beschrijvingen van de
aard der stukken (Koninklijke Besluiten,
correspondentie, agenda's, jaarversla
gen), waardoor deze bij het zoeken op
onderwerp geen resultaat opleveren.
Het gebruik van die eigentijdse indices is
dus altijd onvermijdelijk. Indien nu deze
indices op het chronologische archief
gemakkelijk (lees: digitaal) doorzoekbaar
zouden zijn, wordt het archief veel toe
gankelijker en zullen ongetwijfeld verras
sende ontdekkingen worden gedaan. Met
het digitaliseren van één meter indices
wordt ongeveer 25 meter chronologisch
archief toegankelijk gemaakt.
De indices hebben nog een ander voor
deel om als testmateriaal te dienen.
Ze zijn gedurende vele jaren door dezelf
de commies geschreven, in hetzelfde
handschrift dus. De besluiten en cor
respondentie daarentegen bevatten vele
verschillende handschriften. Blue Gene
zal uiteindelijk alle handschriften moe
ten kunnen lezen, maar zal voorlopig
eerst maar eens getraind worden op dat
éne handschrift.
De stappen die de computer onder
neemt zijn gebaseerd op vormen. Er is
eerst nog geen begrip aanwezig van de
tekst. De eerste stap is het onderscheiden
van de voor- en achtergrond: de tekst en
het papier. Vervolgens wordt de dichtheid
van de inkt gemeten. We gebruiken de
voorkennis dat men meestal horizontaal
schrijft en de computer kijkt vervolgens
naar dichtheid van de inkt in horizontale
richting. Is er veel inkt en is het horizon
taal, dan is het een regel. Vervolgens kijkt
ze naar de afwezigheid van inkt, en waar
er de minste inkt is tussen twee horizon
tale gebieden met veel inkt daar wordt de
pagina horizontaal doormidden geknipt.
Dit doen we over de hele pagina en zo
ontstaan zogeheten 'line-strips'Met
behulp van een annotatie-tooi wordt het
voor een archivaris mogelijk om de line-
strips op een handige manier te annote
ren. De transcriptie van de tekst wordt
samen met het patroon opgeslagen. Alle
regels uit de indexen annoteren kost te
veel te tijd, maar hoe meer verschillende
regels worden geannoteerd, hoe preciezer
Blue Gene gaat lezen. De 'leraren' op het
Nationaal Archief zijn hiermee in 2006
begonnen en helpen haar zo leren lezen.
Daarna maakt Blue Gene van de line-
strips nog kleinere stukjes, die we connec
ted components noemen, oftewel CoCo's.
Zo'n CoCo bestaat uit een stuk inkt dat
aan elkaar zit. Dit kan wel eens lastig zijn,
omdat soms woorden aan elkaar vastzit
ten en er in woorden zelf (door het optil
len van de inktpen om te dippen in het
inktpotje) gaten zitten. Als mens kan je dit
makkelijk onderscheiden, maar voor Blue
Gene is dat heel erg lastig. Ons probleem
is het volgende: om een CoCo goed uit te
knippen, moet je het woord herkennen,
maar om het woord te herkennen, moet
je de CoCo's kunnen uitknippen. Het is
dus een kip-en-ei-probleem.
De volgende stap is om te onderzoeken
welke CoCo's op elkaar lijken. De ver
schillende CoCo's worden geclusterd
in op elkaar lijkende groepjes. Na het
clusteren inspecteert een expert of de
computer het goed gedaan heeft. Op de
bijgaande afbeelding heeft de computer
de CoCo 'erdam' correct gevonden. Wil
deze techniek echter goed werken dan
heeft de computer heel erg veel voorbeel
den nodig. We hopen dan ook dat Blue
Gene snel vele tienduizenden pagina's
geannoteerde pagina's beschikbaar krijgt.
Naar verwachting wordt in de tweede
helft van dit jaar een tooi beschikbaar
gesteld, waardoor iedereen zelf een bij
drage kan leveren om zo snel mogelijk
aan zoveel mogelijk geannoteerde pagi
na's te komen.
Iedereen heeft een ander handschrift.
Sommigen zullen bij 'Amsterdam' na de
'e' hun pen optillen, anderen na de 'r' of
op een willekeurige andere plaats. Tevens
schrijft de één rond en de ander hoekig,
de één scheef en de ander recht of scheef
de andere kant op. Om deze reden is het
Natuurlijk mag Blue Gene vragen
stellen, maar als het goed is hoeft ze
steeds minder te vragen
niet genoeg dat Blue Gene leert lezen,
nee, ze moet leren hoe ze het lezen moet
leren. Als ze dat niet zelfstandig leert, dan
kunnen we haar voor elke nieuwe schrij
ver opnieuw trainen. En het is juist de
bedoeling dat ze zelf strategieën ontwik
kelt om een nieuwe schrijver
te kunnen lezen. Natuurlijk
mag Blue Gene vragen stel
len, maar als het goed is hoeft
ze steeds minder te vragen.
Wanneer de basis /van dit
systeem is opgezet, kunnen
we haar ook andere talen en
schriften leren, als er maar
mensen zijn die het geduld
hebben haar vragen te beant
woorden. En dan kan ze (of
waarschijnlijker, haar nage
slacht), ergens rond 2025,
inderdaad voorlezen uit log
boeken van de VOC. Dan
kunnen we haar ook gaan
vragen om bijvoorbeeld span
nende passages van zeerovers
en kielhalen voor te lezen,
of romantische brieven van
Willem van Oranje, of een samenvatting
van de Nederlands-Japanse handelsre
laties in de achttiende eeuw. Als zij, of
een opvolger, andere talen gaat leren,
dan kan je haar bijvoorbeeld ook ver
halen van het platteland van Turkije in
het Nederlands laten vertellen, of verha
len van de Hollandse walvisvaarders in
het Turks, of oude Chinese verhalen in
het Russisch. Dat zou een grote bijdrage
zijn aan de multiculturele wereld en een
openbaring zijn voor velen.
12
DoorTijn van Zant m.m.v. Henny van Schie*
In het kader van het SCRATCH-project doet
Tijn van der Zant promotieonderzoek naar
de automatische transcriptie van oude
handgeschreven teksten. In dit project - een
samenwerkingsverband tussen wetenschap
(Rijksuniversiteit Groningen) en erfgoed
(Nationaal Archief) - moet het mogelijk wor
den om te kunnen 'googlen' door digitale
beelden van oude handschriften. Het project
staat onder begeleiding van prof. Lambert
Schomaker en wordt gefinancierd in het
kader van het NWO-programma 'Continuous
Access To Cultural Heritage' (CATCH).
De supercomputer Blue Gene van de Rijksuniversiteit
Groningen (foto Rijksuniversiteit Groningen).
Supercomputer
'Eenvoudig' testmateriaal
J n yrti
a/..
/r Y'Yt. - fd*"'
f-T S».
fit
&Y* S'
■/dd/kaY'-
136.')
-r - ,y, j
f as- fd- Y'f
4-r -X 'Jk*.
rd A*y,~ ,1.
y/Y
y-p
I -^.•SSjrs- ifst/S'*.. Sa Sr*'^/iSyn'i
r/ /V».
I //ssr., S- '/d
i
ik'/:*/ Y rdd-iy/i'*- fA
I - i
Pagina uit de registers van het archief van het Kabinet der
Koningin, gedateerd 1903 (coll. Nationaal Archief, Den
Haag).
Line-strips en Coco's
Amsterdam](navis-H24001_7824_1314-line-009
(Amst[erdaml) (navis-ffi4001_7824J2'»-line-006
■EHSm
Rott[erdam]} (navis-H24001_7824_1307-line-015
missak
I Amsterdam]} (navis-H24001_7824_1343-line-020
(Rotterdam]) (T,avb-H2«OL7824_132Hine-OI2
Andere handschriften en talen
Tijn van der Zant is als PhD-student verbonden
aan het SCRATCH-project aan de Rijksuniversiteit
Groningen en het Nationaal Archief. Henny van Schie is
senior medewerker toegangen bij het Nationaal Archief
in Den Haag.
archievenblad
juni 2007
juni 2007
archievenblad