Preservering van databases
In tegenstelling tot bijvoorbeeld tekstverwerkingsbestanden is het eigenlijk geen
optie om databases op papier te bewaren, omdat dan belangrijke functionalitei
ten ervan teniet gedaan worden, namelijk de mogelijkheid om de gegevens naar
keuze te rangschikken (alfabetisch op een veld, of op datum) en om overzichten
ervan te maken. Wanneer we databases op papier zouden bewaren, zouden we
inhoud, structuur en vorm wel erg veel geweld aan doen, en handelen in strijd
met art. 2 van de 'Regeling geordende en toegankelijke staat archiefbescheiden'
dat archiefbescheiden moeten worden bewaard zoals inhoud, structuur en vorm
bij het ontstaan waren, een en ander voor zover inhoud, structuur en vorm
kenbaar moesten zijn voor de uitvoering van het bepaalde werkproces.
Vanwege deze eigenschap, hun 'vroege' verschijnen als bestandstype in de
automatisering en hun aard als buikopslag van gegevens, kreeg de uitdaging van
het preserveren van databases dan ook het eerst de aandacht van archivarissen.
In een aantal landen in Europa zijn daartoe al de eerste schreden gezet. In twee
door mij bijgewoonde seminars in het voorjaar van 20038 bleek, dat men dit
- voor zover er al ervaring mee is opgedaan - overal op min of meer dezelfde
wijze aanpakt, namelijk door de databasebestanden te waarderen en vervolgens
te ontdoen van hun oorspronkelijke (database-eigen) formaat en ze te gieten in
een formaat dat onafhankelijk is van de toepassing. Het gaat dan óf om 'plain
ASCII', wat zoveel wil zeggen als ASCII' in de meeste pure vorm, óf om XML,
een codering die verschillende gegevenselementen kan benoemen en die
- evenals ASCII - gelezen en verwerkt kan worden door verschillende computer
toepassingen. Wat opvalt is, dat de partijen die bezig zijn met het preserveren van
databases, veel meer aandacht besteden aan de preservering ervan dan aan de
toegankelijkheid. Men gaat er veelal vanuit, dat de gebruikers goed overweg
kunnen met de aan hen beschikbaar gestelde bestanden en dat ze zelf over de
toepassingen beschikken die nodig zijn om de bestanden te kunnen raadplegen
(een ICT-er zou hier spreken van: ontsluiten, maar dat is een term die bij archiva
rissen al voor andere activiteiten gereserveerd is). In een omgeving zoals een
gemeentearchief is het natuurlijk nog maar de vraag of het reëel is om daarvan
uit te gaan. Veel gebruikers die onze studiezalen of onze site bezoeken, zullen niet
over die mogelijkheden beschikken, zodat toch aanvullende functionaliteiten
(d.w.z. programmatuur die deze bestanden op een gebruikersvriendelijke wijze
raadpleegbaar maakt) geboden zullen moeten worden.
Verwerving van databasebestanden: selectie en vernietiging aan de bron
Databases zijn bij uitstek gestructureerde gegevensverzamelingen en lenen zich
daardoor dan ook heel goed voor geautomatiseerde selectie en vernietiging.
Gemeentearchief Amsterdam spant zich op dit moment dan ook in om te zorgen
dat onze deskundigheid ten aanzien van waarderen en bewaren benut wordt bij
ontwerp en nieuwbouw van geautomatiseerde systemen, zoals van een vastgoed
systeem, waarin eigendom, gebruik en bewoning van panden wordt geregistreerd
(uiteraard zullen we als functionele specificatie inbrengen, dat alle historie
170
'geautomatiseerd' bewaard moet worden) en van een systeem dat het afhandelen
van e-mails van de burger aan de gemeente geautomatiseerd ondersteunt.
GAA is meerdere malen gebleken dat dossiervorming en bewaring door de ICT-
leveranciers vaak niet als een onderdeel van de 'procesketen' wordt beschouwd.
Wij maakten mee, dat in het ICT-denken het moment waarop de registratie heeft
plaatsgevonden, of de e-mail is beantwoord, het einde van de keten betekent.
Hier zal dus nog veel zendingswerk moeten worden verricht, willen we zorgen dat
de archiefvormer niet met veel hogere kosten en veel meer inspanning - nodig
voor waardering en selectie achteraf - wordt geconfronteerd dan noodzakelijk!
Kantoorautomatisering
Kantoorautomatisering is de omgeving waarbij de meeste medewerkers van de
organisatie zijn betrokken. Eigenlijk is er bij de overheid geen werkplek meer te
vinden zonder een eigen PC en we kunnen alleen maar vermoeden wat dat
betekent voor het aantal bestanden dat iedere organisatie creëert. In het artikel
van Albert Meijer (noot 2) wordt het volledig ontbreken van waarborgen ten
aanzien van de integriteit en volledigheid van creatie en beheer van de archiefbe
scheiden in de kantooromgeving als grootste uitdaging genoemd. De ervaringen
van GAA, opgedaan met de inventarisatie van het archief van Py2k en gekoppeld
aan de ervaringen van Arbeidsvoorziening, duiden echter op een probleem dat in
onze ogen nog groter is en waar we in de paragraaf over ervaringen met data
bases al aan refereerden, namelijk op het feit dat deze digitale bestanden al heel
snel zo'n omvang gekregen hebben en daardoor dermate ontoegankelijk worden,
dat achteraf selectie en vernietiging gerust een feitelijke onmogelijkheid mag
worden genoemd. CD-roms en floppies kunnen op een zeer gering oppervlak
zoveel tekst bevatten, dat de negen CD-tjes die wij van het projectbureau inventa
riseerden, voor ons al meer dan vijftig mensdagen werk zouden betekenen, alleen
al om alle bestanden te openen en te bekijken. De werkwijze die met papieren
archieven nog dagelijks wordt toegepast (alle papieren, zoals door de medewerker
achtergelaten, achteraf ordenen en schonen) is hiermee volstrekt onmogelijk
geworden. Uitsluitend ordening, selectie en vernietiging aan de bron kan ons
hier helpen. Onze ervaring is dat deze praktijk echter bij de overheid, met name
bij beleidsafdelingen, nog maar mondjesmaat wordt toegepast. Juist beleidsmede
werkers zijn heel gelukkig met hun eigen werkomgeving en met de mogelijkheid
om ombeperkt hun 'werkarchieven' onder zich te houden (zij spreken dan zelf
vaak van 'schaduwarchief'), want de tijd dat de systeembeheerder op gezette tijd
zich meldde met de mededeling dat de schijf bijna vol is, is ook voorbij.
Overigens: even zo vaak zijn ook de beleidsmedewerkers uiteindelijk juist erg
ongelukkig omdat ze onder dat eigen digitale archief bedolven raken en niet
weten wat ze ermee aan moeten.
De ervaring bij de bewerking van het archief van Py2I< op GAA leerde, dat er
bij de archiefbescheiden, gemaakt met behulp van kantoorautomatisering, heel
veel sprake was van doublures tussen de digitale en de analoge bestanden. Met
name waar het tekstbestanden betrof kozen we bij GAA in dat geval veelal voor
de analoge (d.w.z. papieren) bestanden als de authentieke, omdat de papieren
bestanden meestal beter geordend waren en de metadata ervan duidelijker
171
DE TOEPASSINGSPRAKTIJK
8 Seminar van de ICA committee on IT 'practical experiences in digital preservation, 2-4 april' in
Richmond en de ERPA-workshop Long-term preservation of databases in Bern.
9 ASCII staat voor American Standard Code for Information Interchange. XML betekent: extensible Markup
Language
CAROLIEN SCHÖNFELD DIGITALE ARCHIEVEN VERWORVEN EN GEWAARDEERD