igitalisering is een volwassen probleem dat een volwassen aanpak verdient'
f k Digitaal archief Arbeidsvoorziening overgebracht naar het Nationaal Archief
de praktijk
JIM
de praktijk
Ook in de digitale
wereld geldt:
archiveren begint
aan de bron
De oprichting van de tripartiete Arbeids
voorziening in 1991 had tot doel de arbeids
voorziening te verbeteren. Door de sociale part
ners bij het bestuur te betrekken hoopte men op
een slagvaardigere en effectievere arbeidsvoor
ziening. Het was de bedoeling dat de sociale
partners hun kennis van de arbeidsmarkt vooral
op regionaal niveau zouden inbrengen en zo
zouden bijdragen aan een verbetering van de
prestaties van de oude arbeidsbureaus.
In de jaren 2000-2002 oordeelde de politiek
(Tweede Kamer en minister) dat de Arbeids
voorziening op verschillende aspecten was mis
lukt. De bestuurder Arbeidsvoorziening schreef
in zijn Rapportage Afwikkeling Arbeidsvoor
ziening van 2002 dat 'de mislukking van de tri
partiete Arbeidsvoorziening is te wijten aan een
ambivalente start in 1991, innerlijk tegenstrijdi
ge doelstellingen, constructiefouten in de wetge
ving, onderschatting bij overheid en sociale
partners van de voor het besturen van dit zelf
standige bestuursorgaan (ZBO) vereiste bestuur
lijke bekwaamheid, gebrekkig toezicht, de veel
vuldig wijzigende politieke opvattingen en de
lastige bestuurlijke context waarin het ZBO
moest opereren.' De tripartiete bestuursvorm,
waarbij de sociale partners bestuurlijk medever
antwoordelijk waren, werkte belangenbeharti
ging, in plaats van het dienen van het algemeen
belang, in de hand. De administratie was niet op
orde en het toezicht van de minister faalde. De
conclusie was duidelijk: Arbeidsvoorziening is
mislukt, de stekker gaat eruit. Daarvoor in de
plaats komen nieuwe 1-lokets Centra voor Werk
en Inkomen.
Op het moment dat duidelijk is dat
Arbeidsvoorziening wordt opgeheven, gaat de
zorg van het Nationaal Archief, de Rijksarchief
inspectie en Arbeidsvoorziening zelf uit naar het
veiligstellen van het archief. Al gauw blijkt dat
een groot deel van het archief in digitale vorm
aanwezig is. In een artikel in het Archievenblad
uit maart van dit jaar valt te lezen hoe het digi
tale materiaal is verzameld en opgeslagen in een
computermuseum.1 Vervolgens organiseren de
betrokken partijen een proef om uit te vinden of
de gegevens die in de bedrijfssystemen - of data
bases - zijn opgeslagen, op een zinvolle manier
kunnen worden overgezet in een XML-formaat.
Die proef slaagt. Gezien de omvang van het
archief, bijna 25 miljoen bestanden, blijkt het
uitvoeren van een dergelijke conversie voor alle
databases echter onbetaalbaar.
Om de overbrenging van het digitale archief tot
een goed einde brengen, stelt Arbeidsvoor
ziening vervolgens een stuurgroep en een pro
jectgroep in. In die stuurgroep zitten medewer
kers afkomstig van Arbeidsvoorziening, Cap
Gemini Ernst Young (CGE&Y), Het Expertise
Centrum (HEC), het Nationaal Archief en de
Rijksarchiefinspectie. De stuurgroep neemt alle
besluiten en verzorgt de planning. De project
groep, met leden afkomstig uit dezelfde organi
saties, is verantwoordelijk voor de feitelijke uit
voering van het project.
Terug naar het werkproces. Eind 2002 is
zoals gezegd een computermuseum voorhan
den, gevuld met een aantal bedrijfssystemen en
een grote hoeveelheid e-mails en documenten
uit de kantoorautomatiseringomgeving (KA).
Samen is dit archief 16 Tb (Terabytes) zwaar,
omgerekend ongeveer 16.000.000 Mb aan gege
vens. Het grootste probleem waarvoor de betrok
ken partijen, waaronder het Nationaal Archief,
zich dan gesteld zien, is hoe we deze berg aan
materiaal gaan selecteren, het liefst aan de hand
van een vastgestelde selectielijst.
We besluiten voor de selectie een onderscheid te
maken tussen de bedrijfssystemen enerzijds en
het KA-archief anderzijds. De bedrijfssystemen
zijn hoofdzakelijk gebruikt in ondersteunende
processen en bij de uitvoering van taken die
betrekking hebben op individuele cliënten en
individuele werkgevers. Volgens de selectielijs
ten komt dit materiaal voor vernietiging in aan
merking. Hierop maken we één uitzondering,
namelijk voor een deel van de intranetsite,
Brains, dat de besluitvorming van het Centrale
Bestuur voor de Arbeidsvoorziening documen
teert. Bij inspectie blijkt het KA-archief naast erg
veel te vernietigen materiaal ook archiefmateri
aal te bevatten dat volgens de selectielijst
bewaard moet worden. Onze conclusie is dat de
applicatie Brains en een deel van de kantoorau
tomatiseringomgeving voor blijvende bewaring
in aanmerking komen.
Het volgende grote probleem is dan het
reduceren en omvormen van de grote berg van
het KA-archief tot een voor het Nationaal
Archief acceptabel bestand. Het is van meet af
aan duidelijk dat er qua directe toegankelijk
heid, bijvoorbeeld door het samenvoegen van
individuele documenten tot dossiers of het
plaatsen van die documenten onder handelin
gen of rubrieken, weinig te verwachten valt. Een
ander bijna onoplosbaar probleem - zo lijkt ons -
is het verwijderen van te vernietigen materiaal
dat privacygevoelige informatie bevat. Dit laat
ste probleem is het grootst omdat een hoge mate
van 'vervuiling' van dit materiaal het beschik
baar stellen van het bestand aan het publiek in
de weg staat.
Voor de selectie van het archief van de kantoor
automatiseringsomgeving knippen we het
archief in tweeën. Daarna definiëren we als eer
ste een E-selectie waarin op grond van externe
kenmerken bepaalde documentgroepen werden
uitgezonderd. Institutioneel onderzoek wijst
bovendien uit dat de arbeidsbureaus taken uit
voeren waarvan de neerslag voor vernietiging in
aanmerking komt. Op grond hiervan scheiden
we het materiaal afkomstig van de arbeidsbu
reaus als eerste af. Vervolgens kijken we naar de
documenttypen. We besluiten om de volgende
typen bestanden over te nemen:
Word (met extensie .doe)
Excel (met extensie .xls)
Opgeslagen mail (met extensie .msg)
RTF (met extensie .rtf)
Textfiles (met extensie .txt)
PDF (met extensie .pdf)
Dit betekent dat andere typen zoals powerpoint-
presentaties en diverse beeld- en filmbestanden
niet zijn overgenomen. Bijkomend voordeel
hiervan is geweest dat er slechts een beperkte set
bestandsformaten verduurzaamd hoefde te wor
den. In zijn algemeenheid is deze keuze zeer
aanvechtbaar. Maar een steekproef toont aan dat
in dit geval de afwijkende bestandstypen inder
daad geen archiefwaardig materiaal opleveren.
I-selectie
De volgende selectiestap gaat over de
inhoud: de zogeheten I-selectie. Het I<A-bestand,
overgebleven na E-selectie, is hierin onderwor
pen aan een full text search aan de hand van een
trefwoordenthesaurus. Doel hiervan is om alle te
vernietigen materiaal dat privacygevoelig is eruit
te halen en alle te bewaren materiaal te behou
den. Vervuiling met te vernietigen materiaal
accepteren we dus wel mits dit niet privacyge
voelig is. Om de kwaliteit van dit proces te bewa
ken, genereren we een proefset van tienduizend
a-select gekozen documenten en mails. Deze
worden handmatig geclassificeerd in:
Zakelijk:
- Te bewaren
- Privacygevoelig, te vernietigen
- Niet-privacygevoelig, te vernietigen
Niet-zakelijk:
- Privacygevoelig, te vernietigen
- Niet-privacygevoelig, te vernietigen
Door steeds weer nieuwe versies van de the
saurus los te laten op dit proefbestand wordt de
kwaliteit meetbaar en kan de thesaurus stap
voor stap worden verbeterd. Als beide selectie
slagen zijn uitgevoerd, hebben we nog een
bestand van 119 Gb (gigabytes) over, verdeeld
over 944.221 bestanden. Dit blijkt een accepta
bel bestand voor het Nationaal Archief om te
bewaren en te (laten) raadplegen. Uiteindelijk is
het daar natuurlijk allemaal om te doen! De eer
ste maanden zal het materiaal alleen via een
stand alone pc en een Wewer-applicatie zonder
zoekmogelijkheden raadpleegbaar zijn. Op korte
termijn wordt daar een zoekschil omheen gezet
opdat het publiek ook gericht in het bestand kan
zoeken.
18
19
Door Jacques Bogaarts*
Vorige maand droeg Arbeidsvoorziening haar digita
le archief over aan het Nationaal Archief. Daaraan
ging een jaar vooraf van intensieve samenwerking
tussen ICT-specialisten, archiefinstellingen en de
arbeidsorganisatie zelf. Nu het archief op zijn plaats
ligt, is het tijd om de balans op te maken. Wat heb
ben we geleerd van de overbrenging van dit eerste,
grootschalige digitale archief? Senior medewerker
ICT bij het Nationaal Archief, Jacques Bogaarts, was
nauw betrokken bij het project. Hij blikt terug op
een harde leerschool. Overheid en archiefwezen zijn
gewaarschuwd.
Een veilige toekomst
Het selectieproces
E-selectie
Op de foto (v.i.n.r. staand): dr. M.W. van Boven, directeur van het
Nationaal Archief, H. Butter, voormalig directiesecretaris bij
Arbeidsvoorziening. G.J.G. Geertsema, gedelegeerd bestuurder
Arbeidsvoorzieningsorganisatie, (zittend) mw. drs. M. Moolenaar
MBA, hoofdinspecteur Rijksarchiefinspectie en mw. dr. C.C.A.M.Sol,
onderzoeker aan de Universiteit van Amsterdam.