titia en bram van der werf papieren tijgers in de digitale jungle:
over het bewaren van overheidsinformatie
Met bovenstaande pragmatische aanpak kan alle digitale overheidsinformatie van
vandaag en de nabije toekomst bewaard worden. Het is belangrijk te benadrukken
dat 'het in toegankelijke staat bewaren van archiefbescheiden' - een eis uit de
Archiefwet - in een digitale context al snel vertaald wordt in het online opslaan en
raadpleegbaar maken van archiefstukken. Dit is de duurste vorm van digitale opslag,
omdat de bits continu onder stroom staan en energie consumeren, ook wanneer
archiefstukken niet geraadpleegd worden, wat meestal het geval is. Onder die
omstandigheden is ongelimiteerde dataopslag inderdaad niet haalbaar en zijn zware
waardering, selectie en vernietigingseisen noodzakelijk. Maar is dat wel in de geest
van de Archiefwet? Een pragmatische interpretatie van de wet zonder afbreuk te
doen aan de eis van toegang tot de informatie lijkt op zijn plaats.
5. Het schrikbeeld van informatie die niet meer toegankelijk is
Toegankelijkheid is een beladen begrip. Aan de ene kant stelt men steeds hogere
eisen aan de vindbaarheid, toegankelijkheid en bruikbaarheid van overheidsarchie
ven, juist vanwege de mogelijkheden die digitale technologie biedt. In beleidsvisies
duikt de mantra van open toegang steeds weer op: 'Vierentwintig uur per dag, zeven
dagen per week, vanaf elke locatie en via elk mogelijk medium'. Aan de andere kant
is men beducht voor het schrikbeeld van de verhoogde risico's die digitale technolo
gie met zich mee brengt en geneigd tot maatregelen die de toegankelijkheid juist
verkleinen. Denk aan het gevaar van privacyschending, de angst voor het zoek raken
van stukken in de algehele stortvloed aan overheidsinformatie en de dreiging dat
alles wat uit bits bestaat een kortere houdbaarheid heeft. Laten we dit spanningsveld
van dichterbij bekijken en drie verschillende aspecten van toegankelijkheid van
informatie onder de loep nemen: 1. vindbaar (op het Web), 2. raadpleegbaar en
3. (her)bruikbaar.
5.1. Vindbaar (op het Web)
In het kielzog van het denken over de nadelige effecten van informatieovervloed
heerst de angst dat informatie niet meer terugvindbaar te maken is. Het ontsluiten
van de explosief groeiende berg archiefstukken zou onevenredig veel inspanning
vergen en niet realistisch uitvoerbaar zijn. In het visie-rapport van de commissie
Waardering en Selectie uit 2007 lezen we: 'De gedachte dat alle documenten die in
een organisatie worden geproduceerd in een digitale vergaarbak kunnen worden
gestopt en vervolgens teruggevonden door te "googelen", is uiterst naïef. Op die
manier is er geen enkele zekerheid dat alle relevante documenten worden gevonden
14 Voor de commissie is dit reden genoeg om waardering, selectie en vernieti
ging van digitale archieven noodzakelijk te vinden. Met andere woorden, het gaat
om de zekerheid dat alle bewaarde overheidsinformatie terugvindbaar is en daarom
moet de informatie teruggebracht worden tot een selectie van beheersbare propor-
ties - zoals in de gecontroleerde database-omgevingen uit de jaren 1980 en 1990.
Toen konden gebruikers verwachten alle relevante documenten te vinden binnen
een duidelijk afgebakende verzameling. Nu is dat heel anders. Met de komst van het
Web en de trend van grootschalige heterogene metadata aggregaties, is total recall
een illusie. Het gaat om het doorzoekbaar maken van zoveel mogelijk data, niet om
selectief ontsluiten. Er bestaat geen zoekmachine die het merendeel van de docu
menten op het Web, laat staan alle webpagina's, indexeert. Er bestaat geen aggrega
tor die alle metadata van alle digitale erfgoed-collecties verzamelt en indexeert. En de
kloof tussen wat wel en niet vindbaar is, zal voorlopig blijven toenemen, omdat digi
tale content relatief sneller groeit dan de capaciteit om het te verwerken. Niet alles
wat geïndexeerd wordt, is relevant of nuttig, en niet alles wat ontbreekt is per defini
tie irrelevant of onbruikbaar. Zoekmachines en aggregatoren hebben nog onvol
doende ingebouwde intelligentie om te weten welke onderliggende
informatieverzamelingen onmisbaar zijn voor een zoekresultaat met alle relevante
informatie. Desondanks leren gebruikers leven met de gebreken van de grootschalige
zoeksystemen op het Web. Hun zoekgedrag en verwachtingen passen zich aan de
technologie aan.15
Met de verplaatsing van de gebruiker naar het Web als primaire zoekomgeving, is
total recall geen eis meer en relevantie een fluïde begrip geworden. De zoeksystemen
en portals van archieven en bibliotheken blijven links liggen, tenzij ze naadloos
aansluiten bij een Google zoekresultaat. Referenties naar waardevolle informatie
laat men achterwege als ze niet makkelijk te delen zijn met vrienden en collega's via
Facebook of WhatsApp. Wat we van gedragsstudies leren is dat de kwaliteit van
zoeksystemen er niet toe doet; het is veel belangrijker dat relevante informatie zich
bevindt waar de gebruiker op dat moment aan het zoeken is.
Metadateren blijft van belang voor de vindbaarheid van overheidsarchieven, maar
de functie en impact ervan verandert met elke nieuwe generatie zoeksysteem.
Toegankelijk houden van informatie, in de zin van vindbaar maken, is een continu
proces van aanpassing aan nieuwe technologie en vergt een blijvende investering.
Daarbij spelen standaarden uit de sector zelf, zoals Dublin Core, Encoded Archival
Description (EAD) of Electronic Data Management (EDM), zo goed als geen rol.
De grote zoekplatformen op het Web, zoals Google, bepalen welke metadata zij
opnemen en hoe ze dat doen. Zij publiceren aanwijzingen voor data leveranciers hoe
de data gestructureerd moeten worden om ze optimaal te kunnen benutten.16 Wil de
overheid haar informatie vindbaar maken voor iedere Nederlandse burger dan is het
van belang de metadata Google-friendly te maken.
Er zijn veel ontwikkelingen gaande op het gebied van slim zoeken in grote hoeveel
heden data, zoals semantisch clusteren van data, statistisch samenvatten, patroon
theorie
14 K.J.P.M. Jeurgens, A.C.V.M. Bongenaar en M.C. Windhorst (eds.), Gewaardeerd verleden. Bouwstenen voor een
nieuwe waarderingsmethodiek voor archieven (Den Haag 2007), www.ru.nl/publish/pages/672488/
gewaardeerd_verleden_1_0.pdf [zie ook https://www.nationaalarchief.nl/archiveren/kennisbank/
gewaardeerd-verleden (geraadpleegd 4 april 2018) - ed.].
15 Zie: L. Connaway, D.M. Lanclos en E.M. Hood, "I always stick with the first thing that comes up on Google
Where People Go for Information, What They Use, and Why', EDUCAUSE Review Online, (6 december
2013), https://er.educause.edu/
articles/2013/12/i-always-stick-with-the-first-thing-that-comes-up-on-googlewhere-people-go-for-
information-what-they-use-and-why.
92
16 Naast zoekmachine-specifieke tools en best practices voor webmasters (zie bijvoorbeeld:
https://static.googleusercontent.com/media/www.google.com/nl//webmasters/docs/search-engine-
optimization-starter-guide.pdf), zijn er ook sector-specifieke handleidingen. Voor Digital Libraries hebben
Kenning Arlitsch en Patrick OBrien onderzoek gedaan naar methoden om gedigitaliseerde collecties beter te
ontsluiten via Search Engine Optimization (SEO). Zie de Library Information Technology Association (LITA),
gids samengesteld door Kenning Arlitsch en Patrick OBrien, Improving the Visibility and Use of Digital
Repositories through SEO: A LITA Guide' (ALA TechSource 2013). Voor overheidsarchieven zou een vergelijk
baar, diepgaand onderzoek zeer nuttig kunnen zijn.
93