Big data x big archives
great opportunities
Elders in deze editie van het Archievenblad wordt gewezen op de
bedreigingen van 'big data' voor de archiefwereld. Strengere regels
voor privacy en databescherming, het recht om te worden 'vergeten',
beroven archieven mogelijk van hun meest waardevolle materiaal.
Die discussie wil ik niet aangaan. Ik kijk liever naar de kansen die big
data-technologie de archivaris kan bieden.
Alles bewaren
archiefstukken niet echt zeggen. Kort
door de bocht kun je stellen dat het
mechanische aspect van archivering,
namelijk het bewaren en opslaan van
records, beperkt problematisch is. Het
opslaan van informatie is kostentechnisch
haalbaar. Het probleem van digitale
duurzaamheid is kostbaar, maar niet
onoplosbaar. Soft- en hardware hebben
een beperkte houdbaarheid en migratie
heeft vaak informatieverlies tot gevolg.
Dit is echter een technologisch probleem
dat reëel is, maar opgelost kan worden
en opgelost wordt. Technologie wordt
steeds meer interoperabel. Tot op heden
lijkt alles bewaren in ieder geval de norm
(niet uit principe, maar uit gemakzucht).
Mede hierdoor ontstaan er dus big
archives. En daar willen we iets mee.
Overvloed aan informatie
Statistische oefeningen
Ruud Yap I
Foto: Sjoerd Knibbeler.
Het Amerikaanse programma PRISM
heeft heel wat stof doen opwaaien: het
schijnbaar zonder democratische controle
binnenharken van gegevens voor de
Amerikaanse inlichtingendienst is een
bron van zorg, maar tegelijkertijd water
tand ik bij de technologie achter PRISM:
zouden die instrumenten voor datami-
ning ons kunnen helpen bij bijvoorbeeld
het toegankelijk maken en waarderen
van grote hoeveelheden informatie?
Waar hebben we het eigenlijk over
wanneer we spreken over 'big archives'?
Ik denk letterlijk aan grote archieven:
omvangrijke hoeveelheden proces
gebonden informatie. Hoewel daar ook
papieren archieven bij horen, kijk ik hier
alleen naar de digitale en/of gedigitali
seerde variant. Big archives zijn er dus
altijd al geweest. De digitale big
archives zijn er, afgezet tegen de
papieren versie, relatief kort. In die
korte tijd zijn we echter wel in staat
geweest om enorm veel informatie (en
dus archieven) te produceren. Nu is dat
op zichzelf geen probleem, ware het
niet dat we uit gemakzucht vrijwel alle
digitale informatie lijken te bewaren.
Papier staat tenminste nog (fysiek) in
de weg, dat kunnen we bij digitale
Het probleem is echter dat de berg aan
digitale informatie onvoldoende beheerd
wordt. In dat opzicht lijken we niet van
papier geleerd te hebben en dat heeft
gevolgen voor de toegankelijkheid van
informatie: we raken informatie 'kwijt'.
En van de informatie die we wel kunnen
vinden, kennen we de waarde en daar
door betekenis onvoldoende. Een over
vloed aan informatie maakt de
beheersbaarheid en overzichtelijkheid
van archief er niet groter op.1 Toegan
kelijkheid lijdt onder kwantiteit: de
inspanning die nodig is voor de ontslui
ting van archiefstukken is te groot.
Het toegankelijk maken en houden van
archiefstukken is op dit moment nog
grotendeels mensenwerk. Het gaat mij
dan met name om het toekennen van
metagegevens waarmee wij archief
stukken beschrijven en die, anders dan
bijvoorbeeld metagegevens voor identi
ficatie of beheer, moeilijk geautomati
seerd kunnen worden toegekend.
Oplossingen zijn echter noodzakelijk.
We hebben nu eenmaal veel informatie
en we willen dat die toegankelijk is en
blijft. Idealiter was hier bij creatie over
nagedacht, maar ervan uitgaande dat
dit niet altijd gebeurt zullen we andere
oplossingen moeten vinden. Hiervoor
kijk ik naar de wereld van data-intensive
science of meer populair big data science,
waar het bewaren en gebruiken van
grote volumes data en informatie
inmiddels praktijk is. Het onderzoek
doen op basis van grote volumes
(digitale) data en informatie gebruik
makend van digitale technologieën,
werd door informaticus Jim Gray aan
geduid als het vierde wetenschappelijke
nummer 2 2014 11