Big data x big archives great opportunities Elders in deze editie van het Archievenblad wordt gewezen op de bedreigingen van 'big data' voor de archiefwereld. Strengere regels voor privacy en databescherming, het recht om te worden 'vergeten', beroven archieven mogelijk van hun meest waardevolle materiaal. Die discussie wil ik niet aangaan. Ik kijk liever naar de kansen die big data-technologie de archivaris kan bieden. Alles bewaren archiefstukken niet echt zeggen. Kort door de bocht kun je stellen dat het mechanische aspect van archivering, namelijk het bewaren en opslaan van records, beperkt problematisch is. Het opslaan van informatie is kostentechnisch haalbaar. Het probleem van digitale duurzaamheid is kostbaar, maar niet onoplosbaar. Soft- en hardware hebben een beperkte houdbaarheid en migratie heeft vaak informatieverlies tot gevolg. Dit is echter een technologisch probleem dat reëel is, maar opgelost kan worden en opgelost wordt. Technologie wordt steeds meer interoperabel. Tot op heden lijkt alles bewaren in ieder geval de norm (niet uit principe, maar uit gemakzucht). Mede hierdoor ontstaan er dus big archives. En daar willen we iets mee. Overvloed aan informatie Statistische oefeningen Ruud Yap I Foto: Sjoerd Knibbeler. Het Amerikaanse programma PRISM heeft heel wat stof doen opwaaien: het schijnbaar zonder democratische controle binnenharken van gegevens voor de Amerikaanse inlichtingendienst is een bron van zorg, maar tegelijkertijd water tand ik bij de technologie achter PRISM: zouden die instrumenten voor datami- ning ons kunnen helpen bij bijvoorbeeld het toegankelijk maken en waarderen van grote hoeveelheden informatie? Waar hebben we het eigenlijk over wanneer we spreken over 'big archives'? Ik denk letterlijk aan grote archieven: omvangrijke hoeveelheden proces gebonden informatie. Hoewel daar ook papieren archieven bij horen, kijk ik hier alleen naar de digitale en/of gedigitali seerde variant. Big archives zijn er dus altijd al geweest. De digitale big archives zijn er, afgezet tegen de papieren versie, relatief kort. In die korte tijd zijn we echter wel in staat geweest om enorm veel informatie (en dus archieven) te produceren. Nu is dat op zichzelf geen probleem, ware het niet dat we uit gemakzucht vrijwel alle digitale informatie lijken te bewaren. Papier staat tenminste nog (fysiek) in de weg, dat kunnen we bij digitale Het probleem is echter dat de berg aan digitale informatie onvoldoende beheerd wordt. In dat opzicht lijken we niet van papier geleerd te hebben en dat heeft gevolgen voor de toegankelijkheid van informatie: we raken informatie 'kwijt'. En van de informatie die we wel kunnen vinden, kennen we de waarde en daar door betekenis onvoldoende. Een over vloed aan informatie maakt de beheersbaarheid en overzichtelijkheid van archief er niet groter op.1 Toegan kelijkheid lijdt onder kwantiteit: de inspanning die nodig is voor de ontslui ting van archiefstukken is te groot. Het toegankelijk maken en houden van archiefstukken is op dit moment nog grotendeels mensenwerk. Het gaat mij dan met name om het toekennen van metagegevens waarmee wij archief stukken beschrijven en die, anders dan bijvoorbeeld metagegevens voor identi ficatie of beheer, moeilijk geautomati seerd kunnen worden toegekend. Oplossingen zijn echter noodzakelijk. We hebben nu eenmaal veel informatie en we willen dat die toegankelijk is en blijft. Idealiter was hier bij creatie over nagedacht, maar ervan uitgaande dat dit niet altijd gebeurt zullen we andere oplossingen moeten vinden. Hiervoor kijk ik naar de wereld van data-intensive science of meer populair big data science, waar het bewaren en gebruiken van grote volumes data en informatie inmiddels praktijk is. Het onderzoek doen op basis van grote volumes (digitale) data en informatie gebruik makend van digitale technologieën, werd door informaticus Jim Gray aan geduid als het vierde wetenschappelijke nummer 2 2014 11

Periodiekviewer Koninklijke Vereniging van Archivarissen

Archievenblad | 2014 | | pagina 11