De oplossingen die we ook binnen ons vakgebied zouden kunnen inzetten zijn het beste te omschrijven als slimme statistische oefeningen. Binnen big data science draait veel om het vinden en gebruiken van correlaties en het principe 'Meten is weten'.5 Eindeloze mogelijkheden Naar die automatisering is onderzoek gedaan door onder andere Yunhyong Kim en Seamus Ross. Zij stellen dat het mogelijk moet zijn om het classificatie proces te automatiseren en te verdiepen.7 Zij gebruiken het concept van 'genres'. Met genre wordt hier bedoeld: een representatie van een communicatieve actie. Een genre wordt beschreven in termen van inhoud en vorm (redactie), maar ook doel, deelnemers, timing en locatie.8 Door het documentatieterrein te vatten in genres kan expliciet gemaakt worden wat, hoe en wanneer er records worden gecreëerd. Genres geven aan naar welke kenmerken er gezocht moet worden binnen records en in de meta gegevens van records.9 Kim en Ross hebben hiermee geëxperimenteerd door stilistische en visuele kenmerken van bepaalde genres om te zetten naar classifiers door daar statistische modellen aan te verbinden. Bijvoorbeeld door Vrezen én profiteren Foto: KamiPhuc (Creative Commons). paradigma.2 Toegankelijkheid en lees baarheid lijken ook problematisch binnen de data-intensieve wetenschap: The vast amounts of data have greatly reduced the value of an individual data element, and we are no longer data- limited but insight-limited Hun oplossingen richten zich op de mogelijkheden om data en informatie te filteren en behapbaar te houden, omdat de complexiteit van het alles leidt tot twijfel.4 Correlaties zeggen mogelijk iets over de waarde en betekenis. Sommigen claimen zelfs dat als er maar genoeg data wordt gebruikt, de correlaties meer betekenen dan samenhang: 'It has also been suggested that massive data mining, and its attendant ability to tease out and predict trends, could ultimately replace more traditional components of the scientific method.'6 Echter, net zoals archiveren niet hetzelfde is als het mechanisch bewaren van informatie, duidt een correlatie niet per se een oorzakelijk verband aan. Correlaties worden gevonden door data te meten en te vergelijken. Data mining kan ook voor archivarissen werken. Betekenis kan gekwantificeerd en zo geautomatiseerd gevonden worden. woorden te tellen en pixelwaarden van plaatjes te vergelijken van individuele records.10 We weten immers waar we naar zoeken. De resultaten van het onderzoek stemden positief: op basis van de experimenten werd verwacht dat met verdere verfijning van de classifiers het niveau van een 'average human labeller' kan worden gehaald.11 De mogelijkheden zijn eindeloos. Meten is weten. Big data draait om veel data. Dus alles wat je vast kan leggen, moet je ook vastleggen en gebruiken. Big data ziet potentieel in alle data en combineert en hergebruikt alles. En er is een hoop data die we zouden kunnen gebruiken: de handeling van het creëren, openen, gebruiken, veranderen, zoeken, vinden of kopiëren van informatie wordt (of kan worden) vastgelegd. Onze 'data- uitstoot' - een term die ik uit De big data revolutie: hoe de data-explosie al onze vragen gaat beantwoorden van Viktor Mayer-Schönberger afleid - is een belangrijk bezit. Want binnen big data wordt alle interactie gezien als poten tieel waardevol. Naast de stelling van Derrida en Ketelaar 'that every interpretation of the archive is an enrichment, an extension of the archive', stelt big data dat elke interactie met het archief een verrijking is.12 Google en Facebook begrijpen dit maar al te goed: al onze handelingen worden bewaard en geanalyseerd. Relevantie wordt bepaald door het aantal muisklikken, scrolls of minuten leestijd. Archivarissen zouden dit ook kunnen doen door de interacties van gebruikers en archiefvormers te analy seren en te gebruiken. Alle document- Foto: Marius B (Creative Commons). 12 2014 nummer 2

Periodiekviewer Koninklijke Vereniging van Archivarissen

Archievenblad | 2014 | | pagina 12