De oplossingen die we ook binnen ons
vakgebied zouden kunnen inzetten zijn
het beste te omschrijven als slimme
statistische oefeningen. Binnen big data
science draait veel om het vinden en
gebruiken van correlaties en het principe
'Meten is weten'.5
Eindeloze mogelijkheden
Naar die automatisering is onderzoek
gedaan door onder andere Yunhyong
Kim en Seamus Ross. Zij stellen dat het
mogelijk moet zijn om het classificatie
proces te automatiseren en te verdiepen.7
Zij gebruiken het concept van 'genres'.
Met genre wordt hier bedoeld: een
representatie van een communicatieve
actie. Een genre wordt beschreven in
termen van inhoud en vorm (redactie),
maar ook doel, deelnemers, timing en
locatie.8 Door het documentatieterrein te
vatten in genres kan expliciet gemaakt
worden wat, hoe en wanneer er records
worden gecreëerd. Genres geven aan
naar welke kenmerken er gezocht moet
worden binnen records en in de meta
gegevens van records.9 Kim en Ross
hebben hiermee geëxperimenteerd door
stilistische en visuele kenmerken van
bepaalde genres om te zetten naar
classifiers door daar statistische modellen
aan te verbinden. Bijvoorbeeld door
Vrezen én profiteren
Foto: KamiPhuc (Creative Commons).
paradigma.2 Toegankelijkheid en lees
baarheid lijken ook problematisch
binnen de data-intensieve wetenschap:
The vast amounts of data have greatly
reduced the value of an individual data
element, and we are no longer data-
limited but insight-limited
Hun oplossingen richten zich op de
mogelijkheden om data en informatie te
filteren en behapbaar te houden, omdat
de complexiteit van het alles leidt tot
twijfel.4
Correlaties zeggen mogelijk iets over de
waarde en betekenis. Sommigen claimen
zelfs dat als er maar genoeg data wordt
gebruikt, de correlaties meer betekenen
dan samenhang: 'It has also been
suggested that massive data mining,
and its attendant ability to tease out
and predict trends, could ultimately
replace more traditional components of
the scientific method.'6
Echter, net zoals archiveren niet hetzelfde
is als het mechanisch bewaren van
informatie, duidt een correlatie niet per
se een oorzakelijk verband aan.
Correlaties worden gevonden door data
te meten en te vergelijken. Data mining
kan ook voor archivarissen werken.
Betekenis kan gekwantificeerd en zo
geautomatiseerd gevonden worden.
woorden te tellen en pixelwaarden van
plaatjes te vergelijken van individuele
records.10 We weten immers waar we
naar zoeken. De resultaten van het
onderzoek stemden positief: op basis
van de experimenten werd verwacht dat
met verdere verfijning van de classifiers
het niveau van een 'average human
labeller' kan worden gehaald.11 De
mogelijkheden zijn eindeloos.
Meten is weten. Big data draait om veel
data. Dus alles wat je vast kan leggen,
moet je ook vastleggen en gebruiken.
Big data ziet potentieel in alle data en
combineert en hergebruikt alles. En er is
een hoop data die we zouden kunnen
gebruiken: de handeling van het creëren,
openen, gebruiken, veranderen, zoeken,
vinden of kopiëren van informatie wordt
(of kan worden) vastgelegd. Onze 'data-
uitstoot' - een term die ik uit De big
data revolutie: hoe de data-explosie al
onze vragen gaat beantwoorden van
Viktor Mayer-Schönberger afleid - is een
belangrijk bezit. Want binnen big data
wordt alle interactie gezien als poten
tieel waardevol. Naast de stelling van
Derrida en Ketelaar 'that every
interpretation of the archive is an
enrichment, an extension of the
archive', stelt big data dat elke
interactie met het archief een verrijking
is.12 Google en Facebook begrijpen dit
maar al te goed: al onze handelingen
worden bewaard en geanalyseerd.
Relevantie wordt bepaald door het
aantal muisklikken, scrolls of minuten
leestijd. Archivarissen zouden dit ook
kunnen doen door de interacties van
gebruikers en archiefvormers te analy
seren en te gebruiken. Alle document-
Foto: Marius B (Creative Commons).
12 2014 nummer 2