Kwaliteitscontrole
in het
proces van webarchivering bij
de Koninklijke Bibliotheek
De Koninklijke Bibliotheek (KB) verwerft sinds 2006 naast papieren publicaties ook websites. Net zoals
andere nationale bibliotheken doet ze dit met behulp van een techniek die webharvesting wordt
genoemd.1 Maar hoe gaat in z'n werk? En hoe wordt de kwaliteit bewaakt? Een introductie.
Kwaliteit boven kwantiteit
Kwaliteitscontrole en
-verbetering
alleen een zeer beperkte selectie pagina's
geanalyseerd en beoordeeld kunnen
worden. Zeker als de beoordelaar niet alle
details van de betreffende site kent, wordt
een belangrijk onderdeel snel over het
hoofd gezien.
De ervaring leert echter dat juist de
homepage doorgaans de meest
kwetsbare pagina is. Hoe dieper in de site,
hoe minder gevoelig de pagina's zijn voor
fouten bij harvesting. Als de homepage en
een paar direct onderliggende pagina's in
het archief goed werken, is de kans groot
dat de rest ook werkt.
Het tweede aspect dat de kwaliteits
controle ingewikkeld maakt, is van
technische aard. Bij de visuele inspectie
van webpagina's is het belangrijk
maatregelen te nemen die verzekeren
dat tijdens de analyse van een
geharveste pagina en ingesloten
onderdelen niet per abuis het actuele
internet beoordeeld wordt. Het kan
gebeuren dat een pagina die volledig
geharvest lijkt te zijn, de afbeeldingen
niet uit het archief haalt maar van het
internet. Bij de KB wordt dit voorkomen
door gebruik te maken van een
browser-plugin7 of door een voorziening
waarbij al het internetverkeer van de
webbrowser voor analyse via
de Wayback Machine8 verloopt.
Bij de kwaliteitscontrole kunnen
Bij webharvesting doorloopt een
zogenaamde crawler alle vindbare
pagina's van een te verwerven site.
De gevonden pagina's worden daarvoor
geautomatiseerd gedownload, inclusief
alle ingesloten pagina-elementen als de
afbeeldingen en downloads (zoals pdf's).
Bij de KB worden geselecteerde websites
doorgaans 1 a 2 maal per jaar
'geharvest'. Iedere nieuwe harvest levert
een complete kopie van alle gevonden
pagina's en pagina-elementen van de site
op. De KB bewaart al deze harvests zodat
in het webarchief2 een beeld ontstaat van
de veranderingen door de tijd.
De KB heeft om verschillende redenen
niet voor de grootschalige aanpak
gekozen die gevolgd wordt door veel
andere nationale bibliotheken. In landen
als Zweden, Frankrijk, Tsjechië en
Oostenrijk wordt met enige regelmaat het
complete nationale web3 geharvest. Dit
wordt domainharvesting genoemd. Het
Nederlandse .nl-domein is echter relatief
groot4 wat domainharvesting vrij kostbaar
maakt. Bovendien kenmerkt de Neder
landse situatie zich door een gebrek aan
hiervoor geschikte wetgeving: de KB kan
websites alleen in haar collectie opnemen
met toestemming van de recht
hebbenden. Zonder die toestemming kan5
er sprake zijn van inbreuk op het auteurs
recht. Hierdoor is domainharvesting in
Nederland niet haalbaar, het achterhalen
van alle site-eigenaren is immers
ondoenlijk. De KB heeft mede daarom
gekozen om zich te beperken tot het
verwerven van een selectie en deze zo
goed en volledig mogelijk binnen te halen.
Een keuze voor kwaliteit boven kwantiteit
betekent dat er middelen en technieken
voor handen moeten zijn om
kwaliteitscontrole uit te voeren. Pas als
in beeld is wat er mis is met een harvest,
kan er gewerkt worden aan een aanpak
om de kwaliteit te verbeteren.
Kwaliteitscontrole van een middelgrote6
selectie met webharvests - zoals de KB
verwerft - is echter een lastige klus. Het
probleem wordt bepaald door de grote
aantallen binnengehaalde pagina's
enerzijds, en de vaak complexe
technieken die op de pagina's worden
gebruikt anderzijds.
Vanwege de grote aantallen pagina's is
het onmogelijk om de kwaliteit van alle
geharveste pagina's te beoordelen.
Kwaliteitscontrole is vooralsnog vooral
mensenwerk. Visuele inspectie is de
belangrijkste vorm van controle. Als er
duizenden sites geharvest worden, zal
20 2011 nummer 6