Archievenblad | 1 juli 2011 | pagina 20 - Periodiekviewer Koninklijke Vereniging van Archivarissen

Kwaliteitscontrole in het proces van webarchivering bij de Koninklijke Bibliotheek De Koninklijke Bibliotheek (KB) verwerft sinds 2006 naast papieren publicaties ook websites. Net zoals andere nationale bibliotheken doet ze dit met behulp van een techniek die webharvesting wordt genoemd.1 Maar hoe gaat in z'n werk? En hoe wordt de kwaliteit bewaakt? Een introductie. Kwaliteit boven kwantiteit Kwaliteitscontrole en -verbetering alleen een zeer beperkte selectie pagina's geanalyseerd en beoordeeld kunnen worden. Zeker als de beoordelaar niet alle details van de betreffende site kent, wordt een belangrijk onderdeel snel over het hoofd gezien. De ervaring leert echter dat juist de homepage doorgaans de meest kwetsbare pagina is. Hoe dieper in de site, hoe minder gevoelig de pagina's zijn voor fouten bij harvesting. Als de homepage en een paar direct onderliggende pagina's in het archief goed werken, is de kans groot dat de rest ook werkt. Het tweede aspect dat de kwaliteits controle ingewikkeld maakt, is van technische aard. Bij de visuele inspectie van webpagina's is het belangrijk maatregelen te nemen die verzekeren dat tijdens de analyse van een geharveste pagina en ingesloten onderdelen niet per abuis het actuele internet beoordeeld wordt. Het kan gebeuren dat een pagina die volledig geharvest lijkt te zijn, de afbeeldingen niet uit het archief haalt maar van het internet. Bij de KB wordt dit voorkomen door gebruik te maken van een browser-plugin7 of door een voorziening waarbij al het internetverkeer van de webbrowser voor analyse via de Wayback Machine8 verloopt. Bij de kwaliteitscontrole kunnen Bij webharvesting doorloopt een zogenaamde crawler alle vindbare pagina's van een te verwerven site. De gevonden pagina's worden daarvoor geautomatiseerd gedownload, inclusief alle ingesloten pagina-elementen als de afbeeldingen en downloads (zoals pdf's). Bij de KB worden geselecteerde websites doorgaans 1 a 2 maal per jaar 'geharvest'. Iedere nieuwe harvest levert een complete kopie van alle gevonden pagina's en pagina-elementen van de site op. De KB bewaart al deze harvests zodat in het webarchief2 een beeld ontstaat van de veranderingen door de tijd. De KB heeft om verschillende redenen niet voor de grootschalige aanpak gekozen die gevolgd wordt door veel andere nationale bibliotheken. In landen als Zweden, Frankrijk, Tsjechië en Oostenrijk wordt met enige regelmaat het complete nationale web3 geharvest. Dit wordt domainharvesting genoemd. Het Nederlandse .nl-domein is echter relatief groot4 wat domainharvesting vrij kostbaar maakt. Bovendien kenmerkt de Neder landse situatie zich door een gebrek aan hiervoor geschikte wetgeving: de KB kan websites alleen in haar collectie opnemen met toestemming van de recht hebbenden. Zonder die toestemming kan5 er sprake zijn van inbreuk op het auteurs recht. Hierdoor is domainharvesting in Nederland niet haalbaar, het achterhalen van alle site-eigenaren is immers ondoenlijk. De KB heeft mede daarom gekozen om zich te beperken tot het verwerven van een selectie en deze zo goed en volledig mogelijk binnen te halen. Een keuze voor kwaliteit boven kwantiteit betekent dat er middelen en technieken voor handen moeten zijn om kwaliteitscontrole uit te voeren. Pas als in beeld is wat er mis is met een harvest, kan er gewerkt worden aan een aanpak om de kwaliteit te verbeteren. Kwaliteitscontrole van een middelgrote6 selectie met webharvests - zoals de KB verwerft - is echter een lastige klus. Het probleem wordt bepaald door de grote aantallen binnengehaalde pagina's enerzijds, en de vaak complexe technieken die op de pagina's worden gebruikt anderzijds. Vanwege de grote aantallen pagina's is het onmogelijk om de kwaliteit van alle geharveste pagina's te beoordelen. Kwaliteitscontrole is vooralsnog vooral mensenwerk. Visuele inspectie is de belangrijkste vorm van controle. Als er duizenden sites geharvest worden, zal 20 2011 nummer 6

Vorige Volgende