Archievenblad | 1 juli 2011 | pagina 22 - Periodiekviewer Koninklijke Vereniging van Archivarissen

Technieken voor webarchivering Noten 4 Er waren eind 2010 bijna 5 miljoen .nl-domeinnamen geregistreerd. Achter welk deel ook daadwerkelijk een actieve en unieke site zit, is helaas moeilijk in te schatten. Mede op basis van data van andere nationale bibliotheken kom ik op een ruwe schatting van tussen de half en één miljoen sites. 5 Toestemming kan ook gegeven worden door een op de site gepubliceerde licentie, bijvoorbeeld via een Creative Commons licentie. 6 Middelgroot hierbij losjes gedefinieerd als harvesting van meer sites dan bijvoorbeeld de soms tientallen sites van de eigen organisatie, maar minder sites dan bij domainharvesting. 7 Er wordt gebruik gemaakt van de browser Firefox voorzien van een uitbreiding in de vorm van de plug-in Blocksite. Hiermee kan worden ingesteld dat alleen data uit het webarchief opgevraagd kan worden ('white listing'). 8 De Wayback Machine is de software die gebruikt wordt om de geharveste sites te kunnen bekijken. De browser van de analist wordt hiervoor zo ingesteld dat de Wayback Machine software als zogenaamde proxy benut wordt. 9 Als de verschillen het gevolg zijn van binnen de pagina aangeroepen scripts (bijvoorbeeld via de techniek AJAX) is het in sommige gevallen wél mogelijk harvesting in te zetten. 10 Dit wordt ook wel het 'deep web' genoemd. 11 Denk aan Javascript of Adobe Flash. 12 Bij de vergelijking wordt gekeken naar te kwantificeren aspecten, zoals de totale omvang in bytes, het aantal URLs, welk deel van de pagina's gelijk van inhoud is gebleven et cetera. van de site in de tussentijd waarschijnlijk substantieel veranderd en zal er terug gevallen moeten worden op handmatige beoordeling. De handmatig beoordeelde site wordt nu de nieuwe referentieharvest. Afsluitend is dit verhaal niet compleet zonder te vermelden dat de KB bij de aanpak van de kwaliteitscontrole actief samenwerkt met haar partners in de IIPC.13 Verwacht wordt dat dit onder Wat een crawler-applicatie bij webharvesting doet is vergelijkbaar met wat de browser van een bezoeker van een site doet. De browser zal iedere bezochte pagina, samen met ingesloten elementen, naar een tijdelijk geheugen downloaden en van daaruit de pagina op het scherm weergeven. De crawler slaat het gedownloade materiaal niet tijdelijk maar juist duurzaam op. Dit gebeurt door de binnengehaalde data onveranderd en aangevuld met enige metadata in een zogenaamd 'w/arc-bestand' op te slaan. Een op deze manier verduurzaamde website kan niet zomaar weer in de oorspronkelijke vorm bekeken worden. Hier is een speciale 'viewer' voor nodig. Het programma 'Wayback Machine' kan de geharveste websites weer in de oorspronkelijke vorm via een browser aan de bezoeker tonen. Ondanks een paar fundamentele beperkingen (zie de hoofdtekst) is webharvesting een vrij volwassen en veelgebruikte techniek. Voor webarchivering in context van de Archiefwet is een nadeel dat deze techniek minder geschikt is om alle relevante wijzigingen op de site te volgen en te archiveren. In de huidige vorm is webharvesting vooral geschikt om periodiek complete sites binnen te halen. Hierdoor gaan wijzigingen die in de tussentijd plaatsvinden verloren. Daarvoor zijn aanvullende voorzieningen noodzakelijk, zoals integratie met het content management systeem van de site. Pas dan 'weet' de crawler welke pagina's gewijzigd zijn en zal het alle wijzigingen harvesten. kill) lupu IhkI lifliKn <DU| Niupidii Target Instances Groninger archieven (6127749) Quality Rwtew Tools ■raw *\wm m l'L.w f Arcruwd riuwa^ run»whHv*HinuS'nmpn«^.xjihiA*sa TmWi fti «pfiuJ wmw rf rivfliM OjUi Lpi Th bh iizhv.-. St)pm I De Web Curator Tool die gebruikt wordt voor harvesting en kwaliteitscontrole. andere zal leiden tot een systeem voor automatische detectie van niet-ontdekte links. Tot slot lijkt ook het Europese SCAPE14 project een rol te kunnen gaan spelen bij het verbeteren van de automatische controles. Een veelbelovend alternatief is wat transactionele archivering wordt genoemd. Hierbij worden pagina's gearchiveerd op het moment dat een bezoeker ze opvraagt. Zo is verzekerd dat alles wat gecommu niceerd wordt in het archief terechtkomt. 1 Zie ook kader 'Technieken voor webarchivering'. 2 Het webarchief van de KB is momenteel alleen in de leeszaal beschikbaar. Zie ook http://www.kb.nl/ webarchief/ 3 Doorgaans omvat dit alle sites binnen de nationale domeinextensie, zoals alle sites eindigend op .fr voor Frankrijk, aangevuld met sites met andere extensies (.com, .org et cetera) die duidelijk ook als onderdeel van het nationale web worden gepubliceerd. 13 IIPC staat voor 'international internet preservation consortium'. Leden zijn onder andere de National Archives van het Verenigd Koninkrijk, het Amerikaanse Internet Archive en veel nationale bibliotheken. Zie http://www. netpreserve.org. 14 SCAPE is een project gericht op het ontwikkelen van schaalbare oplossingen voor digitale preservation. Zie http:// www.scape-project.eu. René Voorburg coördinator webarchivering Koninklijke Bibliotheek. 22 2011 nummer 6

Vorige Volgende