Technieken voor
webarchivering
Noten
4 Er waren eind 2010 bijna 5 miljoen
.nl-domeinnamen geregistreerd. Achter
welk deel ook daadwerkelijk een actieve
en unieke site zit, is helaas moeilijk in
te schatten. Mede op basis van data van
andere nationale bibliotheken kom ik op
een ruwe schatting van tussen de half
en één miljoen sites.
5 Toestemming kan ook gegeven
worden door een op de site gepubliceerde
licentie, bijvoorbeeld via een Creative
Commons licentie.
6 Middelgroot hierbij losjes gedefinieerd
als harvesting van meer sites dan
bijvoorbeeld de soms tientallen sites van
de eigen organisatie, maar minder sites
dan bij domainharvesting.
7 Er wordt gebruik gemaakt van
de browser Firefox voorzien van een
uitbreiding in de vorm van de plug-in
Blocksite. Hiermee kan worden ingesteld
dat alleen data uit het webarchief
opgevraagd kan worden ('white listing').
8 De Wayback Machine is de software
die gebruikt wordt om de geharveste sites
te kunnen bekijken. De browser van
de analist wordt hiervoor zo ingesteld
dat de Wayback Machine software als
zogenaamde proxy benut wordt.
9 Als de verschillen het gevolg zijn van
binnen de pagina aangeroepen scripts
(bijvoorbeeld via de techniek AJAX) is het
in sommige gevallen wél mogelijk
harvesting in te zetten.
10 Dit wordt ook wel het 'deep web'
genoemd.
11 Denk aan Javascript of Adobe Flash.
12 Bij de vergelijking wordt gekeken
naar te kwantificeren aspecten, zoals de
totale omvang in bytes, het aantal URLs,
welk deel van de pagina's gelijk van
inhoud is gebleven et cetera.
van de site in de tussentijd waarschijnlijk
substantieel veranderd en zal er terug
gevallen moeten worden op handmatige
beoordeling. De handmatig beoordeelde
site wordt nu de nieuwe referentieharvest.
Afsluitend is dit verhaal niet compleet
zonder te vermelden dat de KB bij de
aanpak van de kwaliteitscontrole actief
samenwerkt met haar partners in de
IIPC.13 Verwacht wordt dat dit onder
Wat een crawler-applicatie bij
webharvesting doet is vergelijkbaar
met wat de browser van een
bezoeker van een site doet. De
browser zal iedere bezochte pagina,
samen met ingesloten elementen,
naar een tijdelijk geheugen
downloaden en van daaruit de
pagina op het scherm weergeven.
De crawler slaat het gedownloade
materiaal niet tijdelijk maar juist
duurzaam op. Dit gebeurt door de
binnengehaalde data onveranderd
en aangevuld met enige metadata
in een zogenaamd 'w/arc-bestand'
op te slaan. Een op deze manier
verduurzaamde website kan niet
zomaar weer in de oorspronkelijke
vorm bekeken worden. Hier is een
speciale 'viewer' voor nodig. Het
programma 'Wayback Machine' kan
de geharveste websites weer in de
oorspronkelijke vorm via een
browser aan de bezoeker tonen.
Ondanks een paar fundamentele
beperkingen (zie de hoofdtekst) is
webharvesting een vrij volwassen
en veelgebruikte techniek. Voor
webarchivering in context van de
Archiefwet is een nadeel dat deze
techniek minder geschikt is om alle
relevante wijzigingen op de site te
volgen en te archiveren. In de
huidige vorm is webharvesting
vooral geschikt om periodiek
complete sites binnen te halen.
Hierdoor gaan wijzigingen die in de
tussentijd plaatsvinden verloren.
Daarvoor zijn aanvullende
voorzieningen noodzakelijk, zoals
integratie met het content
management systeem van de site.
Pas dan 'weet' de crawler welke
pagina's gewijzigd zijn en zal het
alle wijzigingen harvesten.
kill) lupu IhkI lifliKn <DU| Niupidii
Target Instances
Groninger archieven (6127749)
Quality Rwtew Tools
■raw
*\wm
m l'L.w f Arcruwd riuwa^
run»whHv*HinuS'nmpn«^.xjihiA*sa
TmWi fti «pfiuJ wmw rf rivfliM OjUi
Lpi Th bh iizhv.-. St)pm I
De Web Curator Tool die gebruikt wordt voor harvesting en kwaliteitscontrole.
andere zal leiden tot een systeem voor
automatische detectie van niet-ontdekte
links. Tot slot lijkt ook het Europese
SCAPE14 project een rol te kunnen gaan
spelen bij het verbeteren van de
automatische controles.
Een veelbelovend alternatief is wat
transactionele archivering wordt genoemd.
Hierbij worden pagina's gearchiveerd op
het moment dat een bezoeker ze opvraagt.
Zo is verzekerd dat alles wat gecommu
niceerd wordt in het archief terechtkomt.
1 Zie ook kader 'Technieken voor
webarchivering'.
2 Het webarchief van de KB is
momenteel alleen in de leeszaal
beschikbaar. Zie ook http://www.kb.nl/
webarchief/
3 Doorgaans omvat dit alle sites binnen
de nationale domeinextensie, zoals alle
sites eindigend op .fr voor Frankrijk,
aangevuld met sites met andere extensies
(.com, .org et cetera) die duidelijk ook als
onderdeel van het nationale web worden
gepubliceerd.
13 IIPC staat voor 'international internet
preservation consortium'. Leden zijn onder
andere de National Archives van het
Verenigd Koninkrijk, het Amerikaanse
Internet Archive en veel nationale
bibliotheken. Zie http://www.
netpreserve.org.
14 SCAPE is een project gericht op het
ontwikkelen van schaalbare oplossingen
voor digitale preservation. Zie http://
www.scape-project.eu.
René Voorburg coördinator
webarchivering Koninklijke Bibliotheek.
22 2011 nummer 6