Het Archipol-proj eet
PvdA
I Het archiveren van websites van Nederlandsepolitieke partijen
webzijdelings
Voor zover bekend wordt het WWW nog ner
gens in de wereld systematisch ontsloten en
gearchiveerd. En dat terwijl de websites continu
veranderen en er voortdurend nieuwe sites bijko
men en oudere verdwijnen. Wel is er een aantal
interessante initiatieven waarbij getracht wordt om
periodiek snapshots (momentopnames) te maken
van (delen van) het Web. Voorbeelden hiervan zijn
te vinden in Zweden en Frankrijk, waarbij men het
'nationale' deel van het WWW wil opslaan. Het
meest in het oog springende project is het Ame
rikaanse Internet Archive. De door deze instelling
ontwikkelde Wayback Machine maakt regelmatig
een download van het gehele internet (voor zover
dat althans mogelijk is), waardoor nu al van vele
websites meerdere compleet gearchiveerde versies
te bekijken zijn. Van het systematisch verzamelen
en ontsluiten van websites is echter bij dit project
en bij de andere genoemde initiatieven nauwelijks
sprake. Dat is echter wel het geval met het Archi-
pol-project, waarmee het Documentatiecentrum
Nederlandse Politieke Partijen (DNPP) en de Uni
versiteitsbibliotheek van de Rijksuniversiteit Gro
ningen (RUG) in september
2000 zijn gestart. In het ka
der van dit project worden
de websites van de Neder
landse politieke partijen en hun nevenorganisaties
(en die van de lijsttrekkers) gearchiveerd en ontslo
ten en in een on line digitaal archief aangeboden.
Bij de start van het Archipol-project werden twee
hoofddoelstellingen geformuleerd: enerzijds de
inrichting van een digitaal archief van de websites
van de Nederlandse politieke partijen ten behoeve
van wetenschap (onderzoek en onderwijs) en
media; anderzijds de ontwikkeling van een model
van digitale archivering van websites waarvan
andere (niet-commerciële) instellingen desgewenst
gebruik kunnen maken. Het project bevindt zich
momenteel in de afrondende fase; de officiële
afsluiting is voorzien in mei van dit jaar. Inmiddels
is er in het Archipol-project de nodige kennis en
ervaring opgedaan over het archiveren en ontslui
ten van websites. Deze kennis heeft tijdens de pro
jectperiode geleid tot een aantal keuzes op organi
satorisch, technisch en juridisch gebied.
Om een website volledig te kunnen down
loaden voor opslag en archivering kunnen twee
wegen worden bewandeld: de beheerder van de
betreffende website kan gevraagd worden om een
malig de gewenste data te leveren en daarna perio
diek alle mutaties door te geven, of de 'webarchi
varis' haalt de data zelf op vanaf de te archiveren
site.
De eerste optie lijkt in theorie de simpelste manier
om de gewenste data te verkrijgen, maar in de
praktijk ligt dat ingewikkelder. Het eenvoudigweg
kopiëren van het gedeelte van een webserver waar
op de website geplaatst is, kan vaak ook een aan
zienlijk aantal oudere - niet meer in gebruik zijnde
- pagina's opleveren. Het selecteren van de juiste
pagina's (bij de eerste vulling en daarna periodiek)
zal voor een beheerder extra inspanning beteke
nen. Het project zou daardoor te afhankelijk wor
den van de goede wil van de webmasters van de
partijen. Daar komt nog bij dat een aantal sites
wordt opgebouwd via een databasesysteem. Dat
wil zeggen dat de feitelijke opbouw van de pagina's
van de site on the fly tot stand komt, dus op het
moment dat de pagina's daadwerkelijk worden
opgeroepen. Het in zijn geheel aanleveren van een
dergelijke site inclusief de boomstructuur is daar
door zeer moeilijk.
De tweede mogelijkheid - de data als webarchiva
ris zelf ophalen - is weliswaar arbeidsintensief,
maar heeft toch enkele duidelijke voordelen. Men
kan als archivaris zelf beslissen, welke data worden
opgehaald en met welke frequentie. Voor het
Archipol-project is gekozen voor deze werkwijze.
Hierbij moet worden opgemerkt dat bij het down
loaden van een partijsite wel de aanwijzingen van
de webmaster worden opgevolgd. Een ander orga
nisatorisch aspect van het archiveren van websites
dat aandacht verdient, is het gegeven dat men een
kopie maakt van een bestaande website (de juridi
sche implicaties komen hieronder aan bod).
Wanneer deze kopie raadpleegbaar gemaakt wordt,
dient het voor de gebruiker duidelijk te zijn dat het
hier niet om de actuele website gaat, maar om een
gearchiveerde kopie van vroegere datum. Het is
dus zaak om dit bij de presentatie van een gearchi
veerde website helder aan te geven in de zogeheten
'grafische schil' die om de geraadpleegde site wordt
geplaatst.
Zoals gezegd is er in het Archipol-project voor
gekozen om de data van de te archiveren websites
zelf 'op te halen' en te verwerken. Voor dit down
loadproces was bestaande programmatuur voor
handen, zowel commercieel als gratis (public
domain). Deze zogeheten off line browsers zijn op
bruikbaarheid onderzocht en vergeleken.
Daarbij kwamen grote onderlinge ver
schillen aan het licht. Eén overeenkomst
hadden zij wel, namelijk dat zij lastig
delen van websites konden downloaden
die gebruik maakten van nieuwe webtech
nologie als Flash. Daarom is bij het
Archipol-project gekozen voor de ontwik
keling van een eigen downloadprogram
ma. Deze zelf ontwikkelde programma
tuur (Archipol.cgi) voor het verkrijgen
van de gewenste data bleek in de praktijk
een behoorlijk resultaat te geven. Tijdens
de projectperiode kwam daarnaast nog
een ander goed werkend programma
beschikbaar, namelijk HTTrack 3.0. Voor
het downloaden van de websites wordt nu
zowel HTTrack als Archipol.cgi gebruikt.
Het gebruik van twee programma's creëert
ook een controlemogelijkheid. Na het
downloaden van een site wordt de volle
digheid van de gearchiveerde data
gecheckt: is de kopie zoals die wordt opge
slagen in het webarchief een volledige
afspiegeling van de actieve site? Helaas
bleek dit in lang niet alle gevallen zo te
zijn. Daarom wordt elke gedownloade
versie vergeleken met de vorige versie. Zo
is het mogelijk duidelijke afwijkingen (en
dus een mogelijke lacune) direct te signa
leren. Daarnaast wordt de site periodiek
met een tweede programma gedownload,
waarna de uitkomsten worden vergele
ken.
Maar zelfs bij een geslaagde, complete
download is het niet mogelijk om alle
onderdelen van een website in een archief
op te slaan. Van interactieve aspecten van
een website (zoals een antwoordformulier,
een chatbox of de zoekmachine) kan niet
meer dan een momentopname worden
vastgelegd; die interactiviteit werkt in het
archief eenvoudigweg niet meer. Dat wil
overigens niet zeggen dat in het archief
alleen de tekstbestanden van de websites
zijn opgeslagen. Zo wordt bijvoorbeeld
ook het Tomaatwerpspel van de Socialis
tische Partij bewaard.
Een ander essentieel technisch probleem
is de aanpassing van de interne verwijzin
gen binnen een site (de interne links) na
de download, aangezien deze nu naar het
webarchief dienen te verwijzen en niet
meer naar de oorspronkelijke site. Ook de
externe links (dat wil zeggen de verwijzin
gen naar webpagina's buiten de site) wor
den aangepast. Hier wordt een waarschu
pvda - 30 nov 2001
wing geplaatst dat men het webarchief
verlaat en dat deze links naar andere
externe pagina's kunnen verwijzen dan
op het moment van archiveren, of dat
deze zelfs geheel verdwenen kunnen zijn.
Om toch een exacte kopie te hebben van
de oorspronkelijke website, wordt op
gezette tijden een versie opgeslagen waar
bij de interne en externe links ongewij
zigd zijn gebleven. Overigens wordt een
verantwoording van alle noodzakelijke
aanpassingen in een metadata-file opge
slagen. Deze file bevat verder onder meer
de datum van de download en informatie
over de gebruikte apparatuur en program
matuur voor archivering en opslag.
De gearchiveerde sites worden opgeslagen
op de eigen documentserver van
Archipol. Voldoende beschikbare schijf
ruimte is hierbij een aanhoudend punt
van zorg; de site van het CDA alleen al telt
zo'n 3500 pagina's met een totale grootte
van bijna 50 Megabyte!
Nu het archief vorm begint te krijgen,
moet ten slotte ook nagedacht worden
over het zogeheten migratieprobleem.
Kan een website die bijvoorbeeld is
gemaakt om bekeken te worden met
Internet Explorer 5.5, over tien jaar nog
steeds bekeken worden met de standaard
browsers van 2012? Het is zaak bijtijds
naar oplossingen te zoeken voor dit
mogelijk toekomstige probleem.
Aan het downloaden en archiveren
van websites kleven ook juridische proble
men. Bij professioneel opgezette websites
zoals die van de politieke partijen kan er
sprake zijn van een commercieel (gra
fisch) ontwerp waarop copyright rust.
Ook audio- en visuele onderdelen van de
site of artikelen, kunnen auteursrechtelijk
beschermd zijn. Bij het kopiëren en via
een archief beschikbaar stellen van een
website dient men met deze rechten reke
ning te houden.
Archipol werkt dan ook vooralsnog met
een gesloten archief. Het bevindt zich wel
iswaar op het Web maar is niet openbaar.
Alleen geautoriseerde gebruikers kunnen
toegang krijgen tot het eigenlijke archief.
Met de besturen van de politieke partijen
vindt overleg plaats over de beschikbaar
stelling van het archief en de bijbehoren
de copyright-kwesties.
Het Archipol-archief zelf is op ver
schillende wijzen ontsloten. In de eerste
plaats kan men de websites vinden via de
on-linepubliekscatalogus van de RUG. In
het archief zelf kan men zoeken op partij
(of nevenorganisatie) en archiveringsda-
tum. Ook zijn alle gearchiveerde sites
doorzoekbaar via de eigen Archipol-zoek-
machine. Verder is er de mogelijkheid een
beperkte inhoudelijke analyse te maken
van de websites die zijn opgenomen. Zo
kunnen de verschillen tussen twee ver
schillende versies van een website van een
partij weergegeven worden en is er de
mogelijkheid om woordtellingen te doen.
Aan een verdere uitbouw van deze
analysetools wordt nog gewerkt.
Op dit moment is het periodiek down
loaden, archiveren en ontsluiten van de
websites van de Nederlandse politieke par
tijen in volle gang. Behalve de reguliere
partijsites worden ook de sites van neven
organisaties (bijvoorbeeld de Jonge Socia
listen) en van individuele personen (zoals
minister Van Boxtel) gearchiveerd. In de
aanloop naar de Tweede-Kamerverkie
zingen 2002 zullen ook de sites van niet
in het parlement vertegenwoordigde par
tijen en algemene verkiezingssites worden
gedownload. Op deze wijze komt er een
archief tot stand van de eerste verkiezings
campagne in Nederland die ook gedeelte
lijk digitaal gevoerd zal gaan worden.
33
Door A.K. Keijzer, F.J. den Hollander en G. Voerman*
PROTECT
Het in kranten en boeken vastgelegde 'papieren
geheugen' mag dan op vele plekken - in bibliotheken,
documentatie-instellingen en archieven - worden ver
zameld en beheerd, het bewaren van het 'digitale
geheugen' staat daarentegen nog volledig in de kin
derschoenen. Met het 'digitale geheugen' wordt hier
niet gedoeld op digitale bestanden - waarvoor wat
betreft archivering inmiddels meer aandacht is geko
men - maar op de bouwstenen van het World Wide
Web (WWW): de websites.
ar r. h r e p
Organisatorische aspecten
Technische aspecten
«3 De qearchiveerde website bekiiken foeent nieuw venster)
O Sitemap
<3 Meest qebruikte woorden
Zoeken:
G0|
Juridische aspecten
Stand van zaken
Links:
De projectsite van Archipol:
http://www.archipol.nl
The Internet Archive (the Wayback Machine):
http://www.archive.org
Informatie over Archipol: info@archipol.nl
(tevens kunt u hier een username/password-
combinatie aanvragen om het archief te
raadplegen)
G. Voerman is hoofd van het Documentatiecentrum
Nederlandse Politieke Partijen van de Rijksuniversiteit
Groningen.
A.K. Keijzer en F.J. den Hollander zijn respectievelijk
stafmedewerker elektronische dienstverlening en
voorlichtingsfunctionaris van de Universiteitsbiblio
theek Groningen.
De projectgroep Archipol bestaat behalve uit de
auteurs tevens uit H.C.G. Druiven en M.S. van Delden,
beiden ook werkzaam bij de Universiteitsbibliotheek
Groningen.
archievenblad
februari 2002
februari 2002
archievenblad