MD»
1. Fundamentele beperkingen
Uitgangspunt bij webharvesting is dat
iedere pagina één eigen en unieke URL
heeft. Als de inhoud van een pagina
verandert zonder dat de URL ook
verandert, dan kunnen deze verschillen
met webharvesting niet vastgelegd
worden.9 Hieraan gerelateerd: bij
webharvesting kunnen pagina's achter
webformulieren10 niet zomaar geharvest
worden. Deze hebben vaak geen unieke
eigen URL en bovendien 'weet' de crawler
niet wat er bijvoorbeeld in het zoekveld
van een zoekmachine ingevoerd moet
worden. Deze problemen kunnen omzeild
worden met alternatieve technieken voor
webarchivering.
2. Verkeerd ingestelde scope
3. Herkenning van links bij inzet
interactieve technieken
gegeneerd worden via scripts op
de pagina,11 dan ontdekt de crawler deze
links mogelijk niet. Een eventuele
oplossing voor dit probleem is deze links
vooraf expliciet aan de crawler door te
geven.
4. Crawlertraps
De toekomst
Bij de KB wordt nu gewerkt aan een
aanpak gericht op het effectiever en
vooral efficiënter laten verlopen van de
kwaliteitscontrole. Centraal in deze aanpak
staat het principe van een referentie-
harvest. De referentieharvest is een
harvest van de site met een bekende,
goede kwaliteit. Deze kan bij een
volgende harvestactie geautomatiseerd
als referentie gebruikt worden. Als de
nieuwe harvest nu weinig veranderd is
ten opzichte van de referentieharvest12,
dan mag worden aangenomen dat deze
harvest óók van voldoende kwaliteit is.
De nieuwe harvest kan dan automatisch
goedgekeurd en gearchiveerd worden.
Als er grote verschillen zijn dan is de opzet
-
TTT
verschillende soorten fouten worden
geconstateerd:
1. De opzet van de site kan fundamenteel
onverenigbaar zijn met het principe van
webharvesting;
2. De 'scope' van de te harvesten site is
soms vooraf niet goed gedefinieerd
waardoor er te veel of juist te weinig
geharvest is;
3. De crawler heeft door gebruik van
interactieve technieken op de
webpagina's niet alle relevante pagina's
of elementen kunnen ontdekken en
heeft deze dus ook niet geharvest;
4. Door ontwerpfouten in de site blijft de
crawler in een oneindige lus hangen of
harvest veel te veel ongewenste data.
Regelmatig beslaat een website meerdere
domeinnamen. Als deze domeinnamen
niet al bij het instellen van de harvest
bekend zijn, dan zullen ze buiten
de ingestelde scope vallen en dus niet
geharvest worden. Bij visuele inspectie
kan dit aan het licht komen. Oplossing
is het uitbreiden van de ingestelde scope
van de harvest door de ontbrekende
domeinnamen toe te voegen. Het
omgekeerde probleem kan zich ook
voordoen: soms zal er ongewenst materiaal
geharvest worden. Als dit herkend wordt,
is de oplossing doorgaans om de
ongewenste delen expliciet uit te sluiten
via de configuratie van de crawler.
De crawler zal alle gevonden pagina's die
binnen de scope vallen downloaden.
Als links echter niet expliciet in de html
opgenomen staan maar dynamisch
I w inuiri
3 O O
De KVAN website uit 2009 in het KB webarchief.
Regelmatig beslaat een site oneindig veel
verschillende URL's. Een klassiek voorbeeld
is de agenda die op ieder weekoverzicht
een link biedt naar de volgende week.
Dit soort problemen worden doorgaans
ontdekt doordat de crawler ongewoon
lang doorgaat met harvesting. Via de
logfiles kan de 'trap' dan herkend worden.
Dit probleem kan opgelost worden door
de crawler te verbieden de betreffende
URL's te harvesten. Een oplossing kan ook
zijn om de crawler te instrueren niet
verder te gaan bij het harvesten dan een
gegeven aantal links vanaf de
beginpagina.
JT raw ijÊr. lirtH1 ■-
J7 i' Ir ■■rtTL.fcsif.Mi.HtJitfWm i.i
p «'f -
KB WftbftreJ-tier win Hcderlnru?
HU****!)
Aittari- ei C'luiiiriunnxidimn QxicRrimniic Keilen *i ftciWrka
•G-rtlni AlL'WT^
1
p*iii»-dw mn
t ÖK
-Ote
IV 2010 - doe
HOT 1'
Oh
Kluft* tarpj/fi-Kw
"J Doqrv. s,
pogirni "i
«tanwiuf kMomatimnun JcdiW UHUAJ
a*»2H3
LindMf Of+Q wi P-iHKHta Arc^-^f+cwtni 4LOMW)
ÏÏM2ÜI
^»fi1 HQtancs
BdlXld'
YVi*-J*iVï"- «1WO?
üHfrJne*
uustau"
iftiLaaic"
IH31C ZXlTJOJUlVfif
Zoekresultaten in de Wayback Machine van het KB webarchief.
nummer 6 2011 21