Archievenblad | 1 juli 2011 | pagina 21 - Periodiekviewer Koninklijke Vereniging van Archivarissen

MD» 1. Fundamentele beperkingen Uitgangspunt bij webharvesting is dat iedere pagina één eigen en unieke URL heeft. Als de inhoud van een pagina verandert zonder dat de URL ook verandert, dan kunnen deze verschillen met webharvesting niet vastgelegd worden.9 Hieraan gerelateerd: bij webharvesting kunnen pagina's achter webformulieren10 niet zomaar geharvest worden. Deze hebben vaak geen unieke eigen URL en bovendien 'weet' de crawler niet wat er bijvoorbeeld in het zoekveld van een zoekmachine ingevoerd moet worden. Deze problemen kunnen omzeild worden met alternatieve technieken voor webarchivering. 2. Verkeerd ingestelde scope 3. Herkenning van links bij inzet interactieve technieken gegeneerd worden via scripts op de pagina,11 dan ontdekt de crawler deze links mogelijk niet. Een eventuele oplossing voor dit probleem is deze links vooraf expliciet aan de crawler door te geven. 4. Crawlertraps De toekomst Bij de KB wordt nu gewerkt aan een aanpak gericht op het effectiever en vooral efficiënter laten verlopen van de kwaliteitscontrole. Centraal in deze aanpak staat het principe van een referentie- harvest. De referentieharvest is een harvest van de site met een bekende, goede kwaliteit. Deze kan bij een volgende harvestactie geautomatiseerd als referentie gebruikt worden. Als de nieuwe harvest nu weinig veranderd is ten opzichte van de referentieharvest12, dan mag worden aangenomen dat deze harvest óók van voldoende kwaliteit is. De nieuwe harvest kan dan automatisch goedgekeurd en gearchiveerd worden. Als er grote verschillen zijn dan is de opzet - TTT verschillende soorten fouten worden geconstateerd: 1. De opzet van de site kan fundamenteel onverenigbaar zijn met het principe van webharvesting; 2. De 'scope' van de te harvesten site is soms vooraf niet goed gedefinieerd waardoor er te veel of juist te weinig geharvest is; 3. De crawler heeft door gebruik van interactieve technieken op de webpagina's niet alle relevante pagina's of elementen kunnen ontdekken en heeft deze dus ook niet geharvest; 4. Door ontwerpfouten in de site blijft de crawler in een oneindige lus hangen of harvest veel te veel ongewenste data. Regelmatig beslaat een website meerdere domeinnamen. Als deze domeinnamen niet al bij het instellen van de harvest bekend zijn, dan zullen ze buiten de ingestelde scope vallen en dus niet geharvest worden. Bij visuele inspectie kan dit aan het licht komen. Oplossing is het uitbreiden van de ingestelde scope van de harvest door de ontbrekende domeinnamen toe te voegen. Het omgekeerde probleem kan zich ook voordoen: soms zal er ongewenst materiaal geharvest worden. Als dit herkend wordt, is de oplossing doorgaans om de ongewenste delen expliciet uit te sluiten via de configuratie van de crawler. De crawler zal alle gevonden pagina's die binnen de scope vallen downloaden. Als links echter niet expliciet in de html opgenomen staan maar dynamisch I w inuiri 3 O O De KVAN website uit 2009 in het KB webarchief. Regelmatig beslaat een site oneindig veel verschillende URL's. Een klassiek voorbeeld is de agenda die op ieder weekoverzicht een link biedt naar de volgende week. Dit soort problemen worden doorgaans ontdekt doordat de crawler ongewoon lang doorgaat met harvesting. Via de logfiles kan de 'trap' dan herkend worden. Dit probleem kan opgelost worden door de crawler te verbieden de betreffende URL's te harvesten. Een oplossing kan ook zijn om de crawler te instrueren niet verder te gaan bij het harvesten dan een gegeven aantal links vanaf de beginpagina. JT raw ijÊr. lirtH1 ■- J7 i' Ir ■■rtTL.fcsif.Mi.HtJitfWm i.i p «'f - KB WftbftreJ-tier win Hcderlnru? HU****!) Aittari- ei C'luiiiriunnxidimn QxicRrimniic Keilen *i ftciWrka •G-rtlni AlL'WT^ 1 p*iii»-dw mn t ÖK -Ote IV 2010 - doe HOT 1' Oh Kluft* tarpj/fi-Kw "J Doqrv. s, pogirni "i «tanwiuf kMomatimnun JcdiW UHUAJ a*»2H3 LindMf Of+Q wi P-iHKHta Arc^-^f+cwtni 4LOMW) ÏÏM2ÜI ^»fi1 HQtancs BdlXld' YVi*-J*iVï"- «1WO? üHfrJne* uustau" iftiLaaic" IH31C ZXlTJOJUlVfif Zoekresultaten in de Wayback Machine van het KB webarchief. nummer 6 2011 21

Vorige Volgende