Kwaliteitsaspecten van de gegevens De ervaring leert dat veel Internetgebruikers de aangeboden gegevens overnemen zonder deze te controleren. Vaak gebeurt dit uit onwetendheid of gemakzucht, soms is het echter bijna onmogelijk de gegevens te controleren, bijvoorbeeld voor gebruikers in Australië die niet in staat zijn de originele bronnen te bekijken. Daarnaast heeft het Internet een soort waas van correctheid over zich: 'als het op Internet staat, klopt het' en 'als het niet op Internet staat, is het er niet!'. Hierdoor ontstaat het gevaar dat onderzoekers blind gaan varen op Internet.11 Het is dus zaak de gegevens zo foutloos mogelijk aan te bieden -al klinkt dit als het intrappen van een open deur. Er zijn twee manieren om de invoer van gegevens aan te pakken: invoer door vrij willigers of professionele data-entry. Professionele data-entry heeft als voordeel dat er afspraken gemaakt kunnen worden over levertijd en kwaliteit. Invoer door vrijwilligers heeft over het algemeen een lange doorlooptijd; daarnaast ben je afhankelijk van de kwaliteit van de vrijwilligers die zich aanbieden. Een bedrijf kan afgerekend worden op zijn prestaties. Voor beide methodes geldt, dat er maatregelen getroffen moeten worden om zo min mogelijk fouten in de database te krijgen. Om dit te bereiken kan het beste vanuit de originele bron worden ingevoerd en niet vanuit al bestaande indexen. Hierin kunnen fouten zitten die dan weer worden overgenomen. Daarnaast dient er een controle te zijn op de ingevoerde gegevens, liefst één op één door een ander persoon dan degene die de gegevens heeft ingevoerd. Wanneer dit te arbeids intensief blijkt, kan overgegaan worden op steekproefsgewijze controle, waarbij dan wel een grotere foutkans blijft bestaan. Tenslotte zijn er systeemtechnische mogelijkheden denkbaar, bijvoorbeeld controle op onmogelijke data (30 februari). Speciale aandacht dient vooral uit te gaan naar de 'bijzondere gevallen' zoals namen met diakritische tekens, voorvoegsels en vermeldingen van doodgeboren kinderen. De wijze waarop de verschillende systemen hiermee omgaan verschilt, soms zelfs binnen een systeem. Een voorbeeld: in ISIS komen bij een zoekop dracht op de naam 'Vuuren' onder andere de volgende varianten naar voren: 'Vuurenv, [voornaam]', 'Vuuren van, [voornaam]' en'Vuuren, [voornaam] van'. Niet alleen is dit verwarrend voor de gebruikers, het is ook heel goed mogelijk dat hij hierdoor resultaten misloopt. Daarom is het belangrijk om in ieder geval binnen het eigen systeem één lijn te trekken, en liefst landelijk. Een onderdeel waar de gebruikers veel waarde aan hechten, is het aspect volledigheid. Volledigheid kent twee invalshoeken: de volledigheid van de invoer uit een bron, en de volledigheid van de gegevens binnen een bron. Bij de eerste gaat het erom dat alle vermeldingen uit een bron worden overgenomen; bij de tweede welke gegevens uit de bron worden overgenomen en welke niet. De gebruiker zal verwachten dat hij alle vermeldingen uit de originele bron ook zal kunnen terugvinden in de database. Ook hier is het weer wenselijk dat de gegevens vanuit de originele bron worden ingevoerd en dat dit gecontroleerd wordt, zodat er geen hiaten ontstaan. Daarbij is consistentie in de invoer belang rijk. Vooral het feit dat bij het ene detailscherm meer informatie staat dan bij het andere, wekt ergernis. Bijvoorbeeld: in de ene vermelding van de huwelijksakten staan de getuigen wel genoemd, in een andere niet. Zoals gezegd controleren genealogen lang niet altijd de via Internet gevonden gegevens. Voor sommige gebruikers (bijvoorbeeld die aan de andere kant van de wereld) is het bijna onmogelijk ieder gegeven te controleren. Zij zijn fysiek te ver verwijderd van de betrokken archiefdienst en het bestellen van kopieën van akten is duur en omslachtig. Scanning van de akten zou hierin uitkomst kunnen bieden. Er wordt op dit moment op bescheiden schaal geëxperimenteerd met het aanbieden van scans van originele akten. De grootste database op dit gebied lijkt het systeem NotAris van Het Utrechts Archief te zijn, met daarin scans van alle notariële akten uit de stad Utrecht.12 Grootste probleem bij het digitaliseren van akten zijn de kosten die daaraan zijn verbonden. Niet alleen moeten de akten gescand worden, maar daarna moeten zij ook nog gekoppeld worden aan de data base. Daarbij komen nog kosten van opslag en ter beschikking stelling: er zijn grotere en zwaardere servers nodig om de scans aan het publiek te kunnen laten zien. Een scan zal immers altijd groot uitvallen, wil men een redelijke kwaliteit bereiken. Het dataverkeer zal daardoor sterk toenemen waarvoor aanpassingen aan de servers nodig zullen zijn. Dat de scans groot zijn en het daardoor lang zal duren voordat een gebruiker deze gedownload heeft is voor de archiefdiensten geen zwaarwegend argument: als de gebruiker de scan wil zien, moet hij daarvoor wat over hebben. Aan de hand van de gegevens in het detailscherm kan hij immers bepalen of dit de akte is die hij nodig heeft. De meeste archiefdiensten hebben op dit moment echter digitalisering van de akten niet hoog op de prioriteitenlijst staan. Aangezien het beschikbare budget laag is, moeten er keuzes gemaakt worden. De keuze tussen het aanbieden van meer bronnen of scans van aktes uit reeds aangeboden bronnen valt vaak op de eerste. Om het opzoeken van originelen, en daarmee het controleren van de gegevens, makkelijker te maken hebben de verschillende diensten gegevens bijgevoegd over het origineel. Te denken valt aan bijvoorbeeld het aktenummer van de Burgerlijke Stand, folionummer van DTB-registers of inventarisnummers van andere archie ven. Aan de hand van deze informatie kan een origineel snel teruggevonden worden. Overigens is dat ook makkelijk voor henzelf: als zij aktes moeten kopië ren, kunnen zij ook snel de originelen terugvinden. ONDERZOEKERS IN EEN DIGITALE ONDERZOEKSOMGEVING Aspect Toelichting Juistheid De mate waarin de juistheid van de ingevoerde gegevens kan worden gegarandeerd Volledigheid De mate van volledigheid waarin de gegevens beschikbaar zijn Controleerbaarheid Het gemak waarmee de juistheid en volledigheid van de informatie gecontroleerd kunnen worden Openbaarheidsbeperkingen De manier waarop het systeem omgaat met openbaarheids beperkingen die op de ingevoerde informatie rusten Bronnenoverzicht De manier waarop de gebruiker duidelijk wordt gemaakt welke bronnen in het systeem verwerkt zijn 11 Hetzelfde probleem speelt bij de historici, die zich ook overspoeld zien met veel online bronnen waardoor de gemakzucht ('even op Internet opzoeken') toeslaat. Ook hier bestaat het gevaar blind te varen op Internet. Zie Roy Rosenzweig, 'The road to Xanadu: public and private pathways on the history web', in: The journal of American history 88 (2001) 2, 548-579, aldaar 562. 220 ROBERT VAN VUUREN DE DIGITALE VOOROUDER 12 Zie: www.hetutrechtsarchief.nl. 221

Periodiekviewer Koninklijke Vereniging van Archivarissen

Jaarboeken Stichting Archiefpublicaties | 2002 | | pagina 112