Kwaliteitsaspecten van de gegevens
De ervaring leert dat veel Internetgebruikers de aangeboden gegevens overnemen
zonder deze te controleren. Vaak gebeurt dit uit onwetendheid of gemakzucht,
soms is het echter bijna onmogelijk de gegevens te controleren, bijvoorbeeld voor
gebruikers in Australië die niet in staat zijn de originele bronnen te bekijken.
Daarnaast heeft het Internet een soort waas van correctheid over zich: 'als het
op Internet staat, klopt het' en 'als het niet op Internet staat, is het er niet!'.
Hierdoor ontstaat het gevaar dat onderzoekers blind gaan varen op Internet.11
Het is dus zaak de gegevens zo foutloos mogelijk aan te bieden -al klinkt dit als
het intrappen van een open deur.
Er zijn twee manieren om de invoer van gegevens aan te pakken: invoer door vrij
willigers of professionele data-entry. Professionele data-entry heeft als voordeel
dat er afspraken gemaakt kunnen worden over levertijd en kwaliteit. Invoer door
vrijwilligers heeft over het algemeen een lange doorlooptijd; daarnaast ben je
afhankelijk van de kwaliteit van de vrijwilligers die zich aanbieden. Een bedrijf
kan afgerekend worden op zijn prestaties.
Voor beide methodes geldt, dat er maatregelen getroffen moeten worden om zo
min mogelijk fouten in de database te krijgen. Om dit te bereiken kan het beste
vanuit de originele bron worden ingevoerd en niet vanuit al bestaande indexen.
Hierin kunnen fouten zitten die dan weer worden overgenomen. Daarnaast dient
er een controle te zijn op de ingevoerde gegevens, liefst één op één door een ander
persoon dan degene die de gegevens heeft ingevoerd. Wanneer dit te arbeids
intensief blijkt, kan overgegaan worden op steekproefsgewijze controle, waarbij
dan wel een grotere foutkans blijft bestaan. Tenslotte zijn er systeemtechnische
mogelijkheden denkbaar, bijvoorbeeld controle op onmogelijke data
(30 februari).
Speciale aandacht dient vooral uit te gaan naar de 'bijzondere gevallen' zoals
namen met diakritische tekens, voorvoegsels en vermeldingen van doodgeboren
kinderen. De wijze waarop de verschillende systemen hiermee omgaan verschilt,
soms zelfs binnen een systeem. Een voorbeeld: in ISIS komen bij een zoekop
dracht op de naam 'Vuuren' onder andere de volgende varianten naar voren:
'Vuurenv, [voornaam]', 'Vuuren van, [voornaam]' en'Vuuren, [voornaam]
van'. Niet alleen is dit verwarrend voor de gebruikers, het is ook heel goed
mogelijk dat hij hierdoor resultaten misloopt. Daarom is het belangrijk om
in ieder geval binnen het eigen systeem één lijn te trekken, en liefst landelijk.
Een onderdeel waar de gebruikers veel waarde aan hechten, is het aspect
volledigheid. Volledigheid kent twee invalshoeken: de volledigheid van de invoer
uit een bron, en de volledigheid van de gegevens binnen een bron. Bij de eerste
gaat het erom dat alle vermeldingen uit een bron worden overgenomen; bij de
tweede welke gegevens uit de bron worden overgenomen en welke niet.
De gebruiker zal verwachten dat hij alle vermeldingen uit de originele bron ook
zal kunnen terugvinden in de database. Ook hier is het weer wenselijk dat de
gegevens vanuit de originele bron worden ingevoerd en dat dit gecontroleerd
wordt, zodat er geen hiaten ontstaan. Daarbij is consistentie in de invoer belang
rijk. Vooral het feit dat bij het ene detailscherm meer informatie staat dan bij het
andere, wekt ergernis. Bijvoorbeeld: in de ene vermelding van de huwelijksakten
staan de getuigen wel genoemd, in een andere niet.
Zoals gezegd controleren genealogen lang niet altijd de via Internet gevonden
gegevens. Voor sommige gebruikers (bijvoorbeeld die aan de andere kant van de
wereld) is het bijna onmogelijk ieder gegeven te controleren. Zij zijn fysiek te ver
verwijderd van de betrokken archiefdienst en het bestellen van kopieën van
akten is duur en omslachtig. Scanning van de akten zou hierin uitkomst kunnen
bieden. Er wordt op dit moment op bescheiden schaal geëxperimenteerd met het
aanbieden van scans van originele akten. De grootste database op dit gebied lijkt
het systeem NotAris van Het Utrechts Archief te zijn, met daarin scans van alle
notariële akten uit de stad Utrecht.12 Grootste probleem bij het digitaliseren van
akten zijn de kosten die daaraan zijn verbonden. Niet alleen moeten de akten
gescand worden, maar daarna moeten zij ook nog gekoppeld worden aan de data
base. Daarbij komen nog kosten van opslag en ter beschikking stelling: er zijn
grotere en zwaardere servers nodig om de scans aan het publiek te kunnen laten
zien. Een scan zal immers altijd groot uitvallen, wil men een redelijke kwaliteit
bereiken. Het dataverkeer zal daardoor sterk toenemen waarvoor aanpassingen
aan de servers nodig zullen zijn. Dat de scans groot zijn en het daardoor lang zal
duren voordat een gebruiker deze gedownload heeft is voor de archiefdiensten
geen zwaarwegend argument: als de gebruiker de scan wil zien, moet hij daarvoor
wat over hebben. Aan de hand van de gegevens in het detailscherm kan hij
immers bepalen of dit de akte is die hij nodig heeft. De meeste archiefdiensten
hebben op dit moment echter digitalisering van de akten niet hoog op de
prioriteitenlijst staan. Aangezien het beschikbare budget laag is, moeten er
keuzes gemaakt worden. De keuze tussen het aanbieden van meer bronnen of
scans van aktes uit reeds aangeboden bronnen valt vaak op de eerste.
Om het opzoeken van originelen, en daarmee het controleren van de gegevens,
makkelijker te maken hebben de verschillende diensten gegevens bijgevoegd over
het origineel. Te denken valt aan bijvoorbeeld het aktenummer van de Burgerlijke
Stand, folionummer van DTB-registers of inventarisnummers van andere archie
ven. Aan de hand van deze informatie kan een origineel snel teruggevonden
worden. Overigens is dat ook makkelijk voor henzelf: als zij aktes moeten kopië
ren, kunnen zij ook snel de originelen terugvinden.
ONDERZOEKERS IN EEN DIGITALE ONDERZOEKSOMGEVING
Aspect
Toelichting
Juistheid
De mate waarin de juistheid van de ingevoerde gegevens kan
worden gegarandeerd
Volledigheid
De mate van volledigheid waarin de gegevens beschikbaar zijn
Controleerbaarheid
Het gemak waarmee de juistheid en volledigheid van de
informatie gecontroleerd kunnen worden
Openbaarheidsbeperkingen
De manier waarop het systeem omgaat met openbaarheids
beperkingen die op de ingevoerde informatie rusten
Bronnenoverzicht
De manier waarop de gebruiker duidelijk wordt gemaakt welke
bronnen in het systeem verwerkt zijn
11 Hetzelfde probleem speelt bij de historici, die zich ook overspoeld zien met veel online bronnen waardoor
de gemakzucht ('even op Internet opzoeken') toeslaat. Ook hier bestaat het gevaar blind te varen op
Internet. Zie Roy Rosenzweig, 'The road to Xanadu: public and private pathways on the history web',
in: The journal of American history 88 (2001) 2, 548-579, aldaar 562.
220
ROBERT VAN VUUREN DE DIGITALE VOOROUDER
12 Zie: www.hetutrechtsarchief.nl.
221