Metadata
Uitbesteden
Risico's beperken
soms aanzienlijk. Is het doel om getrouwe
kopieën van het origineel te maken, dan
is het scannen in grijswaarden mogelijk
geen optie, tenzij het microfilms betreft.
Het risico van corrupte bestanden is bij ge
comprimeerde masterbestanden volgens
sommige deskundigen groter dan in het
geval van ongecomprimeerde bestanden.
Accepteert men het risico dat bij een
'worst case'-scenario kranten mogelijk op
nieuw moeten worden gescand, of is het
originele materiaal dusdanig kwetsbaar
dat herdigitalisering uitgesloten is? Het
antwoord op deze vraag vloeit voort uit
de doelstelling van het project.
Het is zaak om een zo exact mogelijke
indruk te krijgen van de te digitaliseren
kranten: het aantal pagina's, de afmetin
gen, de fysieke conditie. Verzamel data,
neem steekproeven en duik het magazijn
in. Meten is weten. Sommige kranten zijn
beschikbaar op microfilm. Het scannen van
microfilm is gemiddeld vier keer goedkoper
dan van een papieren origineel en laat
het origineel ongemoeid. Wel levert het
kwalitatief minder goede beeldbestanden
op, wat het resultaat van de OCR (Optical
Character Recognition) - essentieel om
een pagina fulltext doorzoekbaar te maken
- negatief kan beïnvloeden.
Ook niet onbelangrijk: welke metadata
zijn er al dan niet in elektronische vorm
beschikbaar en hoe betrouwbaar is
alles? Hoe meer er al voorhanden is,
hoe minder werk. Metadata handmatig
toevoegen of aanpassen is zeer arbeids
intensief. Toch kan er soms juist bewust
voor worden gekozen om metadata toe
te voegen. In het krantenproject van de
KB wordt per titel vastgelegd of het ver
spreidingsgebied landelijk, lokaal/regio
naal of koloniaal is. Deze opties kunnen
op de website weer worden gebruikt
voor het filteren van de zoekresultaten.
De kwaliteit van de beeldbestanden
wordt bepaald door onder andere de
scherpte, tonale weergave, uitlichting en
de aanwezigheid van 'ruis'. De juiste re
solutie (doorgaans 300 dpi) is belangrijk,
maar zeker niet het enige wat ertoe doet.
Minstens zo belangrijk is dat de kranten
pagina recht en vlak wordt ingescand.
Belangrijke keuzes worden gemaakt bij
het aanmaken van de metadata. Som
mige bedrijven - vooral internationaal
opererende, gespecialiseerde krantendigi-
taliseringsbedrijven - kunnen semiautoma-
tisch metadata produceren die het mogelijk
maken elke pagina in artikelen op te delen
(segmenteren), deze te rubriceren en kop
pen handmatig te verbeteren. Aan alles is
een prijskaartje verbonden, maar veel van
dit werk is - door de toenemende vraag
naar krantendigitalisering - de laatste jaren
aanzienlijk goedkoper geworden.
De ervaring leert dat ongeveer de helft
van een projectbudget daadwerkelijk
aan het digitaliseren wordt besteed.
Zelf scannen van kranten is vaak geen
optie: alleen al de aanschaf van een
behoorlijke microfilmscanner (ongeveer
60.000 euro) of een groot formaat scan
ner (ongeveer 90.000 euro) vergt grote
investeringen. Om nog maar te zwijgen
over het werk en de benodigde technische
infrastructuur. Krantendigitalisering zal
doorgaans worden uitbesteed. Stel vooraf
duidelijke, meetbare eisen aan de ge
wenste kwaliteit van de beeldbestanden,
de metadata en de OCR-bestanden.
Dit laatste is nogal lastig omdat het eind
resultaat van de OCR heel erg afhangt
van het origineel. Papieren kranten met
doordruk van de achterzijde of zwakke
inkt leveren problemen op.
Het scannen van de krant bij M&R in Kampen
het vooraf toevoegen van de metadata door
de materiaalvoorbewerkers bij de Koninklijke
Bibliotheek
Er zijn bedrijven die een totaalpakket
aanbieden. Het grote voordeel is dat
potentiële kopzorgen kunnen worden
afgekocht: de bouw van een website
is veel werk, de opslag vraagt om een
robuuste infrastructuur en het in de lucht
houden van een website vereist veel
aandacht. Het grootste nadeel is de grote
afhankelijkheid van een externe partij.
Bovendien zijn veel van deze bedrijven
gericht op het maken van een website
en niet op het duurzaam beschikbaar
maken van gedigitaliseerd kranten
materiaal. Wil men iets anders met de
bestanden, dan moet de metadatering
en het OCR'en vaak weer opnieuw
worden gedaan. Bij het kiezen van een
leverancier is het dan ook verstandig
zoveel mogelijk uit te gaan van open
standaarden. Bij kranten gelden als
de facto metadatastandaarden: METS
(Metadata Encoding and Transmission
Standard voor beschrijvende en structu
rele metadata), ALTO (Analysed Layout
and Text Object) voor layout metadata
en MIX (Metadata for Images in XML)
voor technische metadata. Bestanden
conform deze standaarden vormen
duurzame bouwstenen. Het maakt een
en het rubriceren van de pagina door CCS
(foto's Koninklijke Bibliotheek fotograaf
Jacqueline van der Kort).
verhuizing naar een ander systeem
minder risicovol en bovendien kunnen
collecties gemakkelijker aan elkaar
gekoppeld worden.
SUurturek z°rg
Begin bij het einde, zo luidde het advies.
In zekere zin geldt ook het omgekeerde:
veel begint pas na het einde. Het duur
zaam bewaren van de eindproducten
van een project, de bestanden maar ook
de webapplicatie en alles eromheen,
vergt structurele zorg. Met alle onzeker
heid over 'the great unknown' belanden
erfgoedinstellingen weer op bekend
terrein: het zorgen voor kwetsbare
originelen.
Edwin Klijn (edwin.klijn@kb.nl) project
leider Databank Digitale Dagbladen-project
Koninklijke Bibliotheek.
nummer 3 2010 11