Metadata Uitbesteden Risico's beperken soms aanzienlijk. Is het doel om getrouwe kopieën van het origineel te maken, dan is het scannen in grijswaarden mogelijk geen optie, tenzij het microfilms betreft. Het risico van corrupte bestanden is bij ge comprimeerde masterbestanden volgens sommige deskundigen groter dan in het geval van ongecomprimeerde bestanden. Accepteert men het risico dat bij een 'worst case'-scenario kranten mogelijk op nieuw moeten worden gescand, of is het originele materiaal dusdanig kwetsbaar dat herdigitalisering uitgesloten is? Het antwoord op deze vraag vloeit voort uit de doelstelling van het project. Het is zaak om een zo exact mogelijke indruk te krijgen van de te digitaliseren kranten: het aantal pagina's, de afmetin gen, de fysieke conditie. Verzamel data, neem steekproeven en duik het magazijn in. Meten is weten. Sommige kranten zijn beschikbaar op microfilm. Het scannen van microfilm is gemiddeld vier keer goedkoper dan van een papieren origineel en laat het origineel ongemoeid. Wel levert het kwalitatief minder goede beeldbestanden op, wat het resultaat van de OCR (Optical Character Recognition) - essentieel om een pagina fulltext doorzoekbaar te maken - negatief kan beïnvloeden. Ook niet onbelangrijk: welke metadata zijn er al dan niet in elektronische vorm beschikbaar en hoe betrouwbaar is alles? Hoe meer er al voorhanden is, hoe minder werk. Metadata handmatig toevoegen of aanpassen is zeer arbeids intensief. Toch kan er soms juist bewust voor worden gekozen om metadata toe te voegen. In het krantenproject van de KB wordt per titel vastgelegd of het ver spreidingsgebied landelijk, lokaal/regio naal of koloniaal is. Deze opties kunnen op de website weer worden gebruikt voor het filteren van de zoekresultaten. De kwaliteit van de beeldbestanden wordt bepaald door onder andere de scherpte, tonale weergave, uitlichting en de aanwezigheid van 'ruis'. De juiste re solutie (doorgaans 300 dpi) is belangrijk, maar zeker niet het enige wat ertoe doet. Minstens zo belangrijk is dat de kranten pagina recht en vlak wordt ingescand. Belangrijke keuzes worden gemaakt bij het aanmaken van de metadata. Som mige bedrijven - vooral internationaal opererende, gespecialiseerde krantendigi- taliseringsbedrijven - kunnen semiautoma- tisch metadata produceren die het mogelijk maken elke pagina in artikelen op te delen (segmenteren), deze te rubriceren en kop pen handmatig te verbeteren. Aan alles is een prijskaartje verbonden, maar veel van dit werk is - door de toenemende vraag naar krantendigitalisering - de laatste jaren aanzienlijk goedkoper geworden. De ervaring leert dat ongeveer de helft van een projectbudget daadwerkelijk aan het digitaliseren wordt besteed. Zelf scannen van kranten is vaak geen optie: alleen al de aanschaf van een behoorlijke microfilmscanner (ongeveer 60.000 euro) of een groot formaat scan ner (ongeveer 90.000 euro) vergt grote investeringen. Om nog maar te zwijgen over het werk en de benodigde technische infrastructuur. Krantendigitalisering zal doorgaans worden uitbesteed. Stel vooraf duidelijke, meetbare eisen aan de ge wenste kwaliteit van de beeldbestanden, de metadata en de OCR-bestanden. Dit laatste is nogal lastig omdat het eind resultaat van de OCR heel erg afhangt van het origineel. Papieren kranten met doordruk van de achterzijde of zwakke inkt leveren problemen op. Het scannen van de krant bij M&R in Kampen het vooraf toevoegen van de metadata door de materiaalvoorbewerkers bij de Koninklijke Bibliotheek Er zijn bedrijven die een totaalpakket aanbieden. Het grote voordeel is dat potentiële kopzorgen kunnen worden afgekocht: de bouw van een website is veel werk, de opslag vraagt om een robuuste infrastructuur en het in de lucht houden van een website vereist veel aandacht. Het grootste nadeel is de grote afhankelijkheid van een externe partij. Bovendien zijn veel van deze bedrijven gericht op het maken van een website en niet op het duurzaam beschikbaar maken van gedigitaliseerd kranten materiaal. Wil men iets anders met de bestanden, dan moet de metadatering en het OCR'en vaak weer opnieuw worden gedaan. Bij het kiezen van een leverancier is het dan ook verstandig zoveel mogelijk uit te gaan van open standaarden. Bij kranten gelden als de facto metadatastandaarden: METS (Metadata Encoding and Transmission Standard voor beschrijvende en structu rele metadata), ALTO (Analysed Layout and Text Object) voor layout metadata en MIX (Metadata for Images in XML) voor technische metadata. Bestanden conform deze standaarden vormen duurzame bouwstenen. Het maakt een en het rubriceren van de pagina door CCS (foto's Koninklijke Bibliotheek fotograaf Jacqueline van der Kort). verhuizing naar een ander systeem minder risicovol en bovendien kunnen collecties gemakkelijker aan elkaar gekoppeld worden. SUurturek z°rg Begin bij het einde, zo luidde het advies. In zekere zin geldt ook het omgekeerde: veel begint pas na het einde. Het duur zaam bewaren van de eindproducten van een project, de bestanden maar ook de webapplicatie en alles eromheen, vergt structurele zorg. Met alle onzeker heid over 'the great unknown' belanden erfgoedinstellingen weer op bekend terrein: het zorgen voor kwetsbare originelen. Edwin Klijn (edwin.klijn@kb.nl) project leider Databank Digitale Dagbladen-project Koninklijke Bibliotheek. nummer 3 2010 11

Periodiekviewer Koninklijke Vereniging van Archivarissen

Archievenblad | 2010 | | pagina 11