Premis:event or it didn't happen
Digitalisering van audiovisueel materiaal is een belangrijke migratie en een ingrij
pende transformatie van het bronmateriaal, waar authenticiteit zo goed mogelijk
gewaarborgd dient te worden. Digitaliseringsprojecten, en zeker massadigitalise-
ringsprojecten, volgen daarom best een vastgelegd proces waar vlot op gerapporteerd
moet kunnen worden. Bij VIAA loopt dit in grote lijnen als volgt: analoge dragers
worden geregistreerd en krijgen een unieke identifier, vervolgens worden ze getrans
porteerd naar een digitaliseringsfirma die een aantal stappen uitvoert zoals inspec
tie, cleaning van de tape, eventueel voorbereiding en uiteindelijk digitalisering.
Aan het eind van het proces worden digitale dragers getransporteerd naar de archief
infrastructuur. De toepassing waarin de analoge dragers geregistreerd worden is een
cruciale schakel in de rapportering op dit proces: een item bestaat omdat het in deze
toepassing geregistreerd is. Diezelfde software wordt ook aan het eind van de keten
gebruikt om te verifiëren of een bepaald item correct gearchiveerd werd. Ze vormt
de bron van waarheid voor onze rapportering.
Om de rapportering fijnmazig te maken en te standaardiseren, worden alle stappen
tijdens de digitalisering opgeslagen als PREMIS-metadata. De PREMIS-standaard
werd ontwikkeld door onder meer de Library of Congress en bouwt verder op het
OAIS-referentiemodel. In essentie stellen deze metadata ons in staat om te weten
welke actie op welk moment door welke operator (of applicatie) uitgevoerd werd en
wat de uitkomst van deze actie was. De data worden opgeslagen als events. Aan de
hand van deze events komen we te weten welke werknemer een drager registreerde
voor digitalisering of op welk apparaat een bepaalde tape gedigitaliseerd werd.
Dit soort metadata wordt praktisch gebruikt bij de controle van de processen en
oplevering van de leveranciers, maar is ook onmisbaar om digitale bestanden
te kunnen herleiden naar hun oorspronkelijke analoge drager. Ze documenteert de
levenscyclus van het audiovisueel materiaal.
De metadata wordt uiteindelijk samen met de digitale video of audiobestanden
verpakt als een SIP-pakket ('Submission Information Package') en aangeleverd aan
het archief voor verdere verwerking. De aangemaakte identifier tijdens registratie
van het analoge materiaal wordt hier opnieuw gebruikt als unieke identificatie van
één SIP. In de meeste gevallen gaat dit om audio of video met een metadatabestand
in XML. In complexere cases (bijvoorbeeld bij de digitalisering van kranten of film)
kan een SIP meerdere scans, audio- of videobestanden bevatten en wordt alles
samengehouden aan de hand van metadata in METS. In ons geval wordt het
SIP-pakket aangemaakt door de digitaliseringspartner. De technische complexiteit
van een dergelijk SIP-formaat, of meer specifiek van METS en PREMIS, mag zeker
niet onderschat worden. Digitaliseringsfirma's hebben deze kennis niet altijd aan
boord en er moet dus voldoende tijd voorzien worden zodat het hele SIP-
creatieproces goed getest kan worden. Praktische voorbeelden van hoe zo'n pakket
er precies uit moet zien, bleken in deze instrumenteel. Een goede definitie, documen
tatie, voorbeelden, testprocedures en planning zorgen ervoor dat een grootschalig
digitaliseringsproject vlot kan werken.
Digitaal archiveren
Import workflows
Na digitalisering worden de SIP-pakketten geleverd aan het digitaal archief. Ook hier
werd een proces uitgewerkt voor de import van het materiaal, waarbij alle afzonder
lijke stappen opnieuw als PREMIS-metadata opgeslagen worden in het archief. In
tegenstelling tot het proces bij digitalisering verloopt dit proces helemaal automa
tisch. Tijdens dit proces worden een aantal checks uitgevoerd: we controleren de
integriteit van de bestanden, gaan na of een aangeleverd SIP-pakket wel degelijk
verwacht werd in deze aanlevering, controleren de wrapper en codec van het bron
bestand en maken bijkomende lage resolutie kopieën aan. Als alles goed loopt,
worden metadata en essence naar meerdere opslaglocaties weggeschreven.
De aanlevering van bestanden gebeurt aan een hoog tempo: één levering kan
typisch enkele tientallen terabyte aan data bevatten en is snel goed voor meer dan
1000 SIP-pakketten. Batches dienen op enkele dagen verwerkt te worden. Op piek
momenten kan tot 20 TB aan data verwerkt worden per dag. Om over het welslagen
van de import te waken wordt de PREMIS-metadata via een zoekinterface en rappor-
teringstools doorzoekbaar gemaakt. Aan de hand hiervan kunnen operatoren
snel inzicht krijgen in mogelijke fouten en bijvoorbeeld escaleren naar de digitali
seringsfirma's of softwareleveranciers.
Dit hele proces wordt geautomatiseerd aan de hand van workflows in het VIAA-
archiefsysteem. Samen met de leverancier van het systeem hebben we hier in de loop
van de voorbije jaren een hele weg afgelegd: in eerste instantie was de opvolging van
de import en ondersteuning voor PREMIS een ontwikkeling op maat van VIAA.
Gaandeweg is deze een vast onderdeel geworden van het systeem en worden nu ook
alle acties na archivering (zoals export, verrijking van metadata) als PREMIS-events
geregistreerd en opgeslagen als onderdeel van het kernpakket. Een nauwe en goede
samenwerking met de softwareleverancier is hiervoor noodzakelijk, gezien in onze
ervaring concepten zoals PREMIS relatief onbekend zijn (of waren) voor de meeste
leveranciers van media-asset-managementoplossingen.
Een andere belangrijke les die we leerden, is niet in te grijpen middenin een derge
lijke geautomatiseerde workflow, tenzij die daar specifiek op voorzien is. Het is verlei
delijk om zelf bijvoorbeeld een kleine fout aan te passen in een SIP-pakket, maar naar
onze ervaring leidt dit steevast tot meer werk dan voorzien. Daarnaast gaan dit soort
aanpassingen ook voorbij aan het feit dat (in dit voorbeeld de digitaliseringsfirma)
verantwoordelijk is voor de levering van een correcte SIP en zij dus een nieuwe leve
ring moeten organiseren. Wanneer we zelf ingrijpen, wordt die grens vaag. Bij VIAA
zijn de workflows overwegend zo georganiseerd dat we bij elke importfout van voor-
afaan herbeginnen.
Tot slot mag de tijd die nodig is voor operationele opvolging tijdens de import van
grote hoeveelheden data niet onderschat worden. Wanneer dagelijks tientallen
terabytes of duizenden items geïmporteerd worden, is het noodzakelijk om hier
permanent operationele controle op te voorzien. Ook al worden veel aspecten
geautomatiseerd, dit soort werk blijft een complexe keten van leveranciers, stukken
software en mensen. Het is daarom nodig dat operatoren uitzoeken of een fout te
wijten is aan een foutieve levering, een bug in de software of een hardware error.
hoofdstuk 2
126
matthias priem een audiovisueel archief voor Vlaanderen
127