Premis:event or it didn't happen Digitalisering van audiovisueel materiaal is een belangrijke migratie en een ingrij pende transformatie van het bronmateriaal, waar authenticiteit zo goed mogelijk gewaarborgd dient te worden. Digitaliseringsprojecten, en zeker massadigitalise- ringsprojecten, volgen daarom best een vastgelegd proces waar vlot op gerapporteerd moet kunnen worden. Bij VIAA loopt dit in grote lijnen als volgt: analoge dragers worden geregistreerd en krijgen een unieke identifier, vervolgens worden ze getrans porteerd naar een digitaliseringsfirma die een aantal stappen uitvoert zoals inspec tie, cleaning van de tape, eventueel voorbereiding en uiteindelijk digitalisering. Aan het eind van het proces worden digitale dragers getransporteerd naar de archief infrastructuur. De toepassing waarin de analoge dragers geregistreerd worden is een cruciale schakel in de rapportering op dit proces: een item bestaat omdat het in deze toepassing geregistreerd is. Diezelfde software wordt ook aan het eind van de keten gebruikt om te verifiëren of een bepaald item correct gearchiveerd werd. Ze vormt de bron van waarheid voor onze rapportering. Om de rapportering fijnmazig te maken en te standaardiseren, worden alle stappen tijdens de digitalisering opgeslagen als PREMIS-metadata. De PREMIS-standaard werd ontwikkeld door onder meer de Library of Congress en bouwt verder op het OAIS-referentiemodel. In essentie stellen deze metadata ons in staat om te weten welke actie op welk moment door welke operator (of applicatie) uitgevoerd werd en wat de uitkomst van deze actie was. De data worden opgeslagen als events. Aan de hand van deze events komen we te weten welke werknemer een drager registreerde voor digitalisering of op welk apparaat een bepaalde tape gedigitaliseerd werd. Dit soort metadata wordt praktisch gebruikt bij de controle van de processen en oplevering van de leveranciers, maar is ook onmisbaar om digitale bestanden te kunnen herleiden naar hun oorspronkelijke analoge drager. Ze documenteert de levenscyclus van het audiovisueel materiaal. De metadata wordt uiteindelijk samen met de digitale video of audiobestanden verpakt als een SIP-pakket ('Submission Information Package') en aangeleverd aan het archief voor verdere verwerking. De aangemaakte identifier tijdens registratie van het analoge materiaal wordt hier opnieuw gebruikt als unieke identificatie van één SIP. In de meeste gevallen gaat dit om audio of video met een metadatabestand in XML. In complexere cases (bijvoorbeeld bij de digitalisering van kranten of film) kan een SIP meerdere scans, audio- of videobestanden bevatten en wordt alles samengehouden aan de hand van metadata in METS. In ons geval wordt het SIP-pakket aangemaakt door de digitaliseringspartner. De technische complexiteit van een dergelijk SIP-formaat, of meer specifiek van METS en PREMIS, mag zeker niet onderschat worden. Digitaliseringsfirma's hebben deze kennis niet altijd aan boord en er moet dus voldoende tijd voorzien worden zodat het hele SIP- creatieproces goed getest kan worden. Praktische voorbeelden van hoe zo'n pakket er precies uit moet zien, bleken in deze instrumenteel. Een goede definitie, documen tatie, voorbeelden, testprocedures en planning zorgen ervoor dat een grootschalig digitaliseringsproject vlot kan werken. Digitaal archiveren Import workflows Na digitalisering worden de SIP-pakketten geleverd aan het digitaal archief. Ook hier werd een proces uitgewerkt voor de import van het materiaal, waarbij alle afzonder lijke stappen opnieuw als PREMIS-metadata opgeslagen worden in het archief. In tegenstelling tot het proces bij digitalisering verloopt dit proces helemaal automa tisch. Tijdens dit proces worden een aantal checks uitgevoerd: we controleren de integriteit van de bestanden, gaan na of een aangeleverd SIP-pakket wel degelijk verwacht werd in deze aanlevering, controleren de wrapper en codec van het bron bestand en maken bijkomende lage resolutie kopieën aan. Als alles goed loopt, worden metadata en essence naar meerdere opslaglocaties weggeschreven. De aanlevering van bestanden gebeurt aan een hoog tempo: één levering kan typisch enkele tientallen terabyte aan data bevatten en is snel goed voor meer dan 1000 SIP-pakketten. Batches dienen op enkele dagen verwerkt te worden. Op piek momenten kan tot 20 TB aan data verwerkt worden per dag. Om over het welslagen van de import te waken wordt de PREMIS-metadata via een zoekinterface en rappor- teringstools doorzoekbaar gemaakt. Aan de hand hiervan kunnen operatoren snel inzicht krijgen in mogelijke fouten en bijvoorbeeld escaleren naar de digitali seringsfirma's of softwareleveranciers. Dit hele proces wordt geautomatiseerd aan de hand van workflows in het VIAA- archiefsysteem. Samen met de leverancier van het systeem hebben we hier in de loop van de voorbije jaren een hele weg afgelegd: in eerste instantie was de opvolging van de import en ondersteuning voor PREMIS een ontwikkeling op maat van VIAA. Gaandeweg is deze een vast onderdeel geworden van het systeem en worden nu ook alle acties na archivering (zoals export, verrijking van metadata) als PREMIS-events geregistreerd en opgeslagen als onderdeel van het kernpakket. Een nauwe en goede samenwerking met de softwareleverancier is hiervoor noodzakelijk, gezien in onze ervaring concepten zoals PREMIS relatief onbekend zijn (of waren) voor de meeste leveranciers van media-asset-managementoplossingen. Een andere belangrijke les die we leerden, is niet in te grijpen middenin een derge lijke geautomatiseerde workflow, tenzij die daar specifiek op voorzien is. Het is verlei delijk om zelf bijvoorbeeld een kleine fout aan te passen in een SIP-pakket, maar naar onze ervaring leidt dit steevast tot meer werk dan voorzien. Daarnaast gaan dit soort aanpassingen ook voorbij aan het feit dat (in dit voorbeeld de digitaliseringsfirma) verantwoordelijk is voor de levering van een correcte SIP en zij dus een nieuwe leve ring moeten organiseren. Wanneer we zelf ingrijpen, wordt die grens vaag. Bij VIAA zijn de workflows overwegend zo georganiseerd dat we bij elke importfout van voor- afaan herbeginnen. Tot slot mag de tijd die nodig is voor operationele opvolging tijdens de import van grote hoeveelheden data niet onderschat worden. Wanneer dagelijks tientallen terabytes of duizenden items geïmporteerd worden, is het noodzakelijk om hier permanent operationele controle op te voorzien. Ook al worden veel aspecten geautomatiseerd, dit soort werk blijft een complexe keten van leveranciers, stukken software en mensen. Het is daarom nodig dat operatoren uitzoeken of een fout te wijten is aan een foutieve levering, een bug in de software of een hardware error. hoofdstuk 2 126 matthias priem een audiovisueel archief voor Vlaanderen 127

Periodiekviewer Koninklijke Vereniging van Archivarissen

Jaarboeken Stichting Archiefpublicaties | 2018 | | pagina 64