2.2.1. Onleesbare documenten
Digitale informatie kan om tal van redenen onleesbaar zijn: digitale objecten
kunnen corrupt zijn, digitale documenten kunnen beveiligd zijn met wachtwoorden
of geëncrypteerd zijn, de benodigde software is niet beschikbaar, enz. In de work
flows van de meeste archieven wordt expliciet gecontroleerd of de ontvangen digitale
informatie leesbaar is en voldoet aan de gestelde kwaliteitsvereisten. Deze controles
verlopen in de praktijk grotendeels of helemaal geautomatiseerd. De vraag is echter
wat er gebeurt wanneer onleesbare documenten worden gedetecteerd. Worden ze
verwijderd? Worden ze toch mee opgenomen in het archief?
2.2.2. Externe verwijzingen en afhankelijkheden
Typisch voor digitale documenten is dat ze onderling aan elkaar gelinkt worden of
dat bepaalde componenten externe bronnen zijn. Digitale documenten zijn hierdoor
lang niet altijd zelfvoorzienend. Hun primaire digitale object bevat niet noodzakelijk
alle componenten waaruit ze zijn opgebouwd. AutoCAD-tekeningen bevatten volop
verwijzingen naar externe referenties zonder dewelke de tekening niet compleet kan
worden gereconstrueerd. Indesign-documenten bevatten verwijzingen naar externe
lettertypen en afbeeldingen. GIS-kaarten zijn gekoppeld aan externe databronnen.
Ook binnen meer gangbare formaten zoals die van MS-Office worden tekstdocu
menten, spreadsheets en databases volop aan elkaar gekoppeld. Raadpleging van
volledige documenten is slechts mogelijk wanneer alle gelinkte bronnen of afhanke
lijkheden mee worden gearchiveerd en beschikbaar zijn bij raadpleging. Dit vereist
voorafgaand aan de overbrenging een grondige analyse van de externe afhankelijk
heden van de digitale documenten zodat ze na identificatie samen met de primaire
digitale objecten mee kunnen worden gearchiveerd.
2.2.3. Formaten
Een grote factor hierbij is vanzelfsprekend de vereiste software ondersteuning voor
raadpleging van de documenten. De meeste archieven hanteren een lijst van onder
steunde bestandsformaten, maar digitale informatie kan lang niet altijd omgezet
worden naar een duurzaam of geprefereerd archiveringsformaat. Dit stelt de archiva
ris voor de vraag: opnemen in het digitale archief of niet? En wat met documenten
opgeslagen in een formaat dat niet voor de volle 100% conform de formele formaat
specificatie is samengesteld? Bestandsformaten zoals PDF, TIFF, JPEG, enz. kunnen
gevalideerd worden met hiervoor speciaal ontwikkelde tools zoals JHOVE11 en
VeraPDF.12 Formele formaatvalidatie is heel rigoureus en hieraan vasthouden, kan
betekenen dat de meeste digital born PDF-documenten deze test niet doorstaan.
Worden niet conforme bestanden opgenomen, gecorrigeerd of geweigerd?
Waar jarenlang voor documenten werd uitgegaan van de archivering van de PDF-
versies, lijkt men daar nu steeds meer op terug te komen en de voorkeur te geven aan
de archivering van de documenten in hun oorspronkelijk formaat.13 Voornaamste
motieven voor de PDF keuze waren de betere reputatie als archiveringsformaat en de
vermeende onveranderbaarheid. Dit laatste fabeltje is inmiddels de wereld uit gehol
pen.14 Omzettingsrisico's als informatie- en structuurverlies en de vaststelling dat
documenten in hun oorspronkelijk bestandsformaat in de meeste gevallen nog
prima te lezen zijn, nemen ook het argument van beter archiveringsformaat weg.
Een bijkomend argument voor de archivering van digitale documenten in hun bron
formaat is de voorkeur van de (interne) archiefgebruiker. Digitale informatie wordt
sneller overgebracht naar het archief, wat leidt tot een toename van de interne
archiefraadplegingen waardoor de wensen van interne gebruikers meer gewicht
krijgen. Zij geven doorgaans de voorkeur aan raadpleging van hun archief in de vorm
waarin de documenten door hen werden gemaakt of gebruikt.
Communicatiemedewerkers verkiezen de archivering van hun Indesign-bestanden
boven de archivering van hun drukwerk in PDF(/A)-formaat. Technische ontwer
pers willen hun tekeningen in AutoCAD-formaat kunnen raadplegen en hergebrui
ken. Bij de waardering van archiefdocumenten en de opname in het digitale archief
wordt bijgevolg steeds meer de voorkeur gegeven aan de archivering van de digitale
documenten in hun oorspronkelijk bestandsformaat. Voor tekstdocumenten blijft
PDF een mogelijk publicatie- of raadplegingsformaat voor externen, maar dit is dan
eerder een functionaliteit bij het beschikbaarstellen dan een criterium bij waarde
ring van digitale archieven.
Wat in de keuze van de documentformaten ook steeds meer meespeelt, is de moge
lijkheid om afgeleide formaten achteraf opnieuw samen te stellen. Afbeeldingen,
audio of video's kunnen achteraf nog steeds naar een afgeleid formaat (jpg, png, gif,
mp3, mp4, enz.) worden omgezet. Vanwege deze reden wordt dikwijls de voorkeur
gegeven aan de archivering van documenten in hun hoogste kwaliteit.
In de digitale wereld is het overigens niet alleen mogelijk om afgeleide formaten te
creëren. Ook definitieve documenten kunnen retroactief samengesteld worden. Veel
softwarepakketten houden het oorspronkelijk bronbestand bij en combineren dit
met het bewaren van een historiek van de bewerkingen. Dit is een wijdverspreid
gebruik in toepassingen voor digitale fotografie of voor grafisch ontwerp. Op basis
van de bewerkingshistoriek kan ten allen tijde een specifieke versie worden weer
gegeven. Dit is doorgaans een functionaliteit van specifieke toepassingen, die maar
zelden de bronbestanden in geschikte archiveringsformaten of open bestands
formaten bewaren. In welk formaat het document wordt gearchiveerd is bijgevolg
afhankelijk van twee vragen:
wat is nodig voor het reconstructieproces van het document en kan het e-depot
hierin voorzien?
wat is het bewaarmotief voor het document?
Digitale informatie heeft het grote voordeel dat nieuwe versies van documenten
snel kunnen worden aangemaakt en gemakkelijk kunnen worden bewaard. In veel
informatiesystemen worden de verschillende versies zelfs automatisch bijgehouden.
De vraag welke versie(s) van de documenten worden gearchiveerd, kan enkel worden
beantwoord als het archiveringsmotief en de functie van de documenten bekend
zijn. Voor verantwoordingsdoeleinden of de reconstructie van een ontstaansproces
kan het bijvoorbeeld van belang zijn dat niet alleen de definitieve versie, maar ook
ontwerpversies worden gearchiveerd.
theorie
11 http://jhove.openpreservation.org.
12 https://github.com/veraPDF.
13 Preservation policy Nationaal Archief. Digitale informatie meenemen naar de toekomst (Den Haag 2016);
Bestandsstrategieën Nationaal Archief (Den Haag 2016).
14 Het PDF/A-formaat en zijn verschillende versies hebben als belangrijke vereiste dat ze op geen enkele wijze
mogen beveiligd zijn om bijvoorbeeld wijzigingen te voorkomen.
74
filip boudrez wie slim is, selecteert. ook digitaal!
2.2.4. Versies
75