Doe je digitale warming-up!
digitale
bewaring
de praktijk
Onderzoek naar digitaal bewaren van tekstdocumenten en e-mails vordert gestaag
Het Testbed Digitale Bewaring valt
onder de paraplu van Digitale Duurzaam
heid en heeft als doel de toegankelijk
heid van betrouwbare overheidsinforma
tie in het digitale tijdperk te waarborgen.
Het team van Testbed voert experimen
ten uit met verschillende documentty
pes, om zo advies uit te kunnen brengen
voor de beste wijze van bewaren.1 In dit
artikel komen twee van deze strategieën
aan de orde, namelijk migratie en XML.
De experimenten bestaan uit het migre
ren of converteren van de oorspronkelij
ke documenten naar een nieuw formaat.
E-mails, gecreëerd via verschillende e-
mailprogramma's zoals Outlook, Outlook
Express en Hotmail, worden geconver
teerd naar XML; Microsoft Word-docu-
menten naar een hogere versie van
Word, samen met de benodigde metage
gevens. De twee versies van het docu
ment, voor en na de transformatie, wor
den dan met elkaar vergeleken en beoor
deeld. Is het stuk nog authentiek? Is de
migratie of conversie geslaagd te noe
men?
De eerste experimenten richtten zich
op de migratie van Worddocumenten.
Het team identificeerde en onderzocht
hierbij (authenticiteits)kenmerken, zoals
lettertype en macro's, die veranderden
door het migratieproces. We migreerden
model- en testdocumenten via en over
generaties van Microsoft Word.2 Migratie
via generaties betekent dat naar opeen
volgende versies van een applicatie
wordt gemigreerd, bijvoorbeeld van
Word 95 naar Word 97 en dan naar Word
2000 en 2002. Bij migratie over genera
ties wordt er rechtstreeks gemigreerd
naar de huidige hoogste versie, bijvoor-
beeld van Word 95 naar -Word 2002.
Daarnaast hebben we geëxperimenteerd
met migratie van Wordbestanden naar
PDF 1.2, 1.3 en 1.4.
De uitkomsten van de experimenten met
modeldocumenten in Word lieten zien
dat als het document in eerste instantie
correct was aangemaakt, het een veel
grotere kans had zijn kenmerken te be
houden na mi
graties. Auto
matisch bijge
werkte velden
(bijvoorbeeld
datumvelden)
die niet waren
gefixeerd na
aanmaak van
het document
bleken telkens
te worden bij
gewerkt wan
neer het docu
ment werd geopend, waardoor een
wezenlijk inhoudselement was veran
derd. Dit kan al een probleem zijn wan
neer de documenten actief gebruikt wor
den, laat staan wanneer zij gearchiveerd
zijn. De meeste kenmerken migreerden
echter goed. De plaats van de tekst op de
pagina was soms anders, maar kleuren,
opmaak van alinea en lettertype, opsom
mingstekens (bolletjes) en nummering,
ingevoegde tabellen, hyperlinks, afbeel
dingen en grafieken bleven allemaal
behouden tijdens de tot nu toe uitge
voerde experimenten.
Het gebruik van documenten afkomstig
van een aantal ministeries bracht ons
onderzoek op een hoger plan. We waren
niet betrokken geweest bij de creatie van
de documenten en wisten dus niet zeker
hoe ze waren opgemaakt. Eén document,
op het eerste gezicht een gewone tabel,
bleek te zijn samengesteld uit losse tekst
vakken. Andere documenten waren
gemaakt op verschillende computers met
verschillende instellingen, of bevatten
tekst die was geknipt en geplakt vanuit
een heel andere applicatie, zoals Word
Perfect. Deze 'knip-en-plak-secties' gedra
gen zich tijdens en na de migratie anders
dan de rest van het document en kunnen
ertoe leiden dat het document er anders
uitziet zonder dat dat de inhoud negatief
hoeft te beïnvloeden.
De reeks experimenten met Microsoft
Word toonde aan dat migratie over gene
raties, bijvoorbeeld van Word 95 naar
Word 2002, ten minste zo betrouwbaar
was als - en in sommige gevallen be
trouwbaarder was dan - migratie via
generaties. Dit kan wellicht enige scepsis
wegnemen
over de kos
ten van mi
gratie. Een
migratie naar
elke nieuwe
versie van
een applicatie
hoeft niet no
dig te zijn, en
we hopen dat
we met expe
rimenten met
andere appli
caties, zoals Word Perfect, deze hypothe
se kunnen uitbreiden en daarmee een
advies uit te brengen.
Het feit dat duurzame bewaring
begint bij de bron geldt zeker ook voor e-
mail. Bij het samenstellen van een e-
mailbericht, is een aantal aspecten van
belang:
Het vastleggen van de context van een e-
mail en zijn relatie tot andere documen
ten en werkprocessen is cruciaal. Deze
metagegevens kunnen gedeeltelijk wor
den herleid uit de e-mail zelf. Met name
de header informatie van een e-mailbe-
richt is in dit verband erg belangrijk,
maar ook de body van de e-mail kan
metagegevens bevatten.3 We adviseren
om belangrijke metagegegevens op te
nemen in het e-mailbericht zelf; dit ver
groot de kans dat ze dan behouden blij
ven. Denk bijvoorbeeld aan gegevens
over de afzender.: naam, departement/
afdeling, functie, adres e.d. Het kan heel
eenvoudig door een handtekeningenblok
in te voegen.4
In het e-mailverkeer is de naamgeving bij
e-mailadressen niet uniform en kent vele
varianten. Maak daarom zo veel mogelijk
26
oktober 2002
de praktijk
gebruik van het adresboek. Voeg de juiste
en volledige naam van de ontvanger toe.
Bij het maken van een e-mailbericht zal
in dat geval deze volledige naam van de
ontvanger worden vermeld in het trans
missiebestand.5 Bij de meeste organisa
ties wordt het adresboek centraal
beheerd, wat gezien vanuit de optiek van
uniformiteit en standaardisatie van gege
vens de voorkeur heeft.
Het gebruik van een distributielijst of
groep, die gekoppeld is aan het adres
boek, kan problemen geven. Een distri
butielijst is een paraplubegrip waar één
of meerdere ontvangers onder kunnen
vallen. Op het moment dat een e-mail
wordt verstuurd naar adressen buiten de
organisatie, krijgen gebruikers van de
groep wel de namen van de andere
gebruikers te zien, maar de naam van de
lijst blijft helaas niet behouden. Bij het
versturen van een interne e-mail blijft de
naam van de lijst wel behouden. Echter,
als je de e-mail in een later stadium weer
wilt raadplegen, worden de groepgege-
vens uit de laatste versie van het adres
boek getoond, niet de gegevens van het
adresboek op het moment van versturen
van de e-mail. Dit betekent dat essentiële
informatie verloren kan gaan, namelijk
de namen van de personen aan wie de e-
mail oorspronkelijk was gericht. Het is
dus verstandig bij gebruik van distribu-
tielijsten van e-mails die gearchiveerd
moeten worden, de namen van de
betrokken personen expliciet te noemen
in de body van de e-mail.
Wat voor e-mail je ook verstuurt, de kans
is groot dat de ontvanger de e-mail in een
andere staat ontvangt. Een voorbeeld is
het gebruik van Rich Text Format (RTF)
in het e-mailprogramma Outlook. In veel
gevallen fungeert RTF als standaardin
stelling voor het opmaken van de
inhoud van de e-mail. RTF maakt het de
Outlookgebruiker mogelijk gebruik te
maken van de verschillende opmaakfa-
ciliteiten, zoals cursief, vet, onderstre
pen, uitlijnen en tekstkleur. Echter, de
MS Outlook RTF is Outlook-eigen, dat
houdt in dat een ander e-mailprogram-
ma dit specifieke RTF niet ondersteunt.
Zelfs Outlook Express, ook een
Microsoftproduct, ondersteunt geen
Outlook RTF. Het gevolg is dat de zender
een 'opgemaakte' e-mail verstuurt, ter
wijl de ontvanger die niet met Outlook
werkt een e-mail ontvangt, ontdaan van
iedere opmaak. Wil je toch een opge
maakte e-mail, stuur dan de tekst in een
attachment mee.
Na een goede opmaak van de e-mail-
berichten is het zaak deze ook op langere
termijn te kunnen bewaren. De traditio
nele mailservers zijn daar niet geschikt
voor, het ontbreekt ze aan voorzieningen
die een duurzaam beheer garanderen.
Het is daarom van belang de e-mail uit
het domein van de mailservers en de
individuele harde schijven van medewer
kers over te hevelen naar een veilige
omgeving en te migreren naar een duur
zamer formaat.
De meest geschikte manier om e-mail
voor langere termijn te bewaren lijken
we gevonden te hebben in XML. We heb
ben de e-mails omgezet naar XML op
twee manieren:
- De gehele e-mail, dus met attach
ments, omgezet in één XML-bestand.
- De attachments opgeslagen in hun
eigen bestandsformaat, maar de rest
van het e-mailbericht omgezet in
XML.
Onze voorkeur gaat uit naar het apart
opslaan van de attachments. Attach
ments kunnen, afhankelijk van het docu
menttype, een andere strategie van
bewaren nodig hebben dan XML.
Een andere mogelijkheid is de e-mail
direct creëren in XML en opslaan op een
aparte server, die speciaal voor het duur
zaam bewaren van e-mail is ingericht.
Het Testbedteam heeft een e-mail/XML
demonstrator ontwikkeld, zodat dit idee
verder onderzocht kan worden.
De resultaten van alle experimenten, er
zullen er nog vele volgen, maken het
mogelijk de verschillende bewaarstrate
gieën tegen elkaar af te wegen. Daarbij
spelen eisen aan metagegevens, authenti
citeit en kosten een rol. Het is onwaar
schijnlijk dat één standaardbenadering
geschikt zal zijn voor al die soorten docu
menten met hun verschillende bewaarei-
sen. Het blijft een zoektocht naar de juis
te combinatie en aanpak.
Binnenkort brengt het Testbed de vol
gende producten uit: een white paper over
XML als bewaarstrategie, het uitgebreide
advies voor het langdurig bewaren van e-
mail, en de e-mail/XML demonstrator.
Voor meer informatie over digitale duur
zaamheid en het programma Testbed
Digitale Bewaring zie: www.digitaleduur-
zaamheid.nl.
27
Door Tamara van Zwol*
Langdurige bewaring van e-mails en tekst
documenten begint bij de bron, voor en tij
dens de creatie van je documenten. Zie het
als een warming-up, dan verklein je de
kans op blessures later. Als aan de creatie
zorg wordt besteed, is de kans groot dat je
documenten op de langere termijn ook
bewaard kunnen blijven. Dit artikel gaat in
op de resultaten van Testbed Digitale
Bewaring tot op dit moment en geeft advie
zen voor het (langdurig) bewaren van e-
mails en Word-documenten.
Migratie van tekstdocumenten
Het creëren van e-mail
archievenblad
Duurzame opslag van e-mail
Tamara van Zwol is als Record Keeping Expert werk
zaam bij de stichting ICTU/programmabureau Testbed
Digitale Bewaring.
1. Onderzoek wordt uitgevoerd met tekstdocumen
ten, e-mails, spreadsheets en databases.
2. Modeldocumenten zijn door het onderzoeksteam
zelf gecreëerd om bepaalde documentkenmerken
te bestuderen en evalueren. Testdocumenten zijn
afkomstig van overheidsorganisaties.
3. Een e-mail bestaat uit drie componenten: header:
de formele kenmerken, body: de eigenlijke tekst
en attachments of bijlagen. Uit: Archivering van
Elektronische Post, Peter Horsman, april 1999.
4. Dit is een standaardfunctionaliteit in Outlook en
Outlook Express. Ook andere mailprogramma's
zullen een soortgelijke functionaliteit hebben. Bij
Outlook 97 en Outlook 2000 is deze functionali
teit te vinden onder Extra, Opties, tabblad
E-mailindeling.
5. Het transmissiebestand is de vorm waarin de
e-mail wordt verstuurd.
In het onderzoek gebruiken we het transmissiebe
stand voor de conversie van e-mail naar XML.
oktober 2002
archievenblad