Doe je digitale warming-up! digitale bewaring de praktijk Onderzoek naar digitaal bewaren van tekstdocumenten en e-mails vordert gestaag Het Testbed Digitale Bewaring valt onder de paraplu van Digitale Duurzaam heid en heeft als doel de toegankelijk heid van betrouwbare overheidsinforma tie in het digitale tijdperk te waarborgen. Het team van Testbed voert experimen ten uit met verschillende documentty pes, om zo advies uit te kunnen brengen voor de beste wijze van bewaren.1 In dit artikel komen twee van deze strategieën aan de orde, namelijk migratie en XML. De experimenten bestaan uit het migre ren of converteren van de oorspronkelij ke documenten naar een nieuw formaat. E-mails, gecreëerd via verschillende e- mailprogramma's zoals Outlook, Outlook Express en Hotmail, worden geconver teerd naar XML; Microsoft Word-docu- menten naar een hogere versie van Word, samen met de benodigde metage gevens. De twee versies van het docu ment, voor en na de transformatie, wor den dan met elkaar vergeleken en beoor deeld. Is het stuk nog authentiek? Is de migratie of conversie geslaagd te noe men? De eerste experimenten richtten zich op de migratie van Worddocumenten. Het team identificeerde en onderzocht hierbij (authenticiteits)kenmerken, zoals lettertype en macro's, die veranderden door het migratieproces. We migreerden model- en testdocumenten via en over generaties van Microsoft Word.2 Migratie via generaties betekent dat naar opeen volgende versies van een applicatie wordt gemigreerd, bijvoorbeeld van Word 95 naar Word 97 en dan naar Word 2000 en 2002. Bij migratie over genera ties wordt er rechtstreeks gemigreerd naar de huidige hoogste versie, bijvoor- beeld van Word 95 naar -Word 2002. Daarnaast hebben we geëxperimenteerd met migratie van Wordbestanden naar PDF 1.2, 1.3 en 1.4. De uitkomsten van de experimenten met modeldocumenten in Word lieten zien dat als het document in eerste instantie correct was aangemaakt, het een veel grotere kans had zijn kenmerken te be houden na mi graties. Auto matisch bijge werkte velden (bijvoorbeeld datumvelden) die niet waren gefixeerd na aanmaak van het document bleken telkens te worden bij gewerkt wan neer het docu ment werd geopend, waardoor een wezenlijk inhoudselement was veran derd. Dit kan al een probleem zijn wan neer de documenten actief gebruikt wor den, laat staan wanneer zij gearchiveerd zijn. De meeste kenmerken migreerden echter goed. De plaats van de tekst op de pagina was soms anders, maar kleuren, opmaak van alinea en lettertype, opsom mingstekens (bolletjes) en nummering, ingevoegde tabellen, hyperlinks, afbeel dingen en grafieken bleven allemaal behouden tijdens de tot nu toe uitge voerde experimenten. Het gebruik van documenten afkomstig van een aantal ministeries bracht ons onderzoek op een hoger plan. We waren niet betrokken geweest bij de creatie van de documenten en wisten dus niet zeker hoe ze waren opgemaakt. Eén document, op het eerste gezicht een gewone tabel, bleek te zijn samengesteld uit losse tekst vakken. Andere documenten waren gemaakt op verschillende computers met verschillende instellingen, of bevatten tekst die was geknipt en geplakt vanuit een heel andere applicatie, zoals Word Perfect. Deze 'knip-en-plak-secties' gedra gen zich tijdens en na de migratie anders dan de rest van het document en kunnen ertoe leiden dat het document er anders uitziet zonder dat dat de inhoud negatief hoeft te beïnvloeden. De reeks experimenten met Microsoft Word toonde aan dat migratie over gene raties, bijvoorbeeld van Word 95 naar Word 2002, ten minste zo betrouwbaar was als - en in sommige gevallen be trouwbaarder was dan - migratie via generaties. Dit kan wellicht enige scepsis wegnemen over de kos ten van mi gratie. Een migratie naar elke nieuwe versie van een applicatie hoeft niet no dig te zijn, en we hopen dat we met expe rimenten met andere appli caties, zoals Word Perfect, deze hypothe se kunnen uitbreiden en daarmee een advies uit te brengen. Het feit dat duurzame bewaring begint bij de bron geldt zeker ook voor e- mail. Bij het samenstellen van een e- mailbericht, is een aantal aspecten van belang: Het vastleggen van de context van een e- mail en zijn relatie tot andere documen ten en werkprocessen is cruciaal. Deze metagegevens kunnen gedeeltelijk wor den herleid uit de e-mail zelf. Met name de header informatie van een e-mailbe- richt is in dit verband erg belangrijk, maar ook de body van de e-mail kan metagegevens bevatten.3 We adviseren om belangrijke metagegegevens op te nemen in het e-mailbericht zelf; dit ver groot de kans dat ze dan behouden blij ven. Denk bijvoorbeeld aan gegevens over de afzender.: naam, departement/ afdeling, functie, adres e.d. Het kan heel eenvoudig door een handtekeningenblok in te voegen.4 In het e-mailverkeer is de naamgeving bij e-mailadressen niet uniform en kent vele varianten. Maak daarom zo veel mogelijk 26 oktober 2002 de praktijk gebruik van het adresboek. Voeg de juiste en volledige naam van de ontvanger toe. Bij het maken van een e-mailbericht zal in dat geval deze volledige naam van de ontvanger worden vermeld in het trans missiebestand.5 Bij de meeste organisa ties wordt het adresboek centraal beheerd, wat gezien vanuit de optiek van uniformiteit en standaardisatie van gege vens de voorkeur heeft. Het gebruik van een distributielijst of groep, die gekoppeld is aan het adres boek, kan problemen geven. Een distri butielijst is een paraplubegrip waar één of meerdere ontvangers onder kunnen vallen. Op het moment dat een e-mail wordt verstuurd naar adressen buiten de organisatie, krijgen gebruikers van de groep wel de namen van de andere gebruikers te zien, maar de naam van de lijst blijft helaas niet behouden. Bij het versturen van een interne e-mail blijft de naam van de lijst wel behouden. Echter, als je de e-mail in een later stadium weer wilt raadplegen, worden de groepgege- vens uit de laatste versie van het adres boek getoond, niet de gegevens van het adresboek op het moment van versturen van de e-mail. Dit betekent dat essentiële informatie verloren kan gaan, namelijk de namen van de personen aan wie de e- mail oorspronkelijk was gericht. Het is dus verstandig bij gebruik van distribu- tielijsten van e-mails die gearchiveerd moeten worden, de namen van de betrokken personen expliciet te noemen in de body van de e-mail. Wat voor e-mail je ook verstuurt, de kans is groot dat de ontvanger de e-mail in een andere staat ontvangt. Een voorbeeld is het gebruik van Rich Text Format (RTF) in het e-mailprogramma Outlook. In veel gevallen fungeert RTF als standaardin stelling voor het opmaken van de inhoud van de e-mail. RTF maakt het de Outlookgebruiker mogelijk gebruik te maken van de verschillende opmaakfa- ciliteiten, zoals cursief, vet, onderstre pen, uitlijnen en tekstkleur. Echter, de MS Outlook RTF is Outlook-eigen, dat houdt in dat een ander e-mailprogram- ma dit specifieke RTF niet ondersteunt. Zelfs Outlook Express, ook een Microsoftproduct, ondersteunt geen Outlook RTF. Het gevolg is dat de zender een 'opgemaakte' e-mail verstuurt, ter wijl de ontvanger die niet met Outlook werkt een e-mail ontvangt, ontdaan van iedere opmaak. Wil je toch een opge maakte e-mail, stuur dan de tekst in een attachment mee. Na een goede opmaak van de e-mail- berichten is het zaak deze ook op langere termijn te kunnen bewaren. De traditio nele mailservers zijn daar niet geschikt voor, het ontbreekt ze aan voorzieningen die een duurzaam beheer garanderen. Het is daarom van belang de e-mail uit het domein van de mailservers en de individuele harde schijven van medewer kers over te hevelen naar een veilige omgeving en te migreren naar een duur zamer formaat. De meest geschikte manier om e-mail voor langere termijn te bewaren lijken we gevonden te hebben in XML. We heb ben de e-mails omgezet naar XML op twee manieren: - De gehele e-mail, dus met attach ments, omgezet in één XML-bestand. - De attachments opgeslagen in hun eigen bestandsformaat, maar de rest van het e-mailbericht omgezet in XML. Onze voorkeur gaat uit naar het apart opslaan van de attachments. Attach ments kunnen, afhankelijk van het docu menttype, een andere strategie van bewaren nodig hebben dan XML. Een andere mogelijkheid is de e-mail direct creëren in XML en opslaan op een aparte server, die speciaal voor het duur zaam bewaren van e-mail is ingericht. Het Testbedteam heeft een e-mail/XML demonstrator ontwikkeld, zodat dit idee verder onderzocht kan worden. De resultaten van alle experimenten, er zullen er nog vele volgen, maken het mogelijk de verschillende bewaarstrate gieën tegen elkaar af te wegen. Daarbij spelen eisen aan metagegevens, authenti citeit en kosten een rol. Het is onwaar schijnlijk dat één standaardbenadering geschikt zal zijn voor al die soorten docu menten met hun verschillende bewaarei- sen. Het blijft een zoektocht naar de juis te combinatie en aanpak. Binnenkort brengt het Testbed de vol gende producten uit: een white paper over XML als bewaarstrategie, het uitgebreide advies voor het langdurig bewaren van e- mail, en de e-mail/XML demonstrator. Voor meer informatie over digitale duur zaamheid en het programma Testbed Digitale Bewaring zie: www.digitaleduur- zaamheid.nl. 27 Door Tamara van Zwol* Langdurige bewaring van e-mails en tekst documenten begint bij de bron, voor en tij dens de creatie van je documenten. Zie het als een warming-up, dan verklein je de kans op blessures later. Als aan de creatie zorg wordt besteed, is de kans groot dat je documenten op de langere termijn ook bewaard kunnen blijven. Dit artikel gaat in op de resultaten van Testbed Digitale Bewaring tot op dit moment en geeft advie zen voor het (langdurig) bewaren van e- mails en Word-documenten. Migratie van tekstdocumenten Het creëren van e-mail archievenblad Duurzame opslag van e-mail Tamara van Zwol is als Record Keeping Expert werk zaam bij de stichting ICTU/programmabureau Testbed Digitale Bewaring. 1. Onderzoek wordt uitgevoerd met tekstdocumen ten, e-mails, spreadsheets en databases. 2. Modeldocumenten zijn door het onderzoeksteam zelf gecreëerd om bepaalde documentkenmerken te bestuderen en evalueren. Testdocumenten zijn afkomstig van overheidsorganisaties. 3. Een e-mail bestaat uit drie componenten: header: de formele kenmerken, body: de eigenlijke tekst en attachments of bijlagen. Uit: Archivering van Elektronische Post, Peter Horsman, april 1999. 4. Dit is een standaardfunctionaliteit in Outlook en Outlook Express. Ook andere mailprogramma's zullen een soortgelijke functionaliteit hebben. Bij Outlook 97 en Outlook 2000 is deze functionali teit te vinden onder Extra, Opties, tabblad E-mailindeling. 5. Het transmissiebestand is de vorm waarin de e-mail wordt verstuurd. In het onderzoek gebruiken we het transmissiebe stand voor de conversie van e-mail naar XML. oktober 2002 archievenblad

Periodiekviewer Koninklijke Vereniging van Archivarissen

Archievenblad | 2002 | | pagina 13