traB& NVBA nieuws nederlandse vereniging van bedrijfsarchivarissen Digitale documenten in de opleiding Documentenleer omvat document- kunde, documentkennis en documen tanalyse. De belangrijkste onderdelen van documentkunde zijn door de jaren heen vooral bekend geworden door publicatie van schema's waarin de karakteristieken werden aangegeven. De in de opleiding Bedrijfsarchiefkunde gebruikte schema's zijn gemaakt door Donker Duyvis (1925), Kummer (1937), van der Gouw (1955), Groeneveld (1962) en Dreese (1971). Dat laatste schema heb ik in 1973 aangevuld met de items 'karakteristieken van de gege vensvastlegging' en 'karakteristieken van de gegevenstoegankelijkheid' om daarmee de (toen nog in de kinderschoenen staande) automatisering er in te vatten. Opvallend is dat in geen van die schema's een voor de praktijk toch zeer nuttige karakteristiek van documenten, namelijk of ze enkelvoudig of samenge steld zijn, bevat. Slechts het - door ons erelid Johan Koldijk ontworpen -schema in de syllabus voor de tweedaagse GO- cursus Archiefbeheer noemt dit aspect. Zolang er uitsluitend sprake was van ana loge documenten was dit onderscheid in complexiteit duidelijk zichtbaar en werd het gemis in de theorie niet onderkend. Voorbeelden van samengestelde docu menten zijn: brief van meerdere pagina's, rapport met bijlagen, bundel archivalia, boek. Afhankelijk van met name de omvang en de methode van samenvoe gen van zo'n document noopte deze karakteristiek al dan niet tot aangepast beheer. Zo zal een rapport in boekvorm (al was het maar omdat het in de perfora- tor past en zich dus ook niet leent om in een map te worden opgeborgen) steeds een van de ordening afwijkende rang schikking krijgen. Peudo-enkelvoudig Bij documenten van digitale aard blijkt nauwelijks sprake van enkelvoudige documenten. Zelfs een diskette met daar op één bestand is bij nadere beschouwing een samengesteld document. Je zou kun nen zeggen dat het document 'pseudo- enkelvoudig' is. De diskette bevat immers naast het bestand zelf ook de gegevens die in eerste instantie nodig waren om de gegevens te kunnen vastleggen en daarna onmisbaar zijn bij het weer zichtbaar maken ervan. Het gaat hier om de gege vens die het gebruikte besturingssysteem nodig heeft om een drager te kunnen benaderen en die op de drager worden aangebracht middels 'formatteren'. Dit formatteren gebeurt in twee stap pen. Eerst vindt een fysieke format plaats die de drager indeelt in tracks, sectors en cilinders. Dit zogenaamde 'low level for mat' wordt al door de fabrikant gedaan maar de gebruiker kan het (zij het ten koste van totaal dataverlies) opnieuw doen. Omdat het low level format aan slijtage onderhevig is leidt dat tot het ontstaan van 'bad sectors'. Moderne besturingssoftware is in staat bad sectors te herkennen en ze buiten gebruik te stel len. Gegevens die zich op een plaats bevinden die naderhand een bad sector wordt, zijn niet meer benaderbaar. Na het fysiek formatteren wordt voor grote hard disks veelal eerst een indeling in partities uitgevoerd (MS-DOS kent daartoe het commando FDISK). Elke par- titie heet daarna een 'volume' waaraan een naam kan worden toegekend. Ook bij een disk met slechts één volume (wat doorgaans bij diskettes het geval is) is het mogelijk daar (met het MS-DOS-com- mando LABEL) een naam aan te geven. Voor het vastleggen van data op een disk, moet middels het FORMAT-commando een bestandsbeheersysteem op de disk worden aangebracht (logisch formatte ren). Ieder digitaal document bevat dus naast de bewust vastgelegde gegevens ook 'bestandsbenaderingsgegevens' en is hiermee een samengesteld document. Het meest bekende bestandssyteem is de door MS-DOS gebruikte FAT (File Allocation Tabel) waarbij tegenwoordig onderscheid bestaat tussen FAT 16 en FAT32. Andere besturingssystemen gebruiken elk hun eigen bestandssys teem. Zo maakt bijvoorbeeld OS/2 gebruik van het High Performance File System (HPFS) en Windows NT van het New Technology File System (NTFS). Niet elk besturingssysteem kan ook werken met andere dan het eigen bestandssys teem. Zo is een Linux- of OS/2-partitie onder MS-DOS niet benaderbaar. Bestanden die niet in één schrijfactie werden vastgelegd vertonen veelal 'frag mentatie'. Dat wil zeggen dat de diverse delen waarin het bestand voor vastleg ging is opgedeeld (clusters) niet in de volgorde staan waarin ze gelezen moeten worden. De besturingssoftware camou fleert dat voor de gebruiker maar frag mentatie heeft een nadelig effect op de toegangssnelheid. Zowel voor operatio nele als zuivere archiefbestanden is het dus aan te bevelen dat ze gedefragmen- teerd zijn (en blijven). Bestandsidentificatie vond jarenlang plaats op basis van de 8.3-conventie: een bestandsnaam bestaat daarbij uit (maxi maal) 8 tekens, een punt en een 'exten sie' van (maximaal) 3 tekens. Sinds enige jaren zijn ook 'lange' bestandsnamen toegestaan. Feitelijk is dat gezichtsbedrog want het bestandsbeheersysteem ge bruikt nog steeds de 8.3-conventie maar middels 'extended attributes' wordt daar aan de door de gebruiker toegekende lange naam gekoppeld. Alleen recente 48 NVBA nieuws nederlandse vereniging van bedrijfsarchivarissen (besturings)software kan met lange bestandsnamen overweg. In de eerder genoemde schema's werd het begrip 'formaat' in z'n klassieke betekenis behandeld. Sinds de automati sering gemeengoed is geworden, kreeg dit begrip er een tweede betekenis bij. Meestal komt het 'format' van een digi taal bestand tot uitdrukking in de exten sie van de bestandsnaam: file.ext. Oor spronkelijk werd dat beperkt tot enkele standaardafkortingen voor bestanden met een bepaalde functionaliteit: com, exe, bat, bas, asc, txt, doe, dat. De laatste jaren worden extensies veelal toegekend door de applicatie waarmee ze tot stand zijn gebracht. Voorbeelden van veel voorkomende extensies zijn: bak, btm, ini, log, dll, pas, tpu, set, zip, arc, arj, zoo, uc2, cal, diz, gif, tif, wav, mid, cab, htm, tmp. Sommige extensies wijzen direct naar de functie van het bestand (com, exe, bas, bat, bak, asc, txt, doe, dat, btm, ini, log, dll, pas, tpu, set, cal, diz, gif, tif, wav, mid, htm en tmp). Andere geven aan dat het een gecomprimeerd bestand betreft (zip, arc, arj, zoo, uc2 en cab). Als regel komen tmp-bestanden (bestan den van tijdelijke aard) niet in aanmer king voor opname in een archief. In de toelichting op de fiscale bewaarplicht worden ze zelfs expliciet van de bewaar plicht uitgesloten. Voor de beheerder van digitale bestanden is het een keiharde noodzaak om deze extensies niet alleen te kennen maar ook om te weten welk programma de inhoud zichtbaar (en/of hoorbaar) maakt, dan wel met welke utility het zo'n bestand weer kan 'uitpakken'. Evenzeer moet bekend zijn of een uitgepakt en vervolgens opnieuw gecom primeerd bestand na nogmaals uitpakken nog steeds een bestand oplevert dat iden tiek is aan het oorspronkelijke. Klassieke 'inpakkers' als PKZIP, ARJ, e.d. laten onbe perkt in- en uitpakken toe. Ze worden met name gebruikt voor ASCII-bestanden en 'executables'. Comprimeren van beeld en geluidsbestanden gebeurt met speci- aaal daarvoor ontwikkelde utilities die het bestand niet exact maar sterk gelij kend in gecomprimeerde vorm vastlegt. Daarom moet voor raadpleging van der gelijke bestanden steeds de originele gecomprimeerde versie worden uitge pakt. Bij gebruik van een opnieuw inge pakt bestand, zullen er verschillen met het origineel zichtbaar of hoorbaar zijn. Alle gangbare besturingssystemen ken nen de mogelijkheid om aan een bestand een of meer attributen toe te kennen: h voor hidden, s voor system, r voor read only en a voor archive. Voor het beheren van tot het archief behorende bestanden is met name het attribuut r (read only) van belang. Dit voorkomt dat onbevoegden wijzigingen aanbrengen of, erger nog, het bestand wissen. Bestandsattributen kun nen worden aangebracht/verwijderd met het (externe) DOS- of OS/2-commando 'attrib'. Moderne besturingssystemen (Windows 95, Windows 98, Windows NT, OS/2 Warp) bieden ook de mogelijkheid om vanuit de grafische user interface (GUI) middels muisklikken de eigenschappen van bestanden aan te passen. Vanouds beschrijven bedrijfsarchiva rissen documenten middels 'stukbeschrij ving'. Moderne computerapplicaties (met name tekstverwerkers) 'beschrijven' een bestand ook zelf in een 'header' (het eer ste deel van een bestand). In die beschrij ving worden, naast de naam van de applicatie (en soms ook de auteur e.d.) met name opmaakgegevens (printer- en weergave-opdrachten) vastgelegd. Wie met een zogenaamde ASCII-viewer een Word- of Wordperfectdocument bekijkt, ziet (tussen allerlei andere vreem de tekens) die gegevens. Vooral als er geen standaardextensies zijn toegepast is dat een hulpmiddel om erachter te komen welke applicatie een bestand weer zichtbaar kan maken of afdrukken. Alleen bij gebruik van de oorspronkelijke applicatie c.q. printer is het resultaat exact gelijk aan het origineel. Een ander programma/printer negeert opmaakte- kens of interpreteert deze verkeerd; met name bij bestanden die afbeeldingen of tabellen bevatten komt dat voor. Om dit soort problemen te voorko men worden bestanden met een duidelij ke (toekomstige) archieffunctie steeds vaker weggeschreven in PDF-formaat. Dit is speciaal ontwikkeld om documenten van zeer uiteenlopende herkomst en opmaak toch te kunnen lezen en repro duceren. Het meest bekende 'gereed schap' daarvoor is Acrobat Reader. mam Augustus vorig jaar schreef ik onder het kopje 'Vakopleiding voor de 21e eeuw' dat het me nog niet was gelukt om de GO Syllabus Documentenleer op aanvaardbare wijze aan te vullen met gegevens en een schema voor documentanalyse waar de karakteristieken van digitale documenten een plaats in konden krijgen. Maar nu denk ik toch een mogelijkheid te hebben gevon den. Het beleid van de GO was en is slechts dat te doceren wat in het vakgebied wordt onderschreven danwel in de praktijk wordt toegepast. Ik wil dan ook graag de opvatting van de collega's over mijn idee leren kennen en verzoek hen op dit artikel te reageren. Samengestelde documenten Formatteren (De)fragmentatie Bestandsnamen archievenblad maart 2000 karakteristieken van het document karakteristieken van de drager ontstaansachtergrond ontwikkelingsstadium I complexiteit bestendigheid karakteristieken van de gegevens karakteristieken in relatie tot ruimte en tijd materiële karakteristieken karakteristieken van de gegevensvastlegging enkelvoudig j1 pseudo-enkelvoudïg~ samengesteld karakteristieken van de gegevenstoegankelijkheid j vormkarakteristieken inhoudskarakteristieken materiaaltoevoeging vorm- of eigenschaps verandering materiaalverwijdering direct Hvia hardware ivia software Formats (De)compressie Bestandsattributen Bestandsbeschrijving Portable Document Format Ben Schmitz maart 2000 archievenblad

Periodiekviewer Koninklijke Vereniging van Archivarissen

Archievenblad | 2000 | | pagina 24