traB&
NVBA nieuws
nederlandse vereniging van bedrijfsarchivarissen
Digitale documenten in de
opleiding
Documentenleer omvat document-
kunde, documentkennis en documen
tanalyse. De belangrijkste onderdelen van
documentkunde zijn door de jaren heen
vooral bekend geworden door publicatie
van schema's waarin de karakteristieken
werden aangegeven. De in de opleiding
Bedrijfsarchiefkunde gebruikte schema's
zijn gemaakt door Donker Duyvis (1925),
Kummer (1937), van der Gouw (1955),
Groeneveld (1962) en Dreese (1971). Dat
laatste schema heb ik in 1973 aangevuld
met de items 'karakteristieken van de gege
vensvastlegging' en 'karakteristieken van de
gegevenstoegankelijkheid' om daarmee de
(toen nog in de kinderschoenen staande)
automatisering er in te vatten.
Opvallend is dat in geen van die
schema's een voor de praktijk toch zeer
nuttige karakteristiek van documenten,
namelijk of ze enkelvoudig of samenge
steld zijn, bevat. Slechts het - door ons
erelid Johan Koldijk ontworpen -schema
in de syllabus voor de tweedaagse GO-
cursus Archiefbeheer noemt dit aspect.
Zolang er uitsluitend sprake was van ana
loge documenten was dit onderscheid in
complexiteit duidelijk zichtbaar en werd
het gemis in de theorie niet onderkend.
Voorbeelden van samengestelde docu
menten zijn: brief van meerdere pagina's,
rapport met bijlagen, bundel archivalia,
boek. Afhankelijk van met name de
omvang en de methode van samenvoe
gen van zo'n document noopte deze
karakteristiek al dan niet tot aangepast
beheer. Zo zal een rapport in boekvorm
(al was het maar omdat het in de perfora-
tor past en zich dus ook niet leent om in
een map te worden opgeborgen) steeds
een van de ordening afwijkende rang
schikking krijgen.
Peudo-enkelvoudig
Bij documenten van digitale aard
blijkt nauwelijks sprake van enkelvoudige
documenten. Zelfs een diskette met daar
op één bestand is bij nadere beschouwing
een samengesteld document. Je zou kun
nen zeggen dat het document 'pseudo-
enkelvoudig' is. De diskette bevat immers
naast het bestand zelf ook de gegevens
die in eerste instantie nodig waren om de
gegevens te kunnen vastleggen en daarna
onmisbaar zijn bij het weer zichtbaar
maken ervan. Het gaat hier om de gege
vens die het gebruikte besturingssysteem
nodig heeft om een drager te kunnen
benaderen en die op de drager worden
aangebracht middels 'formatteren'.
Dit formatteren gebeurt in twee stap
pen. Eerst vindt een fysieke format plaats
die de drager indeelt in tracks, sectors en
cilinders. Dit zogenaamde 'low level for
mat' wordt al door de fabrikant gedaan
maar de gebruiker kan het (zij het ten
koste van totaal dataverlies) opnieuw
doen. Omdat het low level format aan
slijtage onderhevig is leidt dat tot het
ontstaan van 'bad sectors'. Moderne
besturingssoftware is in staat bad sectors
te herkennen en ze buiten gebruik te stel
len. Gegevens die zich op een plaats
bevinden die naderhand een bad sector
wordt, zijn niet meer benaderbaar.
Na het fysiek formatteren wordt voor
grote hard disks veelal eerst een indeling
in partities uitgevoerd (MS-DOS kent
daartoe het commando FDISK). Elke par-
titie heet daarna een 'volume' waaraan
een naam kan worden toegekend. Ook
bij een disk met slechts één volume (wat
doorgaans bij diskettes het geval is) is het
mogelijk daar (met het MS-DOS-com-
mando LABEL) een naam aan te geven.
Voor het vastleggen van data op een disk,
moet middels het FORMAT-commando
een bestandsbeheersysteem op de disk
worden aangebracht (logisch formatte
ren). Ieder digitaal document bevat dus
naast de bewust vastgelegde gegevens
ook 'bestandsbenaderingsgegevens' en is
hiermee een samengesteld document.
Het meest bekende bestandssyteem is de
door MS-DOS gebruikte FAT (File
Allocation Tabel) waarbij tegenwoordig
onderscheid bestaat tussen FAT 16 en
FAT32. Andere besturingssystemen
gebruiken elk hun eigen bestandssys
teem. Zo maakt bijvoorbeeld OS/2
gebruik van het High Performance File
System (HPFS) en Windows NT van het
New Technology File System (NTFS). Niet
elk besturingssysteem kan ook werken
met andere dan het eigen bestandssys
teem. Zo is een Linux- of OS/2-partitie
onder MS-DOS niet benaderbaar.
Bestanden die niet in één schrijfactie
werden vastgelegd vertonen veelal 'frag
mentatie'. Dat wil zeggen dat de diverse
delen waarin het bestand voor vastleg
ging is opgedeeld (clusters) niet in de
volgorde staan waarin ze gelezen moeten
worden. De besturingssoftware camou
fleert dat voor de gebruiker maar frag
mentatie heeft een nadelig effect op de
toegangssnelheid. Zowel voor operatio
nele als zuivere archiefbestanden is het
dus aan te bevelen dat ze gedefragmen-
teerd zijn (en blijven).
Bestandsidentificatie vond jarenlang
plaats op basis van de 8.3-conventie: een
bestandsnaam bestaat daarbij uit (maxi
maal) 8 tekens, een punt en een 'exten
sie' van (maximaal) 3 tekens. Sinds enige
jaren zijn ook 'lange' bestandsnamen
toegestaan. Feitelijk is dat gezichtsbedrog
want het bestandsbeheersysteem ge
bruikt nog steeds de 8.3-conventie maar
middels 'extended attributes' wordt daar
aan de door de gebruiker toegekende
lange naam gekoppeld. Alleen recente
48
NVBA nieuws
nederlandse vereniging van bedrijfsarchivarissen
(besturings)software kan met lange
bestandsnamen overweg.
In de eerder genoemde schema's
werd het begrip 'formaat' in z'n klassieke
betekenis behandeld. Sinds de automati
sering gemeengoed is geworden, kreeg
dit begrip er een tweede betekenis bij.
Meestal komt het 'format' van een digi
taal bestand tot uitdrukking in de exten
sie van de bestandsnaam: file.ext. Oor
spronkelijk werd dat beperkt tot enkele
standaardafkortingen voor bestanden
met een bepaalde functionaliteit: com,
exe, bat, bas, asc, txt, doe, dat.
De laatste jaren worden extensies veelal
toegekend door de applicatie waarmee ze
tot stand zijn gebracht. Voorbeelden van
veel voorkomende extensies zijn: bak,
btm, ini, log, dll, pas, tpu, set, zip, arc,
arj, zoo, uc2, cal, diz, gif, tif, wav, mid,
cab, htm, tmp.
Sommige extensies wijzen direct naar de
functie van het bestand (com, exe, bas,
bat, bak, asc, txt, doe, dat, btm, ini, log,
dll, pas, tpu, set, cal, diz, gif, tif, wav,
mid, htm en tmp). Andere geven aan dat
het een gecomprimeerd bestand betreft
(zip, arc, arj, zoo, uc2 en cab).
Als regel komen tmp-bestanden (bestan
den van tijdelijke aard) niet in aanmer
king voor opname in een archief. In de
toelichting op de fiscale bewaarplicht
worden ze zelfs expliciet van de bewaar
plicht uitgesloten.
Voor de beheerder van digitale bestanden
is het een keiharde noodzaak om deze
extensies niet alleen te kennen maar ook
om te weten welk programma de inhoud
zichtbaar (en/of hoorbaar) maakt, dan
wel met welke utility het zo'n bestand
weer kan 'uitpakken'.
Evenzeer moet bekend zijn of een
uitgepakt en vervolgens opnieuw gecom
primeerd bestand na nogmaals uitpakken
nog steeds een bestand oplevert dat iden
tiek is aan het oorspronkelijke. Klassieke
'inpakkers' als PKZIP, ARJ, e.d. laten onbe
perkt in- en uitpakken toe. Ze worden
met name gebruikt voor ASCII-bestanden
en 'executables'. Comprimeren van beeld
en geluidsbestanden gebeurt met speci-
aaal daarvoor ontwikkelde utilities die
het bestand niet exact maar sterk gelij
kend in gecomprimeerde vorm vastlegt.
Daarom moet voor raadpleging van der
gelijke bestanden steeds de originele
gecomprimeerde versie worden uitge
pakt. Bij gebruik van een opnieuw inge
pakt bestand, zullen er verschillen met
het origineel zichtbaar of hoorbaar zijn.
Alle gangbare besturingssystemen ken
nen de mogelijkheid om aan een bestand
een of meer attributen toe te kennen: h
voor hidden, s voor system, r voor read
only en a voor archive. Voor het beheren
van tot het archief behorende bestanden is
met name het attribuut r (read only) van
belang. Dit voorkomt dat onbevoegden
wijzigingen aanbrengen of, erger nog, het
bestand wissen. Bestandsattributen kun
nen worden aangebracht/verwijderd met
het (externe) DOS- of OS/2-commando
'attrib'. Moderne besturingssystemen
(Windows 95, Windows 98, Windows NT,
OS/2 Warp) bieden ook de mogelijkheid
om vanuit de grafische user interface (GUI)
middels muisklikken de eigenschappen
van bestanden aan te passen.
Vanouds beschrijven bedrijfsarchiva
rissen documenten middels 'stukbeschrij
ving'. Moderne computerapplicaties (met
name tekstverwerkers) 'beschrijven' een
bestand ook zelf in een 'header' (het eer
ste deel van een bestand). In die beschrij
ving worden, naast de naam van de
applicatie (en soms ook de auteur e.d.)
met name opmaakgegevens (printer- en
weergave-opdrachten) vastgelegd.
Wie met een zogenaamde ASCII-viewer
een Word- of Wordperfectdocument
bekijkt, ziet (tussen allerlei andere vreem
de tekens) die gegevens. Vooral als er
geen standaardextensies zijn toegepast is
dat een hulpmiddel om erachter te
komen welke applicatie een bestand weer
zichtbaar kan maken of afdrukken.
Alleen bij gebruik van de oorspronkelijke
applicatie c.q. printer is het resultaat
exact gelijk aan het origineel. Een ander
programma/printer negeert opmaakte-
kens of interpreteert deze verkeerd; met
name bij bestanden die afbeeldingen of
tabellen bevatten komt dat voor.
Om dit soort problemen te voorko
men worden bestanden met een duidelij
ke (toekomstige) archieffunctie steeds
vaker weggeschreven in PDF-formaat. Dit
is speciaal ontwikkeld om documenten
van zeer uiteenlopende herkomst en
opmaak toch te kunnen lezen en repro
duceren. Het meest bekende 'gereed
schap' daarvoor is Acrobat Reader.
mam
Augustus vorig jaar schreef ik onder het
kopje 'Vakopleiding voor de 21e eeuw' dat
het me nog niet was gelukt om de GO
Syllabus Documentenleer op aanvaardbare
wijze aan te vullen met gegevens en een
schema voor documentanalyse waar de
karakteristieken van digitale documenten
een plaats in konden krijgen. Maar nu denk
ik toch een mogelijkheid te hebben gevon
den. Het beleid van de GO was en is
slechts dat te doceren wat in het vakgebied
wordt onderschreven danwel in de praktijk
wordt toegepast. Ik wil dan ook graag de
opvatting van de collega's over mijn idee
leren kennen en verzoek hen op dit artikel
te reageren.
Samengestelde documenten
Formatteren
(De)fragmentatie
Bestandsnamen
archievenblad
maart 2000
karakteristieken
van het document
karakteristieken
van de drager
ontstaansachtergrond
ontwikkelingsstadium
I complexiteit
bestendigheid
karakteristieken
van de gegevens
karakteristieken in
relatie tot ruimte en tijd
materiële karakteristieken
karakteristieken van de
gegevensvastlegging
enkelvoudig
j1 pseudo-enkelvoudïg~
samengesteld
karakteristieken van de
gegevenstoegankelijkheid
j vormkarakteristieken
inhoudskarakteristieken
materiaaltoevoeging
vorm- of eigenschaps
verandering
materiaalverwijdering
direct
Hvia hardware
ivia software
Formats
(De)compressie
Bestandsattributen
Bestandsbeschrijving
Portable Document Format
Ben Schmitz
maart 2000
archievenblad