rchiefiinventarissen MSG op internet
ES
de praktijk
de praktijk
Deze ontwikkeling is een tussenresultaat van
een moeizaam project dat vier jaar geleden van
start is gegaan. Dit project had als doel het con
verteren van een 500-tal archiefinventarissen
van WordPerfect 5.1 naar SGML
(Standard Generalized Markup
Language), met behulp van een nieu
we standaard voor het coderen van
archieftoegangen: EAD (Encoded
Archival Description). Indien alles
volgens plan verloopt, zullen eind
dit jaar alle 500 lijsten op internet te
raadplegen zijn.
De meeste lijsten op internet worden
zowel in HTML als SGML aangebo
den. De HTML-versie kan men met
een willekeurige browser bekijken.
Het scherm voor de HTML-bestanden is uit twee
frames opgebouwd. Het linkerframe geeft de
inhoudsopgave van de lijst weer en biedt extra
navigatiemogelijkheden voor de lijst in het rech-
terframe. Voor het bekijken van de SGML-versie
van de lijsten, die aan een stylesheet gekoppeld
zijn, is een specifieke viewer zoals Panorama
nodig, die inmiddels niet meer verkrijgbaar is.
Maar het SGML-formaat heeft meer functies dan
alleen het presenteren. De SGML-versie fungeert
ook als gestructureerd basisdocument voor het
hergebruik van de lijsten voor diverse doelein
den. Het omzetten naar HTML is een van de
voorbeelden (of manieren) van hergebruik. In
ons geval gebeurt het converteren naar HTML
eerst door middel van een Perl-script. In sommi
ge andere instellingen daarentegen, wordt de
HTML-versie zogenaamd 'on-the-fly' aange
maakt. Verder vormt de SGML-versie de eerste
voorwaarde om deel te nemen aan gezamenlijke
databases van archieven, zoals Research Libra
ries Information Network (RLIN). Bovendien
leent een SGML-document zich voor heel
geavanceerde zoekopdrachten, indien men over
de juiste zoekmachines beschikt.
Zoals gezegd, is het EAD-avontuur van het
11SG, als we het zo mogen noemen, zo'n jaar of
vier geleden van start gegaan. De opkomst en de
snelle groei van internet hebben ertoe aangezet
na te denken over hoe er effectief gebruik
gemaakt kan worden van de mogelijkheden die
de nieuwe technologie en het internet bieden.
Het hoofddoel was het vergroten van de toegan
kelijkheid van onze inventarissen en eventueel
van het gebruik van onze archieven. De zoek
tocht naar een geschikt middel om dit doel te
bereiken eindigde bij EAD.
EAD2 is een standaard die speciaal ontwikkeld is
om de toegangen op archieven in elektronisch
formaat te coderen. Deze standaard bestaat uit
een geheel van elementen en sub-elementen
met desbetreffende regels om de logische struc
tuur van de toegang te definiëren. Aan de hand
van deze elementen en regels wordt een docu
ment als het ware zowel qua structuur als inhou
delijk (semantisch) beschreven. Op deze manier
is het mogelijk bijna alle structurele componen
ten (bijvoorbeeld inleiding, raadpleging, aline
a's, bijlagen), de hiërarchie (bijvoorbeeld series,
sub-series, files) en de semantische elementen
(bijvoorbeeld persoonsnamen, auteurs, inventa
risnummers, jaartallen) van een lijst te markeren
om aan te geven wat ze zijn.
EAD is op zijn beurt een applicatie van een nog
algemenere standaard, namelijk Standard
Generalized Markup Language (SGML). Als een
internationale platform-onafhankelijke stan
daard (ISO 8879: 1986) geeft SGML de formele
notatie (syntax) om coderingsschema's te ont
wikkelen voor verschillende soorten elektroni
sche documenten. Deze coderingsschema's
noemt men Document Type Definition (DTD).
In die zin is EAD een DTD gebaseerd op SGML,
dus is een lijst die met het EAD DTD is opge
maakt, een SGML-document.
De belangrijkste voordelen van het gebruik van
een coderingsvorm (EAD) gebaseerd op SGML
worden in vier punten samengevat:
Duurzaamheid. SGML-documenten zijn plat
form-onafhankelijk, dat wil zeggen dat ze
minder kwetsbaar zijn voor de bedreigingen
die door de snelle veranderingen in de hard
en software ontstaan.
Uitwisselbaarheid. Door de standaardisatie van
de codering wordt de uitwisselbaarheid van de
archieftoegangen sterk verbeterd. Deze uitwis
selbaarheid vergroot de mogelijkheid voor het
opbouwen van gezamenlijke databases.
Hergebruik. Een SGML-document kan voor
verschillende doeleinden in verschillende for
maten omgezet worden.
Toegankelijkheid. Omdat het docu
ment inhoudelijk gemarkeerd wordt,
kan het gebruikt worden om deze
inhoud op diverse manieren te bewer
ken en te (her)structureren, zoals het
uitvoeren van geavanceerde zoekop
drachten, het selecteren van bepaalde
informatie uit een document, of voor
meer complexere acties, zoals het sor
teren en herstructureren van het hele
document.
Elk van de hierboven genoemde
voordelen kan op zichzelf voldoende
reden zijn om te kiezen voor EAD. De tal
rijke voordelen moeten ons echter niet
de ogen doen sluiten voor de problemen
die zich met name tijdens de implemen
tatie aandienen. Kiezen voor EAD is het
eenvoudigste gedeelte, de feitelijke
opbouw is van een andere orde. Het is
algemeen bekend dat de implementatie
van EAD in de bestaande toegangen (de
zogenaamde /e^acy-toegangen) een lang
durig en problematisch proces is. Het
conversieproject van het IISG is hier een
bewijs van. In dit artikel beperken we ons
tot enkele probleemgebieden.
Allereerst is EAD relatief nieuw en per
definitie zeer ingewikkeld. De implemen
tatie daarvan vereist een grondige kennis
op het gebied van SGML en EAD DTD,
alsmede van de interpretatie van de ele
menten en eigenschappen van EAD. Ook
kennis van de structuur en logica van de
archieftoegangen is onmisbaar. Vier jaar
geleden was EAD nog in het beginstadi
um en bijna niemand in Nederland had
er ervaring mee. Voor de toepassing
SGML is van het begin af aan van de
expertise van een bedrijf gebruik
gemaakt. Maar, afgezien van hun speci
fieke deskundigheid, weten SGML-spe-
cialisten weinig van EAD (zo was het ten
minste in het begin) en helemaal niks
van lijsten, plaatsingslijsten, voorlopige
lijsten en inventarissen.
Daarnaast zijn er enkele delicate punten
van EAD zelf die de implementatie nog
ingewikkelder en lastiger maken. Een
daarvan is het feit dat EAD vooralsnog
een Amerikaans accent draagt. Oor
spronkelijk is EAD afkomstig uit de
Amerikaanse archiefwereld. Het ont
stond in 1993 uit een project van de
bibliotheek van de University of
California te Berkeley. Hoewel EAD gro
tendeels gebaseerd is op de regels van
ISAD(G) (General International Standard
Archival Description), de internationale
beschrijvingsstandaard van de archiefwe
reld, vertoont de methode nog steeds
enkele eigenschappen die typerend zijn
voor de inventarissen in Amerikaanse
archiefinstellingen, die niet altijd over
eenkomen met de Nederlandse praktijk.
Maar het grootse probleem bij de imple
mentatie komt voort uit de enorme flexi
biliteit van EAD. Dat klinkt op het eerste
gezicht zeker paradoxaal, maar deze
flexibiliteit vormt tevens het zwakste
punt van EAD. EAD kent een groot aan
tal elementen en attributen. Maar behal
ve de regels van EAD zelf is er geen
gemeenschappelijke standaard voor de
praktijk waarmee bepaald wordt welke
elementen in welke volgorde, in welke
situaties en hoe vaak gebruikt moeten
worden. De EAD Tag Library geeft niet
meer dan een algemene beschrijving
over de toepassing van deze tags in de
praktijk. De richtlijnen van individuele
instellingen of de zogenaamde best practi
ces liggen vaak ver uiteen. Voor de uitwis
seling van data is echter een bepaald
niveau van consistentie en uniformiteit
onmisbaar. Bij een willekeurige en hybri
de toepassing dreigen sommige voorde
len van het gebruik van EAD verloren te
gaan.
Naast dit soort technische problemen
kent een implementatieproject ook ande
re aspecten met betrekking tot de aanpak
en de organisatie van het hele traject. Bij
een goed verloop van een dergelijk con
versieproject zijn factoren als een heldere
definitie van doelstellingen, beoogde
resultaten en verantwoordelijkheden,
het gebruik maken van protypen, goede
samenwerking en communicatie tussen
de archivisten en SGML-specialisten van
grote betekenis. Het laatste punt vraagt
nog meer specifieke aandacht, wanneer
sommige delen van het project uitbe
steed worden.
In de afgelopen vier jaar hebben we
op het IISG met allerlei uiteenlopende
problemen te maken gekregen die aan
een dergelijk project verbonden kunnen
zijn. Het is een feit dat de toepassing van
EAD op al bestaande (legacy) toegangen
een lastig karwei is. Maar onze ervaring
leert dat zo'n implementatie zelfs met
beperkte middelen toch haalbaar is. En
het bereikte resultaat (voorlopig 400
inventarissen op internet en later meer
dan 500) loont, naar onze mening, de
moeite.
Vaak wordt de grote omslachtigheid van
het werk als argument gebruikt tegen het
implementeren van EAD. In feite kan
men hetzelfde argument gebruiken tegen
het maken van lijsten in gewone tekst
verwerkingsprogramma's. Uit de praktijk
blijkt dat de voornaamste oorzaak van
het omslachtige werk tijdens de conver
sie niet te vinden is bij EAD of bij welke
beschrijvende standaard dan ook, maar
bij de toegangen die in WP, Word, of in
andere tekstverwerkingsprogramma's
gemaakt zijn. De digitale vorm van deze
toegangen lenen zich niet makkelijk voor
hergebruik en manipulatie. Dit soort
documenten is voornamelijk gericht op
de lay-out en is bedoeld voor printen.
Het gevolg is een enorme hoeveelheid
extra werk wanneer men deze documen
ten voor verschillende doeleinden wil
gebruiken. Het bestaan van een huisstijl
verandert wezenlijk niet zo veel aan deze
situatie.
Vandaag de dag ziet men dat documen
ten steeds vaker dienen voor actieve uit
wisseling en steeds minder vaak om uit te
printen. Daardoor is er meer dan ooit
behoefte aan een elektronische code
ringsstandaard als EAD. Dat geeft ons op
het IISG voorlopig voldoende reden om
door te gaan met het maken van de nieu
we archieftoegangen met behulp van
EAD DTD.
21
Door Erhan Tuskan*
OEI aj ifllyj--r 1 L dal <1
iTOTbl NVENTARI S.TBID
Q>IM2jul
Sinds kort heeft het Internationaal Instituut voor
Sociale Geschiedenis (MSG) ten dienste van onder
zoekers een nieuwe informatiebron beschikbaar over
de archieven en documentatiecollecties die het insti
tuut beheert: meer dan 400 lijsten en inventarissen
van archieven zijn nu beschikbaar op internet1. Tot
voor kort waren deze toegangen op de archieven,
oftewel finding aids, alleen beschikbaar op papier
en bestemd voor het gebruik op de studiezaal. De
potentiële onderzoekers van deze archieven kunnen
nu, overal ter wereld en op elk moment, eerst de op
internet beschikbare lijsten bekijken voordat ze een
retourtje naar Amsterdam besluiten te kopen.
De methode: Encoded Archival Description (EAD)
De implementatie
-k V
ircliirf vau JAN MARIUS ROMEIN 1189} - 1962) 1871 196.'
Hoe verder?
Erhan Tuskan is werkzaam bij de archiefdienst van
het IISG.
De lijsten zijn te vinden op:
http://www.iisg.nl/archives/fmdingaids.html
Voor meer info over EAD zie de officiële
website: htto://lcweb.loc.gov/ead/
20
archievenblad
november 2001
november 2001
archievenblad