rchiefiinventarissen MSG op internet ES de praktijk de praktijk Deze ontwikkeling is een tussenresultaat van een moeizaam project dat vier jaar geleden van start is gegaan. Dit project had als doel het con verteren van een 500-tal archiefinventarissen van WordPerfect 5.1 naar SGML (Standard Generalized Markup Language), met behulp van een nieu we standaard voor het coderen van archieftoegangen: EAD (Encoded Archival Description). Indien alles volgens plan verloopt, zullen eind dit jaar alle 500 lijsten op internet te raadplegen zijn. De meeste lijsten op internet worden zowel in HTML als SGML aangebo den. De HTML-versie kan men met een willekeurige browser bekijken. Het scherm voor de HTML-bestanden is uit twee frames opgebouwd. Het linkerframe geeft de inhoudsopgave van de lijst weer en biedt extra navigatiemogelijkheden voor de lijst in het rech- terframe. Voor het bekijken van de SGML-versie van de lijsten, die aan een stylesheet gekoppeld zijn, is een specifieke viewer zoals Panorama nodig, die inmiddels niet meer verkrijgbaar is. Maar het SGML-formaat heeft meer functies dan alleen het presenteren. De SGML-versie fungeert ook als gestructureerd basisdocument voor het hergebruik van de lijsten voor diverse doelein den. Het omzetten naar HTML is een van de voorbeelden (of manieren) van hergebruik. In ons geval gebeurt het converteren naar HTML eerst door middel van een Perl-script. In sommi ge andere instellingen daarentegen, wordt de HTML-versie zogenaamd 'on-the-fly' aange maakt. Verder vormt de SGML-versie de eerste voorwaarde om deel te nemen aan gezamenlijke databases van archieven, zoals Research Libra ries Information Network (RLIN). Bovendien leent een SGML-document zich voor heel geavanceerde zoekopdrachten, indien men over de juiste zoekmachines beschikt. Zoals gezegd, is het EAD-avontuur van het 11SG, als we het zo mogen noemen, zo'n jaar of vier geleden van start gegaan. De opkomst en de snelle groei van internet hebben ertoe aangezet na te denken over hoe er effectief gebruik gemaakt kan worden van de mogelijkheden die de nieuwe technologie en het internet bieden. Het hoofddoel was het vergroten van de toegan kelijkheid van onze inventarissen en eventueel van het gebruik van onze archieven. De zoek tocht naar een geschikt middel om dit doel te bereiken eindigde bij EAD. EAD2 is een standaard die speciaal ontwikkeld is om de toegangen op archieven in elektronisch formaat te coderen. Deze standaard bestaat uit een geheel van elementen en sub-elementen met desbetreffende regels om de logische struc tuur van de toegang te definiëren. Aan de hand van deze elementen en regels wordt een docu ment als het ware zowel qua structuur als inhou delijk (semantisch) beschreven. Op deze manier is het mogelijk bijna alle structurele componen ten (bijvoorbeeld inleiding, raadpleging, aline a's, bijlagen), de hiërarchie (bijvoorbeeld series, sub-series, files) en de semantische elementen (bijvoorbeeld persoonsnamen, auteurs, inventa risnummers, jaartallen) van een lijst te markeren om aan te geven wat ze zijn. EAD is op zijn beurt een applicatie van een nog algemenere standaard, namelijk Standard Generalized Markup Language (SGML). Als een internationale platform-onafhankelijke stan daard (ISO 8879: 1986) geeft SGML de formele notatie (syntax) om coderingsschema's te ont wikkelen voor verschillende soorten elektroni sche documenten. Deze coderingsschema's noemt men Document Type Definition (DTD). In die zin is EAD een DTD gebaseerd op SGML, dus is een lijst die met het EAD DTD is opge maakt, een SGML-document. De belangrijkste voordelen van het gebruik van een coderingsvorm (EAD) gebaseerd op SGML worden in vier punten samengevat: Duurzaamheid. SGML-documenten zijn plat form-onafhankelijk, dat wil zeggen dat ze minder kwetsbaar zijn voor de bedreigingen die door de snelle veranderingen in de hard en software ontstaan. Uitwisselbaarheid. Door de standaardisatie van de codering wordt de uitwisselbaarheid van de archieftoegangen sterk verbeterd. Deze uitwis selbaarheid vergroot de mogelijkheid voor het opbouwen van gezamenlijke databases. Hergebruik. Een SGML-document kan voor verschillende doeleinden in verschillende for maten omgezet worden. Toegankelijkheid. Omdat het docu ment inhoudelijk gemarkeerd wordt, kan het gebruikt worden om deze inhoud op diverse manieren te bewer ken en te (her)structureren, zoals het uitvoeren van geavanceerde zoekop drachten, het selecteren van bepaalde informatie uit een document, of voor meer complexere acties, zoals het sor teren en herstructureren van het hele document. Elk van de hierboven genoemde voordelen kan op zichzelf voldoende reden zijn om te kiezen voor EAD. De tal rijke voordelen moeten ons echter niet de ogen doen sluiten voor de problemen die zich met name tijdens de implemen tatie aandienen. Kiezen voor EAD is het eenvoudigste gedeelte, de feitelijke opbouw is van een andere orde. Het is algemeen bekend dat de implementatie van EAD in de bestaande toegangen (de zogenaamde /e^acy-toegangen) een lang durig en problematisch proces is. Het conversieproject van het IISG is hier een bewijs van. In dit artikel beperken we ons tot enkele probleemgebieden. Allereerst is EAD relatief nieuw en per definitie zeer ingewikkeld. De implemen tatie daarvan vereist een grondige kennis op het gebied van SGML en EAD DTD, alsmede van de interpretatie van de ele menten en eigenschappen van EAD. Ook kennis van de structuur en logica van de archieftoegangen is onmisbaar. Vier jaar geleden was EAD nog in het beginstadi um en bijna niemand in Nederland had er ervaring mee. Voor de toepassing SGML is van het begin af aan van de expertise van een bedrijf gebruik gemaakt. Maar, afgezien van hun speci fieke deskundigheid, weten SGML-spe- cialisten weinig van EAD (zo was het ten minste in het begin) en helemaal niks van lijsten, plaatsingslijsten, voorlopige lijsten en inventarissen. Daarnaast zijn er enkele delicate punten van EAD zelf die de implementatie nog ingewikkelder en lastiger maken. Een daarvan is het feit dat EAD vooralsnog een Amerikaans accent draagt. Oor spronkelijk is EAD afkomstig uit de Amerikaanse archiefwereld. Het ont stond in 1993 uit een project van de bibliotheek van de University of California te Berkeley. Hoewel EAD gro tendeels gebaseerd is op de regels van ISAD(G) (General International Standard Archival Description), de internationale beschrijvingsstandaard van de archiefwe reld, vertoont de methode nog steeds enkele eigenschappen die typerend zijn voor de inventarissen in Amerikaanse archiefinstellingen, die niet altijd over eenkomen met de Nederlandse praktijk. Maar het grootse probleem bij de imple mentatie komt voort uit de enorme flexi biliteit van EAD. Dat klinkt op het eerste gezicht zeker paradoxaal, maar deze flexibiliteit vormt tevens het zwakste punt van EAD. EAD kent een groot aan tal elementen en attributen. Maar behal ve de regels van EAD zelf is er geen gemeenschappelijke standaard voor de praktijk waarmee bepaald wordt welke elementen in welke volgorde, in welke situaties en hoe vaak gebruikt moeten worden. De EAD Tag Library geeft niet meer dan een algemene beschrijving over de toepassing van deze tags in de praktijk. De richtlijnen van individuele instellingen of de zogenaamde best practi ces liggen vaak ver uiteen. Voor de uitwis seling van data is echter een bepaald niveau van consistentie en uniformiteit onmisbaar. Bij een willekeurige en hybri de toepassing dreigen sommige voorde len van het gebruik van EAD verloren te gaan. Naast dit soort technische problemen kent een implementatieproject ook ande re aspecten met betrekking tot de aanpak en de organisatie van het hele traject. Bij een goed verloop van een dergelijk con versieproject zijn factoren als een heldere definitie van doelstellingen, beoogde resultaten en verantwoordelijkheden, het gebruik maken van protypen, goede samenwerking en communicatie tussen de archivisten en SGML-specialisten van grote betekenis. Het laatste punt vraagt nog meer specifieke aandacht, wanneer sommige delen van het project uitbe steed worden. In de afgelopen vier jaar hebben we op het IISG met allerlei uiteenlopende problemen te maken gekregen die aan een dergelijk project verbonden kunnen zijn. Het is een feit dat de toepassing van EAD op al bestaande (legacy) toegangen een lastig karwei is. Maar onze ervaring leert dat zo'n implementatie zelfs met beperkte middelen toch haalbaar is. En het bereikte resultaat (voorlopig 400 inventarissen op internet en later meer dan 500) loont, naar onze mening, de moeite. Vaak wordt de grote omslachtigheid van het werk als argument gebruikt tegen het implementeren van EAD. In feite kan men hetzelfde argument gebruiken tegen het maken van lijsten in gewone tekst verwerkingsprogramma's. Uit de praktijk blijkt dat de voornaamste oorzaak van het omslachtige werk tijdens de conver sie niet te vinden is bij EAD of bij welke beschrijvende standaard dan ook, maar bij de toegangen die in WP, Word, of in andere tekstverwerkingsprogramma's gemaakt zijn. De digitale vorm van deze toegangen lenen zich niet makkelijk voor hergebruik en manipulatie. Dit soort documenten is voornamelijk gericht op de lay-out en is bedoeld voor printen. Het gevolg is een enorme hoeveelheid extra werk wanneer men deze documen ten voor verschillende doeleinden wil gebruiken. Het bestaan van een huisstijl verandert wezenlijk niet zo veel aan deze situatie. Vandaag de dag ziet men dat documen ten steeds vaker dienen voor actieve uit wisseling en steeds minder vaak om uit te printen. Daardoor is er meer dan ooit behoefte aan een elektronische code ringsstandaard als EAD. Dat geeft ons op het IISG voorlopig voldoende reden om door te gaan met het maken van de nieu we archieftoegangen met behulp van EAD DTD. 21 Door Erhan Tuskan* OEI aj ifllyj--r 1 L dal <1 iTOTbl NVENTARI S.TBID Q>IM2jul Sinds kort heeft het Internationaal Instituut voor Sociale Geschiedenis (MSG) ten dienste van onder zoekers een nieuwe informatiebron beschikbaar over de archieven en documentatiecollecties die het insti tuut beheert: meer dan 400 lijsten en inventarissen van archieven zijn nu beschikbaar op internet1. Tot voor kort waren deze toegangen op de archieven, oftewel finding aids, alleen beschikbaar op papier en bestemd voor het gebruik op de studiezaal. De potentiële onderzoekers van deze archieven kunnen nu, overal ter wereld en op elk moment, eerst de op internet beschikbare lijsten bekijken voordat ze een retourtje naar Amsterdam besluiten te kopen. De methode: Encoded Archival Description (EAD) De implementatie -k V ircliirf vau JAN MARIUS ROMEIN 1189} - 1962) 1871 196.' Hoe verder? Erhan Tuskan is werkzaam bij de archiefdienst van het IISG. De lijsten zijn te vinden op: http://www.iisg.nl/archives/fmdingaids.html Voor meer info over EAD zie de officiële website: htto://lcweb.loc.gov/ead/ 20 archievenblad november 2001 november 2001 archievenblad

Periodiekviewer Koninklijke Vereniging van Archivarissen

Archievenblad | 2001 | | pagina 10