Archievenblad | 1 juni 2010 | pagina 12 - Periodiekviewer Koninklijke Vereniging van Archivarissen

De techniek van het Semantisch Web Triples Standaardpredicaten Ontologieën wel over structuur in informatie. Deze structuur zien we terug in datamodellen in databases of in aan elkaar gekoppelde termen in een thesaurus of tref woordenlijst. Door deze structuren als Linked Open Data te publiceren wordt deze voor het Semantisch Web geschikt gemaakt. De discussie of het verstandig is om de data (al dan niet gestructu reerd) door 'amateurs' te laten maken, staat daar los van. De Web 3.0-liefhebber zal meestal de voorkeur geven aan ongestructureerde data boven geen data. Net als zoveel liefhebbers van het Web. Over Web 2.0 kan worden geschreven zonder in te gaan op de technische details. Het gaat immers over een concept dat betrekking heeft op het gebruik van een website door mensen. Een interface voor computers, zoals het Semantisch Web is, is per definitie technisch. Een archiefdienst zal niet over deze technische expertise hoeven beschikken en een leverancier vragen om deze technologie voor hem te leveren. Toch kan het nuttig zijn ook de technische principes van het Semantisch Web te begrijpen. En dat valt ook best uit te leggen: de kennis van het begrip triple is daarvoor voldoende. Voor wie wil, is hieronder een introductie opgenomen over de techniek achter het Semantisch Web. Wie niet wil, kan hier ophouden met lezen. Wat u dan mist? Begrippen en standaarden in allerlei exotische afkortingen worden in hun context geplaatst. Bovendien geloof ik dat als u begrijpt hoe het Semantisch Web werkt, ook het nieuwe van deze stap in de evolutie van informatietoegankelijkheid duidelijker wordt. En informatietoegankelijkheid is een kerncompetentie voor archivarissen. In het voorbeeld dat in het vervolg wordt uitgewerkt, wordt een (notarieel) archief in het Stadsarchief Amsterdam nader toegankelijk gemaakt. Het gaat om echte archiefstukken6, maar de Semantisch Web-ontsluiting is fictief. Voor de verwerking door computers wordt informatie op het Semantisch Web teruggebracht tot een uitspraak die bestaat uit een subject, een predicaat en een object. Onderwerp, gezegde en voorwerp dus eigenlijk. Een dergelijk groepje wordt een triple genoemd. Deze vier begrippen vormen het fundament en zijn alle begrippen die u nodig hebt om de techniek van het Semantisch Web te begrijpen. Allerlei uitspraken kunnen op deze manier worden gecodeerd en het geeft de mogelijkheid om een gerichte vraag te stellen. Knowledge Organization System (SKOS). Deze standaard is voor het vastleggen van thesauri en andere woordsystemen. In de talen waarin triples worden geschreven is er de mogelijkheid om aan te geven waar een predicaat vandaan komt. Dit gebeurt door een afkorting van letters en een dubbele In mensentaal In triples Rembrandt koopt <Rembrandt_van_Rijn> <koopt> <Jodenbreestraat_4> Jodenbreestraat 4 Wat kocht Rembrandt? <Rembrandt_van_Rijn> <koopt> (antwoord) <Rembrandt_van_Rijn> <koopt> <Jodenbreestraat_4> <Rembrandt_van_Rijn> <koopt> <mythe_van_Hero_en_Leander> Er zijn vele technische standaarden om triples te publiceren op uw website: RDF/XML, N3, Turtle, RDFa. Het zijn standaarden waarin staat beschreven hoe een computerbestand eruitziet waarin triples zijn vastgelegd. Dit computerbestand zet u (net als de HTML-bestanden een bestand in textformat) op uw website om door andere computers te kunnen worden 'gezien'. Welke standaard u ook kiest om triples mee te schrijven, het principe blijft hetzelfde: triples worden gebruikt om uitspraken vast te leggen en u publiceert ze in een standaardtaal op een website. Peter Paul Rubens (1577-1640), De Mythe van Hero en Leander (uitsnede), 1605 (coll. Yale University Art Gallery, New Haven). Het is handig gebruik te maken van predicaten waar elders al over is nagedacht en op een centrale plaats te vinden zijn. Een belangrijke set van standaardpredicaten is bijvoorbeeld Dublin Core: deze predicaten zijn wereldwijd bekend en worden door bijna elk systeem begrepen. Een ander belangrijk voorbeeld is Simple punt te plaatsen voor de naam van de predicaat. Ook objecten en subjecten kunnen uit een gestandaardiseerde lijst afkomstig zijn. In mensentaal De 'Mythe van Hero en Leander' werd geschilderd door Peter Paul Rubens In triples <mythe_van_Hero_en_Leander> <dc:creator> <Peter_Paul_Rubens> 'Schilderij' is volgens de Art en Architecture Thesaurus een NT van 'kunstwerk' <AAT:schilderij> <skos:narrower> <AAT:kunstwerk> U kunt aan uw semantische website ook triples toevoegen die bedoeld zijn om de lezende computer uit te leggen hoe hij de informatie kan gebruiken. Hierdoor verbetert het zoekresultaat. Deze uitspraken worden gezamenlijk een ontologie genoemd. Een ontologie is het gemakkelijkste te vergelijken met een datamodel of metadataschema. Ook voor ontologieën zijn diverse standaarden ontwikkeld: RDFS, OWL en OWL2. Elk van deze standaarden bouwen op elkaar voort. Ze bieden steeds meer en betere standaardpredicaten om steeds preciezer vast te leggen wat met de onderdelen van de triple wordt bedoeld. We leggen steeds beter de betekenis (semantiek) vast. In mensentaal In triples De "Mythe van Hero en Leander" is een schilderij Welke schilderijen kocht Rembrandt? (antwoord) <mythe_van_Hero_en_Leander> <rdf:type> <AAT:schilderij> <Rembrandt_van_Rijn> <koopt> <rdf:type> <AAT:schilderij> <Rembrandt_van_Rijn> <koopt> <mythe_van_Hero_en_Leander> 12 2010 nummer 5

Vorige Volgende