De techniek van het
Semantisch Web
Triples
Standaardpredicaten
Ontologieën
wel over structuur in informatie. Deze
structuur zien we terug in datamodellen
in databases of in aan elkaar gekoppelde
termen in een thesaurus of tref
woordenlijst. Door deze structuren als
Linked Open Data te publiceren wordt
deze voor het Semantisch Web geschikt
gemaakt. De discussie of het verstandig
is om de data (al dan niet gestructu
reerd) door 'amateurs' te laten maken,
staat daar los van. De Web 3.0-liefhebber
zal meestal de voorkeur geven aan
ongestructureerde data boven geen data.
Net als zoveel liefhebbers van het Web.
Over Web 2.0 kan worden geschreven
zonder in te gaan op de technische
details. Het gaat immers over een
concept dat betrekking heeft op het
gebruik van een website door mensen.
Een interface voor computers, zoals het
Semantisch Web is, is per definitie
technisch. Een archiefdienst zal niet over
deze technische expertise hoeven
beschikken en een leverancier vragen
om deze technologie voor hem te
leveren. Toch kan het nuttig zijn ook de
technische principes van het Semantisch
Web te begrijpen. En dat valt ook best
uit te leggen: de kennis van het begrip
triple is daarvoor voldoende.
Voor wie wil, is hieronder een
introductie opgenomen over de techniek
achter het Semantisch Web. Wie niet
wil, kan hier ophouden met lezen. Wat u
dan mist? Begrippen en standaarden in
allerlei exotische afkortingen worden in
hun context geplaatst. Bovendien geloof
ik dat als u begrijpt hoe het Semantisch
Web werkt, ook het nieuwe van deze
stap in de evolutie van
informatietoegankelijkheid duidelijker
wordt. En informatietoegankelijkheid is
een kerncompetentie voor archivarissen.
In het voorbeeld dat in het vervolg
wordt uitgewerkt, wordt een (notarieel)
archief in het Stadsarchief Amsterdam
nader toegankelijk gemaakt. Het gaat
om echte archiefstukken6, maar de
Semantisch Web-ontsluiting is fictief.
Voor de verwerking door computers
wordt informatie op het Semantisch
Web teruggebracht tot een uitspraak die
bestaat uit een subject, een predicaat
en een object. Onderwerp, gezegde en
voorwerp dus eigenlijk. Een dergelijk
groepje wordt een triple genoemd. Deze
vier begrippen vormen het fundament
en zijn alle begrippen die u nodig hebt
om de techniek van het Semantisch Web
te begrijpen. Allerlei uitspraken kunnen
op deze manier worden gecodeerd en
het geeft de mogelijkheid om een
gerichte vraag te stellen.
Knowledge Organization System (SKOS).
Deze standaard is voor het vastleggen
van thesauri en andere woordsystemen.
In de talen waarin triples worden
geschreven is er de mogelijkheid om
aan te geven waar een predicaat
vandaan komt. Dit gebeurt door een
afkorting van letters en een dubbele
In mensentaal
In triples
Rembrandt koopt
<Rembrandt_van_Rijn> <koopt> <Jodenbreestraat_4>
Jodenbreestraat 4
Wat kocht Rembrandt?
<Rembrandt_van_Rijn> <koopt>
(antwoord)
<Rembrandt_van_Rijn> <koopt> <Jodenbreestraat_4>
<Rembrandt_van_Rijn> <koopt> <mythe_van_Hero_en_Leander>
Er zijn vele technische standaarden om
triples te publiceren op uw website:
RDF/XML, N3, Turtle, RDFa. Het zijn
standaarden waarin staat beschreven
hoe een computerbestand eruitziet
waarin triples zijn vastgelegd. Dit
computerbestand zet u (net als de
HTML-bestanden een bestand in
textformat) op uw website om door
andere computers te kunnen worden
'gezien'. Welke standaard u ook kiest
om triples mee te schrijven, het principe
blijft hetzelfde: triples worden gebruikt
om uitspraken vast te leggen en u
publiceert ze in een standaardtaal op
een website.
Peter Paul Rubens (1577-1640), De Mythe van
Hero en Leander (uitsnede), 1605
(coll. Yale University Art Gallery, New Haven).
Het is handig gebruik te maken van
predicaten waar elders al over is
nagedacht en op een centrale plaats te
vinden zijn. Een belangrijke set van
standaardpredicaten is bijvoorbeeld
Dublin Core: deze predicaten zijn
wereldwijd bekend en worden door
bijna elk systeem begrepen. Een ander
belangrijk voorbeeld is Simple
punt te plaatsen voor de naam van de
predicaat. Ook objecten en subjecten
kunnen uit een gestandaardiseerde lijst
afkomstig zijn.
In mensentaal
De 'Mythe van Hero en
Leander' werd geschilderd
door Peter Paul Rubens
In triples
<mythe_van_Hero_en_Leander>
<dc:creator> <Peter_Paul_Rubens>
'Schilderij' is volgens
de Art en Architecture
Thesaurus een NT van
'kunstwerk'
<AAT:schilderij> <skos:narrower>
<AAT:kunstwerk>
U kunt aan uw semantische website ook
triples toevoegen die bedoeld zijn om
de lezende computer uit te leggen hoe
hij de informatie kan gebruiken.
Hierdoor verbetert het zoekresultaat.
Deze uitspraken worden gezamenlijk
een ontologie genoemd. Een ontologie
is het gemakkelijkste te vergelijken met
een datamodel of metadataschema. Ook
voor ontologieën zijn diverse
standaarden ontwikkeld: RDFS, OWL en
OWL2. Elk van deze standaarden bouwen
op elkaar voort. Ze bieden steeds meer
en betere standaardpredicaten om
steeds preciezer vast te leggen wat met
de onderdelen van de triple wordt
bedoeld. We leggen steeds beter de
betekenis (semantiek) vast.
In mensentaal
In triples
De "Mythe van Hero en
Leander" is een schilderij
Welke schilderijen
kocht Rembrandt?
(antwoord)
<mythe_van_Hero_en_Leander>
<rdf:type> <AAT:schilderij>
<Rembrandt_van_Rijn> <koopt>
<rdf:type> <AAT:schilderij>
<Rembrandt_van_Rijn> <koopt>
<mythe_van_Hero_en_Leander>
12 2010 nummer 5