In tabel 1 is het zoekmachinegebruik van een viertal fictieve doelgroepen weer gegeven. Om de betekenis van de tabel te verduidelijken bekijken we één groep nader. Van de 'analisten' is te zien dat ze een duidelijke en specifieke informatie behoefte hebben. De analist kan precies aan een collega uitleggen 'wat' hij nodig heeft. En wanneer hij zijn vraag niet aan een collega stelt maar aan een zoek machine, dan lukt hem dat ook goed. Hij scoort dus hoog op het 'hoe', wat wil zeggen dat hij de competenties heeft om een zoekmachine te bedienen. Tot slot kan de analist nauwkeurig aangeven 'waar' hij wil gaan zoeken; hij is in staat de zoekmachine aan te geven in welke soort bronnen de resultaten gezocht moeten worden. Deze wijze van benaderen betekent dat de interface van de zoekmachine er in principe op ingesteld moet zijn dat de zoekvragen (queries) geformuleerd kunnen worden in het jargon van het vakgebied van de analist en dat de resul taatlij st aan een hoge recall-eis2 moet voldoen. Precisie3 is voor hem minder van belang; hij wil eerder weten dat hij alle mogelijke antwoorden op zijn vraag heeft gezien. De verkeerde en dus onbruikbare documenten filtert onze analist er zelf wel uit. Recall en precisie zijn enkele van de belangrijkste indicatoren om de kwaliteit van en zoekmachine in uit te drukken (zie kader). CATALOGUS Precisie en recall zijn veelgebruikte indicatoren voor de kwaliteit van een zoekmachine, maar zijn eerder systeemgeoriënteerd dan gebruiker- georiënteerd. Gebruikergeoriënteerde indicatoren zijn weliswaar minder kwantitatief, maar kwalitatieve indicatoren zijn (indien er niet zuiver wetenschappelijk vergeleken hoeft te worden) juist praktisch bij tevreden- heidonderzoek. Enkele voorbeelden van kwalitatieve gebruiker- georiënteerde indicatoren zijn: Dekkingsgraad - de proportie van relevante documenten die de gebruiker kent en die daadwerkelijk ontsloten worden. Nieuwheidgraad - de proportie van relevante documenten die de gebruiker nog niet kent en die daadwerkelijk ontsloten worden. Relatieve recall - de verhouding van relevante ontsloten documenten bekeken/ onderzocht door de gebruiker en het aantal documenten dat de gebruiker wilde bekijken/onderzoeken. Recall inspanning - de verhouding van het aantal relevante documenten die men wenst en de documenten die de gebruiker bekeek/onderzocht om het aantal relevante documenten te vinden die men wenste. 2 Recall: alle documenten worden getoond. 3 Precisie: alleen relevante documenten worden getoond. 118 TIMO KOUWENHOVEN/ ZOEKEN NAVIGEREN VINDEN Voorbeeld De gebruiker kent 16 relevante documenten en het systeem ontsluit 10 documenten waarvan de gebruiker er 4 kent. De dekkingsgraad is dan 4/16 (25%). Hieruit leidt de gebruiker waarschijnlijk af dat er zo ongeveer 40 relevante documen ten zullen zijn, ongeveer 4 keer meer dan 10, het aantal ontsloten. Dit omdat de gebruiker 6 nieuwe relevante kreeg (10-4), door deze op te tellen bij de 16 die hij al kent (16 6 22), kan hij schatten dat er waarschijnlijk 18 relevante documenten zijn die hij nog niet zag (40 - 22 18). De nieuwheidgraad is dan 6/10 (60%). Een hoge dekkingsgraad geeft de gebruiker enig vertrouwen dat het systeem alle relevante documenten kan lokaliseren. Een hoge nieuwheidgraad suggereert dat het systeem effectief is in het lokaliseren van documenten die de gebruiker nog niet kende. Uit de 60% kan de gebruiker afleiden dat van elke groep ontsloten, relevante documenten er 6 op 10 onbekend zijn voor de gebruiker. Uiteraard is de gebruiker niet alleen geïnteresseerd in documenten die hij al kent, dus is een hoge nieuwheidgraad gewenst. Indien het systeem 50 relevante documenten kan ontsluiten waarvan de gebruiker er slechts 10 kent, dan zal deze nog tevredener zijn. De dekkingsgraad is dan 10/16 (5/8 62,5%) en de nieuwheidgraad is dan 40/50 (4/5 80%). Relatieve recall adresseert de vraag hoeveel documenten de gebruiker wil directer. Stel dat het systeem 20 documenten ontsluit en de gebruiker wil 5 relevante. Onder de 20 zijn slechts 3 relevante documenten, dan is de relatieve recall 3/5 (60%). Indien de gebruiker 5 relevante gepresenteerd krijgt in de set van 20, dan is de relatieve recall 5/5 (100%). De gebruiker zal zeer waarschijnlijk stoppen met zoeken. Relatieve recall is dus geen goede graadmeter voor het vaststellen hoeveel inspanning het de gebruiker kost om de documenten te lokaliseren. Het kan namelijk zo zijn dat de gebruiker de hele set van 20 moest doorzoeken om de 5 te vinden, maar de 5 hadden net zo goed in de eerste 6 kunnen zitten. Recall inspanning is hiertoe een betere graadmeter. Deze gaat uit van 2 assumpties: 1) de collectie bevat het aantal gewenste relevante documenten en 2) het systeem stelt de gebruiker in staat om ver genoeg te zoeken om ze allemaal te kunnen vinden. Deze ratio varieert van 1 tot 0. 1 indien de gewenste documenten in de eerste serie zitten en 0 indien de gebruiker ze allemaal vindt na zowat de hele set doorzocht te hebben. Kader: Precisie, recall en andere indicatoren voor zoekmachines 119

Periodiekviewer Koninklijke Vereniging van Archivarissen

Jaarboeken Stichting Archiefpublicaties | 2005 | | pagina 61