Zoekmachines
Bouwers van zoekmachines weten steeds beter waar de zoekproblemen voor de
gebruikers zitten. Om die op te lossen proberen ze in de eerste plaats om de inter
face meer fout-tolerant te maken. Dat kan bijvoorbeeld door de gebruiker te
vragen wat hij nu precies bedoelt. Nogmaals, zoekt hij met het woord 'bank' een
zitmeubel of een financiële instelling? Er zijn echter meer manieren om de zoek
machine te verbeteren.
Zo kan de zoekvraag interface aanzienlijk worden verbeterd door te categorise
ren. Uit onderzoek blijkt dat gebruikers gemakkelijker doorklikken vanuit een
resultatenpagina als de resultaten ook zijn gecategoriseerd. Categoriseren zet een
vraag of een document in context. De context vermindert de ambiguïteit van de
termen.
Een andere manier is om aan het systeem de mogelijkheid van synoniemen toe te
voegen. Taal is rijk. Er zijn veel verschillende manieren om een vraag te stellen.
Door het systeem automatisch synoniemen toe te laten voegen aan de zoekvraag
wordt de kans groter dat de gebruiker de juiste antwoorden vindt. Dus, het toe
voegen van 'hypertensie' aan de vraag naar 'hoge bloeddruk' levert documenten
die één van beide termen gebruiken. Om de zoekvraag verder te verbreden, zou
het systeem bijvoorbeeld ook 'diastolisch/onderdruk' en 'systolisch/bovendruk'
kunnen gebruiken bij zijn zoekactie.
Verder zou de techniek verbeterd kunnen worden met linguïstische en probabilis
tische hulpmiddelen. Dat is het vermogen van het systeem om zowel enkelvoud
als meervoudsvormen van zelfstandige naamwoorden en werkwoordsvormen te
herkennen aan dezelfde stam (stemming). Ook fonetische variaties zouden op
soortgelijke wijze tot één basisvorm herleid kunnen worden.
Nog een manier om zoekmachines beter aan te laten sluiten bij wensen en
gedrag van de gebruiker zit in de inhoud en in het toegankelijk maken daarvan.
Het systeem zou met veel meer content moeten worden uitgebreid en de weerga
ve van de resultatenlijst moet duidelijker. Het eerste ligt voor de hand. Als er
meer content voorhanden is, dan vindt de zoeker vanzelf vaker het antwoord op
wat hij zoekt. Een kwestie van vraag en aanbod op elkaar afstemmen, althans
voor zover dat aanbod binnen de doelstellingen van bedrijf of instelling valt. Om
de resultatenlijst te verbeteren dienen er adequate, duidelijk beschrijvende titels
in het systeem te zitten. Wanneer een resultaat in de lijst weergegeven wordt als
bijvoorbeeld 'document 1043' dan zal de gebruiker dit zelden als een goed ant
woord zien. Maar zoekt hij naar het functioneren van zoekmachines en als resul
taat van zijn zoekactie staat er 'rapportage over zoekgedrag', dan herkent de
gebruiker het wel direct als een mogelijk goed resultaat. Verder helpt ook het ver
melden van datum, auteur en een samenvatting van het document in de resulta
tenlijst ook enorm bij het zoeken. Hoe meer aanwijzingen de gebruiker krijgt, des
te groter de kans dat hij de gevonden resultaten als de juiste zal herkennen.
Door de antwoorden op vaak gestelde vragen voor te selecteren - een vorm van
FAQ's - wordt het de gebruiker eveneens gemakkelijker gemaakt een snelle
reactie op zijn zoekvraag te krijgen. Het kan al enorm schelen als de juiste
respons aan de 100 meest gestelde vragen wordt gekoppeld, ook wel hard coderen
genoemd. Zo is het vaak een goed idee om de namen van belangrijke personen
binnen een organisatie bijvoorbeeld direct te verbinden met hun biografie,
gevolgd door andere relevante zoekresultaten. Uit onderzoek blijkt namelijk dat
75% van de vragen die gesteld worden op een gespecialiseerde site, gesteld
worden met zoektermen uit de top 100 van die site. Dit geldt uiteraard niet voor
web-zoekmachines zoals Google en Yahoo.
Tot slot is het van belang om onderzoek naar zoekgedrag te blijven doen. Alleen
zo is het mogelijk de soorten zoekvragen en het klikgedrag van gebruikers steeds
weer opnieuw te analyseren. Daaruit wordt dan wel duidelijk op welke punten de
gebruiker gefrustreerd of verward raakt. Niet doorklikken bijvoorbeeld, of het
veelvuldig herhalen van de zoekvraag zijn aanwijzingen dat de bezoeker proble
men bij het gebruik van het zoeksysteem ondervindt.
Lessen uit de praktijk
Er is inmiddels voldoende ervaring met zoekmachines opgedaan om te weten
waar rekening mee gehouden moet worden bij het ontwikkelen en implemente
ren ervan. Zo is duidelijk dat het toepassen van een combinatie van zoek- en
navigeerinterfaces in het systeem voor meer treffers zorgt. Gebruikers die weten
wat ze zoeken kunnen dan direct op hun doel afgaan, terwijl degenen die moeite
hebben met het formuleren van een heldere zoekvraag via navigatie op weg
worden geholpen door de mogelijkheid om onderwerpen te herkennen.
Herkennen is makkelijker dan herinneren.
We weten nu ook dat gebruikers een hekel hebben aan lange lijsten waar door
heen gescrolled moet worden. Niet voor niets geeft Google4 als basisinstelling
pagina's met maximaal tien resultaten. Sommige andere zoekmachines schake
len inmiddels over naar zeven resultaten per pagina. Het korte-termijngeheugen
werkt nu eenmaal in stukken van zeven plus of min twee items.5 Overigens
bladeren gebruikers liever dan dat ze scrollen.
Inmiddels heeft de spellingscontrole ook voor zoekmachines zijn nut bewezen.
Op type- of spellingsfouten reageert het systeem met de vraag of wellicht een
nabijgelegen woord als zoekterm wordt bedoeld. Google heeft met de toepassing
van de spellingscontrole in zijn zoeksysteem een enorme toename in klanttevre
denheid gerealiseerd.
Minder handig is een brede toepassing van stemming6 gebleken. Dit terugbrengen
van verschillende verbuigingen en woordvormen tot één stam leidt regelmatig
tot een toename van juist false-positives in plaats van meer recall. Dat betekent
dat het zoeksysteem niet meer goede resultaten ontsluit maar meer onjuiste
resultaten geeft. Als daarom nu stemming in een zoeksysteem is toegepast, dan
wordt dat alleen gedaan met een hele kleine bandbreedte.
Als per hit hyperlinks worden opgenomen in de trant van 'more like this', dan
sluit dat goed aan bij het berry-picking gedrag7 dat veel zoekers vertonen.
Naarmate iemand langer zoekt, leert hij van elke stap en verandert daardoor van
CATALOGUS
122
TIMO KOUWENHOVEN/ ZOEKEN NAVIGEREN
VINDEN
4 www.google.com.
5 George A. Miller, The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity
for Processing Information, in: The Psychological Review, 1956, vol. 63, pp. 81-97
6 Bijvoorbeeld lopen, loopt, liep, gelopen, worden door het systeem allemaal 'gelezen' als loop.
7 Rijpe bessen hangen immers ook niet allemaal aan één struik, maar aan meerdere en tijdens het plukken
zie je vaak pas wat de beste volgende struik is om naartoe te gaan, je wilt zolang mogelijk op het stuk
terrein blijven waar de meeste rijpe bessen hangen. (Marcia Bates, The design of browsing, 1989).
123