ijp voor de praktijk:
AUTOMATISCHE CLASSIFICATIVAN DOCUMENTEN
I
de praktijk
de praktijk
Classificatiesoftware gaat uit van een testset
van documenten die reeds geclassificeerd is. Dat
wil zeggen dat er voor elk document in de testset
is bepaald in welke klasse deze thuis hoort. Een
klassenstructuur kan de volgende hiërarchische
vorm hebben:
Hoofdklasse
Subklasse
Subklasse Subklasse
Subklasse
Subklasse
Subklasse
In dit voorbeeld heeft de klassenstructuur drie
niveaus. Het is ook mogelijk meer niveaus of
slechts één niveau te gebruiken. Zowel mono
classificatie (waarbij elk document slechts in één
klasse voorkomt) als multiclassificatie (waarbij
een document in meerdere klassen geplaatst kan
worden) is mogelijk.
Op basis van de testset leert de software welke
documenten in welke klasse horen. De handma
tig geclassificeerde documenten dienen dus als
voorbeeld. Als de classificatiesoftware op deze
manier 'getraind' is, is deze in staat automatisch
documenten in te delen in klassen. Op deze
manier kunnen nieuw binnengekomen docu
menten worden geclassificeerd, of kan een com
pleet archief worden verwerkt.
Nederland speelt een vooraanstaande rol in
de ontwikkeling van classificatietechnologie. In
2003 is met succes een Europees onderzoekspro
ject afgerond waarbij de technologie van auto
matisch classificeren centraal stond. Bij dit pro
ject, dat bekend staat onder de naam PEKING
(IST-2000-25338), waren drie Nederlandse partij
en betrokken. De Katholieke Universiteit
Nijmegen, softwarebedrijf Edmond Research
Development en de fiscale uitgeverij 'Fiscaal up
to Date' vormden de Nederlandse ontwikkeleen-
heid, waarbij de universiteit de algoritmes en de
classificatiemodules maakte. Edmond R&D stel-
classification technology
de de specificaties voor Fiscaal up to Date op en
implementeerde de beschikbare systeemonder
delen. Fiscaal up to Date is de eindgebruiker.
Vergelijkbare combinaties zijn in Spanje en
Italië gevormd. De classificatietechnologie die
door de KUN en Edmond R&D is ontwikkeld
was leidend binnen het project. In onderstaand
praktijkvoorbeeld wordt duidelijk wat het nut
van automatische classificatie is voor een bedrijf
als Fiscaal up to Date.
Fiscaal up to Date is een uitgeverij die haar
klanten voorziet van informatie op het gebied
van de fiscale wetgeving en uitvoeringspraktijk,
afkomstig van verschillende bronnen (bijvoor
beeld besluiten van de Hoge Raad, het parle
ment, de ministeries en de belastingdienst).
Deze informatie wordt desgewenst dagelijks aan
geboden dan wel op een andere termijn.
Een essentieel onderdeel in het werk van Fiscaal
up to Date is de professionele selectie die de fis
cale experts dagelijks maken uit de continue
stroom van fiscale informatie en de rubricering
daarvan volgens trefwoorden. In de loop der
jaren heeft Fiscaal up to Date zodoende een
grote database opgebouwd die een schat aan fis
cale informatie bevat. Deze database wordt ook
aangeboden aan klanten, onder andere via inter
net en cd-roms.
De documenten in de database van Fiscaal
up to Date zijn voorzien van metadata (onder
andere belastingsoort en sleutelwoorden), die
aanvullende informatie verschaffen over bij
voorbeeld de aard, afkomst en het onderwerp
van het document. Deze metadata zijn oor
spronkelijk bedoeld om het opsporen van docu
menten gebruikersvriendelijker en eenvoudiger
te maken. In de loop van de jaren werd duidelijk
dat juist deze meta-informatie een belangrijke
rol kan spelen in het ontwikkelen van nieuwe
op kennismanagement gebaseerde producten.
Fiscaal up to Date werkt actief aan het commer
cialiseren van de opgebouwde kennisdatabase
door middel van moderne geautomatiseerde
oplossingen op het gebied van gegevensextractie
en classificatie.
Om aan de nieuwe eisen die aan de metadata
worden gesteld te voldoen moest het proces
ingrijpend veranderen. Voorheen werden tref
woorden voor onderwerpsontsluiting handma
tig toegekend, een inefficiënte en kostbare zaak.
Ook bleken verschillende personen een verschil
lende visie te hebben op welke trefwoorden aan
een document moesten worden toegekend,
waardoor er afwijkingen optraden. Die afwijkin
gen waren terug te vinden in de hele database
van Fiscaal up to Date. Bovendien was de tref
woordenlijst aan herziening toe. Het zou echter
onbegonnen werk zijn om de volledige database
opnieuw te classificeren. Vandaar dat men bij
Fiscaal up to Date een beroep deed op automati
sche classificatie.
Om automatisch te kunnen classificeren
zijn, zoals gezegd, een klassenstructuur (een
soort trefwoordenlijst) en voor iedere klasse een
aantal voorbeelddocumenten nodig. Omdat de
klassenstructuur van Fiscaal up to Date in de
loop van de jaren vervuild was geraakt, zijn er
analyse- en migratietools ontwikkeld die fouten
in de bestaande classificatie opsporen. In overleg
met experts van Fiscaal up to Date is vervolgens
de klassenstructuur aangepast.
Daarmee was de situatie rijp voor automatische
classificatie. Het systeem is zodanig geïmple
menteerd dat eens per dag alle nieuwe docu
menten worden geclassificeerd en met hun
metadata in de database geschreven. Het proces
beïnvloedt de workflow van Fiscaal up to Date
dus verder niet. Alleen de dure handmatige clas
sificatie is grotendeels geautomatiseerd.
Een risico bij het volledig automatisch clas
sificeren van documenten is dat het systeem alle
documenten zelfstandig in een klasse plaatst en
dat fout geclassificeerde documenten nooit
meer terug te vinden zijn. Dit probleem speelt
met name wanneer hele archieven ineens wor
den geclassificeerd. Hiervoor is binnen het
PEKING-project een oplossing gevonden. De
software is door middel van statistische bereke
ningen in staat te bepalen hoe zeker hij is van
een bepaalde classificatie. Documenten waarvan
de software niet met voldoende zekerheid kan
zeggen in welke klasse deze thuishoren worden
apart gezet om alsnog door een expert te worden
beoordeeld. De documenten waarover het sys
teem wel zeker is hoeven dus niet meer beoor
deeld te worden door (dure) experts. Dit onzeker
heidsbeginsel is een belangrijke stap voorwaarts
in de praktische toepasbaarheid van automati
sche classificatie.
De technologie voor automatische classifi
catie zoals die ontwikkeld is binnen het Euro
pese onderzoeks
project PEKING is
rijp voor de prak
tijk. De mogelijk-
resultaten
heid om onze
kere documenten
te herkennen en
de hulpmiddelen
voor de migratie
van handmatige
naar automati
sche classificatie
maken de classifi
catiesoftware tot
een wijd toepas
baar systeem
voor de toeken
ning van metadata aan binnenkomende of reeds
gearchiveerde documenten.
www.edmond.nlwww.cs.kun.nl
Door Pieter Woltjer en Kees Koster*
In de wereld van documentautomatisering is de
laatste jaren veel aandacht besteed aan het digitali
seren van archieven. Door prijsontwikkelingen en
verbeteringen op het gebied van scanapparatuur en
OCR-software maakt het papieren archief steeds
vaker plaats voor het digitale archief. Hierdoor is de
behoefte ontstaan om de digitale archieven met
moderne technieken te ontsluiten. Nederland speelt
een vooraanstaande rol in de ontwikkeling van
technologie voor het automatisch classificeren van
documenten.
Een hiërarchische klassenstructuur.
Het PEKING-project
Relevant information just in time
Behoefte aan verbetering
Migratie naar automatische classificatie
Onzekerheidsbeginsel
Conclusie
Literatuur:
C.H.A. Koster, P.A. Jones, F. Rombouts en P.E. Woltjer
(2004), The Bootstrap Problem, Workshop on
Operational Text Categorization, SIGIR 2002.
Website PEKING project: www.cs.kun.nl/peking.
Contactinformatie:
Edmond Research Development
St. Annastraat 4
6524 GA Nijmegen
info@edmond.nl
Pieter Woltjer is consultant/projectmanager bij Edmond
Research Development; Kees Koster is hoogleraar aan de
Katholieke Universiteit Nijmegen.
het PEKING project is door de EG als zeer succesvol
beoordeeld
uitstekende methoden voor cross-lingual Text
Categorization zonder de documenten te vertalen Zijn gevonden
de applicatie voor Fiscaal upto Date werkt
het klassificatiesysteem PEKING/LCS is marktrijp
snel, robuust, nauwkeurig en als enige voorzien van
software voor de bootstrap van handmatige naar
automatische klassificatie.