ijp voor de praktijk: AUTOMATISCHE CLASSIFICATIVAN DOCUMENTEN I de praktijk de praktijk Classificatiesoftware gaat uit van een testset van documenten die reeds geclassificeerd is. Dat wil zeggen dat er voor elk document in de testset is bepaald in welke klasse deze thuis hoort. Een klassenstructuur kan de volgende hiërarchische vorm hebben: Hoofdklasse Subklasse Subklasse Subklasse Subklasse Subklasse Subklasse In dit voorbeeld heeft de klassenstructuur drie niveaus. Het is ook mogelijk meer niveaus of slechts één niveau te gebruiken. Zowel mono classificatie (waarbij elk document slechts in één klasse voorkomt) als multiclassificatie (waarbij een document in meerdere klassen geplaatst kan worden) is mogelijk. Op basis van de testset leert de software welke documenten in welke klasse horen. De handma tig geclassificeerde documenten dienen dus als voorbeeld. Als de classificatiesoftware op deze manier 'getraind' is, is deze in staat automatisch documenten in te delen in klassen. Op deze manier kunnen nieuw binnengekomen docu menten worden geclassificeerd, of kan een com pleet archief worden verwerkt. Nederland speelt een vooraanstaande rol in de ontwikkeling van classificatietechnologie. In 2003 is met succes een Europees onderzoekspro ject afgerond waarbij de technologie van auto matisch classificeren centraal stond. Bij dit pro ject, dat bekend staat onder de naam PEKING (IST-2000-25338), waren drie Nederlandse partij en betrokken. De Katholieke Universiteit Nijmegen, softwarebedrijf Edmond Research Development en de fiscale uitgeverij 'Fiscaal up to Date' vormden de Nederlandse ontwikkeleen- heid, waarbij de universiteit de algoritmes en de classificatiemodules maakte. Edmond R&D stel- classification technology de de specificaties voor Fiscaal up to Date op en implementeerde de beschikbare systeemonder delen. Fiscaal up to Date is de eindgebruiker. Vergelijkbare combinaties zijn in Spanje en Italië gevormd. De classificatietechnologie die door de KUN en Edmond R&D is ontwikkeld was leidend binnen het project. In onderstaand praktijkvoorbeeld wordt duidelijk wat het nut van automatische classificatie is voor een bedrijf als Fiscaal up to Date. Fiscaal up to Date is een uitgeverij die haar klanten voorziet van informatie op het gebied van de fiscale wetgeving en uitvoeringspraktijk, afkomstig van verschillende bronnen (bijvoor beeld besluiten van de Hoge Raad, het parle ment, de ministeries en de belastingdienst). Deze informatie wordt desgewenst dagelijks aan geboden dan wel op een andere termijn. Een essentieel onderdeel in het werk van Fiscaal up to Date is de professionele selectie die de fis cale experts dagelijks maken uit de continue stroom van fiscale informatie en de rubricering daarvan volgens trefwoorden. In de loop der jaren heeft Fiscaal up to Date zodoende een grote database opgebouwd die een schat aan fis cale informatie bevat. Deze database wordt ook aangeboden aan klanten, onder andere via inter net en cd-roms. De documenten in de database van Fiscaal up to Date zijn voorzien van metadata (onder andere belastingsoort en sleutelwoorden), die aanvullende informatie verschaffen over bij voorbeeld de aard, afkomst en het onderwerp van het document. Deze metadata zijn oor spronkelijk bedoeld om het opsporen van docu menten gebruikersvriendelijker en eenvoudiger te maken. In de loop van de jaren werd duidelijk dat juist deze meta-informatie een belangrijke rol kan spelen in het ontwikkelen van nieuwe op kennismanagement gebaseerde producten. Fiscaal up to Date werkt actief aan het commer cialiseren van de opgebouwde kennisdatabase door middel van moderne geautomatiseerde oplossingen op het gebied van gegevensextractie en classificatie. Om aan de nieuwe eisen die aan de metadata worden gesteld te voldoen moest het proces ingrijpend veranderen. Voorheen werden tref woorden voor onderwerpsontsluiting handma tig toegekend, een inefficiënte en kostbare zaak. Ook bleken verschillende personen een verschil lende visie te hebben op welke trefwoorden aan een document moesten worden toegekend, waardoor er afwijkingen optraden. Die afwijkin gen waren terug te vinden in de hele database van Fiscaal up to Date. Bovendien was de tref woordenlijst aan herziening toe. Het zou echter onbegonnen werk zijn om de volledige database opnieuw te classificeren. Vandaar dat men bij Fiscaal up to Date een beroep deed op automati sche classificatie. Om automatisch te kunnen classificeren zijn, zoals gezegd, een klassenstructuur (een soort trefwoordenlijst) en voor iedere klasse een aantal voorbeelddocumenten nodig. Omdat de klassenstructuur van Fiscaal up to Date in de loop van de jaren vervuild was geraakt, zijn er analyse- en migratietools ontwikkeld die fouten in de bestaande classificatie opsporen. In overleg met experts van Fiscaal up to Date is vervolgens de klassenstructuur aangepast. Daarmee was de situatie rijp voor automatische classificatie. Het systeem is zodanig geïmple menteerd dat eens per dag alle nieuwe docu menten worden geclassificeerd en met hun metadata in de database geschreven. Het proces beïnvloedt de workflow van Fiscaal up to Date dus verder niet. Alleen de dure handmatige clas sificatie is grotendeels geautomatiseerd. Een risico bij het volledig automatisch clas sificeren van documenten is dat het systeem alle documenten zelfstandig in een klasse plaatst en dat fout geclassificeerde documenten nooit meer terug te vinden zijn. Dit probleem speelt met name wanneer hele archieven ineens wor den geclassificeerd. Hiervoor is binnen het PEKING-project een oplossing gevonden. De software is door middel van statistische bereke ningen in staat te bepalen hoe zeker hij is van een bepaalde classificatie. Documenten waarvan de software niet met voldoende zekerheid kan zeggen in welke klasse deze thuishoren worden apart gezet om alsnog door een expert te worden beoordeeld. De documenten waarover het sys teem wel zeker is hoeven dus niet meer beoor deeld te worden door (dure) experts. Dit onzeker heidsbeginsel is een belangrijke stap voorwaarts in de praktische toepasbaarheid van automati sche classificatie. De technologie voor automatische classifi catie zoals die ontwikkeld is binnen het Euro pese onderzoeks project PEKING is rijp voor de prak tijk. De mogelijk- resultaten heid om onze kere documenten te herkennen en de hulpmiddelen voor de migratie van handmatige naar automati sche classificatie maken de classifi catiesoftware tot een wijd toepas baar systeem voor de toeken ning van metadata aan binnenkomende of reeds gearchiveerde documenten. www.edmond.nlwww.cs.kun.nl Door Pieter Woltjer en Kees Koster* In de wereld van documentautomatisering is de laatste jaren veel aandacht besteed aan het digitali seren van archieven. Door prijsontwikkelingen en verbeteringen op het gebied van scanapparatuur en OCR-software maakt het papieren archief steeds vaker plaats voor het digitale archief. Hierdoor is de behoefte ontstaan om de digitale archieven met moderne technieken te ontsluiten. Nederland speelt een vooraanstaande rol in de ontwikkeling van technologie voor het automatisch classificeren van documenten. Een hiërarchische klassenstructuur. Het PEKING-project Relevant information just in time Behoefte aan verbetering Migratie naar automatische classificatie Onzekerheidsbeginsel Conclusie Literatuur: C.H.A. Koster, P.A. Jones, F. Rombouts en P.E. Woltjer (2004), The Bootstrap Problem, Workshop on Operational Text Categorization, SIGIR 2002. Website PEKING project: www.cs.kun.nl/peking. Contactinformatie: Edmond Research Development St. Annastraat 4 6524 GA Nijmegen info@edmond.nl Pieter Woltjer is consultant/projectmanager bij Edmond Research Development; Kees Koster is hoogleraar aan de Katholieke Universiteit Nijmegen. het PEKING project is door de EG als zeer succesvol beoordeeld uitstekende methoden voor cross-lingual Text Categorization zonder de documenten te vertalen Zijn gevonden de applicatie voor Fiscaal upto Date werkt het klassificatiesysteem PEKING/LCS is marktrijp snel, robuust, nauwkeurig en als enige voorzien van software voor de bootstrap van handmatige naar automatische klassificatie.

Periodiekviewer Koninklijke Vereniging van Archivarissen

Archievenblad | 2004 | | pagina 7