Machine Learning en Automatische Classificatie

Het Nationaal Archief heeft een experiment gedaan met Machine Learning en Automatische classificatie van e-mail en hoopt een eerste stap te zetten in de richting van verandering. Lees de bevindingen in het rapport.

Machine Learning en Automatische Classificatie, auteur: M. van Essen, Nationaal Archief

Uit de samenvatting:

Ontwikkelingen op het gebied van kunstmatige intelligentie en machine learning gaan razendsnel. Er zijn steeds meer gegevens beschikbaar. Ook de toename van computerrekenkracht én de inzet van zelflerende algoritmen spelen een rol. Technologie kan organisaties en medewerkers ondersteunen om beter – en op een andere manier – om te gaan met grote hoeveelheden informatie.
Tegelijk weten we dat we er met de inzet van technologie alleen niet zijn. Het zijn uitdagingen die vragen om een verandering binnen organisaties, het vakgebied en de informatievoorziening. Met het experiment Machine Learning en Automatische classificatie van e-mail hopen we een eerste stap te zetten in de richting van verandering. Een nieuwe manier van werken.

In de opzet van het experiment gaan we uit van de volgende aanname: Als een spamfilter onderscheid kan maken tussen ongewenste mail (SPAM) en gewenste mail (HAM), dan kan een filter met machine learning ook onderscheid maken tussen twee andere klassen.
Met deze aanname in het achterhoofd formuleerden we de volgende doelen:
• Het ontwikkelen van een classificatiemodel dat (ongelezen) binnenkomende e-mailberichten kan identificeren en toewijzen aan een bepaalde klasse;
• Het scheppen van vertrouwen en transparantie bij medewerkers in zelflerende systemen; de gebruiker traint het systeem zelf en ziet hierdoor direct het resultaat;
• Inzicht krijgen in de mogelijkheden en beperkingen van de verschillende zelflerende algoritmen die inzetbaar zijn voor een classificatieprobleem.

Belangrijkste geleerde lessen
• Maak privacy onderdeel van je experiment. We moeten nadenken over gegevensverwerking, vooral als een systeem dit gaat doen. Het organiseren van gesprekken, het opstellen van maatregelen en het bij elkaar brengen van de juiste personen kost tijd. De verwerking van (persoons)gegevens mag geen excuus zijn om een experiment niet uit te voeren.
• Zelf ontwikkelen van een prototype helpt bij concretiseren van een probleem. Met dit experiment leerden we niet alleen hoe zelflerende systemen werken. We kregen ook beter inzicht in de problematiek die speelt rondom e-mail en ongestructureerde informatie in het algemeen.
• De huidige infrastructuur, privacy maatregelen en de inrichting van organisatieprocessen brengt restricties voor het experimenteren met zich mee. Gebruik deze restricties als randvoorwaarden voor het uitvoeren van experimenten. Probeer tijdens het uitvoeren na te denken hoe het anders kan, ook in een ideale situatie. Plot dit op de echte situatie en kijk wat er in de toekomst haalbaar is.
• Timeboxen en visualisaties helpen bij het maken van de juiste keuze. De beperkte ontwikkelperiode en de visualisatie van te maken keuzes, hielp ons in korte tijd een werkend prototype op te leveren. Dit droeg bij aan een geslaagd eindresultaat en maakte  inzichtelijk wat er wel en niet kan.

Download hier het rapport: kia.pleio.nl/file/download/55809164/NA_Rapport_machine_learning_en_automatische_classificatie_DEF.pdf

Thema's
Deel dit artikel