Automatic classification for efficient records management at the International Committee of the Red Cross
HeimNewsSuccess StoriesAutomatische Klassifizierung ermöglicht effizienteres Records Management beim Internationalen Komitee vom Roten Kreuz

Automatische Klassifizierung ermöglicht effizienteres Records Management beim Internationalen Komitee vom Roten Kreuz

ELCA hat einen maschinellen Lernansatz zur Klassifizierung von Dokumenten entwickelt, der das Records Management des IKRK effizienter macht

Die Abteilung Informationsmanagement des Internationalen Komitees vom Roten Kreuz kategorisiert monatlich mehrere Tausend E-Mails von Hand, um sie verwalten und archivieren zu können. ELCA hat nun unter Einsatz der Machine-Learning-Technologie mehrere Algorithmen entwickelt, getestet und überprüft. Der Algorithmus, der am besten abschnitt, basiert auf Fasttext. Das Projekt eröffnet eine Reihe von Machbarkeitsstudien, die das IKRK 2020 zu diesem Thema durchführen will.

Die Informationsmanagement-Einheit des IKRK kategorisiert manuell Tausende von E-Mails pro Monat zu Zwecken der Aktenverwaltung und Archivierung. Die Kategorisierung erfolgt nach einer Taxonomie, die über 2.800 mögliche Werte umfasst, die Geschäftsfunktionen, Aufgaben, Aktivitäten und Länder beschreiben.
 

Eine sehr zeitaufwändige und fehleranfällige Arbeit, für die das IKRK eine andere Lösung, nach Möglichkeit basierend auf einem maschinellen Lernansatz, suchte. Insbesondere sollte ermittelt werden, ob eine automatische Klassifizierung mit dem menschlichen Urteil Schritt halten kann. Das IKRK stellte ELCA rund 6000 bereits kategorisierte E-Mails für einen Vergleich mit den Ergebnissen verschiedener Algorithmus-Kombinationen und Textabbildungen zur Verfügung.
 

Innerhalb von zwei Monaten fand ELCA mehrere Ansätze, die eine Trefferquote von mehr als 90 %, zum Teil sogar 98 %, erreichten. Diese nutzen modernste Verfahren zur Abbildung der Textsemantik, darunter Word Embedding (Worteinbettung: eine kompakte Abbildung der Bedeutung eines Wortes im jeweiligen Kontext) und die jüngste Generation überwachter Lernalgorithmen wie XGBoost und Fasttext.
 

Die strengen Datenschutzrichtlinien des IKRK werden vollumfänglich eingehalten, denn alle Ansätze stützen sich auf Open-Source-Software, die nur vor Ort beim Kunden und auf Standard-Hardware läuft. Die in Python programmierte, ausgewählte Lösung hat eine extrem leichtgewichtige Architektur und liesse sich daher problemlos, beispielsweise in Form eines Webservice, in vorhandene Daten-Pipelines integrieren.  
 

Die automatische Klassifizierung der Erzeugungsdaten des IKRK ist nahezu so exakt wie die von Menschen vorgenommene. Damit kann das IKRK nun auf einen maschinellen Lernsatz als wertvolle Ergänzung seiner Records-Management-Strategie vertrauen.
 

successstory_icrc_machinelearning_desktop_de