Automatische Klassifizierung ermöglicht effizienteres Records Management beim Internationalen Komitee vom Roten Kreuz

ELCA hat einen maschinellen Lernansatz zur Klassifizierung von Dokumenten entwickelt, der das Records Management des IKRK effizienter macht.

25.02.2019

Die Abteilung Informationsmanagement des Internationalen Komitees vom Roten Kreuz kategorisiert monatlich mehrere Tausend E-Mails von Hand, um sie verwalten und archivieren zu können. ELCA hat nun unter Einsatz der Machine-Learning-Technologie mehrere Algorithmen entwickelt, getestet und überprüft. Der Algorithmus, der am besten abschnitt, basiert auf Fasttext. Das Projekt eröffnet eine Reihe von Machbarkeitsstudien, die das IKRK 2020 zu diesem Thema durchführen will.

by Amina Chebira
AI & Big Data expert at ELCA

Die Abteilung für Informationsmanagement des IKRK kategorisiert monatlich mehrere Tausend E-Mails von Hand, um sie verwalten und archivieren zu können. Die zur Kategorisierung eingesetzte Systematik umfasst mehr als 2800 mögliche Werte für die Beschreibung von Geschäftsfunktionen, Aufgaben, Aktivitäten und Ländern.

Eine sehr zeitaufwändige und fehleranfällige Arbeit, für die das IKRK eine andere Lösung, nach Möglichkeit basierend auf einem maschinellen Lernansatz, suchte. Insbesondere sollte ermittelt werden, ob eine automatische Klassifizierung mit dem menschlichen Urteil Schritt halten kann. Das IKRK stellte ELCA rund 6000 bereits kategorisierte E-Mails für einen Vergleich mit den Ergebnissen verschiedener Algorithmus-Kombinationen und Textabbildungen zur Verfügung.

Innerhalb von zwei Monaten fand ELCA mehrere Ansätze, die eine Trefferquote von mehr als 90 %, zum Teil sogar 98 %, erreichten. Diese nutzen modernste Verfahren zur Abbildung der Textsemantik, darunter Word Embedding (Worteinbettung: eine kompakte Abbildung der Bedeutung eines Wortes im jeweiligen Kontext) und die jüngste Generation überwachter Lernalgorithmen wie XGBoost und Fasttext.

 

Die strengen Datenschutzrichtlinien des IKRK werden vollumfänglich eingehalten, denn alle Ansätze stützen sich auf Open-Source-Software, die nur vor Ort beim Kunden und auf Standard-Hardware läuft. Die in Python programmierte, ausgewählte Lösung hat eine extrem leichtgewichtige Architektur und liesse sich daher problemlos, beispielsweise in Form eines Webservice, in vorhandene Daten-Pipelines integrieren.  

 

Die automatische Klassifizierung der Erzeugungsdaten des IKRK ist nahezu so exakt wie die von Menschen vorgenommene. Damit kann das IKRK nun auf einen maschinellen Lernsatz als wertvolle Ergänzung seiner Records-Management-Strategie vertrauen.

Wenn Sie auf dieser Website weitersurfen, akzeptieren Sie die Nutzung von Cookies oder ähnlichen Technologien, welche die Erstellung von Zugriffstatistiken für unsere Website bezwecken (Tests und Messungen von Zielgruppen, Besuchen, Surfverhalten und Performance), die Ihnen aber auch gezielt auf Ihre Interessen abgestimmte Inhalte und Inserate anbieten.

Wir haben unsere Cookies aktualisiert. Zögern Sie nicht, Ihre Präferenzen ebenfalls zu aktualisieren.

schließen
save

Ihre Cookie-Präferenzen setzen

Ihre Cookie-Präferenzen aktualisieren

Sie können sich über die Art der hinterlegten Cookies informieren, sie akzeptieren oder ablehnen, sei es für die gesamte Website und alle Services oder einzeln für jeden Service.

OK, alles annehmen

Verständnis der Besucher

Diese cookies werden verwendet, um Besucher über verschiedene Websites hinaus zu verfolgen.

Dadurch wollen wir relevantere, zielgerichtete Inhalte für bestehende Kontakte anbieten (ClickDimensions) und Inserate anzeigen können, die für die Benutzer nützlich und ansprechend sind (Facebook Pixels).

 

Neu

Freigabetools

Cookies von sozialen Medien erlauben ein Teilen von Inhalten in Ihren bevorzugten Netzen.

(ShareThis)

Neu

Besucherfluss

Diese cookies verschaffen uns Einblick in Traffic-Quellen und ermöglichen uns ein besseres, anonymisiertes Verständnis unserer Besucher.

(Google Analytics and CrazyEggs).

Neu
Weitere Angaben zu diesen Cookies und unserer Cookie-Richtlinie finden Sie hier.