Automatic classification for efficient records management at the International Committee of the Red Cross
AccueilActualitésTémoignageClassification automatique pour une gestion documentaire efficace au sein du Comité international de la Croix-Rouge

Classification automatique pour une gestion documentaire efficace au sein du Comité international de la Croix-Rouge

ELCA a testé avec succès une approche par apprentissage automatique de la classification de documents pour améliorer l’efficacité de la gestion documentaire du CICR.

Chaque mois, la division des archives et de la gestion de l’information du Comité international de la Croix-Rouge classe manuellement des milliers d’e-mails à des fins d’archivage et de gestion documentaire. En s’appuyant sur l’apprentissage automatique, ELCA a développé, testé et mis à l’épreuve avec succès plusieurs algorithmes permettant une classification automatique de ces documents. L’algorithme ayant donné les meilleurs résultats reposait sur Fasttext. Ce projet est le premier d’une série de démonstrations de faisabilité que le CICR réalisera en 2020 dans ce domaine.

La division en charge de la gestion de l'information au CICR classe manuellement des milliers d'e-mails par mois à des fins de gestion et d'archivage. La catégorisation est effectuée selon une taxonomie comprenant plus de 2 800 valeurs possibles qui décrivent des fonctions, des tâches, des activités et des pays.

 

Il s’agit d’une mission extrêmement chronophage, parfois sujette à erreurs. C’est pourquoi le CICR a souhaité étudier le recours potentiel à l’apprentissage automatique, et plus particulièrement l’intérêt des algorithmes de classification automatique par rapport au jugement humain. Environ 6000 e-mails déjà classés ont été transmis à ELCA pour comparaison, avec des combinaisons d’algorithmes et de représentations textuelles.

 

En deux mois, ELCA a identifié plusieurs approches dépassant un taux de précision de 90%, certaines atteignant même 98%. Ces approches font appel à des techniques de pointe en matière de représentation d’unités sémantiques textuelles, telles que la classification sémantique de mots (une représentation compacte de la signification d’un mot donné dans son contexte) et quelques-uns des tout derniers algorithmes d’apprentissage supervisé comme XGBoost et Fasttext.

 

La politique très stricte du CICR en matière de confidentialité des données est respectée, car toutes les approches reposent sur des logiciels open source utilisés sur place, sur du matériel standard. Du point de vue de l’architecture des données, la solution mise en œuvre dans Python est extrêmement légère et pourrait aisément être intégrée dans des flux de données pré-existants, sous la forme d’un service web, par exemple. 

 

Avec une précision de classification quasi-humaine sur ses données de production, le CICR peut désormais considérer sereinement l’apprentissage automatique comme un élément précieux de sa stratégie de gestion documentaire.  

successstory_icrc_machinelearning_desktop_fr