Classification automatique pour une gestion documentaire efficace au sein du Comité international de la Croix-Rouge

ELCA a testé avec succès une approche par apprentissage automatique de la classification de documents pour améliorer l’efficacité de la gestion documentaire du CICR.

 

 

25.02.2019

Chaque mois, la division des archives et de la gestion de l’information du Comité international de la Croix-Rouge classe manuellement des milliers d’e-mails à des fins d’archivage et de gestion documentaire. En s’appuyant sur l’apprentissage automatique, ELCA a développé, testé et mis à l’épreuve avec succès plusieurs algorithmes permettant une classification automatique de ces documents. L’algorithme ayant donné les meilleurs résultats reposait sur Fasttext. Ce projet est le premier d’une série de démonstrations de faisabilité que le CICR réalisera en 2020 dans ce domaine.

by Amina Chebira
AI & Big Data expert at ELCA

Chaque mois, la division des archives et de la gestion de l’information du CICR classe manuellement des milliers d’e-mails à des fins d’archivage et de gestion documentaire. Ce classement est opéré selon une taxonomie couvrant plus de 2800 valeurs possibles, qui décrivent les fonctions, tâches, activités et pays.

Il s’agit d’une mission extrêmement chronophage, parfois sujette à erreurs. C’est pourquoi le CICR a souhaité étudier le recours potentiel à l’apprentissage automatique, et plus particulièrement l’intérêt des algorithmes de classification automatique par rapport au jugement humain. Environ 6000 e-mails déjà classés ont été transmis à ELCA pour comparaison, avec des combinaisons d’algorithmes et de représentations textuelles.

En deux mois, ELCA a identifié plusieurs approches dépassant un taux de précision de 90%, certaines atteignant même 98%. Ces approches font appel à des techniques de pointe en matière de représentation d’unités sémantiques textuelles, telles que la classification sémantique de mots (une représentation compacte de la signification d’un mot donné dans son contexte) et quelques-uns des tout derniers algorithmes d’apprentissage supervisé comme XGBoost et Fasttext.

 

La politique très stricte du CICR en matière de confidentialité des données est respectée, car toutes les approches reposent sur des logiciels open source utilisés sur place, sur du matériel standard. Du point de vue de l’architecture des données, la solution mise en œuvre dans Python est extrêmement légère et pourrait aisément être intégrée dans des flux de données pré-existants, sous la forme d’un service web, par exemple.  

 

Avec une précision de classification quasi-humaine sur ses données de production, le CICR peut désormais considérer sereinement l’apprentissage automatique comme un élément précieux de sa stratégie de gestion documentaire.  

En continuant votre navigation sur ce site, vous acceptez l'utilisation de cookies ou technologies similaires ayant pour finalité la réalisation de statistiques de visites sur notre site (tests et mesures d'audience, de fréquentation, de navigation, de performance), mais également de vous proposer des contenus et annonces ciblés et adaptés à vos centres d'intérêt.

Nos cookies ont été mis à jour. N'hésitez pas à mettre à jour vos préférences.

fermer
save

Gérer vos préférences cookies

Mettre à jour vos préférences cookies

Vous pouvez vous informer sur la nature des cookies déposés, les accepter ou les refuser soit globalement pour l'ensemble du site et l'ensemble des services, soit service par service.

OK, tout accepter

Connaissance du visiteur

Ces cookies sont utilisés pour suivre les visiteurs sur les sites Internet.

Ils doivent nous permettre d’offrir à nos visiteurs identifiés davantage de contenus pertinents et ciblés (ClickDimensions) et d’afficher des publicités susceptibles d’intéresser les utilisateurs (Facebook Pixels).

 

Nouveau

Outils de partage

Les cookies de médias sociaux permettent de partager des contenus sur vos réseaux préférés.

(ShareThis)

Nouveau

Flux de visiteur

Ces cookies nous offrent un aperçu des sources de trafic et nous permettent de mieux comprendre nos visiteurs, tout en garantissant leur anonymat.

(Google Analytics et CrazyEggs)

Nouveau
Pour plus d'informations relatives à la protection de données, cliquez ici.