IA & natural language processing

Qu’est-ce que l’IA ? Qu’est-ce que le Natural Language Processing ? 
En quoi l’IA et le Natural Language Processing peuvent-ils aider votre organisation ?

Associant l’intelligence artificielle, la linguistique et la statistique, le Natural Language Processing (NLP) est une discipline dont les débuts remontent 50 ans en arrière.

by Silvia Quarteroni
BI expert at ELCA

L’intelligence artificielle (IA) est partout de nos jours : les villes intelligentes, les robots, les assistants virtuels, l’édition du génome et d’innombrables autres technologies de pointe fonctionnent sur la base d’un certain niveau de simulation de l’intelligence humaine par un ordinateur.

Chez ELCA, nous appliquons essentiellement l’intelligence artificielle à l’analyse du langage humain (ou naturel). En effet, tenter de donner un sens au contenu est une nécessité impérieuse pour toute organisation traitant des documents comprenant du texte, des images, des sons et des vidéos. Comme la majeure partie de cette information est créée sous forme de texte ou convertie en texte, le traitement du langage naturel (Natural Language Processing, NLP), c’est-à-dire le traitement automatisé du langage humain, est l'un des concepts clés de l’IA.

Associant l’intelligence artificielle, la linguistique et la statistique, le NLP est une discipline dont les débuts remontent 50 ans en arrière. Récemment, des percées de industrie dans la reconnaissance et la compréhension automatique de la parole (Siri d’Apple et Alexa d’Amazon), l’apport de réponses à des questions (Watson d’IBM) et l’analyse des sentiments ont démontré la maturité des technologies NLP avec des solutions d’avant-garde fondées sur la statistique et l’apprentissage machine.

 

La mode de l’IA donne un coup de pouce à ces technologies, car les algorithmes d’apprentissage profond sont adoptés de plus en plus largement pour résoudre de nombreux types de problèmes. Cependant, le NLP est utilisé même dans des contextes dans lesquels le nombre de documents à traiter est limité, par exemple dans des PME où des algorithmes d’apprentissage machine authentiques éprouvés tels que la régression logistique, la classification naïve bayésienne, les forêts aléatoires ou les SVM sont très efficaces.

 

Le NLP est un acteur essentiel dans l’aide à la décision. Il permet de analyser des données textuelles à la recherche d’entités ou d’événements intéressants et d’identifier des modèles et des situations qui méritent davantage d’investigation humaine. Grâce à des approches probabilistes saines et à des métriques d’évaluation numérique, le NLP libère la sémantique latente des sources d’information non structurées, qu’il s’agisse de documents incluant du texte libre, de messages sur les réseaux sociaux, des conversations téléphoniques, ou bien d’autres choses encore. En d’autres termes, le NLP fournit la clé de la conversion de données à partir de toutes sortes de sources en connaissances, c’est-à-dire en renseignements propices à l’action.

 

Et ce n'est qu'une partie  de l'histoire : grâce à de récentes applications de l’apprentissage profond au traitement de la parole, il est désormais possible de transcrire le contenu de fichiers audio et vidéo en temps réel.

 

De même, les documents numérisés peuvent être traités par OCR pour devenir lisibles par une machine et des techniques de traitement de l’image peuvent être déployées pour reconnaître des visages sur des enregistrements de vidéosurveillance ou sur des photos publiées sur les réseaux sociaux. Cela peut nous aider alors à compléter le tableau du réseau social d’un individu et contribuer à l'identification de ses « chaînons manquants » (relations avec d’autres individus ou entités).

Les solutions d’IA et de NLP pour votre organisation

 

Disposant de solides connaissances du NLP, de l’apprentissage machine et des solutions connexes, ELCA aide les organisations à traiter toutes sortes d’informations non structurées.

 

Vous en trouverez un bref aperçu ci-dessous ou alors lisez les passages suivants pour savoir comment ELCA guide les décideurs dans la sélection et l'intégration de la solution la mieux appropriée à des scénarios spécifiques.

Connecteurs toutes sources

  • Idée : importer des données de sources de données non structurées grâce à des crawlers et à des connecteurs spécialement adaptés aux réseaux sociaux, aux systèmes de fichiers, aux e-mails, au CMS, etc.
  • Situations dans lesquels ils sont utilisés : toutes les applications aval sont alimentées par la sortie de tels connecteurs ; dans de nombreux cas, le "mapping de métadonnées" a lieu au sein du connecteur afin de sélectionner des informations pertinentes ; un méta HTML tel qu’un mot clé peut par exemple être sélectionné pour devenir le champs de balises dans le modèle de données internes du moteur de recherche.

Recherche au sein d’une entreprise 

  • Idée : une recherche efficace et effective est la première étape dans le processus de compréhension du contenu de documents non structurés (fichiers, pages Internet, messages sur les réseaux sociaux, multimédia). Le NLP est en effet un puissant allié des applications de recherche et de surveillance.
  • Situations dans lesquels elles sont utilisées : les moteurs de recherche pour entreprises prennent en charge d’énormes volumes de données et des flux de travail d’extraction intelligente de textes dans le cadre des contraintes de confidentialité de leurs propres pare-feux. Les organisations qui ont besoin d’accéder à des informations tout en respectant les politiques de confidentialité de leurs intranets peuvent ainsi bénéficier des solutions de recherche fonctionnant entièrement en interne.

Apport de réponses à des questions

  • Idée : obtenir des réponses concises et pertinentes à n’importe quelle question ("Qu’est-ce qu’une indemnité de départ ?", "Quelle est la superficie de la Suisse ?") sans devoir fouiller dans tous les documents d’aide.
  • Situations dans lesquels il est utilisé : Wolfram Alpha et Watson d’IBM sont des exemples de systèmes de production capables de détecter des informations pertinentes pour répondre automatiquement à des questions complexes sur la base de grandes quantités de documents d’aide.

Analyse des réseaux sociaux

  • Idée : surveiller la teneur des discussions sur les réseaux sociaux et les termes utilisés.
  • Situations dans lesquels elle est utilisée : avec l’essor des blogs et des réseaux sociaux, les informations sur Internet deviennent de plus en plus subjectives : les solutions de NLP statistiques sont telles que ces sources précieuses d’informations sont traitées correctement quel que soit le format ou la langue. L’analyse de réseaux sociaux permet par exemple :
    • d’identifier des sentiments positifs, négatifs ou neutres sur un sujet particulier ou à un endroit donné.
    • de deviner des classes d’âges ou le sexe des utilisateurs de Twitter en fonction de ce qu’ils écrivent.
    • de distinguer les commentaires des déclarations ou des suggestions sur les réseaux sociaux.
    • de déterminer l’orientation politique du contenu de blogs.
    • d’identifier des groupes de personnes qui s’intéressent au même domaine.
    • d’identifier des relations entre des utilisateurs et de suivre l’évolution de relations/d’intérêts au fil du temps pour des utilisateurs cibles.

Classification automatique

  • Idée : catégoriser automatiquement des documents en fonction d’une taxonomie d’affaires quelconque (par exemple des actualités par catégorie, des voyageurs par type, des visiteurs de sites Internet par profil) sur la base d’échantillons représentatifs.
  • Situations dans lesquels elle est utilisée : la catégorisation automatique est utile lorsqu’il est nécessaire de classer ou de regrouper des articles par groupes ou par catégories. A titre d’exemple, les cadres responsables de la gestion des archives sont susceptibles de bénéficier d’une solution qui assigne automatiquement l’étiquette de classement la plus adéquate à un document ; dans la gestion des relations clientèle, des profils d’utilisateurs peuvent être affectés à des catégories prédéfinies ; des représentants commerciaux peuvent déployer des règles de catégorisation pour déterminer le degré de satisfaction de clients, etc.

Compréhension du langage parlé

  • Idée : analyser automatiquement l’interaction parlée ; reconnaître la langue utilisée dans des fichiers audio, puis détecter des mots-clés importants ou le transcrire entièrement en texte (par exemple pour effectuer une recherche dans le flux audio).
  • Situations dans lesquels elle est utilisée : la reconnaissance automatique de la voix sur des appareils mobiles a fait de la recherche vocale et de la dictée des activités répandues. Dans des centres d’appels automatiques, les appels sont acheminés à l’opérateur adapté sur la base de leur contenu ou de leur tonalité ; lorsque des entreprises enregistrent les appels de leurs clients, l’analyse de conversations parlées permet de comprendre et de résumer le contenu des appels.

Analyse de l’image

  • Idée : reconnaître du texte même sur des documents mal numérisés, identifier des visages sur des images, et bien plus encore. 
  • Situations dans lesquels il est utilisé : toutes sortes de situations d’affaires où des contenus sous forme de papiers doivent être numérisés/archivés font appel à la technologie OCR : par exemple l’analyse de télécopies, de factures de clients, de transactions commerciales ou de lettres de décharge. De plus, des organismes de défense et de contrôle tels que la police locale ont besoin de la reconnaissance faciale pour détecter et distinguer rapidement des visages sur des enregistrements de vidéosurveillance par exemple.

Traduction automatique

  • Idée : recherche d’informations en plusieurs langues ; traduction des résultats dans la langue de choix.
  • Situations dans lesquels elle est utilisée : les institutions et les organisations dont les informations s’étendent sur des documents en plusieurs langues utilisent des systèmes et/ou des services de traduction automatique pour convertir rapidement un texte en plusieurs langues. Les versions traduites de documents importants peuvent alors faire l’objet de recherches par des moteurs de recherche d’entreprise pour extraire des informations entre les langues.

GIS et géocodage

  • Idée : les Geographic Information Systems (GIS) intègrent, stockent et analysent des informations géographiques. De tels systèmes permettent de résoudre les coordonnées géographiques d’endroits mentionnés sur des documents textuels et multimédia.
  • Situations dans lesquels elle est utilisée : être capable de localiser géographiquement des entités (produits, clients, transactions) confère un avantage commercial dans toute situation impliquant un portefeuille de clients. Les organisations militaires se fient largement aux GIS et à la géolocalisation pour le contrôle des missions ; dans le contexte de la surveillance des actualités (renseignements financiers, opérateurs d’actualités), les analystes ont besoin de la géolocalisation pour identifier des endroits mentionnés dans leurs documents.

Reconnaissance d’entités nommées 

  • Idée : identifier des individus, des organisations et d’autres entités mentionnés dans des textes (dates, adresses e-mail, numéros minéralogiques et numéros de téléphone), aucune liste n’étant nécessaire !
  • Situations dans lesquels elle est utilisée : les boîtes à outil et les services d’extraction d’informations sont largement utilisés par des organisations cherchant à identifier automatiquement des documents pertinents liés à leurs entités commerciales ; à titre d’exemple, des agences de presse peuvent automatiquement relier des articles actuels à des articles similaires passés sur la base des personnes qui y sont mentionnées.

Découverte et visualisation de relations

  • Idée : détection et visualisation de relations entre des entités mentionnées à la fois dans des documents et entre des documents ; utilisation de ressources sémantiques sur Internet pour collecter davantage d’informations sur des entités connues, par exemple les coordonnées d’une ville pour la géolocalisation ou des organisations liées à une personne.
  • Situations dans lesquels elle est utilisée : les agences de presse, institutions telles que des ONG ou des organismes d’e-gouvernement et des entreprises privées ayant de grandes archives utilisent des outils de sémantique sur Internet (données reliées) pour étiqueter automatiquement leur contenu et pour enrichir les informations qu’il recèle ; grâce à ces dernières, les informations dérivant de Wikipedia peuvent être croisées avec les informations extraites de documents afin d’obtenir davantage de détails.

Extraction de sujets/mots-clés

  • Idée : étiquetage et résumé rapides de documents en identifiant leurs mots, leurs expression ou leurs sujets les plus importants (catégories par le bas). Grâce à l’extraction de sujets et de phrases-clés, les documents peuvent être étiquetés automatiquement, si bien qu’ils deviennent des candidats pour une analyse approfondie. Ils peuvent aussi servir de filtres sémantiques pour des moteurs de recherche.
  • Situations dans lesquels elle est utilisée : de nombreuses suites de gestion de documents et de solutions open-source permettent d’étiqueter automatiquement des documents. Cette approche est particulièrement utile pour comprendre rapidement le contenu principal de documents, ce qui complète souvent la reconnaissance d’entités nommées qui met uniquement l’accent sur les noms propres.

NLP : sélection d’applications

 

Assistans virtuels et chatbots

Les assistants virtuels sont des agents doués d’intelligence artificielle qui aident les utilisateurs à trouver des informations ou à effectuer des tâches par la conversation. Ils peuvent être intégrés au site Internet d’une entreprise ou converser avec ses clients sur des applications mobiles. Certaines personnes vont même jusqu’à prétendre que les chatbots sont les nouvelles applications. Vous pouvez les joindre par l’intermédiaire de haut-parleurs intelligents et sur de nombreux autres canaux, y compris les principales plate-formes de messagerie. 

 

Les chatbots peuvent être d’efficaces solutions de relation clientèle : ils sont capables de répondre instantanément à des questions fréquemment posées et de réaliser des tâches répétitives faciles, ce qui améliore la satisfaction des clients tout en réduisant la charge de travail de l’agent de contact. Toutefois, les chatbots sont également très utiles sur le lieu de travail : ils peuvent faire office d’assistants de helpdesk informatique ou aider les utilisateurs à naviguer parmi les documents de l’entreprise ou à suivre des procédures.

 

Développer un chatbot est une excellente opportunité de combiner des techniques existantes de traitement du langage naturel (telles que la catégorisation d’intentions, l’extraction d’entités et la gestion du dialogue) pour une nouvelle application. Un tel développement constitue néanmoins également une expérience délicate du point de vue des affaires, de la conformité et du droit. ELCA a fait la démonstration de son savoir-faire en assistant de nombreuses organisations à proposer des chatbots et des assistants virtuels à leurs clients et leurs collaborateurs. Nous avons recours à plusieurs prestataires technologiques et à des composants spéciaux open-source pour fournir la solution la mieux adaptée à nos clients.

 

Classification automatique 

De nombreuses organisation ont besoin ou pourraient bénéficier grandement de l’étiquetage automatique de documents en fonction de leurs besoins commerciaux spécifiques. Par exemple, une banque souhaiterait assigner les e-mails de ses clients à l’agent de contact approprié, une compagnie d’assurance pourrait avoir besoin de catégoriser des déclarations par type. Un service de police souhaiterait faire la distinction entre des documents pertinents et non pertinents (par exemple des rapports d’analyste) lors d’une opération en cours.

 

ELCA dispose d’une expérience avérée de la familiarisation de modèles d’apprentissage machine sur mesure pour la classification automatique de documents. Nous sommes généralement capables d’obtenir des résultats très satisfaisants, même avec des données de formations très limitées et en n’utilisant aucune règle ou liste d’affaires. Comment cela fonctionne-t-il ? Nos apprentis artificiels utilisent uniquement des fonctions statistiques (telles que des distributions de mots) et utilisent efficacement la contribution humaine en demandant du feedback dans des cas particulièrement difficiles. 

 

Mais la classification automatique ne se limite pas nécessairement à des documents. Nous avons de l’expérience de la catégorisation de tweets en fonction de leurs sentiments et de l’intervalle d’âges, du sexe et des opinions politiques de leur auteur. Nos algorithmes de traitement de l’image, basés sur des réseaux de neurones profonds, peuvent détecter des objets sur des images et les assigner à une classe (taxi, beignet, chat de gouttière). Les classificateurs automatiques d’ELCA deviennent des facilitateurs pour des applications externes telles que des systèmes de gestion de documents, des systèmes de recherche et de distribution, et bien d’autres solutions clients.

Tableaux de bord d’analyse de contenus
ELCA tire parti de son expertise de solutions de recherches open-source et propriétaires pour indexer efficacement des documents textuels, de l’audio, des images, des e-mails et pour fouiller sur des sites Internet et des réseaux sociaux. Des fonctionnalités telles que la navigation par facettes (c’est-à-dire la navigation par filtres dynamiques), l’extraction de métadonnées et l’identification automatique de langues sont désormais des éléments normaux d’une recherche d’entreprise mais nous sommes en mesure d’aller encore plus loin. Avec les tableaux de bord d’analyse de contenus d’ELCA, les informations de plusieurs sites Internet d’actualités et de Twitter sont agrégées sur une application basée sur des recherches où :

  • le contenu d’actualités, de blogs et de tweets peuvent faire l’objet de recherches par mots-clés.
  • les noms de personnes, d’endroits et d’organisations sont identifiés automatiquement et peuvent être utilisés comme filtres dynamiques ; des encadrés informatifs Wikipedia fournissent des informations complémentaires sur de telles entités.
  • des nuages d’étiquettes et des diagrammes de réseau permettent de répondre à des questions telles que : quels endroits apparaissent fréquemment avec M. X ? Quelles entreprises et organisation sont généralement mentionnées simultanément ? Quels sont les individus cités le plus fréquemment lors d’une recherche portant sur un sujet donné ?
  • une analyse en direct des sentiments est réalisée sur les flux Twitter sur la base d’un ou de plusieurs mots-clés de recherche.

Il en résulte un tableau de bord pouvant être utilisé soit à des fins de renseignement open-source (open-source intelligence, OSINT) soit pour intégrer des sources d’informations internes à une organisation (rapports, résumés) à des informations externes (sites Internet d’actualités, réseaux sociaux, blogs, etc.).

 

Applications spéciales

Pour répondre aux exigences de scénarios d’affaires spécifiques, ELCA offre des solutions sur mesure en associant n’importe quels des blocs suivants :

  • Des connecteurs vers les réseaux sociaux, des flux d’actualités, des systèmes de fichiers, des API.
  • L’analyse linguistique (étiquetage de POS, fragmentation, analyse syntaxique, extraction N-gram, embarquements).
  • Extraction d’informations, découverte et visualisation de relations.
  • Analyse audio (détection de langues, identification de mots-clés, transcription de la voix en texte).
  • Analyse de l’image (OCR, reconnaissance faciale, etc.).
  • Moteurs de recherche (Solr, Elasticsearch, Exalead, etc.).
  • Clustering et classifications par l’utilisation de techniques d’apprentissage (profond).