Artifical Intelligence & Natural Language Processing

Was ist AI? Was ist Natural Language Processing? 
Wie können AI & NLP Lösungen Ihrer Organisation helfen?

Natural Language Processing (NLP) ist eine Disziplin, die seit mehr als 50 Jahren fortlaufend weiterentwickelt wird und künstliche Intelligenz, Linguistik und Statistik kombiniert.
 

by Silvia Quarteroni
BI expert at ELCA

Künstliche Intelligenz (Artificial Intelligence, kurz AI) ist heute allgegenwärtig: intelligente Städte, Roboter, virtuelle Assistenten, Genome Editing und viele andere hochmoderne Technologien werden durch eine Simulation der menschlichen Intelligenz computergestützt umgesetzt.
 
Bei ELCA wenden wir künstliche Intelligenz hauptsächlich auf die Analyse der menschlichen (oder natürlichen) Sprache an. Die sinnvolle Nutzung von Content ist heute eine unumgängliche Voraussetzung für jede Organisation, damit sie Textdokumente, Bilder, Audio- und Videoinhalte verarbeiten kann. Da die Mehrheit solcher Informationen entweder als Text entwickelt wurde oder in Text konvertiert wird, ist die automatische, computergestützte Verarbeitung natürlicher Sprache, das „Natural Language Processing“ (NLP), ein Schlüsselkonzept der AI.
 
NLP ist eine Disziplin, die seit mehr als 50 Jahren entwickelt wird und künstliche Intelligenz, Linguistik und Statistik kombiniert. Die bahnbrechenden Entwicklungen in der automatischen Spracherkennung und des Sprachverstehens (Siri von Apple, Alexa von Amazon), der Frage-Antwort-Systeme (IBM Watson) und Sentimentanalyse haben den hohen Entwicklungsstand der NLP-Technologien mit hochmodernen, auf Statistik und maschinellem Lernen basierenden, Lösungen unter Beweis gestellt.

Der AI-„Hype“ boostet diese Technologien, da Deep Learning-Algorithmen immer häufiger zur Durchführung verschiedenster Aufgaben eingesetzt werden. NLP wird sogar in Kontexten genutzt, in denen nur eine begrenzte Anzahl von Dokumenten zu verarbeiten sind, z. B. in KMU-Umgebungen, wo bewährte maschinelle Lernverfahren wie logistische Regression, Naive Bayes, Random Forests oder SVMs überaus effizient sind.
 
NLP ist ein wichtiges Element bei der Entscheidungshilfe, um textbasierte Daten nach interessanten Einheiten oder Events zu durchzusuchen und Muster und Situationen zu erkennen, die eine weitere Untersuchung durch den Menschen verdienen. Mit umfassenden wahrscheinlichkeitstheoretischen Ansätzen und numerischen Evaluationsmetriken erschliesst NLP die verborgene Semantik/Bedeutung unstrukturierter Informationsquellen; dies können unter anderem Freitextdokumente, Mikroblogs oder Telefongespräche sein. NLP bietet den Schlüssel, Daten aus unterschiedlichen Herkunftsquellen in verwert- und umsetzbares Wissen zu konvertieren, („actionable intelligence“).
 
Ein weiterer Teil der Geschichte: Dank der jüngsten Anwendungen von Deep Learning auf die Sprachverarbeitung ist es jetzt möglich, den Inhalt von Audio- und Video-Dateien in Echtzeit zu transkribieren.
 
Auch gescannte Dokumente können verarbeitet werden, indem sie mithilfe der optischen Zeichenerkennung („Optical Character Recognition“ OCR) maschinenlesbar gemacht werden. Bildverarbeitende Techniken werden für die Gesichtserkennung von Foto- und Videomaterial angewendet („closed-circuit television“, CCTV). Diese Technik kann wiederum dazu genutzt werden, das Konstrukt des sozialen Netzes einer Person zu vervollständigen, oder dazu beitragen, „fehlende Verbindungen“ (Beziehungen zu anderen Personen oder Einheiten) zu ergänzen.

AI & NLP Lösungen von ELCA für Ihre Organisation

 

Mit langjähriger Erfahrung und professionellem Know-how im Bereich NLP, maschinellem Lernen und verwandten Lösungen unterstützt ELCA Unternehmen bei der effizienten Nutzung aller  Arten unstrukturierter Informationen.
 
Wie ELCA Entscheidungsträger bei der Auswahl und Integration der am besten geeigneten Lösung in konkrete Szenarien unterstützt:

All-Source Connectors

  • Grundidee: Import von Daten aus unstrukturierten Datenquellen dank Web-Crawler und Konnektoren für soziale Netzwerke, Dateisysteme, E-Mail, CMS etc.
  • Einsatzgebiet: Alle nachfolgenden Applikationen werden mit dem Ergebnis dieser Konnektoren gespeist; in vielen Fällen erfolgt ein „Metadata Mapping“ innerhalb des Konnektors, um sachdienliche Informationen auszuwählen. Zum Beispiel kann ein HTML-Meta-Tag wie „Keywords“ als „Tags“-Feld im internen Datenmodell der Suchmaschine ausgewählt werden.

Enterprise Search 

  • Grundidee:  Die effiziente und sachgemässe Suche ist der erste Schritt zu einem besseren Verständnis des Inhalts unstrukturierter Dokumente (Dateien, Website, Nachrichten in sozialen Netzwerken, Multimedia-Inhalte).  NLP ist ein wichtiger Verbündeter für Such- und Monitoring-Applikationen.
  • Einsatzgebiet: Unternehmensinterne Suchmaschinen unterstützen grosse Datenvolumen und intelligente Text-Mining-Workflows im Rahmen der Datenschutzvorgaben ihrer eigenen Firewalls. Unternehmen, die auf Informationen zugreifen, gleichzeitig aber die Datenschutzbestimmungen ihrer Intranets einhalten müssen, profitieren auf diese Weise von rein unternehmenseigenen Suchlösungen.

Beantwortung von Fragen

  • Grundidee: Präzise sachdienliche Antworten auf beliebige Fragen („Was ist eine Abfindung?“, „Wie gross ist die Schweiz?“), ohne dass alle relevanten Dokumente durchsucht werden müssen.
  • Einsatzgebiet: Wolfram Alpha und IBM Watson sind Beispiele für Produktionssysteme, die sachdienliche Informationen erkennen können, um automatisch auch komplexe Fragen basierend auf grossen Mengen unterstützender Dokumente zu beantworten.

Analyse sozialer Netzwerke

  • Grundidee: Monitoring und Analyse über Themen und Inhalte in sozialen Netzwerken.
  • Einsatzgebiet: Mit der wachsenden Beliebtheit von Blogs und sozialen Netzwerken werden die Informationen im Internet immer subjektiver: Statistische NLP-Lösungen stellen sicher, dass diese wertvolle Informationsquelle richtig genutzt wird, unabhängig von Format oder Sprache. Sie ermöglichen zum Beispiel:
    • Erkennung positiver, negativer oder neutraler Sentiments zu einem bestimmten Thema/an einem bestimmten Ort;
    • Schätzung von Altersgruppen oder Geschlecht der Twitter-Nutzer basierend auf dem, was sie schreiben;
    • Unterscheidung von Kommentaren und Aussagen/Vorschlägen in sozialen Medien;
    • Ermittlung der politischen Einstellung von Blog-Inhalten;
    • Erkennung von Menschengruppen, die an gleichen Themen interessiert sind;
    •  Erkennung von Beziehungen zwischen Nutzern und Verfolgung der langfristigen Entwicklung der Beziehungen/Interessen bei gezielt ausgewählten Nutzern.

Automatische Kategorisierung

  • Grundidee: Automatische Kategorisierung von Dokumenten je nach Klassifizierung des Unternehmens (z. B. News nach Kategorie, Reisende nach Typ, Website-Besucher nach Profil) basierend auf repräsentativen Beispielen.
  • Einsatzbereich: Die automatische Kategorisierung ist überall dort nützlich, wo es darum geht, Elemente in Gruppen oder Kategorien einzuordnen oder zusammenzufassen.  Zum Beispiel können für das Records Management verantwortliche Mitarbeitende eine Lösung nutzen, die einem Dokument automatisch das am besten geeignete Archivierungsetikett zuweisen; beim Customer Relationship Management können Nutzerprofile im Voraus festgelegten Kategorien zugewiesen werden. Aussendienstmitarbeitende können Kategorisierungsregeln umsetzen, um den Grad der Kundenzufriedenheit zu ermitteln etc.

Verstehen gesprochener Sprache

  • Grundidee: Automatische Analyse von Gesprächen, Spracherkennung von Audiodateien, Identifikation wesentlicher Stichwörter oder Transkription des Texts (z. B. zur Suche in der Audiodatei).
  • Einsatzgebiet: Die automatische Spracherkennung in Mobilgeräten hat die Sprachsuch- und Diktierfunktion populär gemacht. In automatischen Callcentern werden die Anrufe je nach Inhalt oder Ton an den entsprechenden Mitarbeiter weitergeleitet. W enn Unternehmen Kundenanrufe aufzeichnen, hilft die Gesprächsanalyse beim Verstehen und Zusammenfassen des Inhalts der Anrufe.

Analyse von Bildern

  • Grundidee: Texterkennung auch in mangelhaft gescannten Dokumenten, Gesichtserkennung in Bildern und vieles mehr.  
  • Einsatzgebiet: Die OCR-Technologie erweist sich in allen Arten von Geschäftssituationen, bei denen Papierinhalte digitalisiert/archiviert werden müssen, als nützlich: zum Beispiel Analyse von Faxinhalten, Zollrechnungen, Handelstransaktionen und Entlastungsschreiben. Darüber hinaus benötigen Verteidigungs- und Kontrolleinrichtungen die Gesichtserkennung zur schnellen Erkennung und Unterscheidung von Gesichtern in CCTV-Filmmaterial.

Automatische Übersetzung

  • Grundidee: Suche nach Informationen in mehreren Sprachen; Übersetzung der Ergebnisse in die gewünschte Sprache.
  • Einsatzbereich: Institution und Organisationen, deren Informationen in verschiedenen Sprachen veröffentlicht werden müssen, verwenden automatische Übersetzungssysteme und/oder Serviceleistungen, um schnell einen Text in mehrere Sprachen zu übersetzen. Übersetzte Versionen wichtiger Dokumente können von unternehmenseigenen Suchmaschinen durchsucht werden, um eine sprachenübergreifende Informationssuche durchzuführen.

GIS und Geo-Codierung

  • Grundidee: Geographic Information Systems (GIS) integrieren, speichern und analysieren geografische Informationen. Mit solchen Systemen ist es möglich, geografische Koordinaten von Orten zu ermitteln, die in Text- und Multimedia-Dokumenten erwähnt werden.
  • Einsatzbereich:  In allen Situationen, in denen ein Kundenportfolio betroffen ist (Banken, Versicherung, Handel). Die geografische Lokalisierung von Einheiten (Produkte, Kunden, Transaktionen) verschafft einen Wettbewerbsvorteil. Verteidigungsorganisationen nutzen GIS und Geolokalisierung zur Mission Control. Bei der Medienbeobachtung (Financial Intelligence, News Operators) benötigen Analysten die Geolokalisierung zur Identifikation der in ihren Dokumenten erwähnten Orte.

Named Entity Recognition 

  • Grundidee: Identifikation von Menschen, Orten, Organisationen und anderen, in Texten erwähnten Einheiten (Daten, E-Mail-Adressen, Nummernschilder und Telefonnummern) – keine Listen erforderlich!
  • Einsatzbereich: Toolkits und Services zur Informationsextraktion werden von Organisationen eingesetzt, um automatisch sachdienliche Dokumente in Bezug auf ihre „Geschäftsbereiche“ zu identifizieren. Zum Beispiel können Nachrichtenagenturen automatisch aktuelle Artikel mit ähnlichen vorherigen Artikeln basierend auf den darin erwähnten Personen verknüpfen.

Erkennen und Darstellen von Beziehungen

  • Grundidee: Erkennung und visuelle Darstellung von Beziehungen zwischen Einheiten sowohl innerhalb von Dokumenten als auch dokumentenübergreifend. Nutzung des Semantic Web zur Sammlung von weiteren Informationen über bekannte Einheiten, z. B. Koordinaten einer Stadt zur Geolokalisierung/mit einer Person verknüpfte Organisationen.
  • Einsatzbereich: Nachrichtenagenturen, Einrichtungen wie NGOs oder e-Government-Stellen und Privatunternehmen mit grossen Archiven nutzen Semantic Web Tools (Linked Data), um ihren Content automatisch zu kennzeichnen und die enthaltenen Informationen zu bereichern. Dank dieser Tools können aus Wikipedia abgeleitete Informationen mit den Informationen gekreuzt werden, die aus Dokumenten zur Erfassung weiterer Details extrahiert wurden.

Extraktion von Themen/Stichwörtern

  • Grundidee: Rasches Erfassen, Kennzeichnen und Zusammenfassen von Dokumenten durch Identifizierung ihrer wichtigsten Wörter, Ausdrücke oder Themen (d. h. Bottom-Up-Kategorien). Dank der Themen- und Stichwort-Extraktion können Dokumente automatisch gekennzeichnet oder mit „Tags“ im Hinblick auf eine weitere Analyse versehen werden oder um semantische Filter für Suchmaschinen bereitzustellen.
  • Einsatzbereich: Viele Dokument Management Suites und Open Source Lösungen ermöglichen die automatische Kennzeichnung von Dokumenten. Dies ist besonders nützlich, um schnell den Hauptinhalt von Dokumenten zu erfassen, und ist darüber hinaus eine Ergänzung zur Named Entity Recognition, die sich nur auf Eigennamen konzentriert.  

NLP: Ausgewählte Anwendungen

 

Virtual Assistants & Chatbots

Virtual Assistants sind Agents mit künstlicher Intelligenz, die die Nutzer bei der Suche nach Informationen oder bei der Ausführung einer Aufgabe durch Konversation unterstützen. Sie können in die Website eines Unternehmens eingebunden sein oder mit Kunden über mobile Apps chatten – es heisst sogar, dass „Chatbots” die Apps der Zukunft sind. Erreicht werden sie über Smart Speakers oder über die bekannten Messenger-Plattformen.
 
Chatbots sind eine hervorragende Lösung zur Kundenbetreuung: Sie  können häufig gestellte Fragen sofort beantworten und einfache, sich wiederholende Aufgaben effizient ausführen. So lässt sich die Kundenzufriedenheit erheblich verbessern und die Arbeitslast der Mitarbeitenden im Kundendienst reduzieren. Chatbots sind auch am Arbeitsplatz sehr nützlich: Sie können als IT-Helpdesk-Assistenten oder Hilfen beim Durchsuchen von Firmendokumenten oder Ausführen von Prozeduren fungieren.
 
Die Entwicklung eines Chatbot die Herausforderung, vorhandene Natural Language Processing Techniken (wie Intent Categorization, Entity Extraction und Dialog-Management) unter Beachtung der gesetzlichen Bestimmungen sowie der Unternehmenserfordernisse in einer neuen Applikation zu integrieren. ELCA hat ihr Know-how bei der Entwicklung von Chatbots und Virtual Assistants  für die Kunden oder Mitarbeitenden von Unternehmen unter Beweis gestellt. Wir nutzen verschiedene Technologie-Provider sowie übliche Open Source Komponenten, um die optimale Lösung für jeden Kunden zu liefern.

 

Automatische Klassifizierung

Viele Organisationen fordern eine automatische Kennzeichnung von Dokumenten unter Berücksichtigung ihrer spezifischen Geschäftsanforderungen - oder würden erheblich davon profitieren. Eine Bank zum Beispiel will die E-Mails ihrer Kunden einem bestimmten Mitarbeitenden im Contact Center zuweisen; ein Versicherungsunternehmen will Aussagen nach Typ kategorisieren. Eine Vollzugsbehörde will bei einem laufenden Vorgang zwischen sachdienlichen und nicht sachdienlichen Dokumenten (z. B. Analyseberichte) unterscheiden.
 
ELCA bietet ein fundiertes Know-how beim Erlernen von massgeschneiderten Machine Learning Modellen für die automatische Dokumentklassifizierung. Mit der effizienten Verwendung von Trainingsdaten nutzen unsere künstlichen «Lernenden» rein statistische Funktionen (wie Wortverteilung) und profitieren von den menschlichen Beiträgen, indem sie ihr Feedback nur in besonders schwierigen Situationen anfordern. 
 
Die automatische Klassifizierung wird nicht nur auf Dokumente angewandt. Die  Kategorisierung von Tweets je nach Sentiment und Altersgruppe, Geschlecht und politischer Ansicht des Autors und in mehreren Sprachen gehört zum Repertoire von ELCA. Unsere Bildverarbeitungsalgorithmen, basierend auf Deep Neural Networks, können Objekte in Bildern erkennen und sie einer Klasse zuordnen (z. B. Taxi, Donut, getigerte Katze). ELCA’s automatische Klassifikatoren werden Aktivierer für Drittanwendungen wie Document Management Systeme, Such- und Distributionssysteme und viele andere Arten von Kundenlösungen.   

Dashboards für Content Analytics
ELCA nutzt seine Erfahrung in den Open Source- und proprietären Suchlösungen, um Textdokumente, Audio- und Bilddateien, E-Mails sowie Crawl-Websites und soziale Netzwerke effizient zu indexieren. Funktionen wie Faceted Browsing (d. h. Navigation mit Hilfe von dynamischen Filtern), Metadaten-Extraktion und automatische Spracherkennung sind inzwischen Standard in der Unternehmenssuche. ELCA geht weiter:  Das ELCA-Dashboard für Content Analytics aggregiert Informationen aus verschiedenen News-Websites und Twitter in einer suchbasierten Applikation, in der:

  • Inhalte von News, Blogs und Tweets nach Stichwörtern durchsucht werden können;
  • die Namen von Personen, Orten und Organisationen automatisch identifiziert und als dynamische Filter benutzt werden können. Wikipedia-Informationsfelder liefern zusätzliche Informationen über solche Einheiten;
  • Tag-Clouds und Netzwerk-Grafiken bei der Beantwortung folgender Fragen helfen: Welche Orte erscheinen häufig im Zusammenhang mit Herrn X?  Welche Unternehmen und Organisationen werden normalerweise zusammen erwähnt? Welche Personen werden am häufigsten genannt, wenn nach einem bestimmten Thema gesucht wird?
  • eine Live-Sentiment-Analyse von Twitter-Streams anhand von Stichwörtern durchgeführt wird.

Das Ergebnis ist ein Dashboard, das entweder für Open-Source Intelligence (OSINT) oder zur Integration von internen Informationsquellen eines Unternehmens (Reports, Digests) mit externen Informationen (News-Websites, soziale Medien, Blogs etc.) genutzt werden kann.

 

Massgeschneiderte Applikationen

Für die Anforderungen bestimmter Geschäftsszenarien bietet ELCA massgeschneiderte Lösungen und Anwendungen, die die folgenden Bausteine kombinieren:

  • Konnektoren zu sozialen Medien, News-Feeds, Dateisystemen, APIs
  • Sprachanalyse (POS-Tagging, Chunking, Syntaxanalyse, N-Gram Extraction, Embeddings)
  • Extrahieren von Informationen, Entdecken von Beziehungen und visuelle Darstellung
  • Audio-Analyse (Spracherkennung, Keyword-Spotting, Speech-to-Text Transcription)
  • Bildanalyse (optische Zeichenerkennung (OCR), Gesichtserkennung etc.)
  • Suchmaschinen (Solr, Elasticsearch, Exalead, …)
  • Clustering und Klassifizierung mit Hilfe von (Deep-)Learning-Techniken