Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Beitrag drucken

Dokumentensammlungen analysieren

Daten schürfen mit Text Mining

Geschäftszahlen zu Umsätzen oder Zeitreihen in Maschinendaten lassen sich vergleichsweise einfach zu Kennzahlen verdichten. Aber auch komplexe Texte lassen sich durch Technik analysieren. Mit Text Mining werden externe oder interne schriftliche Dokumentensammlungen automatisch zu Informationen veredelt.

Bild: ©Africa Studio/stock.adobe.com

Bild: ©Africa Studio/stock.adobe.com

Im Jahr 1995 haben Ronen Feldman und Ido Dagan Text Mining als ‘Knowledge Discovery in Texts’ in der wissenschaftlichen Community eingeführt. Heute ist die damit verbundene Technik breiter gefächert, meint aber immer das automatisierte Ableiten bestimmter hochwertiger Informationen aus vorhandenen Textdokumenten. Im Zeitalter von Big Data ist die automatisierte Verarbeitung textueller Informationen für Unternehmen von steigender Bedeutung. Denn Text Mining eignet sich für die Analyse unternehmenseigener, aber auch externer Dokumente. So kann damit etwa Spam in eingehenden Nachrichten herausgefiltert werden, was die Cybersicherheit erhöht. Weitere Anwendungsfelder sind das unternehmensinterne Wissensmanagement oder die Bearbeitung von Kundenreklamationen bei Produkten. Ziel ist immer die Gewinnung neuer Erkenntnisse für eine bessere Entscheidungsfindung. Es lohnt sich genau zu prüfen, welche Möglichkeiten es gibt, wie die Methoden aussehen, und welche Ansätze für welche Zwecke erfolgversprechend sind.

Grundlegende Arbeitsweise

Textdaten sind nicht formalisiert und das Ergebnis kann sehr unterschiedlich ausfallen, da es keinen einheitlichen Analyseansatz gibt. Das macht den effektiven Einsatz von Text Mining ebenso herausfordernd wie nützlich. Entscheidend ist hierbei die Wahl passender Methoden. Generell unterscheidet man beim Text Mining für jedes Dokument verschiedene Phasen:

  • Bewertung der Relevanz zu einem vorgegebenen Thema oder einer Fragestellung,
  • Spezifikation sogenannter Entitäten wie etwa Namen von Personen oder Produkten,
  • Inhaltsanalyse bezüglich positiver oder negativer Bewertungen eines Themas,
  • Spezifikation der Beziehung zwischen Fakten und anderen Entitäten wie Namen.

Zunächst müssen die zu untersuchenden Dokumente gesammelt und standardisiert werden. Die Ziele dabei sind die permanente Dokumentenerfassung und Gewinnung von Strukturdaten, das Sammeln von Metadaten wie Titel, Autor, Quelle, Typ und Erstellungsdatum sowie die Standardisierung von Texten und Metadaten. Nur in seltenen Fällen werden alle Dokumente formatgleich aus einem einzigen Quellsystem gezogen. Müssen diese beispielsweise gescannt werden, liegen sie als PDF vor, stammen aus Webquellen oder werden manuell von Benutzern hochgeladen, ist eine vorbereitende Behandlung in das entsprechende Format notwendig, die jedoch die spätere Bearbeitung und Qualität der Ergebnisse beeinflussen kann. Ist nur ein Bruchteil der Dokumente bzw. Informationen relevant, empfiehlt sich eine Vorauswahl über einen Volltextindex und eine Liste von Schlüsselwörtern. Werden dagegen Daten aus mehreren Quellen gesammelt, ist es besser, gleich auf eine standardisierte Schnittstelle wie etwa Solr zur Volltextsuche zurückzugreifen.

Klassifikation, Analyse und Training

Der relevante Dokumenten-Korpus wird dann einer Textnormalisierung und Vorverarbeitung unterzogen. Dabei werden die Texte nach Sätzen und Wörtern unterteilt. In vielen Sprachen müssen häufig vorkommende Stoppwörter, wie beispielsweise Artikel oder Präpositionen, herausgefiltert werden. Die verbleibenden Wörter werden auf ihre Grundform zurückgeführt. Die weitere Behandlung folgt mit unterschiedlichen Methoden, die jedoch auch in Kombination eingesetzt werden können, beispielsweise der Suche nach Entitäten und Beziehungen nach vorgegebenen Regeln sowie statistische Methoden und Machine Learning. Das Arbeiten mit Regeln wie ‘Suche nach Produktnamen, die innerhalb von drei Sätzen vor oder nach dem Firmennamen genannt werden’ funktioniert eher in analytischen Sprachen wie Englisch. Deutsch ist dagegen eine synthetische Sprache, bei der Beziehungen auch mit Hilfe von Wortformen ausgedrückt werden.

Texte in numerische Form wandeln

Alternativ werden Texte statistisch oder mit künstlicher Intelligenz analysiert. Dazu werden sie zunächst in Vektoren umgewandelt. Bei der einfachen One-HOT-Codierung wird jedem Wort ein Vektor zugeordnet, der an jeder Position, die dem Auftreten des Wortes im Sprachwörterbuch entspricht, einen Wert ungleich Null bekommt. Das führt jedoch zu einer äußerst hohen Dimensionalität. Diese kann mit der Word2vec-Methode reduziert werden, da dort Wörter gleicher Bedeutung gleiche Vektoren haben. Bag-of-Words kennzeichnet die Worthäufigkeit in einem Text, ignoriert aber dessen Struktur. Die TF-IDF-Methode gibt die Worthäufigkeit im zu untersuchenden Text relativ zur Häufigkeit dieses Wortes im Dokumenten-Korpus an.

Entitäten und Beziehungen gesucht

Mit dem Hidden-Markov-Modell (HMM) wird ein statistisches Modell als gerichteter Graph erstellt. Alternativ bietet sich das Conditional-Random-Field (CRF) an. Für neuronale Netze steht Long-Short-Term-Memory (LSTM) zur Verfügung, bei dem der Kontext berücksichtigt wird. Alternativ kann die Datenextraktion auf der Basis von Mustern über Convolutional-Neural-Networks (CNN) erfolgen. Aus dem Machine Learning ist die Sliding-Window-Technik bekannt, bei der bestimmte Bereiche des Textes in einem Fenster betrachtet werden. Was außerhalb des Fensters liegt, wird demnach ignoriert – der Kontext weiter entfernter Entitäten wird also nicht erfasst.

v

Bild:©Dmitry/stock.adobe.com

Klassen und Themenmodelle

Soll Text Mining eine kurze Beschreibung der untersuchten Dokumente liefern, bieten sich unterschiedliche Algorithmen an. Die Latent-Dirichlet-Allocation (LDA) behandelt den Text als Kombination von Themen, die Latent-Semantic-Analysis (LSA) stellt den Dokumenten-Korpus als Term-Dokument-Matrix dar. Die Ergebnisse statistischer Modelle können über eine additive Regularisation von Themenmodellen (ARTM), bei der die Textstruktur besser berücksichtigt wird, weiterverarbeitet werden. Methoden des Machine Learning können die Ergebnisse von Algorithmen wie Bag-of-Words und TF-IDF weiterverarbeiten. Statistische Methoden und Machine Learning finden Zusammenhänge automatisch ohne vorgegebene Regeln. Zudem können dadurch komplexere Beziehungen aufgedeckt werden. Die Systeme agieren nach einmaligem Training universell, jedoch kann der Aufwand für die Erstellung eines Trainingssatzes recht hoch sein. Die vom System getroffenen Entscheidungen sind nicht immer verständlich, falsche Ergebnisse werden oft nicht erkannt.

Datenschätze gehoben

Text Mining bietet viele Techniken, Algorithmen und ein ganzes Universum an Möglichkeiten zur Verarbeitung von Textkonvoluten im geschäftlichen Interesse. Je nach Aufgabenstellung wird die Leistung der eingesetzten Methoden unterschiedlich ausfallen. Wer die Vor- und Nachteile der Methoden kennt, dürfte aber schnell die passenden Techniken für ein Text-Mining-Pilotprojekt im eigenen Unternehmen finden, neue Erkenntnisse gewinnen und Entscheidungen somit auf ein
datenbasiertes Fundament stellen.


Das könnte Sie auch interessieren:

Der Ifo-Geschäftsklimaindex ist im März auf 93,3 Punkte geklettert und verzeichnet damit den fünften Anstieg in Folge.‣ weiterlesen

Der Sensorhersteller Leuze gibt Veränderungen in der Geschäftsführung bekannt. Mit Wirkung zum 1. April wird Xavier Hamers CEO der Unternehmensgruppe.‣ weiterlesen

Wago wird erster System- und Technologiepartner für das echtzeitfähige, Linux-basierte Betriebssystem ctrlX OS von Bosch Rexroth. Gemeinsam wolle man die offene Lösung weiterentwickeln, als Standard vorantreiben und branchenspezifischer Apps auf den Markt bringen.‣ weiterlesen

Der VDMA Additive Manufacturing wird ab 2024 ideeller Träger der Rapid.Tech 3D. Bereits in diesem Jahr will sich die Arbeitsgemeinschaft mit einem Format zum Thema Bildung engagieren‣ weiterlesen

Der Gewinner des Hermes Awards wird am 16. April bekanntgegeben. Die Jury hat nun die drei nominierten Unternehmen bekanntgegeben: ACS Climatics, Beckhoff und Bosch Rexroth.‣ weiterlesen

Checkmarx hat den Launch von Supply Chain Threat Intelligence bekanntgegeben. Das System stellt Bedrohungsinformationen zu hunderttausenden schädlichen Code-Paketen, zur Reputation der beteiligten Entwickler, zu schädlichen Verhaltensmustern und mehr bereit.‣ weiterlesen

Die Industrial Digital Twin Association hat mit PTC ein neues Mitglied. Gestartet mit 23 Organisationen, umfasst die Initiative nun 94 Mitglieder.‣ weiterlesen

Industrielle Montagelinien sind vielfältig: Einige arbeiten mit häufig wechselnden Produktaufbauten, während sich andere durch komplexe Prozesse und hohen Abstimmungsbedarf zwischen Werker und weiteren Experten auszeichnen. Das Fraunhofer IGD will Anwender mit einer Kombination aus Augmented Reality (AR) und künstlicher Intelligenz (KI) unterstützen.‣ weiterlesen

Rund 1 Million Industrieroboter werden allein im Automotive-Bereich eingesetzt. Laut der International Federation of Robotics ein Rekordwert. Das größte Wachstum beobachtet der Robotik-Verband derzeit in China.‣ weiterlesen

Die Sorgen der Unternehmensleiter haben sich laut einer Untersuchung der Unternehmensberatung Kloepfel Consulting verschoben. Waren im September 2022 noch steigende Kosten die Hauptsorge, sorgt sich die Mehrheit der befragten Führungskräfte aktuell vor geopolitischen Risiken.‣ weiterlesen

Firewalls gehören in Unternehmen zu den wichtigsten Sicherheitskomponenten, um das Netzwerk vor Angriffen zu schützen. Mehr noch, im integrierten und vernetzen Zusammenspiel mit weiteren Security-Lösungen, beispielsweise für die Endpoint-, Mobile- oder Cloud-Security und mit den immer wichtigeren Security-Services durch menschliche Experten, fügt sich die Firewall in ein ganzheitliches Security-Ökosystem ein, das alle IT-Bereiche im Unternehmen bestmöglich vor Angriffen und vor Schäden bewahren kann.‣ weiterlesen