Anzeige
Anzeige
Beitrag drucken

Dokumentensammlungen analysieren

Daten schürfen mit Text Mining

Geschäftszahlen zu Umsätzen oder Zeitreihen in Maschinendaten lassen sich vergleichsweise einfach zu Kennzahlen verdichten. Aber auch komplexe Texte lassen sich durch Technik analysieren. Mit Text Mining werden externe oder interne schriftliche Dokumentensammlungen automatisch zu Informationen veredelt.

Bild: ©Africa Studio/stock.adobe.com

Bild: ©Africa Studio/stock.adobe.com

Im Jahr 1995 haben Ronen Feldman und Ido Dagan Text Mining als ‘Knowledge Discovery in Texts’ in der wissenschaftlichen Community eingeführt. Heute ist die damit verbundene Technik breiter gefächert, meint aber immer das automatisierte Ableiten bestimmter hochwertiger Informationen aus vorhandenen Textdokumenten. Im Zeitalter von Big Data ist die automatisierte Verarbeitung textueller Informationen für Unternehmen von steigender Bedeutung. Denn Text Mining eignet sich für die Analyse unternehmenseigener, aber auch externer Dokumente. So kann damit etwa Spam in eingehenden Nachrichten herausgefiltert werden, was die Cybersicherheit erhöht. Weitere Anwendungsfelder sind das unternehmensinterne Wissensmanagement oder die Bearbeitung von Kundenreklamationen bei Produkten. Ziel ist immer die Gewinnung neuer Erkenntnisse für eine bessere Entscheidungsfindung. Es lohnt sich genau zu prüfen, welche Möglichkeiten es gibt, wie die Methoden aussehen, und welche Ansätze für welche Zwecke erfolgversprechend sind.

Grundlegende Arbeitsweise

Textdaten sind nicht formalisiert und das Ergebnis kann sehr unterschiedlich ausfallen, da es keinen einheitlichen Analyseansatz gibt. Das macht den effektiven Einsatz von Text Mining ebenso herausfordernd wie nützlich. Entscheidend ist hierbei die Wahl passender Methoden. Generell unterscheidet man beim Text Mining für jedes Dokument verschiedene Phasen:

  • Bewertung der Relevanz zu einem vorgegebenen Thema oder einer Fragestellung,
  • Spezifikation sogenannter Entitäten wie etwa Namen von Personen oder Produkten,
  • Inhaltsanalyse bezüglich positiver oder negativer Bewertungen eines Themas,
  • Spezifikation der Beziehung zwischen Fakten und anderen Entitäten wie Namen.

Zunächst müssen die zu untersuchenden Dokumente gesammelt und standardisiert werden. Die Ziele dabei sind die permanente Dokumentenerfassung und Gewinnung von Strukturdaten, das Sammeln von Metadaten wie Titel, Autor, Quelle, Typ und Erstellungsdatum sowie die Standardisierung von Texten und Metadaten. Nur in seltenen Fällen werden alle Dokumente formatgleich aus einem einzigen Quellsystem gezogen. Müssen diese beispielsweise gescannt werden, liegen sie als PDF vor, stammen aus Webquellen oder werden manuell von Benutzern hochgeladen, ist eine vorbereitende Behandlung in das entsprechende Format notwendig, die jedoch die spätere Bearbeitung und Qualität der Ergebnisse beeinflussen kann. Ist nur ein Bruchteil der Dokumente bzw. Informationen relevant, empfiehlt sich eine Vorauswahl über einen Volltextindex und eine Liste von Schlüsselwörtern. Werden dagegen Daten aus mehreren Quellen gesammelt, ist es besser, gleich auf eine standardisierte Schnittstelle wie etwa Solr zur Volltextsuche zurückzugreifen.

Klassifikation, Analyse und Training

Der relevante Dokumenten-Korpus wird dann einer Textnormalisierung und Vorverarbeitung unterzogen. Dabei werden die Texte nach Sätzen und Wörtern unterteilt. In vielen Sprachen müssen häufig vorkommende Stoppwörter, wie beispielsweise Artikel oder Präpositionen, herausgefiltert werden. Die verbleibenden Wörter werden auf ihre Grundform zurückgeführt. Die weitere Behandlung folgt mit unterschiedlichen Methoden, die jedoch auch in Kombination eingesetzt werden können, beispielsweise der Suche nach Entitäten und Beziehungen nach vorgegebenen Regeln sowie statistische Methoden und Machine Learning. Das Arbeiten mit Regeln wie ‘Suche nach Produktnamen, die innerhalb von drei Sätzen vor oder nach dem Firmennamen genannt werden’ funktioniert eher in analytischen Sprachen wie Englisch. Deutsch ist dagegen eine synthetische Sprache, bei der Beziehungen auch mit Hilfe von Wortformen ausgedrückt werden.

Texte in numerische Form wandeln

Alternativ werden Texte statistisch oder mit künstlicher Intelligenz analysiert. Dazu werden sie zunächst in Vektoren umgewandelt. Bei der einfachen One-HOT-Codierung wird jedem Wort ein Vektor zugeordnet, der an jeder Position, die dem Auftreten des Wortes im Sprachwörterbuch entspricht, einen Wert ungleich Null bekommt. Das führt jedoch zu einer äußerst hohen Dimensionalität. Diese kann mit der Word2vec-Methode reduziert werden, da dort Wörter gleicher Bedeutung gleiche Vektoren haben. Bag-of-Words kennzeichnet die Worthäufigkeit in einem Text, ignoriert aber dessen Struktur. Die TF-IDF-Methode gibt die Worthäufigkeit im zu untersuchenden Text relativ zur Häufigkeit dieses Wortes im Dokumenten-Korpus an.

Entitäten und Beziehungen gesucht

Mit dem Hidden-Markov-Modell (HMM) wird ein statistisches Modell als gerichteter Graph erstellt. Alternativ bietet sich das Conditional-Random-Field (CRF) an. Für neuronale Netze steht Long-Short-Term-Memory (LSTM) zur Verfügung, bei dem der Kontext berücksichtigt wird. Alternativ kann die Datenextraktion auf der Basis von Mustern über Convolutional-Neural-Networks (CNN) erfolgen. Aus dem Machine Learning ist die Sliding-Window-Technik bekannt, bei der bestimmte Bereiche des Textes in einem Fenster betrachtet werden. Was außerhalb des Fensters liegt, wird demnach ignoriert – der Kontext weiter entfernter Entitäten wird also nicht erfasst.

v

Bild:©Dmitry/stock.adobe.com

Klassen und Themenmodelle

Soll Text Mining eine kurze Beschreibung der untersuchten Dokumente liefern, bieten sich unterschiedliche Algorithmen an. Die Latent-Dirichlet-Allocation (LDA) behandelt den Text als Kombination von Themen, die Latent-Semantic-Analysis (LSA) stellt den Dokumenten-Korpus als Term-Dokument-Matrix dar. Die Ergebnisse statistischer Modelle können über eine additive Regularisation von Themenmodellen (ARTM), bei der die Textstruktur besser berücksichtigt wird, weiterverarbeitet werden. Methoden des Machine Learning können die Ergebnisse von Algorithmen wie Bag-of-Words und TF-IDF weiterverarbeiten. Statistische Methoden und Machine Learning finden Zusammenhänge automatisch ohne vorgegebene Regeln. Zudem können dadurch komplexere Beziehungen aufgedeckt werden. Die Systeme agieren nach einmaligem Training universell, jedoch kann der Aufwand für die Erstellung eines Trainingssatzes recht hoch sein. Die vom System getroffenen Entscheidungen sind nicht immer verständlich, falsche Ergebnisse werden oft nicht erkannt.

Datenschätze gehoben

Text Mining bietet viele Techniken, Algorithmen und ein ganzes Universum an Möglichkeiten zur Verarbeitung von Textkonvoluten im geschäftlichen Interesse. Je nach Aufgabenstellung wird die Leistung der eingesetzten Methoden unterschiedlich ausfallen. Wer die Vor- und Nachteile der Methoden kennt, dürfte aber schnell die passenden Techniken für ein Text-Mining-Pilotprojekt im eigenen Unternehmen finden, neue Erkenntnisse gewinnen und Entscheidungen somit auf ein
datenbasiertes Fundament stellen.


Das könnte Sie auch interessieren:

Zerspaner müssen sich intensiv mit hoher Variantenvielfalt, kleinen Losgrößen und langen Rüstzeiten befassen, um wettbewerbsfähig zu fertigen. MES-Software mit Advanced Planning and Scheduling-Funktionalität hilft, die Herausforderungen der Branche anzugehen.‣ weiterlesen

Weltweit steckt der Einsatz von künstlicher Intelligenz (KI) noch in den Kinderschuhen. Die Mehrheit der Unternehmen, die KI einsetzen, experimentieren laut einer Accenture-Untersuchung in diesem Bereich noch. 12 Prozent nutzen die Technologie mit einem KI-Reifegrad, der einen starken Wettbewerbsvorteil bringt, so das Ergebnis der Studie.‣ weiterlesen

Thomas Herrguth verantwortet seit 1. Juli das Deutschlandgeschäft bei VMware. Sein Vorgänger Armin Müller konzentriert sich nun auf seine Rolle als Vice President CEMEA bei VMware.‣ weiterlesen

Bei Predictive-Quality-Anwendungen kann es sich auszahlen, nicht auf die Cloud, sondern auf Edge Computing zu setzen – vor allem dann, wenn es schnell gehen muss, erläutert Data-Science-Spezialist LeanBI.‣ weiterlesen

Der ERP-Auswahlberater Trovarit begleitete Buhmann Systeme bei seiner Software-Neuausrichtung von der Prozessanalyse bis zur Systemauswahl. Ein zentrales Element war der Anforderungskatalog mit 850 Punkten. Im Marktvergleich bot die Software AMS.ERP die höchste Abdeckung - und ihr Hersteller erhielt den Zuschlag.‣ weiterlesen

Gemeinsam wollen Siemens und Nvidia das industrielle Metaverse erschließen. Die Unternehmen wollen dafür ihre Partnerschaft ausbauen und durch die Verknüpfung von Nvidia Omniverse und Siemens Xcelerator realitätsgetreue digitale Zwillinge ermöglichen.‣ weiterlesen

Amazon Web Services hat auf dem AWS Summit in San Francisco drei Services angekündigt, die sich vor allem an produzierende Betriebe richten. Mit AWS IoT TwinMaker können Entwickler digitale Zwillinge etwa von Gebäuden, Fabriken, Industrieanlagen und Produktionslinien erstellen.‣ weiterlesen

Wachstum hatte die Personalarbeit bei Schuler Präzisionstechnik vor Herausforderungen gestellt. Die manuelle Bearbeitung von Vorgängen kostete Zeit und war umständlich. Daher wurde ein digitales Personalmanagement-System auf Basis einer Software für Enterprise Content Management (ECM) aus der Taufe gehoben.‣ weiterlesen

Die Berliner Fraunhofer Institute haben im Auftrag von German Edge Cloud und dem Innovationscluster 5G Berlin eine 5G-Infrastruktur in Betrieb genommen. Diese steht Kunden und Partnern aus Industrie und Forschung für Projekte zur Verfügung.‣ weiterlesen

PTC hat das neunte Major Release der CAD-Software Creo vorgestellt. Das Unternehmen mit Hauptsitz in Boston hat in die Weiterentwicklung der Modellierungsumgebung investiert, um die Benutzerfreundlichkeit und Produktivität zu erhöhen.‣ weiterlesen

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige