Geschäftszahlen zu Umsätzen oder Zeitreihen in Maschinendaten lassen sich vergleichsweise einfach zu Kennzahlen verdichten. Aber auch komplexe Texte lassen sich durch Technik analysieren. Mit Text Mining werden externe oder interne schriftliche Dokumentensammlungen automatisch zu Informationen veredelt.
Im Jahr 1995 haben Ronen Feldman und Ido Dagan Text Mining als ‘Knowledge Discovery in Texts’ in der wissenschaftlichen Community eingeführt. Heute ist die damit verbundene Technik breiter gefächert, meint aber immer das automatisierte Ableiten bestimmter hochwertiger Informationen aus vorhandenen Textdokumenten. Im Zeitalter von Big Data ist die automatisierte Verarbeitung textueller Informationen für Unternehmen von steigender Bedeutung. Denn Text Mining eignet sich für die Analyse unternehmenseigener, aber auch externer Dokumente. So kann damit etwa Spam in eingehenden Nachrichten herausgefiltert werden, was die Cybersicherheit erhöht. Weitere Anwendungsfelder sind das unternehmensinterne Wissensmanagement oder die Bearbeitung von Kundenreklamationen bei Produkten. Ziel ist immer die Gewinnung neuer Erkenntnisse für eine bessere Entscheidungsfindung. Es lohnt sich genau zu prüfen, welche Möglichkeiten es gibt, wie die Methoden aussehen, und welche Ansätze für welche Zwecke erfolgversprechend sind.
Grundlegende Arbeitsweise
Textdaten sind nicht formalisiert und das Ergebnis kann sehr unterschiedlich ausfallen, da es keinen einheitlichen Analyseansatz gibt. Das macht den effektiven Einsatz von Text Mining ebenso herausfordernd wie nützlich. Entscheidend ist hierbei die Wahl passender Methoden. Generell unterscheidet man beim Text Mining für jedes Dokument verschiedene Phasen:
Bewertung der Relevanz zu einem vorgegebenen Thema oder einer Fragestellung,
Spezifikation sogenannter Entitäten wie etwa Namen von Personen oder Produkten,
Inhaltsanalyse bezüglich positiver oder negativer Bewertungen eines Themas,
Spezifikation der Beziehung zwischen Fakten und anderen Entitäten wie Namen.
Zunächst müssen die zu untersuchenden Dokumente gesammelt und standardisiert werden. Die Ziele dabei sind die permanente Dokumentenerfassung und Gewinnung von Strukturdaten, das Sammeln von Metadaten wie Titel, Autor, Quelle, Typ und Erstellungsdatum sowie die Standardisierung von Texten und Metadaten. Nur in seltenen Fällen werden alle Dokumente formatgleich aus einem einzigen Quellsystem gezogen. Müssen diese beispielsweise gescannt werden, liegen sie als PDF vor, stammen aus Webquellen oder werden manuell von Benutzern hochgeladen, ist eine vorbereitende Behandlung in das entsprechende Format notwendig, die jedoch die spätere Bearbeitung und Qualität der Ergebnisse beeinflussen kann. Ist nur ein Bruchteil der Dokumente bzw. Informationen relevant, empfiehlt sich eine Vorauswahl über einen Volltextindex und eine Liste von Schlüsselwörtern. Werden dagegen Daten aus mehreren Quellen gesammelt, ist es besser, gleich auf eine standardisierte Schnittstelle wie etwa Solr zur Volltextsuche zurückzugreifen.
Der relevante Dokumenten-Korpus wird dann einer Textnormalisierung und Vorverarbeitung unterzogen. Dabei werden die Texte nach Sätzen und Wörtern unterteilt. In vielen Sprachen müssen häufig vorkommende Stoppwörter, wie beispielsweise Artikel oder Präpositionen, herausgefiltert werden. Die verbleibenden Wörter werden auf ihre Grundform zurückgeführt. Die weitere Behandlung folgt mit unterschiedlichen Methoden, die jedoch auch in Kombination eingesetzt werden können, beispielsweise der Suche nach Entitäten und Beziehungen nach vorgegebenen Regeln sowie statistische Methoden und Machine Learning. Das Arbeiten mit Regeln wie ‘Suche nach Produktnamen, die innerhalb von drei Sätzen vor oder nach dem Firmennamen genannt werden’ funktioniert eher in analytischen Sprachen wie Englisch. Deutsch ist dagegen eine synthetische Sprache, bei der Beziehungen auch mit Hilfe von Wortformen ausgedrückt werden.
Texte in numerische Form wandeln
Alternativ werden Texte statistisch oder mit künstlicher Intelligenz analysiert. Dazu werden sie zunächst in Vektoren umgewandelt. Bei der einfachen One-HOT-Codierung wird jedem Wort ein Vektor zugeordnet, der an jeder Position, die dem Auftreten des Wortes im Sprachwörterbuch entspricht, einen Wert ungleich Null bekommt. Das führt jedoch zu einer äußerst hohen Dimensionalität. Diese kann mit der Word2vec-Methode reduziert werden, da dort Wörter gleicher Bedeutung gleiche Vektoren haben. Bag-of-Words kennzeichnet die Worthäufigkeit in einem Text, ignoriert aber dessen Struktur. Die TF-IDF-Methode gibt die Worthäufigkeit im zu untersuchenden Text relativ zur Häufigkeit dieses Wortes im Dokumenten-Korpus an.
Entitäten und Beziehungen gesucht
Mit dem Hidden-Markov-Modell (HMM) wird ein statistisches Modell als gerichteter Graph erstellt. Alternativ bietet sich das Conditional-Random-Field (CRF) an. Für neuronale Netze steht Long-Short-Term-Memory (LSTM) zur Verfügung, bei dem der Kontext berücksichtigt wird. Alternativ kann die Datenextraktion auf der Basis von Mustern über Convolutional-Neural-Networks (CNN) erfolgen. Aus dem Machine Learning ist die Sliding-Window-Technik bekannt, bei der bestimmte Bereiche des Textes in einem Fenster betrachtet werden. Was außerhalb des Fensters liegt, wird demnach ignoriert – der Kontext weiter entfernter Entitäten wird also nicht erfasst.
Soll Text Mining eine kurze Beschreibung der untersuchten Dokumente liefern, bieten sich unterschiedliche Algorithmen an. Die Latent-Dirichlet-Allocation (LDA) behandelt den Text als Kombination von Themen, die Latent-Semantic-Analysis (LSA) stellt den Dokumenten-Korpus als Term-Dokument-Matrix dar. Die Ergebnisse statistischer Modelle können über eine additive Regularisation von Themenmodellen (ARTM), bei der die Textstruktur besser berücksichtigt wird, weiterverarbeitet werden. Methoden des Machine Learning können die Ergebnisse von Algorithmen wie Bag-of-Words und TF-IDF weiterverarbeiten. Statistische Methoden und Machine Learning finden Zusammenhänge automatisch ohne vorgegebene Regeln. Zudem können dadurch komplexere Beziehungen aufgedeckt werden. Die Systeme agieren nach einmaligem Training universell, jedoch kann der Aufwand für die Erstellung eines Trainingssatzes recht hoch sein. Die vom System getroffenen Entscheidungen sind nicht immer verständlich, falsche Ergebnisse werden oft nicht erkannt.
Datenschätze gehoben
Text Mining bietet viele Techniken, Algorithmen und ein ganzes Universum an Möglichkeiten zur Verarbeitung von Textkonvoluten im geschäftlichen Interesse. Je nach Aufgabenstellung wird die Leistung der eingesetzten Methoden unterschiedlich ausfallen. Wer die Vor- und Nachteile der Methoden kennt, dürfte aber schnell die passenden Techniken für ein Text-Mining-Pilotprojekt im eigenen Unternehmen finden, neue Erkenntnisse gewinnen und Entscheidungen somit auf ein
datenbasiertes Fundament stellen.
Digitalisierung klingt kompliziert? Wir machen‘s einfach.
Qualitätssicherung mit InoNet Edge-AI System
valantic – Produktionsplanung & -steuerung in Echtzeit mit der APS Software wayRTS
Industrie 4.0 am Wendepunkt
Nachhaltigkeit: Aus „Alt“ mach „Neu“ oder „Reparatur“ statt „Neuanschaffung“
Digitale Fertigungsoptimierung für den Maschinen- und Anlagenbau
Wachstum durch Kundenorientierung: Das Geheimnis liegt in einem smarten Variantenkonfigurator
PLM aus der Cloud: flexibel, skalierbar, ready-to-run
ANZEIGE
Whitepaper
Vom 4-Stufen-Modell zum Regelkreis
Vollautomatische Feinplanung
Sales & Operations Planning (S&OP) mit der waySuite: Optimal aufeinander abgestimmte Absatz-, Projekt-, Produktions- und Beschaffungsplanung mit der waySuite
Smart Factory Elements
Mit Kennzahlen die Produktion im Griff
ANZEIGE
Videos
Erfolgreiche Asprova APS Einführung bei Strauss Café, zweitgrößter Kaffeehersteller in Polen
Integrierte Produktions- und Projektplanung beim Anlagenbauer Grenzebach GmbH
Erfolgreiche Asprova APS Einführung bei Danwood: Einer der größten Hersteller schlüsselfertiger Häuser in Euroapa.
Erfolgreiche Asprova APS Einführung bei Kontio, finnischer Hersteller von Blockhäusern
Mittelständische Unternehmen investieren selbst in schwierigen Zeiten in Microsoft-Technologien, weil sie überzeugt sind, dass ihre Mitarbeiterproduktivität steigt und sich ihre Kostenstruktur bessert. Microsoft hat mit dem Microsoft-Partner-Network ein Netzwerk aufgebaut, das ein Forum für den Aufbau von Partnerschaften, Zugang zu Ressourcen und einen Rahmen für Dialoge und Kooperationen bietet. Für unsere Leser gibt die Microsoft-Partnerübersicht in Ausgabe Juli/August der IT&Production Tipps für die Suche nach einer geeigneten Branchen- oder Speziallösung im Bereich des produzierenden Gewerbes.
Auf der Suche nach Innovation, nach neuen Lösungen und der Abgrenzung zum Mitbewerb vernetzen sich zunehmend mehr Unternehmen mit externen Experten und Partnern. SAP hat mit dem SAP-Ecosystem ein Netzwerk aufgebaut, das ein Forum für den Aufbau von Partnerschaften, Zugang zu Ressourcen und einen Rahmen für Dialoge und Kooperationen bietet. In der Maiausgabe der Fachzeitschrift IT&Production erhalten unsere Leser einen aktuellen Überblick zum SAP-Ecosystem im Bereich des produzierenden Gewerbes.
Immer mehr Anbieter von Maschinen, Automatisierungstechnik und Industriesoftware integrieren künstliche Intelligenz in ihre Produkte. Das ganze Potenzial spielen selbstlernende Systeme aber erst aus, wenn sie passgenau auf ihren Einsatz in Fertigung und Büro zugeschnitten wurden. Über beide Möglichkeiten, als Fertiger die Vorzüge von industrieller KI zu nutzen, geht es im regelmäßig aktualisierten Themenheft Künstliche Intelligenz.
Das Internet of Things verändert Produktwelten und die Vernetzung in der Fertigung gleichermaßen. Entstehende Ökosysteme laden zur einer neuen Form der Zusammenarbeit ein. Die Spezialausgabe IoT Wissen Kompakt informiert über die Technologie, Projektierung und Anbieter für die eigene Applikation, in- und außerhalb der Fabrik.
Um alle Potenziale eines MES umfassend ausnutzen zu können, beleuchten unsere Autoren in der Serie von MES Wissen Kompakt die erfolgskritischen Faktoren, um Fertigungsunternehmen präventiv zu steuern. Darüber hinaus präsentiert MES Wissen Kompakt ein breites Spektrum an Firmenportraits, Produkt- neuheiten und Dienst- leistungen im MES-Umfeld.
Ein Unternehmen, das sich mit der Auswahl eines ERP- Systems befasst, muss sich gleichsam mit einem viel- schichtigen Software-Markt und unklaren Interessen- lagen an interne Abwick- lungsprozesse auseinander- setzen. Guter Rat bei der Investitionsentscheidung ist teuer. ERP/CRM Wissen Kompakt unterstützt Sie bei der gezielten Investition in die IT-Infrastruktur.