10. Februar 2022

Dokumentensammlungen analysieren

Daten schürfen mit Text Mining

Geschäftszahlen zu Umsätzen oder Zeitreihen in Maschinendaten lassen sich vergleichsweise einfach zu Kennzahlen verdichten. Aber auch komplexe Texte lassen sich durch Technik analysieren. Mit Text Mining werden externe oder interne schriftliche Dokumentensammlungen automatisch zu Informationen veredelt.

Im Jahr 1995 haben Ronen Feldman und Ido Dagan Text Mining als ‘Knowledge Discovery in Texts’ in der wissenschaftlichen Community eingeführt. Heute ist die damit verbundene Technik breiter gefächert, meint aber immer das automatisierte Ableiten bestimmter hochwertiger Informationen aus vorhandenen Textdokumenten. Im Zeitalter von Big Data ist die automatisierte Verarbeitung textueller Informationen für Unternehmen von steigender Bedeutung. Denn Text Mining eignet sich für die Analyse unternehmenseigener, aber auch externer Dokumente. So kann damit etwa Spam in eingehenden Nachrichten herausgefiltert werden, was die Cybersicherheit erhöht. Weitere Anwendungsfelder sind das unternehmensinterne Wissensmanagement oder die Bearbeitung von Kundenreklamationen bei Produkten. Ziel ist immer die Gewinnung neuer Erkenntnisse für eine bessere Entscheidungsfindung. Es lohnt sich genau zu prüfen, welche Möglichkeiten es gibt, wie die Methoden aussehen, und welche Ansätze für welche Zwecke erfolgversprechend sind.

Grundlegende Arbeitsweise

Textdaten sind nicht formalisiert und das Ergebnis kann sehr unterschiedlich ausfallen, da es keinen einheitlichen Analyseansatz gibt. Das macht den effektiven Einsatz von Text Mining ebenso herausfordernd wie nützlich. Entscheidend ist hierbei die Wahl passender Methoden. Generell unterscheidet man beim Text Mining für jedes Dokument verschiedene Phasen:

Bewertung der Relevanz zu einem vorgegebenen Thema oder einer Fragestellung,
Spezifikation sogenannter Entitäten wie etwa Namen von Personen oder Produkten,
Inhaltsanalyse bezüglich positiver oder negativer Bewertungen eines Themas,
Spezifikation der Beziehung zwischen Fakten und anderen Entitäten wie Namen.

Zunächst müssen die zu untersuchenden Dokumente gesammelt und standardisiert werden. Die Ziele dabei sind die permanente Dokumentenerfassung und Gewinnung von Strukturdaten, das Sammeln von Metadaten wie Titel, Autor, Quelle, Typ und Erstellungsdatum sowie die Standardisierung von Texten und Metadaten. Nur in seltenen Fällen werden alle Dokumente formatgleich aus einem einzigen Quellsystem gezogen. Müssen diese beispielsweise gescannt werden, liegen sie als PDF vor, stammen aus Webquellen oder werden manuell von Benutzern hochgeladen, ist eine vorbereitende Behandlung in das entsprechende Format notwendig, die jedoch die spätere Bearbeitung und Qualität der Ergebnisse beeinflussen kann. Ist nur ein Bruchteil der Dokumente bzw. Informationen relevant, empfiehlt sich eine Vorauswahl über einen Volltextindex und eine Liste von Schlüsselwörtern. Werden dagegen Daten aus mehreren Quellen gesammelt, ist es besser, gleich auf eine standardisierte Schnittstelle wie etwa Solr zur Volltextsuche zurückzugreifen.

KI in Fertigungsbranche vorn

Die neunte Ausgabe von Rockwell Automations „State of Smart Manufacturing“ Report liefert Einblicke in Trends und Herausforderungen für Hersteller. Dazu wurden über 1.500 Fertigungsunternehmen befragt, knapp 100 der befragten Unternehmen kommen aus Deutschland. ‣ weiterlesen

Klassifikation, Analyse und Training

Der relevante Dokumenten-Korpus wird dann einer Textnormalisierung und Vorverarbeitung unterzogen. Dabei werden die Texte nach Sätzen und Wörtern unterteilt. In vielen Sprachen müssen häufig vorkommende Stoppwörter, wie beispielsweise Artikel oder Präpositionen, herausgefiltert werden. Die verbleibenden Wörter werden auf ihre Grundform zurückgeführt. Die weitere Behandlung folgt mit unterschiedlichen Methoden, die jedoch auch in Kombination eingesetzt werden können, beispielsweise der Suche nach Entitäten und Beziehungen nach vorgegebenen Regeln sowie statistische Methoden und Machine Learning. Das Arbeiten mit Regeln wie ‘Suche nach Produktnamen, die innerhalb von drei Sätzen vor oder nach dem Firmennamen genannt werden’ funktioniert eher in analytischen Sprachen wie Englisch. Deutsch ist dagegen eine synthetische Sprache, bei der Beziehungen auch mit Hilfe von Wortformen ausgedrückt werden.

Texte in numerische Form wandeln

Alternativ werden Texte statistisch oder mit künstlicher Intelligenz analysiert. Dazu werden sie zunächst in Vektoren umgewandelt. Bei der einfachen One-HOT-Codierung wird jedem Wort ein Vektor zugeordnet, der an jeder Position, die dem Auftreten des Wortes im Sprachwörterbuch entspricht, einen Wert ungleich Null bekommt. Das führt jedoch zu einer äußerst hohen Dimensionalität. Diese kann mit der Word2vec-Methode reduziert werden, da dort Wörter gleicher Bedeutung gleiche Vektoren haben. Bag-of-Words kennzeichnet die Worthäufigkeit in einem Text, ignoriert aber dessen Struktur. Die TF-IDF-Methode gibt die Worthäufigkeit im zu untersuchenden Text relativ zur Häufigkeit dieses Wortes im Dokumenten-Korpus an.

Innovationstreiber Thin[gk]athon: Kollaborative Intelligenz trifft auf Industrie-Expertise

Der Thin[gk]athon, veranstaltet vom Smart Systems Hub, vereint kollaborative Intelligenz und Industrie-Expertise, um in einem dreitägigen Hackathon innovative Lösungsansätze für komplexe Fragestellungen zu generieren. ‣ weiterlesen

Entitäten und Beziehungen gesucht

Mit dem Hidden-Markov-Modell (HMM) wird ein statistisches Modell als gerichteter Graph erstellt. Alternativ bietet sich das Conditional-Random-Field (CRF) an. Für neuronale Netze steht Long-Short-Term-Memory (LSTM) zur Verfügung, bei dem der Kontext berücksichtigt wird. Alternativ kann die Datenextraktion auf der Basis von Mustern über Convolutional-Neural-Networks (CNN) erfolgen. Aus dem Machine Learning ist die Sliding-Window-Technik bekannt, bei der bestimmte Bereiche des Textes in einem Fenster betrachtet werden. Was außerhalb des Fensters liegt, wird demnach ignoriert – der Kontext weiter entfernter Entitäten wird also nicht erfasst.

Klassen und Themenmodelle

Soll Text Mining eine kurze Beschreibung der untersuchten Dokumente liefern, bieten sich unterschiedliche Algorithmen an. Die Latent-Dirichlet-Allocation (LDA) behandelt den Text als Kombination von Themen, die Latent-Semantic-Analysis (LSA) stellt den Dokumenten-Korpus als Term-Dokument-Matrix dar. Die Ergebnisse statistischer Modelle können über eine additive Regularisation von Themenmodellen (ARTM), bei der die Textstruktur besser berücksichtigt wird, weiterverarbeitet werden. Methoden des Machine Learning können die Ergebnisse von Algorithmen wie Bag-of-Words und TF-IDF weiterverarbeiten. Statistische Methoden und Machine Learning finden Zusammenhänge automatisch ohne vorgegebene Regeln. Zudem können dadurch komplexere Beziehungen aufgedeckt werden. Die Systeme agieren nach einmaligem Training universell, jedoch kann der Aufwand für die Erstellung eines Trainingssatzes recht hoch sein. Die vom System getroffenen Entscheidungen sind nicht immer verständlich, falsche Ergebnisse werden oft nicht erkannt.

Datenschätze gehoben

Text Mining bietet viele Techniken, Algorithmen und ein ganzes Universum an Möglichkeiten zur Verarbeitung von Textkonvoluten im geschäftlichen Interesse. Je nach Aufgabenstellung wird die Leistung der eingesetzten Methoden unterschiedlich ausfallen. Wer die Vor- und Nachteile der Methoden kennt, dürfte aber schnell die passenden Techniken für ein Text-Mining-Pilotprojekt im eigenen Unternehmen finden, neue Erkenntnisse gewinnen und Entscheidungen somit auf ein
datenbasiertes Fundament stellen.

Autoren: Alexander Isaenco ist Deputy CTO und Senior Architect bei WaveAccess.

News

Bild: ©Bussarin/stock.adobe.com

Marktanalyse von Horváth

Stehen humanoide Roboter bald am Fließband?

Humanoide Roboter könnten ab 2025 serienreif sein. Das prognostiziert die Managementberatung Horváth und geht weiter davon aus, dass sich mit diesen Robotern mehr als 50 Prozent der manuellen Tätigkeiten automatisieren lassen.
Weiterlesen: Stehen humanoide Roboter bald am Fließband?
Bild: ©sarayut_sy/stock.adobe.com

Mitglieder-Befragung des VDMA

Mehr Cyberangriffe, weniger Plagiatsfälle

Rund ein Viertel der Maschinen- und Anlagenbauer berichtet von signifikanten Cybersicherheitsvorfällen in den vergangenen zwei Jahren. Plagiatsfälle gingen in diesem Zeitraum hingegen zurück.
Weiterlesen: Mehr Cyberangriffe, weniger Plagiatsfälle
Bild: ©Alexander Limbach/stock.adobe.com

Kritik am Begriff ‚Industrie 5.0‘

Forschungsbeirat und Plattform Industrie 4.0 bleiben bei 4.0

Im Rahmen der Hannover Messe 2024 haben der Forschungsbeirat Industrie 4.0 sowie die Plattform Industrie 4.0 Stellung zum Umgang mit dem Begriff ‚Industrie 5.0‘ genommen.
Weiterlesen: Forschungsbeirat und Plattform Industrie 4.0 bleiben bei 4.0
Bild: PwC PricewaterhouseCoopers AG

Investitionsvorhaben mit KI steigen sprunghaft

Maschinenbau rechnet nicht mit Konjunkturerholung

Besorgt blicken die Entscheidungsträger im Maschinen- und Anlagenbau auf die konjunkturelle Entwicklung in Deutschland.
Weiterlesen: Maschinenbau rechnet nicht mit Konjunkturerholung
Bild: ©Thananit/AdobeStock.com

Open Source Foundations arbeiten zusammen

Sprint zur Cyber Resilience Act-Konformität

Wie erfüllt Open Source Software die Anforderungen des europäischen Cyber Resilience Act? Auf Basis etablierter Prozesse wollen die Apache Software Foundation, die Blender Foundation, die OpenSSL Software Foundation, die PHP Foundation, die Python Software Foundation, die Rust Foundation und die Eclipse Foundation eine gemeinsame Spezifikationen erstellen. Mitarbeit ist ausdrücklich erwünscht.
Weiterlesen: Sprint zur Cyber Resilience Act-Konformität
Bild: ©Gorodenkoff/AdobeStock.com

Expertise des Forschungsbeirats Industrie 4.0

Wie KI und Mensch im Team zusammenarbeiten

In einer neuen Expertise mit dem Titel ‘künstliche Intelligenz und industrielle Arbeit’ des Forschungsbeirats Industrie 4.0 zeigen das Fraunhofer IEM und das Fraunhofer IML Gestaltungsoptionen und Handlungsfelder auf, wie KI in der deutschen Industrie erfolgreich eingesetzt werden kann. Ziel ist sowohl eine Steigerung der Wettbewerbsfähigkeit als auch eine Aufwertung von Arbeitsplätzen.
Weiterlesen: Wie KI und Mensch im Team zusammenarbeiten
Bild: VDMA e.V.

Trendwende ab Herbst erwartet

VDMA: -7% für europäische Bildverarbeitungsindustrie

Basierend auf den neuesten VDMA-Umfragen, verzeichnete die europäische Bildverarbeitungsindustrie 2023 einen Umsatzrückgang von 7%. Die VDMA Fachabteilung Machine Vision rechnet mit einem weiteren Umsatzrückgang von 3% für das laufende Jahr.
Weiterlesen: VDMA: -7% für europäische Bildverarbeitungsindustrie
Bild: BITKOM e.V.

Umfrage im Vorfeld der Hannover Messe

Industrie noch zurückhaltend bei Manufacturing-X

Manufacturing-X ist vielen Unternehmen zwar ein Begriff. Allerdings haben sich bisher die meisten Industrieunternehmen noch nicht näher mit dem Datenökosystem befasst.
Weiterlesen: Industrie noch zurückhaltend bei Manufacturing-X
Bild: VDI Verein Deutscher Ingenieure e.V.

VDI/IW Ingenieurmonitor

159.000 offene Stellen in Ingenieurberufen

Die Zahl der offenen Stellen in Ingenieurberufen bewegt sich im vierten Quartal 2023 weiter auf hohem Niveau. Besonders Berufsfelder mit Klimaschutz- und Digitalisierungsbezug weisen im aktuellen VDI/IW-Ingenieurmonitor eine hohe Engpasskennziffer auf.
Weiterlesen: 159.000 offene Stellen in Ingenieurberufen
Bild: in-tech GmbH

Für Kunden ändert sich nichts

Infosys übernimmt In-tech

In-Tech wird Teil von Infosys. Dies gaben die Unternehmen am Donnerstag bekannt. Der Abschluss der Übernahme wird für das zweite Quartal 2024 erwartet.
Weiterlesen: Infosys übernimmt In-tech
Bild: Ifo-Institut

Materialverfügbarkeit nähert sich dem Vor-Corona-Niveau

Die deutsche Industrie hat kaum noch mit Materialknappheit zu kämpfen. Laut Ifo Institut bewegt sich die Materialverfügbarkeit in Richtung Vor-Corona-Niveau.
Weiterlesen: Materialverfügbarkeit nähert sich dem Vor-Corona-Niveau
Bild: Frauenhofer IGD

Training leicht gemacht

KI mit synthetischen Daten anlernen

Technologien auf Basis künstlicher Intelligenz (KI) benötigen Trainingsdaten. Diese zügig und in ausreichender Stückzahl zu generieren, stellt Anwender in der verarbeitenden Industrie oft vor Herausforderungen. Das Fraunhofer IGD arbeitet daher mit synthetisch erzeugten Trainingsdaten.
Weiterlesen: KI mit synthetischen Daten anlernen
Bild: ©Rymden/stock.adobe.com

Studie von Grammarly und Statista

11,5 Tage Produktionsverlust durch ineffiziente Kommunikation

Ineffiziente Kommunikation im Unternehmen führt laut einer Studie von Grammarly zu einem Produktionsverlust von mehr als 11 Tagen pro Jahr. Die dafür befragten Fachkräfte berichten zudem, dass sie einen große Teil der Wochenarbeitszeit für die Kommunikation über unterschiedliche Plattformen aufwenden.
Weiterlesen: 11,5 Tage Produktionsverlust durch ineffiziente Kommunikation
Bild: ©Karl J. Donath

Untersuchung der TU Dresden

Warum menschenähnliche Chatbots anders beleidigt werden

Virtuelle Assistenten, sogenannte Chatbots, kommen auf vielen Unternehmenswebseiten zum Einsatz. Eine Studie der TU Dresden hat untersucht, ob Fehler von Chatbots zu aggressivem Verhalten bei ihren Nutzerinnen und Nutzern führen und welchen Einfluss die vermeintliche Menschlichkeit der virtuellen Assistenten auf die Reaktionen hat.
Weiterlesen: Warum menschenähnliche Chatbots anders beleidigt werden
Vernetzung und Datenanalyse

Valantic und Forcam Enisco vereinbaren strategische Partnerschaft

Das Beratungs- und Software-Haus Valantic und der Softwarespezialist Forcam Enisco mit Sitz in Böblingen haben eine strategische Partnerschaft geschlossen. Schwerpunkt der Kooperation soll auf Vernetzungs- und Analyse-Produkten für Fertiger liegen.
Weiterlesen: Valantic und Forcam Enisco vereinbaren strategische Partnerschaft

Reihe Wissen Kompakt

MES Manufacturing Execution Systems

Um alle Potenziale eines MES umfassend ausnutzen zu können, beleuchten unsere Autoren in der Serie von MES Wissen Kompakt die erfolgskritischen Faktoren, um Fertigungsunternehmen präventiv zu steuern. Darüber hinaus präsentiert MES Wissen Kompakt ein breites Spektrum an Firmenportraits, Produkt- neuheiten und Dienst- leistungen im MES-Umfeld.
ERP und CRM

Ein Unternehmen, das sich mit der Auswahl eines ERP- Systems befasst, muss sich gleichsam mit einem viel- schichtigen Software-Markt und unklaren Interessen- lagen an interne Abwick- lungsprozesse auseinander- setzen. Guter Rat bei der Investitionsentscheidung ist teuer. ERP/CRM Wissen Kompakt unterstützt Sie bei der gezielten Investition in die IT-Infrastruktur.
KI Künstliche Intelligenz

Immer mehr Anbieter von Maschinen, Automatisierungstechnik und Industriesoftware integrieren künstliche Intelligenz in ihre Produkte. Das ganze Potenzial spielen selbstlernende Systeme aber erst aus, wenn sie passgenau auf ihren Einsatz in Fertigung und Büro zugeschnitten wurden. Über beide Möglichkeiten, als Fertiger die Vorzüge von industrieller KI zu nutzen, geht es im regelmäßig aktualisierten Themenheft Künstliche Intelligenz.
IIoT Industrial Internet of Things

Das Internet of Things verändert Produktwelten und die Vernetzung in der Fertigung gleichermaßen. Entstehende Ökosysteme laden zur einer neuen Form der Zusammenarbeit ein. Die Spezialausgabe IoT Wissen Kompakt informiert über die Technologie, Projektierung und Anbieter für die eigene Applikation, in- und außerhalb der Fabrik.

Partner-Netzwerke

Microsoft-Partner

Mittelständische Unternehmen investieren selbst in schwierigen Zeiten in Microsoft-Technologien, weil sie überzeugt sind, dass ihre Mitarbeiterproduktivität steigt und sich ihre Kostenstruktur bessert. Microsoft hat mit dem Microsoft-Partner-Network ein Netzwerk aufgebaut, das ein Forum für den Aufbau von Partnerschaften, Zugang zu Ressourcen und einen Rahmen für Dialoge und Kooperationen bietet. Für unsere Leser gibt die Microsoft-Partnerübersicht in Ausgabe Juli/August der IT&Production Tipps für die Suche nach einer geeigneten Branchen- oder Speziallösung im Bereich des produzierenden Gewerbes.
SAP-Partner

Auf der Suche nach Innovation, nach neuen Lösungen und der Abgrenzung zum Mitbewerb vernetzen sich zunehmend mehr Unternehmen mit externen Experten und Partnern. SAP hat mit dem SAP-Ecosystem ein Netzwerk aufgebaut, das ein Forum für den Aufbau von Partnerschaften, Zugang zu Ressourcen und einen Rahmen für Dialoge und Kooperationen bietet. In der Maiausgabe der Fachzeitschrift IT&Production erhalten unsere Leser einen aktuellen Überblick zum SAP-Ecosystem im Bereich des produzierenden Gewerbes.

News

Baustart für neues MPDV-Gebäude in Mosbach

Am Unternehmenssitz in Mosbach errichtet MPDV ein neues Bürogebäude. Auf…
Nachhaltigkeitsthemen im Datenmanagement abbilden

Technologien wie Robotic Process Automation (RPA) oder künstliche Intelligenz (KI)…