Anzeige
Anzeige
Beitrag drucken

Fachliteratur per Algorithmus auswerten

Wissensaufbau mit Text-Mining

Viele produzierende Unternehmen investieren längst in Fertigungstechnik, die sich der Vision von cyber-physischen Systemen nähert. Doch das gibt es noch lange nicht von der Stange, sondern muss zum Teil auf Basis aktueller Forschungen adaptiert werden. Diese zeitaufwendige Arbeit wiederum können Text-Mining-Analysen unterstützen. Der Analytics-Spezialist Mayato hat sich mit solchen Modellen kürzlich einen Überblick zum Thema ‚Sensordatenanwendungen in der industriellen Fertigung‘ verschafft – und gibt Einblicke, wie sich Literaturreviews so deutlich beschleunigen lassen.

Abb. 1: Aufbau des Analysemodells für die automatisierte Literatursynthese (Bild: Mayato GmbH)

Abb. 1: Aufbau des Analysemodells für die automatisierte Literatursynthese (Bild: Mayato GmbH)

Unstrukturierte Daten aus natürlichsprachlichen Texten machen einen erheblichen Teil der in Unternehmen gespeicherten Informationen aus. Intern archiviert werden beispielsweise Korrespondenzen, Verträge, Berichte oder Studien mit Geschäftsrelevanz. Darüber hinaus sind unzählige Webseiten und Services extern über das Internet abrufbar, welche wertvolle branchenrelevante Informationen in Nachrichten, Produktreviews oder Pressemitteilungen enthalten können. Für die Analyse unstrukturierter Texte mit dem Ziel, Wissen effizient und effektiv aus einem vorliegenden Korpus abzuleiten, bietet Text Mining einige etablierte Methoden an. Mit statistischen Verfahren oder künstlicher Intelligenz wird den Texten dabei eine semantische Struktur verliehen, anhand welcher das Korpus durchsucht, zusammengefasst und beschrieben werden kann. Dadurch wird das Wissen aus den Texten schnell und einfach zugänglich gemacht und kann zudem breiter aufgenommen werden. Und genau darum ging es im vorliegenden Projekt: Anwendungsfälle und Herausforderungen der digitalen Fertigung mit Bezug zu Sensordatenanwendungen zu überblicken und den Experten bei Mayato einen unkomplizierten Zugang zu den in der Forschungsliteratur angebotenen Lösungskonzepten, Architekturen und Verfahren zu verschaffen. Dazu sammelte das Team Forschungsarbeiten aus Journalen wie dem Journal of Manufacturing Systems, dem Journal of Intelligent Manufacturing und dem Journal of Manufacturing Science and Engineering. Anhand eines zuvor entwickelten Analysemodells sollten die unterschiedlichen Quellen strukturiert und synthetisiert werden. Abbildung 1 stellt auf einem abstrakten Detaillevel den grundlegenden Aufbau des Analysemodells dar.

Abb. 2: Häufigste Wörter und Phrasen im analysierten Korpus (Bild: Mayato GmbH)

Abb. 2: Häufigste Wörter und Phrasen im analysierten Korpus (Bild: Mayato GmbH)

Analyseergebnisse

Noch bevor durch das Clustering der Literatursammlung automatisiert eine Struktur verliehen wird, gibt schon die Betrachtung der häufigsten Wörter Aufschlüsse über die wichtigen Themen, Methoden und Begriffe im Korpus. Neben alleinstehenden Wörtern können auch Phrasen aus mehreren Wörtern mit Hilfe künstlicher Intelligenz automatisch identifiziert und daraufhin gezählt werden. Diese Phrasen sind häufig besonders aussagekräftig. Abbildung 2 zeigt die häufigsten Wörter und Phrasen des in dem Anwendungsbeispiel analysierten Korpus. So lässt sich beispielsweise sofort erkennen, dass der Begriff der Echtzeit in diesem Korpus eine sehr wichtige Rolle spielt, oder dass neuronale Netze sehr häufig diskutiert werden. Auf Basis der häufigsten Worte und Phrasen kann ein erster Begriffskatalog für das Forschungsprojekt angelegt werden.

Abb. 3: Visualisierte Wortwolken (Bild: Mayato GmbH)

Abb. 3: Visualisierte Wortwolken (Bild: Mayato GmbH)

Wortwolken visualisieren Zusammenhänge

Weiterhin können vorab bereits die Themen aus einem Topic Model untersucht und bezeichnet werden. Für die Visualisierung bieten sich hier Wortwolken an, wie Abbildung 3 für einige Beispielthemen zeigt. Die Größe der Wörter gibt dabei jeweils deren Wichtigkeit für das jeweilige Thema an. So finden sich unter den Beispielthemen etwa die Themen ‚Messung der Werkzeugabnutzung beim Fräsen mit Vibrationssignalen‘ oder ‚Fehlererkennung in der Montage mit Videodaten‘. Experten können diese Themen mit Hilfe der Visualisierung sehr schnell einordnen und als ein in dem untersuchten Korpus vorhandenes Konzept mit Bezug zu den gegebenen Begriffen identifizieren.

Abb. 4: Beispiele aus dem Gesamtdendrogramm beschriftet mit Forschungstiteln (Bild: Mayato GmbH)

Abb. 4: Beispiele aus dem Gesamtdendrogramm beschriftet mit Forschungstiteln (Bild: Mayato GmbH)

 

Algorithmen übernehmen Synthese

Die Aufgabe des Analysemodelles für die automatisierte Synthese der Literatur ist im ersten Schritt, die in hochdimensionale Vektorrepräsentationen transformatierten Forschungsarbeiten hierarchisch zu clustern. Abbildung 4 zeigt das für das Anwendungsbeispiel aus dem Clustering resultierende Dendrogramm und macht für einige Beispiel-Cluster dessen Teil-Dendrogramm lesbar. Die vertikalen Linien in der Dendrogrammdarstellung zeigen, bei welchem Distanzschwellwert zwei Cluster in eines zusammengeführt wurden, während die horizontalen Linien Aufschluss über die Distanz zwischen den beiden Clustern geben. Für die Bildung der Cluster wird ein Distanzschwellwert gesetzt (vertikale gestrichelte Linie), welcher heuristisch oder empirisch bestimmt werden kann. Beispielsweise das erste oben gezeigte Cluster enthält Arbeiten, welche sich mit der Modellierung und Kompensation thermischer Fehler an Werkzeugmaschinen befassen, während das zweite Beispiel sich ausschließlich mit drahtlosen Sensornetzwerken befasst. Das Dendrogramm kann ebenfalls mit den als Kapitelüberschriften extrahierten Schlüsselwörtern beschriftet werden, wie Abbildung 5 zeigt. Jede Zeile entspricht hier den wichtigsten Schlüsselwörtern für das jeweilige Cluster. So sieht man beispielsweise in der zweiten Zeile, dass für das erste Beispiel oben sehr treffend die Schlüsselwörter ‚Real Time Compensation, CNC Machining Center, Thermal Error, Error Compensation‘ extrahiert wurden. Die Schlüsselwörter sind insgesamt sehr aussagekräftig: Wie das Beispiel zeigt, ist das Analysemodell dazu fähig, kohärente Literaturcluster zu bilden, wie sie ein Mensch unter hohem zeitlichem und kognitivem Aufwand auch bilden könnte. Das Dendrogramm liest sich dabei von oben nach unten wie das Inhaltsverzeichnis eines Buches. Die extrahierten Schlüsselwörter geben – wie Kapitelüberschriften – Aufschluss über die enthaltenen Themen. Es lassen sich leicht thematische Überschneidungen in nebeneinanderliegenden Clustern erkennen. Die Kapitelstruktur eines Literaturreviews kann sich so sehr eng an der Clusterbildung orientieren. Anhand der hierarchischen Struktur des Dendrogramms können die Cluster in Unterkapitel unterteilt werden oder auch in Überkapitel zusammengefasst. Für die weitere Arbeit mit den Forschungsarbeiten können die PDF-Versionen anhand der gefundenen Cluster in eine Ordnerstruktur abgelegt und strukturiert zugänglich gemacht werden. Die für das Literaturreview des Beispiels von Mayato gebildeten Hauptkapitel zeigt Abbildung 6 mit Referenz zu den Clustern im Dendrogramm. Insgesamt bieten die Ergebnisse des Analysemodells eine erhebliche Erleichterung, wenn es darum geht, hunderte oder tausende Forschungsarbeiten zu strukturieren und synthetisieren. Erschöpfende Literaturreviews können hiervon besonders profitieren, da sehr schnell ein strukturierter Überblick über das betrachtete Feld ermöglicht wird. Die Anfertigung des Literaturreviews und das Herauskristallisieren der wissenschaftlichen Erkenntnisse – unterstützt durch die Analyseergebnisse – bleibt schließlich kreative Aufgabe der Forscher.

Abb. 5: Gesamt-Dendrogramm beschriftet mit extrahierten Schlüsselwörtern (Bild: Mayato GmbH)

Abb. 5: Gesamt-Dendrogramm beschriftet mit extrahierten Schlüsselwörtern (Bild: Mayato GmbH)

Fundament für den Wissensaufbau

Literaturreviews sind ein unverzichtbarer Bestandteil von Forschungsprojekten und sie spielen eine wichtige Rolle für den Wissensaufbau in forschenden Unternehmen. Das vorgestellte Analysemodell kann Wissensarbeitern kognitiven Aufwand abnehmen, der sonst in die Analyse, Strukturierung und Synthese von Literatur fließen würde. Es erleichtert Forschern den Umgang mit großen Mengen an Literatur und kann einen wichtigen Beitrag zur Steigerung der Produktivität in der Review-Phase von Projekten leisten. Den Aufbau und die Organisation von Wissen im Unternehmen kann das Analysemodell damit unterstützen und beschleunigen.

Abb. 6: Gesamt-Dendrogramm mit den Kapitelüberschriften des Literaturreviews (Bild: Mayato GmbH)

Abb. 6: Gesamt-Dendrogramm mit den Kapitelüberschriften des Literaturreviews (Bild: Mayato GmbH)

Ansatz vielfältig übertragbar

Die Anwendungsfälle des Analysemodells sind jedoch nicht alleine auf die Literatursynthese in Forschungsprojekten beschränkt. Überall dort, wo große Mengen unstrukturierter Textdaten vorliegen, die es zu analysieren und zu verstehen gilt, kann das Analysemodell als Werkzeug eingesetzt werden. Bei den analysierten Texten kann es sich sowohl um unternehmensexterne Daten aus dem Web handeln, wie etwa um Foreneinträge oder Tweets über die Produkte des Unternehmens, die es im Interesse der Marketingabteilung zu analysieren gilt, als auch um unternehmensinterne Daten, wie Wartungsberichte für die Maschinen aus der Produktion, deren Analyse den Ingenieuren Verbesserungspotentiale in den Wartungsroutinen für weniger Maschinenstillstände aufzeigen können. Es ist außerdem denkbar, Suchmaschinen für unternehmensinterne Textdaten zu entwickeln, um für gegebene Queries die relevantesten Texte aus dem Unternehmen zurückliefern zu können.


Das könnte Sie auch interessieren:

Die Konsolidierung großer Datenmengen, um damit KI-Anwendungen für Produktionsprozesse zu entwickeln, fällt vielen Unternehmen noch schwer. Im Projekt ExDRa sollen Lösungen entstehen, die diesen Prozess spürbar vereinfachen. Dieser Text ist der Auftakt zu einer Artikelreihe zu den produktionsbezogenen Initiativen des vom BMWi geförderten Technologieprogramms Smarte Datenwirtschaft.‣ weiterlesen

Rockwell Automation hat einen neuen CTO. Zum 1 Juli hat Cyril Perducat das Amt des Chief Technology Officers übernommen.‣ weiterlesen

Um schon vor der Lieferung einer Werkzeugmaschine Einblicke in ihre Leistungsfähigkeit zu ermöglichen, arbeitet die Schweizer Starrag-Gruppe mit der NC-Simulationslösung Vericut. Anhand der ermittelten Daten lassen sich die für später angedachten NC-Programme feinjustieren, noch bevor die Maschine ihr Werk verlässt.‣ weiterlesen

Viele Firmen befassen sich gerade mit der Neuausrichtung Ihrer Lieferketten. Dabei bietet das europäische Estland auf einer Fläche so groß wie Niedersachsen beispielhafte Digitalisierungs- und Fertigungsexpertise. Zusammen mit dem vergleichsweise einfachen Marktzugang, der räumlichen Nähe und dem Rahmen der EU-Gesetzgebung dürfte das kleine Land ein zunehmend wichtiger Partner der hiesigen Industrie bei ihrer digitalen Transformation werden.‣ weiterlesen

Änderungen in Personalzeitwirtschaft und Entgeltabrechnung gehören im HR-Management zu den oft ungeliebten, aber dennoch regelmäßig anstehenden Aufgaben. Jede Änderung in den Betriebsvereinbarungen, Gesetzesnovellen oder tarifliche Neuregelungen verlangen die Überarbeitung von Schemen und Regeln in den Personalabteilungen. Und auch Adhoc-Änderungen müssen unmittelbar umgesetzt werden.‣ weiterlesen

ERP-Branchenlösungen sollen Standardgeschäftsprozesse und Spezialfunktionen unter einen Hut bringen. Innovachem für mittelständische Chemieunternehmen verbindet den Systemkern aus Basis von SAP S4/Hana etwa mit Modulen zur Rezepturentwicklung und Compliance-Prüfung. Das erspart so manche Programmierarbeit und Schnittstellenpflege.‣ weiterlesen

Aras Software hat einen neuen Geschäftsführer. Peter Schoppe hat mit Wirkung zum 1. Juli die Leitung des Plattformanbieters übernommen.‣ weiterlesen

Er ist schnell, leicht und verbraucht wenig Treibstoff: Der Hochgeschwindigkeits-Helikopter Racer kann Fluggeschwindigkeiten von bis zu 400km/h erreichen. Die Schalenbauteile seiner Außenhaut werden mit einem neuartigen Fertigungsverfahren hochautomatisiert hergestellt. Ein Forscherteam des Fraunhofer IGCV hat die Methode gemeinsam mit Airbus Helicopters entwickelt.‣ weiterlesen

Dualis hat den neuen Hauptsitz des Unternehmens in Dresden bezogen. Der reguläre Arbeitsbetrieb begann am 19. Juli.‣ weiterlesen

Kawasaki Gas Turbine Europe plant, produziert, installiert und wartet Gasturbinen. In Bad Homburg befindet sich das europäische Zentrallager des Tochterunternehmens von Kawasaki Heavy Industries. Um dort fehleranfällige Prozesse abzulösen, hat das Unternehmen eine Lagerwirtschaftslösung eingeführt, die alle Transportbewegungen dokumentiert.‣ weiterlesen

Störungen in der Lieferkette können schnell zu Problemen führen. Jaggaer hat vier Tipps zusammengestellt, wie Unternehmen Schwachstellen in der eigenen Lieferkette identifizieren können.‣ weiterlesen

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige