Big Data

Die Daten beherrschen

Durch die Anwendung von modernen Big Data-Technologien kann jedes Industrieunternehmen profitieren, das komplexe Produkte herstellt. Big Data-Analysen großer Datenmengen sind nur mit komplexer Technologie möglich. Dieser Beitrag gibt Einblick in Voraussetzungen und Abläufe für solche Analysen



Bild: ©alphaspirit/Fotolia.com

Durch die Anwendung von modernen Big Data-Technologien kann jedes Industrieunternehmen profitieren, das komplexe Produkte herstellt. Immer wieder fällt auf, dass die Herstellungskosten pro Tonne oder Stück stark schwanken und keiner weiß, warum das so ist. Hier können moderne Big Data-Technologien Antworten liefern. Zum geringsten Kostensatz zu produzieren, der jemals aufgetreten ist, kann in höchstem Maße überlebensrelevant für viele Unternehmen sein, die im harten internationalen Preiskampf stehen. Der Vorteil von modernen Big Data-Technologien im Vergleich zu den klassischen statischen Methoden der Vergangenheit liegt darin, dass Daten aus der Produktion verwendet werden können, die häufig schon vorliegen. Doch das Beherrschen der Datenmenge und die Anwendung der richtigen Big Data-Analyse konfrontiert Unternehmen mit komplexen Technologien. Hier den Überblick zu behalten und die richtigen Entscheidungen zu treffen, ist eine zentrale Herausforderung. In diesem Artikel werden die Voraussetzungen und Abläufe (Workflows) zur systematischen Analyse großer Datenmengen aus der produzierenden Industrie beschrieben.

Systematische Analyse

Ein großer Teil der Daten stammt aus technischen Produktionsverfahren, sodass die Datenwerte als Zeitreihen mit Zeit- und Datumsstempel bereitstehen. Die Datenanalyse – ein Teil der hier beschriebenen Verfahren wird auch als Data Mining bezeichnet – dient der Erzeugung von Modellen, die zur Analyse der betrachteten technischen Produktionsprozesse und deren Verbesserung und Optimierung genutzt werden. Bei der hier beschriebenen Vorgehensweise wird die aus Six Sigma bekannte DMAIC-Methodik verwendet, um Big Data-Projekte und die zu deren erfolgreichen Abwicklung notwendigen Voraussetzungen und Einzelschritte durchzuführen sowie den Erfolg zu bewerten. Diese Vorgehensweise orientiert sich in seiner Grundstruktur an dem DMAIC-Ablauf. Neben diesem methodischen Ansatz sind auch andere Ansätze (zum Beispiel CRISP-DM) anwendbar.

Ziele definieren

Der Define-Schritt erfolgt in Übereinstimmung mit klassischen Six Sigma-Projekten. Projektziele werden definiert, Prozesse grob dargestellt und die wichtigsten Kundenanforderungen ermittelt. Es entstehen erste Hypothesen über die in den Daten vermuteten Zusammenhänge. Das Projekt wird strukturiert und führt zu einer Modellbildung. Es ist sachdienlich, System- beziehungsweise Bilanzabgrenzungen zu definieren. Der zweite Schritt Measure kann bei technischen Projekten sehr aufwendig sein, da es hier von großer Bedeutung ist, sich über Kausalitäten und Messgenauigkeiten Gedanken zu machen. Es wird zwischen Projekten unterschieden, die eine Erhebung aktueller Daten erfordern und Projekten, bei denen existierende Daten (historische Daten) in ausreichender Menge und Qualität für eine Modellierung vorhanden sind.

Während in klassischen Six Sigma-Projekten einfache Statistik wie allgemeines lineares Modell oder Regressionsverfahren einsetzt wird, werden bei Big Data über diese Verfahren hinaus sehr komplexe mathematische Algorithmen und Verfahren verwendet (zum Beispiel neuronale Netze), um aus aufbereiteten Daten Modelle oder Aussagen zu extrahieren. Es wird ein neuer Workflow eingeführt, der die notwendigen Arbeitsschritte systematisiert und strukturiert. Gegenüber den klassischen Methoden des Six Sigma, wie Kreativitätstechniken, systematische Auswahlmethoden (Pugh Matrix, Wertanalyse et cetera) sowie statistische Versuchsplanung/Regression, bieten neue mathematische Methoden weitere Möglichkeiten. Sofern aus der Big Data-Analyse valide Modelle erstellt werden, können diese als Softsensoren oder Modelle für APC-Methoden genutzt werden. Dadurch wird der klassische Six Sigma-Werkzeugkasten um moderne Prognose- und Analysemethoden erweitert, die hauptsächlich in der Prozessindustrie angewendet werden. Die zuvor genannten klassischen Six Sigma-Statistikmethoden haben sich in der Prozessindustrie als nicht ausreichend herausgestellt.

Ökonomisch bewertet

Im Schritt Control werden die durchgeführten Maßnahmen in Übereinstimmung mit der Six Sigma-Methode geprüft und ökonomisch bewertet. Darüber hinaus findet ein Wissenstransfer innerhalb der Organisation statt. Der Schritt Control erfordert eine Änderung im Performance Management-System. Die Beurteilung des Systems erfolgt immer im objektiven Vergleich zu den vorher definierten Projektzielen, wobei finanzielle Kennzahlen im Vordergrund stehen. Die Fahrweise, Verantwortlichkeiten und auch regelmäßiger Reviews sind in einer Weise zu planen, dass der Erfolg nicht nur objektiv wirtschaftlich gemessen werden kann, sondern auch dauerhaft erhalten bleibt. Die typischen Ziele eines Six Sigma und damit eines Big Data-Projektes sind: Reduzierung der Kosten (meist relative Herstellungskosten des Produktes), Verbesserung der Qualität des Produkts sowie Maximierung der erzeugten Produktmenge. Nebenziele, wie die Reduzierung der Umweltbelastung, werden vereinfacht und in die relativen Herstellungskosten eingerechnet.

Diese drei Ziele sind bei typischen technischen Anwendungen nicht vollständig gleichzeitig erreichbar, sondern schließen sich gegenseitig teilweise aus. Diese Tatsache findet in Zielfunktionen und Schranken ihren Ausdruck, die möglichst beim Projektbeginn zu definieren sind. In der Praxis liegen die Daten in unterschiedlichen Quellen vor, beispielsweise in Laborinformations- und Managementsystemen (LIMS), Enterprise Resource Planning-Systemen (ERP), Manufactoring Execution-Systemen (MES), in lokalen Speicherungen in Prozessleitsystemen oder Steuerungen (PLS, SPS, SCADA), in Betriebsdateninformationssystemen (BDIS), in kleineren Datensammlungen einzelner Bearbeiter in Office-Software oder in papierhaften Dokumenten wie Batch Reports in der Pharmaindustrie. Diese Daten müssen exportiert, in ein einheitliches geeignetes Format und eine geeignete Struktur übersetzt und zu einer einzigen Datenbasis kombiniert werden, um sie gemeinsam zu analysieren. Es wird empfohlen, die Daten mit äquidistanten zeitlichen Abständen und mit einheitlichen Zeitstempeln abzulegen und es – so weit möglich – zu vermeiden, dass unvollständige Zeilen in den Datensätzen enthalten sind. Optimal ist es, wenn zu jedem Zeitstempel für jede Variable ein Messwert vorhanden ist.

Fehler bereinigen

Je nach Quellformat und Zielformat kann es erforderlich sein, bestimmte Fehler in den Daten zu bereinigen. Beispielsweise ist es möglich, in Tabellenkalkulationen Texte in Zellen einzutragen, die eigentlich Zahlenwerte aufnehmen sollten (also Einträge wie ‘nicht nachweisbar’ oder ‘Null’ statt ‘0’). Wenn als Grundlage der Datenanalyse ein Datenbankformat ausgewählt wurde, ist das nicht möglich, und die betreffenden Texte müssen entweder in Zahlenwerte umgewandelt werden oder an anderer Stelle dokumentiert werden. Um die Information vollständig zu erhalten, muss der Export unveränderte Rohdaten umfassen, was insbesondere die Speicherung im Change Driven-Verfahren ausschließt oder stark einschränkt (Verzicht auf Interpolation). Bei Einsatz solcher Verfahren zur Datenverdichtung muss der Informationsverlust zumindest durch vernünftige Konfiguration so weit eingeschränkt werden, dass wichtige Informationen für die Datenanalyse oder Modellierung nicht verloren gehen. Wichtig ist neben der genauen Bezeichnung jeder gemessenen Größe auch der Export der exakten Stückzuordnung, Batchzuordnung und Zeitstempel der Messungen, anhand derer die Daten dann mit Daten aus anderen Quellen kombiniert werden können. Am Ende steht eine Datenbasis zur Verfügung, in der jedes gemessene Merkmal eine Spalte in einer Tabelle darstellt. Weitere Spalten bezeichnen Zeitpunkt, Stückzuordnung und Batchzuordnung (soweit relevant). Jede Zeile ist einem Zeitstempel (Stück, Batch et cetera) eindeutig zugeordnet.

Analyse und Modellierung

Liegen kausalrichtige Datensätze vor, aus denen alle inkonsistenten und redundanten Zustände entfernt sind, kann an diesen Datensätzen nun die eigentliche Analyse durchgeführt werden. Zur Analyse gibt es eine ganze Reihe statistischer Methoden, die Korrelationen auffinden können und diese in Form von Modellen für die Optimierung des Prozesses nutzbar machen können. Der einfachste Weg zum Auffinden von Ursachen und Wirkungen in einem Prozess sind Korrelationsanalysen. Es empfiehlt sich in jedem Falle immer als ersten Schritt die Anwendung dieser Verfahren, um eine Orientierung zu erhalten, welche Variablen wichtig für einen Prozess sind und welche nicht. Die Korrelationsverfahren sind für die Beurteilung unbekannter Zusammenhänge sehr wichtig, sollten jedoch immer mit vorhandenem A-priori-Wissen über Prozesszusammenhänge kombiniert werden. Dieses Prozesswissen ist bei der Nutzung solcher Methoden wichtig, um sie mit Erfolg verwenden zu können. Zudem ist auch zu beachten, dass eine Korrelation keine Kausalität sein muss, jedoch auf eine solche hinweisen kann. Auch diese Beurteilung erfordert fundamentales Prozesswissen. Im einfachsten Falle sind Korrelationen deutlich und linear; im komplexesten Falle sind sie nichtlinear und mehrdimensional. Im neuen kostenlosen VDI-Statusreport Chancen mit Big Data Best Practice werden die typischen Verfahren zur Ermittlung von Korrelationen vorgestellt. Sie gehen von sehr einfachen Verfahren bis zu den komplexesten Verfahren, die erst in den letzten Jahren entwickelt wurden.