Analyse und Modellierung

Wie Daten sprechen lernen

F?r jedes Unternehmen kann durch die Anwendung von Big Data-Technologien ein Nutzen erzielt werden. Hierzu gilt es die Daten beispielsweise aus der Produktion, die meist schon vorliegen, zu erfassen, zu analysieren und Modelle zu erzeugen, die zur Analyse der betrachteten technischen Produktionsprozesse und deren Verbesserung genutzt werden k?nnen. In der Novemberausgabe 2016 der IT&Production zeigte ein Fachbeitrag, wie die Datens?tze zur Analyse aufzubereiten sind. In diesem zweiten Teil werden die Analyse und die Modellierung beschrieben.



Bild: VDI Verein Deutscher Ingenieure e.V.

Liegen kausalrichtige Datens?tze vor, kann die eigentliche Analyse durchgef?hrt werden. Zur Analyse gibt es eine ganze Reihe statistischer Methoden, die Korrelationen auffinden und diese in Form von Modellen f?r die Optimierung des Prozesses nutzbar machen k?nnen. Der einfachste Weg zum Auffinden von Ursachen und Wirkungen in einem Prozess sind Korrelationsanalysen. Es empfiehlt sich in jedem Falle als ersten Schritt immer die Anwendung dieser Verfahren, um eine Orientierung zu erhalten, welche Variablen wichtig f?r einen Prozess sind und welche nicht. Die Korrelationsverfahren sind f?r die Beurteilung unbekannter Zusammenh?nge sehr wichtig, sollten jedoch immer mit vorhandenem A-priori-Wissen ?ber Prozesszusammenh?nge kombiniert werden. Dieses Prozesswissen ist bei der Nutzung solcher Methoden wichtig, um sie mit Erfolg verwenden zu k?nnen. Zudem ist auch zu beachten, dass eine Korrelation keine Kausalit?t sein muss, jedoch auf eine solche hinweisen kann. Auch diese Beurteilung erfordert fundamentales Prozesswissen.

Korrelationen ermitteln

Im einfachsten Falle sind Korrelationen deutlich und linear; im komplexesten Falle sind sie nichtlinear und mehrdimensional. Die folgenden Methoden sind die typischen Verfahren zur Ermittlung von Korrelationen und gehen von sehr einfachen Verfahren bis zu den komplexesten Verfahren, die erst in den letzten Jahren entwickelt wurden. In einem zweidimensionalen Koordinatensystem werden die Daten entsprechend zweier, in der Regel stetig verteilter zu korrelierender Merkmale aufgetragen (Bild oben). Dieser Diagrammtyp ist nicht gut f?r die Darstellung von diskreten Daten geeignet, da die sich ergebende ?berlagerung der Punkte die Interpretation erschwert. Durch farbliche Codierung oder Symbole kann eine weitere Dimension in das Diagramm eingebracht werden. Das ist dann in der Regel ein diskretes Merkmal, zum Beispiel der Lieferant eines Rohstoffs. Das menschliche Auge erkennt in solchen Diagrammen sehr schnell auch nichtlineare Zusammenh?nge, die bei der linearen Korrelationsanalyse nicht erkannt werden. In der Datenanalyse entlang einer gesamten Produktionskette tritt immer wieder der Fall auf, dass man sehr viele Variablen hat und die Zahl der F?lle vergleichsweise gering ist.

Die Diskriminanzanalyse

In diesem Stadium der Analyse ist eine Vorauswahl der signifikanten Variablen mithilfe einer Diskriminanzanalyse sinnvoll. Hierzu ist die Einteilung der Zielgröße in verschiedene Klassen notwendig. Oftmals bietet sich die Einteilung in oder außerhalb der Spezifikation an. Hierbei ist bei gut geführten Prozessen darauf zu achten, dass beide Gruppen für die Analyse ausreichend viele Fälle aufweisen. Selbst gewählte Einteilungen wie ?gut?, ?sehr gut?, ?schlecht? legen die Basis für eine erfolgreiche Analyse. Die Diskriminenzanalyse sucht nach einer Linearkombination von Variablen, die eine möglichst gute Trennung der Gruppen erlauben. Darstellen lassen sich die Trennungen mithilfe von kategorisierten Streudiagrammen, bei denen die einzelnen F?lle farblich sichtbar werden, und mithilfe von Parallelkoordinaten. Auch Entscheidungsb?ume mit den automatisch gew?hlten Variablen helfen beim Prozessverst?ndnis und bei der weiteren Analyse. Ebenso k?nnen hier Assoziations- und Abweichungsanalyse-Methoden helfen, um wichtige Einflussgrößen zu analysieren, und Zusammenhänge in charakteristischen Subgruppen zu identifizieren. Im Bild auf der rechten Seite wurde eine Analyse eines dreistufigen Produktionsprozesses mit mehr als 100 Prozessparametern untersucht. Die Diskriminanzanalyse ergab eine signifikante Trennung von ?sehr guten? und ?guten? Anwendungstests von einer Gruppe eher ?schlechter? Anwendungstest. Aufbauend auf diesen Erkenntnissen konnte dann der Prozess weiter analysiert werden und ähnliche Variablen für die Beschreibung des Ergebnisses des Anwendungstests gefunden werden. Zur einfachen ersten Visualisierung der Zusammenh?nge zwischen mehreren Variablen in Prozessen kann es hilfreich sein, die Datens?tze in einem Parallelkoordinatensystem zu visualisieren. Insbesondere, wenn es einfache Zusammenh?nge gibt und wenige Datens?tze gegeben sind, kann diese Analysemethode sehr schnell hilfreich sein. Ebenso gibt sie eine erste Orientierung ?ber Zusammenh?nge. Durch F?rbung (Schichtung) verschiedener Produkttypen, Ausbeuten oder Betriebszust?nde lassen sich sofort einfache Zusammenh?nge erkennen, die in Betriebsanweisungen umgesetzt werden k?nnen. Entscheidungsb?ume sind eine Methode zur formalen Darstellung von Entscheidungsproblemen und Regeln zu deren L?sung. Werden sie aus Datens?tzen automatisch generiert, k?nnen sie Daten in formale Entscheidungen umwandeln und diese verdeutlichen.



Eine Vorauswahl der signifikanten Variablen mithilfe einer Diskriminanzanalyse kann im fr?hen Stadium der Analyse sinnvoll sein. Bild: VDI Verein Deutscher Ingenieure e.V.

Knoten und logische Regeln

Ein Entscheidungsbaum hat immer einen Wurzelknoten und einen bis mehrere innere Knoten sowie mindestens zwei Bl?tter. Jeder Knoten repr?sentiert eine logische Regel und jedes Blatt steht f?r eine Antwort auf das Entscheidungsproblem. Entscheidungsb?ume sind die logische Folge einer Prozessanalyse mit Parallelkoordinaten, in dem sie daraus logische Entscheidungsdiagramme generieren. Daraus folgt, dass diese Algorithmen nur dann erfolgreich eingesetzt werden, wenn die Resultate der Prozessanalyse mit Parallelkoordinaten eindeutig ausfallen. Die Komplexit?t der Regeln ist bei Entscheidungsb?umen unbeschr?nkt. Bei bin?ren Entscheidungsb?umen kann jede Regel nur einen von zwei Werte annehmen. Alle Entscheidungsb?ume lassen sich immer in bin?re Entscheidungsb?ume ?berf?hren. Entscheidungsb?ume k?nnen entweder von Experten manuell erstellt oder mithilfe von Techniken des maschinellen Lernens automatisch aus Beispieldatens?tzen generiert werden. F?r diese Induktion gibt es mehrere konkurrierende Algorithmen. Stark miteinander korrelierende Eingangsvariablen können redundante Informationen enthalten, das heißt eine der beiden Variablen wäre dann zweckmäßigerweise von der weiteren Datenanalyse auszunehmen. Im Extremfall ? bei exakter Übereinstimmung ? ist schließlich gar nicht erkennbar, welche der beiden variablen Ursache f?r eine gemachte Beobachtung ist und eine gemeinsame Analyse damit zwecklos ist. Sollen stark korrelierende Eingangsmerkmale untersucht werden, kann die Korrelation durch Berechnungen wie das Verh?ltnis oder die Differenz der Variablen aufgehoben und die Datenanalyse so erleichtert werden. Das statistische Ma? der Korrelation ist nicht eindeutig interpretierbar, weil es linear und eindimensional ist und somit nur einen sehr begrenzten Einblick in tats?chliche Zusammenh?nge erm?glicht, die ja zum Beispiel nichtlinear sein k?nnen. Es gibt aber gute erste Hinweise auf bestehende Zusammenh?nge. Gibt es eine hohe Korrelation zwischen Ein- und Ausg?ngen, ist es eventuell sinnvoll, die Differenz zwischen der Zielgr??e und dem Vielfachen der Einflussgr??e zu modellieren. Mittels der Assoziationsanalyse kann das gemeinsame h?ufige Vorkommen kategorialer oder bin?rer Variablen untersucht werden. Dazu eignen sich grunds?tzlich einfache Verfahren wie Assoziationsregeln, die ausgehend von einer Kombination von bin?ren (beschreibenden) Variablen eine Kombination von Zielvariablen mit einem vorgegeben Mindestsupport und einer gewissen Konfidenz vorhersagen. Dabei ist die Konfidenz durch den relativen Anteil der Zielvariablen in der Subgruppe der Datenmenge gegeben, der Mindestsupport durch deren Gr??e, die durch die beschreibenden Variablen definiert wird. Im Vergleich zu Assoziationsregeln ist die Subgruppenentdeckung eine m?chtigere Methode, um auch mit analogen Variablen, also kontinuierlichen Messgr??en umgehen zu k?nnen. Bei der Subgruppenentdeckung geht es darum, m?glichst interessante Subgruppen hinsichtlich eines bestimmten Zielkonzepts zu identifizieren, beispielsweise f?r eine analoge Messgr??e Ausschussrate als Zielvariable. Grunds?tzlich wird meist auf m?glichst gro?e Subgruppen mit einer m?glichst hohen Abweichung dieser Zielvariablen im Vergleich zur Gesamtdatenmenge abgezielt. Im bin?ren Fall wird der Anteil der Zielvariablen in der Subgruppe betrachtet, die durch die beschreibenden Variablen (zum Beispiel Parameter Druck und Temperatur) gegeben ist. Diese Beschreibung kann als Kondition einer Regel aufgefasst werden, die Konklusion der Regel als das Zielkonzept.

Komplexe Zusammenh?nge

Die Interessantheit wird durch eine Qualit?tsfunktion definiert. Bei analogen Zielgr??en kann hier einfach der Durchschnitt ?ber die Datenmenge der Subgruppe gebildet werden, um m?glichst auff?llige Subgruppen zu identifizieren. Assoziations- und Abweichungsanalyse kann damit als eine Technik zur initialen Untersuchung komplexerer Zusammenh?nge dienen. Diese werden als leicht interpretierbare Regeln pr?sentiert. Im Vergleich zu Entscheidungsb?umen werden diskriminierende Regeln f?r ein Zielkonzept bestimmt, die lokal f?r sich stehen, und auch losgel?st von den anderen Regeln betrachtet werden k?nnen. Damit liegt der Vorteil der Subgruppenentdeckung auch darin, komplexe Probleme einer ?bersichtlichen Menge von Subgruppen abzubilden, die verst?ndlich sind, um Prozesskenntnis generieren. Subgruppenentdeckung l?sst sich beispielsweise auch als statistischer Plausibilit?tsfilter nutzen, um lokale Abweichungen zu entdecken. Eine wichtige Anwendung in technischen Produktionsprozessen ist beispielsweise auch die Fehleranalyse, in der Einflussgr??en f?r Zielvariablen wie Ausschuss- oder Reparaturrate mittels Subgruppenentdeckung analysiert werden. Die Hauptkomponentenanalyse (PCA) ist ein mathematisches Verfahren der multivariaten Statistik, bei dem vieldimensionale Daten in einem gedachten Koordinatensystem so gedreht werden, dass f?r jede Achse eine m?glichst hohe Varianz erreicht wird. Nach dieser Rotation entsprechen die Achsen nicht mehr bestimmten physikalischen Gr??en, sondern jeweils einer Linearkombination mehrerer Variablen. Die Linearkombinationen mit der h?chsten Varianz werden als Hauptkomponenten bezeichnet.

Variablen reduzieren

Durch die PCA kann die Zahl von Variablen reduziert werden, weil eine geringe Anzahl von Komponenten meist ausreicht, um die vieldimensionalen Daten mit ihrer gesamten Varianz abzubilden. Das Ergebnis einer PCA ist nicht immer klar interpretierbar. Wenn physikalisch ähnliche oder miteinander zusammenhängende Größen zu einer Hauptkomponente beitragen, kann man diese mit einem sprechenden Namen bezeichnen (zum Beispiel ?Größe?, wenn die variablen Länge, Breite und Höhe eines Werkstücks am meisten zu einer Komponente beitragen). Kann eine solche Bezeichnung nicht gefunden werden, bleibt die Komponente abstrakt und die Interpretation sowohl der PCA an sich, als auch eventuell nachfolgender Datenanalysen ist erschwert. Mutual Information (auch Transinformation, Synentropie oder gegenseitige Information) ist eine Gr??e aus der Informationstheorie, die im Zusammenhang von Big-Data-Projekten angibt, wie viel Information eine (Eingangs-)Variable ?ber eine andere (Ausgangs-) Variable enth?lt. Sie ist maximal, wenn eine der Variablen sich aus der jeweils anderen berechnen l?sst. Sie ist minimal, wenn die untersuchten Variablen statistisch unabh?ngig sind. Bei einer Mutual-Information-Analyse wird zun?chst die wichtigste Eingangsvariable f?r die Zielgr??e ermittelt, das hei?t die Variable mit dem gr??ten Informationsgehalt ?ber die Zielgr??e. F?r das dann noch fehlende Ma? an Information wird wiederum die wichtigste Eingangsvariable gesucht und so weiter, bis ein m?glichst gro?er Anteil der notwendigen Information vorliegt, um die Zielgr??e zu bestimmen. Auf diese Weise werden die wichtigsten Variablen f?r die weitere Datenanalyse ermittelt. Der Begriff Entropie aus der shannonschen Theorie ist eine Ma?zahl f?r die Informationsdichte oder den Informationsgehalt von zu untersuchenden Datenreihen. Die Informationsdichte berechnet sich aus der Wahrscheinlichkeitsverteilung. Eine maximale Entropie zeichnet sich durch eine gleichm??ige Verteilung einer Datenfolge ?ber den Wertebereich aus. Die Daten sind maximal chaotisch und zuf?llig, da sie sich ?ber den ganzen Werteraum verteilen und sich nicht auf einen Datenpunkt konzentrieren. Datenfolgen mit einer maximalen Entropie lassen sich nicht verdichten oder komprimieren, da zur Datenverdichtung immer Redundanzen notwendig sind. Die Entropieanalyse ermittelt im ersten Schritt den Informationsgehalt einer einzelnen Datenspalte. Dieser ist am geringsten, wenn die Datenspalte eine Konstante enth?lt, und maximal, wenn die Daten gleichverteilt sind. Mit einer Entropieanalyse k?nnen irrelevante Variablen identifiziert und entfernt werden.

Verbundentropie

Im zweiten Schritt kann mit diesem Verfahren die sogenannte Verbundentropie berechnet werden, die einem nicht linearen Korrelationsma? ?hnelt. Die Verbundentropie H(x,y) zweier Gr??en x und y definiert den Erwartungswert der (abh?ngigen) Informationsgehalte beider Vektorr?ume x und y. Durch die Verwendung der bedingten Entropie in der Verbundentropie erm?glicht die Verbundentropie eine Aussage ?ber die Abh?ngigkeit von x und y. In der Praxis berechnet sich die Verbundentropie ?ber die Wahrscheinlichkeit des Auftretens eines Musters in x mit dem eines anderen Musters vom y. Somit stellt die Verbundentropie eine v?llig neue Gr??e dar, die von der Wahrscheinlichkeitstheorie nicht geliefert wird. Das Problem ist, dass die Verbundentropie einheitenlos ist und die Gr??enordnung sehr stark von den Wertebereichen der untersuchten Variablen abh?ngt. Ein L?sungsansatz besteht darin, dass die gr??te Verbundentropie auf 1 normiert wird und die kleinste auf 0. Dann kann die relative Verbundentropie ?hnlich ausgewertet werden wie ein Korrelationskoeffizient. Die Verbundentropie wirkt auf den ersten Blick wie ein nichtlinearer Korrelationskoeffizient, ber?cksichtigt aber die zus?tzliche Tatsache, dass die G?te einer Korrelation auch von anderen Gr??en abh?ngen kann.

Modellierungsverfahren

Datengetriebene Modellierungsverfahren dienen der Erstellung von Modellen, die funktionelle Zusammenh?nge aus Datens?tzen erzeugen. Aus einer Zeitreihe der voneinander abh?ngigen Gr??en x und y wird also beispielsweise eine Funktion y = f(x) abgeleitet. In der Six-Sigma-Terminologie wird diese Funktion als Transferfunktion bezeichnet. Ist eine solche Funktion verf?gbar, kann diese untersucht werden und als Modell eines technischen Verfahrens verwendet werden. Die Modellierungsverfahren unterscheiden sich vor allem in folgenden Punkten voneinander und sind dem Problem angepasst auszuw?hlen:

  • Linearit?t oder Nicht-Linearit?t
  • Anzahl der Koeffizienten
  • Dimensionalit?t
  • Verteilung der Information in Funktionsknoten versus einheitliche Funktionen
  • M?glichkeit der geschlossenen L?sbarkeit und Differenzierbarkeit
  • Anzahl der Datens?tze, die zur Erstellung einer Funktion notwendig sind
  • Verfahren zur Anpassung der Funktion an die Datens?tze

Dabei gilt: Der einfachste Ansatz mit hinreichender Genauigkeit ist der beste Ansatz. Der verbleibende Fehler einer Modellbildung auf Basis von Datensätzen wird ?Residuen? genannt und lässt Aussagen über die Genauigkeit von Datensätzen zu. Der Mittelwert der Residuen liefert ein wichtiges Beurteilungskriterium der Güte der Funktion und ihrer Anpassung an die Datensätze. Einzelne Residuen geben eine Information über die Messgenauigkeit und das Rauschen in den Messwerten. Wenn die Daten einen systematischen Fehler aufweisen, wird nat?rlich auch die Funktion verf?lscht.