Anzeige
Anzeige
Beitrag drucken

Beispielhaftes IoT-Projekt

Schnell ins Internet of Things mit Apache Hadoop

 (Bild: Mayato GmbH)

(Bild: Mayato GmbH)

Drei zentrale Komponenten

Das Hadoop-System besteht grundlegend aus den drei zentralen Komponenten Datenspeicherung, Ressourcenverwaltung und Datenverarbeitung. Für die Datenspeicherung ist das Hadoop Distributed File System (HDFS) verantwortlich, welches die gespeicherten Daten auf den verschiedenen Computern (Nodes) des Systems ablegt. Damit bei den Ressourcen auf dem Hadoop-Cluster zwischen den Programmen keine Probleme entstehen, gibt es YARN (Yet not another Ressource Negotiator) als Komponente, die die Ressourcen verwaltet. Für die Datenaufbereitung ist MapReduce implementiert, welches ein Programmiermodell darstellt, dass für nebenläufige Berechnungen großer Datenmengen geeignet ist. Zusätzlich hat sich in den letzten Jahren mit Directed-Acyclic-Graph (DAG) ein weiteres Ausführungsverfahren für die Datenverarbeitung entwickelt. Das Hadoop-Ökosystem stellt eine Reihe von Erweiterungen zur Verfügung, die für die oben genannten Anforderungen in Frage kommen. Die Grafik auf der dritten Seite des Beitrages teilt einige Erweiterungen den jeweiligen Anforderungen zu. Es gibt neben den genannten Technologien noch viele weitere, die im Hadoop Umfeld eingesetzt werden können. Dieser Artikel beschränkt sich bewusst auf die zurzeit geläufigsten.

Datenintegration

Apache Sqoop kann für die Übertragung von strukturierten Daten aus relationalen Datenbanken genutzt werden. Sqoop verfügt über keine grafische Benutzeroberfläche, sondern wird über die Kommandozeile bedient. Ein Sqoop-Job besteht dabei aus einem Skript, das durch eine einfache Syntax schnell konfiguriert werden kann. Eine Integration der Daten ist entweder in HDFS oder direkt in HBase bzw. Hive möglich.

Apache Flume kann zum Sammeln, Aggregieren und Verschieben von großen Datenmengen genutzt werden. Gerade die unterschiedlichen Quellen, aus denen Daten gesammelt werden können, machen Flume an dieser Stelle zu einem nützlichen Werkzeug. Ein Flume-Job besteht dabei aus einer Definition der Datenquelle (Source), dem Übertragungsweg (Channel) und des Ziels (Sink). Unter anderem können Daten aus Kafka, NetCat, JMS oder http angebunden und in Ziele wie HDFS, Hive, Kafka oder spezielle Logger geschrieben werden. Als Ergänzungen zu diesen vordefinierten Quellen und Zielen hat der Nutzer die Möglichkeit, den Funktionsumfang durch eigene Quellen und Ziele zu erweitern.

Datenaufbereitung

Apache Hive bietet eine SQL-ähnliche Schnittstelle (HiveQL) an, die es ermöglicht, Datenabfragen analog zu Datenbanksystem zu erstellen. Hierfür können in Hive Tabellen angelegt werden, die den jeweiligen unterliegenden Dateien ein Schema geben. Die Abfragen können in MapReduce, Tez oder Spark Jobs ausgeführt werden. Hierbei werden die SQL-Begriffe in den jeweiligen Quellcode der Ausführungstechnologie umgewandelt. Hive legt die Metadateninformationen über Datentypen der jeweiligen Tabellen in einer eigenen Datenbank, dem Metastore, ab.

Apache Pig bietet dem Anwender die Möglichkeit, Programme auf einer höheren Abstraktionsebene zu erstellen, die in ihren Begrifflichkeiten an SQL erinnert. Die erstellten Programme können als MapRecude, Apache Tez oder Apache Spark Job ausgeführt werden. Die Sprache, in der Pig Programme geschrieben werden, wird Pig Latin genannt. Sie kann mithilfe von User Defined Functions (UDFs) erweitert werden, wobei dem Anwender eine Reihe von Programmiersprachen (u.a. Java, Python) zur Verfügung stehen. Bei Apache Spark handelt es sich um ein Framework, das aus verschiedenen Komponenten besteht und verteilte Rechenleistungen effektiv nutzen kann. Das Framework besteht aus dem Core, der die grundlegenden Infrastruktur-Funktionalitäten bereitstellt. Für die Datenhaltung in Spark ist das sogenannte Resilient Distributed Dataset (RDD) verantwortlich, das den Datenbestand über mehrere Rechner verteilt managen kann. Spark Streaming bietet die Möglichkeit, Datenströme zu verarbeiten. Bei Apache HBase handelt es sich um eine verteilte, nicht relationale Datenbank. HBase ist auf sehr große Datenmengen ausgelegt und kann diese effizient speichern.

Fazit

In unserem Beispiel ging es dem produzierenden Unternehmen darum, schnelle Erfolge bei der ersten Implementierung einer IoT-Plattform zu erzielen und sich gleichzeitig ein hohes Maß an Flexibilität bezüglich der gewählten Ressourcen zu erhalten. Hier empfiehlt sich die Nutzung von Hadoop zur Speicherung der Daten, Sqoop für den Import von Daten aus relationalen Datenbanken und Flume für die Anbindung der zusätzlichen Datenquellen. Diese Daten können in Hive-Tabellen geschrieben und für weitere Anwendungen wie Tableau zur Analyse bereitgestellt werden. Das Aufsetzen der einzelnen Komponenten kann durch die Verwendung einer Hadoop-Distribution wie Cloudera oder Hortonworks beschleunigt werden. Die Erstellung der eigentlichen Beladungsjobs ist mit einem gewissen IT-Know-how schnell erlernbar und kann in bestimmten Bereichen auch automatisiert werden. Durch die Komponentenvielfalt von Hadoop hält sich das Unternehmen die Möglichkeit offen, eine IoT-Plattform zu erschaffen, die auch für zukünftige Szenarien die notwendige Flexibilität bereitstellt und somit Schritt für Schritt mit den Anforderungen wachsen kann.


Patrick Gornig ist Data Warehouse- und ETL-Experte bei Mayato.


Das könnte Sie auch interessieren:

PerfectPattern hat die kostenlose Basisversion von Insights App vorgestellt. Mit der Software können Prozessingenieure, Produktionsexperten und Datenwissenschaftler die von PerfectPattern entwickelte KI-Technologie Aivis nutzen, um Einblicke in Produktionsprozesse zu erhalten.‣ weiterlesen

Die Buss-Unternehmensgruppe ist in vielen unterschiedlichen Geschäftsfeldern tätig. Eine Herausforderung, stand doch ein Wechsel des ERP-Systems ins Haus - mit mehr als 80 Unternehmen innerhalb der Gruppe. Gemeinsam mit dem IT-Dienstleister Sven Mahn IT gelang es, das Projekt innerhalb von 14 Wochen umzusetzen.‣ weiterlesen

Werden neue Technologien wie beispielsweise künstliche Intelligenz Teil des Arbeistalltages wünscht sich ein Großteil der unter 31-Jährigen, darüber informiert zu werden. Dies geht aus einer Studie des IT-Security-Anbieters Kaspersky hervor. Auch ein menschliches Antlitz könnte laut Studie für mehr Akzeptanz sorgen.‣ weiterlesen

Schlechtere Stimmung als noch im Juni. Geschäftsklima-Index des Ifo Instituts hat in der aktuellen Erhebung im Vergleich zum Vormonat nachgegeben.‣ weiterlesen

Die Sprints zu Covid19-Impfstoffen zeigen den Leistungsdruck, unter dem die Technologieentwicklung steht. In kürzester Zeit sollen Forscher und Ingenieure Lösungen für die kritischen Probleme unserer Zeit finden. Der Accelerated-Discovery-Ansatz soll helfen, Forschungs- und Entwicklungsprozesse mit KI, Hybrid Cloud und schließlich Quantencomputern um das zehn- bis hundertfache des heute Möglichen zu beschleunigen.‣ weiterlesen

Trebing + Himstedt hat die Partnerschaft mit Celonis bekanntgegeben. Die Unternehmen wollen zukünftig beim Thema Process Mining zusammenarbeiten.‣ weiterlesen

Im Rahmen einer Partnerschaft wollen Crate.io und Zühlke zukünftig gemeinsam an Smart Factory- und Industrie 4.0-Lösungen arbeiten.‣ weiterlesen

Die Dualis GmbH IT Solution hat für Lean-Manufacturing-Aufgabenstellungen ein Add-on zur 3D-Simulationsplattform Visual Components entwickelt. Basierend auf Process Modelling können damit automatisch branchengängige Standardized Work Sheets generiert werden.‣ weiterlesen

Um verschiedene Daten aufzubereiten und den Mitarbeitern nutzenbringend bereitzustellen, ist nicht immer ein großes IT-Projekt nötig. Wer schnell Daten für die Beschäftigten visualisieren möchte, sollte sich einmal näher mit Dashboards befassen.‣ weiterlesen

Die Simulation am digitalen Zwilling macht die Inbetriebnahme von Anlagen und Maschinen mit automatisierten Bewegungen sicherer. Fehler fallen früher auf und können behoben werden, bevor die Anlage aufgebaut ist. So lassen sich Schäden und Verzögerungen vermeiden. Auch als Schulungstool für Bediener und Programmierer ist die digitale Maschine hilfreich.‣ weiterlesen

ISPE, APV, Concept Heidelberg und die VDI/VDE Gesellschaft Mess- und Automatisierungstechnik richten am 30. November bis zum 1. Dezember 2021 im Dorint Kongresshotel in Mannheim die 14. Offizielle GAMP 5 Konferenz aus.‣ weiterlesen

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige