Anzeige
Anzeige
Anzeige
Anzeige
Beitrag drucken

Event Stream Processing mit Apache Flink

Eine leistungsfähige Plattform für IoT-Anwendungen

Wer IoT-Anwendungen einsetzt, will schnell auf generierte Daten mit Aktionen reagieren. Das Event Streaming Framework Apache Flink ist genau darauf ausgelegt, große kontinuierlich erzeugte Datenmengen mit geringer Latenz zu verarbeiten.

 (Bild: Ververica)

(Bild: Ververica)

Das Internet der Dinge (Internet of Things, kurz IoT) ist in Sachen Datenverarbeitung eine Herausforderung für die IT-Industrie und diejenigen produzierenden Unternehmen, die IoT nutzen oder IoT-Services und entsprechende Produkte anbieten. Das Berliner Software-Startup Data Artisans hat im Wesentlichen drei Ursachen dafür ausgemacht:

  • • Geräte produzieren viel mehr Daten als Benutzer. Die meisten herkömmlichen Datenbanken sind für den Umgang mit Daten, die kontinuierlich in großer Menge von Edge-Geräten, also den Datenlieferanten der IoT-Anwendung, ineffizient und unpraktikabel.
  • • IoT-Anwender erwarten Informationen und Services nahezu in Echtzeit, die sofort auf ihre Anfragen reagieren. Klassische Batch-Datenoperationen sind für diese Anforderung ungeeignet.
  • • Die Konnektivität ist in der IoT-Industrie nie gewährleistet. Dies gilt insbesondere, wenn Daten von Edge-Geräten über Mobilfunknetze gesendet werden.

Event Streaming mit Flink

Die Firma Freeport Metrics hat an mehreren Data-Streaming-Projekten in der IoT-Branche gearbeitet. Das hierbei eingesetzte Apache Flink Event Stream Processing Framework, hat sich dabei als besonders geeignet erwiesen. Jakub Piasecki, Director of Technology bei Freeport Metrics, ist der Ansicht, dass Stream Processing mit Apache Flink im IoT zukünftig ein Muss ist.

Echtzeit-Datenverarbeitung

IoT-Anwendungen müssen bei bestimmten Ereignissen sofort reagieren. Zum Beispiel möchte der Betreiber einer Windturbine sofort benachrichtigt werden, falls es windig ist, aber keine Energie produziert wird. Im Idealfall kann ein Algorithmus sogar automatisch entscheiden, was zu tun ist. Die Verarbeitung von Datenströmen anstelle von periodisch übertragenen Datensätzen verändert Anwendungen grundlegend. Berechnungen erfolgen, sobald Daten bereitstehen, Warnungen können zeitnah ausgelöst und Ereignismuster kontinuierlich erkannt werden.

Ereigniszeit ist entscheidend

Wenn Daten von IoT-Geräten empfangen werden, gibt es keine Garantie dafür, dass die Messwerte ihrer Sensoren in der Reihenfolge ihrer Erfassung über das Netzwerk ankommen. Für Geräte, die Daten über ein Mobilfunknetz übertragen, müssen Latenzzeiten und Netzwerkunterbrechungen berücksichtigt werden. Selbst wenn über eine stabilere Verbindung gesendet wird, ist es unmöglich zu garantieren, dass alle Daten in der richtigen Reihenfolge empfangen werden. Als Beispiel stelle man sich Maschinen- oder Automobilteile vor, die sich durch eine Produktionslinie mit daran angeschlossenen Sensoren bewegen. Meistens ist es beim Umgang mit Daten von IoT-Geräten sinnvoll, Ereignisse entsprechend dem Zeitpunkt ihrer Erzeugung (Ereigniszeit) und nicht nach dem Zeitpunkt ihrer Ankunft im Rechenzentrum oder nach der Verarbeitung (Aufnahme- bzw. Verarbeitungszeit) zu verarbeiten. Aus diesem Grund ist die Unterstützung der Ereigniszeit ein Muss bei der Auswahl eines Datenverarbeitungs-Frameworks für IoT Daten.

Ungeordnete Daten verarbeiten

Die Datenvorverarbeitung am Netzwerkrand ‚on Edge‘ ist in der Regel der härteste Teil des Prozesses. Es ist noch schwieriger, wenn man die Quelle nicht vollständig kontrolliert, wie es in der IoT-Welt oft der Fall ist. Dies kann in einen erheblichen Anteil an komplexer Verarbeitungslogik resultieren. Event-Stream-Verarbeitung bietet genau hierfür einige nützliche Tools. Besonders wichtig ist das Windowing-Konzept, bei dem die Elemente eines unendlichen und kontinuierlichen Stroms für die weitere Verarbeitung in endliche Mengen gruppiert werden, basierend auf Dimensionen wie Zeit oder Elementanzahl. Da die Daten allerdings nicht nach Zeit sortiert empfangen werden, ist es nicht ohne weiteres möglich zu entscheiden, ob alle relevanten Daten angekommen sind. Flink stellt Mechanismen zur Verfügung, die die Verarbeitung von ungeordneten Daten signifikant erleichtern. Darüber hinaus bietet Flink auch mehrere Optionen, wie verspätete Daten verarbeitet werden können.

Streams parallel verarbeiten

Wie bereits erwähnt, stellen IoT-Geräte ungeheure Datenmengen bereit. Deshalb ist es üblicherweise unerlässlich, die Datenstromverarbeitung auf mehrere Rechner zu verteilen. Apache Flink stellt zu diesem Zweck das Konzept der Aufteilung von Strömen nach Schlüsselwerten vor. Sobald ein Datenstrom partitioniert ist, kann er parallel auf mehreren Rechnern verarbeitet werden. Eine IoT-Anwendung zum Flottenmanagement kann zum Beispiel einen Datenstrom von Positionsangaben von GPS-Sensoren nach den Kennzeichen der Fahrzeuge partitionieren, um individuell jedes Fahrzeug zu überwachen. Natürlich muss ein Schlüsselwert nicht an ein einzelnes IoT-Gerät oder einen Standort gebunden sein. So lassen sich beispielsweise verschiedene Signale, die sich auf ein einzelnes Fahrzeug beziehen, auch gruppieren (GPS, Hardwaresensoren, Kennzeichenerfassung et cetera).

Der lokale Zustand

Jeder Programmierer dürfte wissen, dass sich die Latenzzahlen aufgrund von neuer Hardware jedes Jahr ändern. Jedoch bleiben einige Grundregeln konstant:

ANZEIGE

  • • Je näher die Daten liegen, desto schneller können sie bearbeitet werden.
  • • Netzwerktransport verringert die Performance.

Mit Apache Flink hingegen lassen sich Daten genau dort berechnen, wo sie sich befinden. Noch wichtiger ist, dass der Zustand einer Anwendung durch einen effizienten Checkpointing-Mechanismus im Fehlerfall wieder konsistent hergestellt werden kann.

Apache Flink und Messaging

Wenn man an Event Streaming denkt, spielen oft auch Messaging-Systeme wie Apache Kafka, AWS Kinesis oder RabbitMQ eine wichtige Rolle. Diese Systeme sind hoch skalierbar und zuverlässig für die Aufnahme und Verteilung großer Mengen von Ereignissen. Flink bietet erstklassigen Support für alle drei Messagingsysteme, sowohl für Produzenten als auch für Konsumenten. Die Ausgabe von Ergebnissen kann von Flink auch konsistent mit dem Einlesen in diese Systeme erfolgen, wenn der Anwendungsfall es erfordert.

Konzeptionell eher einfach

Wenn Unternehmen eine Event-Streaming-Architektur für ihre IoT-Anwendungen wählen, können sie sich meist nach einer sehr kurzen Eingewöhnungsphase, auf die Kernlogik Ihrer Anwendung konzentrieren. Den Großteil der Arbeit erledigt Apache Flink für sie. „Die Beobachtungen von Freeport Metrics sind aus meiner Sicht überzeugende Argumente, die dafür sprechen, dass IoT-Anwendungen von dem Einsatz von Apache Flink profitieren kann“, erklärt Fabian Hueske, Co-Founder von Data Artisans aus Berlin. „Die Funktionen, Konnektoren, Fehlertoleranz, Skalierbarkeit und Zuverlässigkeit machen Apache Flink eine ausgezeichnete Plattform, um die Herausforderungen zu meistern, mit denen IoT-Unternehmen konfrontiert sind, die jeden Tag, jede Minute oder Sekunde riesige Mengen an Daten verarbeiten.“


Das könnte Sie auch interessieren:

Mit der Übernahme des IoT-Spezialisten Bright Wolf, will der IT-Dienstleister Cognizant seine Expertise im Bereich Internet of Things erweitern.‣ weiterlesen

Vorherzusagen, wann ein Werkzeug kaputt geht, ist nicht leicht. Mittels der Messung von Schallemissionen ist dies zwar möglich, aber auch teuer. Kombiniert man jedoch gängige Verfahren mit neuen Technologien, ergeben sich immer bessere und schnellere Verfahren.‣ weiterlesen

Seit dem 25. Mai 2018 gilt die europäische Datenschutzgrundverordnung, meist nur DSGVO genannt. Der IT-Sicherheitsspezialist Rohde & Schwarz Cybersecurity berichtet, wie es um die Umsetzung in der hiesigen Industrie steht.‣ weiterlesen

In vielen Ländern Europas scheint sich der Arbeitsmarkt zu stabilisieren. Darauf deuten die Zahlen des Europäischen Arbeitsmarktbarometers hin, das nun erstmals veröffentlicht wurde.‣ weiterlesen

Eine IoT-Sicherheitsarchitektur sollte sowohl in IT- als auch in OT-Umgebungen für mehr Transparenz sorgen und Prozesse schützen. Dazu müssen die Daten aus dem IoT-Edge erfasst und extrahiert werden. Auf dieser Grundlage können Unternehmen effizienter agieren, bessere Geschäftsentscheidungen treffen und Digitalisierungsprojekte beschleunigen.‣ weiterlesen

GBTEC und Proalpha haben angekündigt, zukünftig in den Bereichen Process Mining und Business Intelligence zusammenzuarbeiten. Kunden sollen so einen Mehrwert bei der digitalen Transformation erhalten.‣ weiterlesen

Beim Anlagen- und Werkzeugbau setzt die Volkswagen AG auf Datendurchgängigkeit. Die Projektmanagement-Software Coman vernetzt die Projektbeteiligten dazu durchgängig und digital, bis hin zu den Zulieferern. Denn wenn Manager Giuseppe Lo Presti früh erkennt, dass es in einem Gewerk gerade nicht rund läuft, können gezielte Maßnahmen erfolgen.‣ weiterlesen

Mehr als eine Milliarde Schadprogramme verzeichnet das Bundesamt für Sicherheit in der Informationstechnik im aktuellen Lagebericht. Und auch die Corona-Pandemie wirkt sich auf die aktuelle Sicherheitslage aus.‣ weiterlesen

Eine Voraussetzung bei der Entwicklung von industriellen KI-Anwendungen sind ausreichende Daten. Diese sind jedoch nicht immer in der benötigten Menge, Qualität oder Struktur vorhanden. Anhand eines konkreten Beispiels erläutert dieser Beitrag, wie sich ein Data Lake anlegen und mit Daten füllen lässt, bis er ein Fundament für quasi beliebige KI-Applikationen bildet.‣ weiterlesen

CIOs setzen auf Automatisierung und KI, um wachsende Kluft zwischen begrenzten IT-Ressourcen und steigender Cloud-Komplexität zu überbrücken. Dies geht aus einer Studie von Dynatrace hervor.‣ weiterlesen

Zahlreiche Geräte verbinden sich heutzutage mit dem Firmennetzwerk. Neben offensichtlichen Geräten wie Büro-PCs und Maschinensensoren gibt es meist auch solche, die keiner auf dem Radarschirm hat. In diesem verborgenen Internet of Things könnten Einfallstore für Cyberkriminelle sein.‣ weiterlesen

Anzeige
Anzeige
Anzeige