Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Beitrag drucken

Fundament für KI-Applikationen

Wie sammelt man Rohdaten im Data Lake?

Eine Voraussetzung bei der Entwicklung von industriellen KI-Anwendungen sind ausreichende Daten. Diese sind jedoch nicht immer in der benötigten Menge, Qualität oder Struktur vorhanden. Anhand eines konkreten Beispiels erläutert dieser Beitrag, wie sich ein Data Lake anlegen und mit Daten füllen lässt, bis er ein Fundament für quasi beliebige KI-Applikationen bildet.

Von der Datenerfassung zur KI-Applikation. (Bild: AIM - Agile IT Management GmbH)

Von der Datenerfassung zur KI-Applikation. (Bild: AIM – Agile IT Management GmbH)

Die AIM Agile IT Management hat sich darauf spezialisiert, Data Lakes zur Sammlung von historischen und Rohdaten anzulegen und in Betrieb zu nehmen, wie sie zur Entwicklung von industriellen KI-Anwendungen benötigt werden. Ein Data Lake hat die Aufgabe, Daten aus einer Datenquelle unstrukturiert und ohne eine Transformation zu speichern. So wird jede Änderung an Datensätzen roh abgelegt. Im späteren Verlauf entsteht eine Datenbasis, die sich zur Lösung von Problemstellungen analysiert lässt. Das illustriert folgendes Beispiel. Für die Softwarefirma MediFox sollte mit industrieller KI eine Anwendung erstellt werden, die die Kündigungswahrscheinlichkeit ihrer Kunden vorhersagen kann. Mit Hilfe einer solchen Vorhersage (Churn Prediction) sollte auf ein eventuelles Kündigungsrisiko reagiert werden können. Die Churn Prediction sollte aufgrund der vorhandenen Daten des Kundeninformationssystems (KIS), des Customer-Relationship-Management-Systems (CRM) und des Servicedesks des Kunden realisiert werden. Im Fall einer Churn-Prediction-Anwendung kann man durch eine nachträgliche Transformation auf die notwendigen Daten zugreifen:

  • • Wann hat sich ein Ansprechpartner beim Endkunden geändert?
  • • Wann hat der Endkunde neue Lizenzen erworben bzw. wann wurde eine Lizenz verändert oder abbestellt?
  • • Wie ist die Zahlungsmoral des Kunden über die Zeit hinweg?
  • • Hierzu werden die Rohdaten aus drei verschiedenen Systemen benötigt:
  • • Endkundeninformationen aus dem Kundeninformationssystem (KIS)
  • • Rohdaten zu Service Requests und Incidents aus dem Jira Servicedesk
  • • Lizenzinformationen aus einer Lizenzdatenbank.

Asynchrone Datenverarbeitung

Zunächst werden die Rohdaten aus den Systemen extrahiert. Dazu muss für jedes System eine geeignete Schnittstelle identifiziert werden. Generell können Daten aus Systemen per Push- oder Pull-Mechanismus extrahiert werden und werden dann mithilfe eines Service in einen Kafka Topic geschrieben. Nun können die Daten asynchron verarbeitet werden, somit wird auch das eventuelle Risiko eines Rückstaus bei der Extraktion minimiert. Gleichzeitig stellt Kafka sicher, dass ein transaktionaler Kontext die Konsistenz aller zu speichernden Daten sicherstellt. Die zu speichernden Daten können ebenso binäre Formate enthalten, da die Transformation in weiterführende Daten bei der Ablage noch keine Rolle spielt. „Da wir in einer privaten Cloud beginnen und später in eine AWS- oder Microsoft-Azure- basierte Umgebung zur Speicherung der Daten im Data Lake wechseln können müssen, nutzen wir MinIO als Abstraktion des Dateisystems. MinIO stellt aus Sicht der Applikation immer einen S3-Bucket zur Verfügung. Auf diese Weise sind auch hybride Umgebungen oder Umzüge der Datenbasis kein Problem für den Data Lake“, sagt Carsten Hilber, AIM Co-Founder & DevOps Engineer.

Beitrag drucken

Fundament für KI-Applikationen

Wie sammelt man
Rohdaten im Data Lake?

Eine Voraussetzung bei der Entwicklung von industriellen KI-Anwendungen sind ausreichende Daten. Diese sind jedoch nicht immer in der benötigten Menge, Qualität oder Struktur vorhanden. Anhand eines konkreten Beispiels erläutert dieser Beitrag, wie sich ein Data Lake anlegen und mit Daten füllen lässt, bis er ein Fundament für quasi beliebige KI-Applikationen bildet. (mehr …)


Das könnte Sie auch interessieren:

Der Maschinenbauer Manz bündelt unter dem Namen Total Fab Solutions sein Angebot für die Automatisierung von Fertigungslinien. Im Paket abgedeckt sind Umsetzungsschritte von Automatisierungsprojekten von der Fabrikplanung über die Prozess- und Materialflusssimulation oder die Integration bestehender Fertigungsprozesse bis hin zu Aufbau, Hochfahren und Optimierung schlüsselfertig zu übergebender Produktionslösungen.‣ weiterlesen

Beim traditionellen Qualitätsmanagement werden gefertigte Bauteile analysiert, um die Qualität der nächsten zu verbessern. Beim Predictive Quality-Ansatz wollen Hersteller analysegestützt eine höhere Qualität erzielen, ohne in die Vergangenheit schauen zu müssen. Bereits verfügbare Lösungen für den Ansatz integrieren die erforderlichen Daten auf einer MES-Plattform.‣ weiterlesen

Der Aufbau einer kabelgebundenen Ortungsinfrastruktur auf großen Flächen wie Lagerhallen, Baustellen oder in der Prozessindustrie ist kostspielig und zeitaufwendig.‣ weiterlesen

KI-getriebene Convolutional Neuronal Networks in selbstfahrenden Autos sollen andere Verkehrsteilnehmer erkennen. Dabei gilt: Je selbstständiger das Auto, desto komplexer der Algorithmus und undurchschaubarer dessen Weg zur getroffenen Entscheidung. Ein Validierungs-Tool soll helfen, diesen besser zu verstehen.‣ weiterlesen

Erfolgreiche KI-Projekte kombinieren das Domänenwissen von Prozessbeteiligten mit der Expertise von Datenanalysten und IT-Spezialistinnen. Da nicht jedes Maschinenbauunternehmen über diese drei wichtigen Kompetenzfelder verfügt, sind Kooperationen wichtige Bestandteile von KI-Projekten.‣ weiterlesen

Extreme Networks hat die Verfügbarkeit des Wi-Fi 6E Access Point bekanntgegeben. Als Wireless-Plattform erweitert der Zugangspunkt den Einsatzbereich auf das 6GHz-Frequenzband. Das Gerät wurde für Umgebungen mit hohen Anforderungen an Bandbreite und Nutzerdichte entwickelt und zeichnet sich Anbieterangaben zufolge durch seine Perfomance, Funktionalität und Sicherheit aus.‣ weiterlesen

Die Ersatzteilversorgung in der Automobilindustrie besitzt einen sehr kurzfristigen Charakter. Anwendungen zum Abbilden solcher Prozesse sind S/4Hana Supply Chain Management sowie S/4Hana-Automotive-Ersatzteilmanagement. Die wichtigen Zielgrößen für die Versorgungsqualität sind Lieferservicegrad und Time-to-Delivery.‣ weiterlesen

Im Cloud-Projekt Gaia-X entstehen Infrastruktur-Angebote, mit denen Hersteller digitale und vernetzte Produkte entwickeln können, ohne in Abhängigkeit zu Technologiekonzernen zu geraten. Die Strukturen dafür sind bereits etabliert. Jetzt ist es an den Produzenten, durch ihre Mitwirkung aus dem Projekt eine europäische Erfolgsgeschichte zu machen.‣ weiterlesen

Werma bietet ein neues Ruf- und Meldesystem zur Prozessoptimierung in Fertigung, Logistik und an manuellen Arbeitsplätzen an. Mit dem Andon WirelessSet lassen sich Probleme bei der Produktion per Knopfdruck melden, um die Behebung zu beschleunigen.‣ weiterlesen

Alle Werte einer Lieferkette im Blick zu behalten, ist eine Mammutaufgabe - können diese doch schnell in die Millionen gehen. Behälter mit benötigten Materialien müssen nicht mal verschwinden, schon der falsche Lagerplatz im Werk kann die Produktion ausbremsen. Tracker können dafür sorgen, dass nichts Wichtiges aus dem Blick gerät.‣ weiterlesen

Siemens und Zscaler arbeiten zusammen, um Kunden den sicheren Zugriff vom Arbeitsplatz im Büro oder mobil auf Operational-Technology(OT)-Systeme und -Anwendungen im Produktionsnetzwerk zu ermöglichen.‣ weiterlesen

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige