Anzeige
Anzeige
Beitrag drucken

Fundament für KI-Applikationen

Wie sammelt man Rohdaten im Data Lake?

Eine Voraussetzung bei der Entwicklung von industriellen KI-Anwendungen sind ausreichende Daten. Diese sind jedoch nicht immer in der benötigten Menge, Qualität oder Struktur vorhanden. Anhand eines konkreten Beispiels erläutert dieser Beitrag, wie sich ein Data Lake anlegen und mit Daten füllen lässt, bis er ein Fundament für quasi beliebige KI-Applikationen bildet.

Von der Datenerfassung zur KI-Applikation. (Bild: AIM - Agile IT Management GmbH)

Von der Datenerfassung zur KI-Applikation. (Bild: AIM – Agile IT Management GmbH)

Die AIM Agile IT Management hat sich darauf spezialisiert, Data Lakes zur Sammlung von historischen und Rohdaten anzulegen und in Betrieb zu nehmen, wie sie zur Entwicklung von industriellen KI-Anwendungen benötigt werden. Ein Data Lake hat die Aufgabe, Daten aus einer Datenquelle unstrukturiert und ohne eine Transformation zu speichern. So wird jede Änderung an Datensätzen roh abgelegt. Im späteren Verlauf entsteht eine Datenbasis, die sich zur Lösung von Problemstellungen analysiert lässt. Das illustriert folgendes Beispiel. Für die Softwarefirma MediFox sollte mit industrieller KI eine Anwendung erstellt werden, die die Kündigungswahrscheinlichkeit ihrer Kunden vorhersagen kann. Mit Hilfe einer solchen Vorhersage (Churn Prediction) sollte auf ein eventuelles Kündigungsrisiko reagiert werden können. Die Churn Prediction sollte aufgrund der vorhandenen Daten des Kundeninformationssystems (KIS), des Customer-Relationship-Management-Systems (CRM) und des Servicedesks des Kunden realisiert werden. Im Fall einer Churn-Prediction-Anwendung kann man durch eine nachträgliche Transformation auf die notwendigen Daten zugreifen:

  • • Wann hat sich ein Ansprechpartner beim Endkunden geändert?
  • • Wann hat der Endkunde neue Lizenzen erworben bzw. wann wurde eine Lizenz verändert oder abbestellt?
  • • Wie ist die Zahlungsmoral des Kunden über die Zeit hinweg?
  • • Hierzu werden die Rohdaten aus drei verschiedenen Systemen benötigt:
  • • Endkundeninformationen aus dem Kundeninformationssystem (KIS)
  • • Rohdaten zu Service Requests und Incidents aus dem Jira Servicedesk
  • • Lizenzinformationen aus einer Lizenzdatenbank.

Asynchrone Datenverarbeitung

Zunächst werden die Rohdaten aus den Systemen extrahiert. Dazu muss für jedes System eine geeignete Schnittstelle identifiziert werden. Generell können Daten aus Systemen per Push- oder Pull-Mechanismus extrahiert werden und werden dann mithilfe eines Service in einen Kafka Topic geschrieben. Nun können die Daten asynchron verarbeitet werden, somit wird auch das eventuelle Risiko eines Rückstaus bei der Extraktion minimiert. Gleichzeitig stellt Kafka sicher, dass ein transaktionaler Kontext die Konsistenz aller zu speichernden Daten sicherstellt. Die zu speichernden Daten können ebenso binäre Formate enthalten, da die Transformation in weiterführende Daten bei der Ablage noch keine Rolle spielt. „Da wir in einer privaten Cloud beginnen und später in eine AWS- oder Microsoft-Azure- basierte Umgebung zur Speicherung der Daten im Data Lake wechseln können müssen, nutzen wir MinIO als Abstraktion des Dateisystems. MinIO stellt aus Sicht der Applikation immer einen S3-Bucket zur Verfügung. Auf diese Weise sind auch hybride Umgebungen oder Umzüge der Datenbasis kein Problem für den Data Lake“, sagt Carsten Hilber, AIM Co-Founder & DevOps Engineer.

Beitrag drucken

Fundament für KI-Applikationen

Wie sammelt man
Rohdaten im Data Lake?

Eine Voraussetzung bei der Entwicklung von industriellen KI-Anwendungen sind ausreichende Daten. Diese sind jedoch nicht immer in der benötigten Menge, Qualität oder Struktur vorhanden. Anhand eines konkreten Beispiels erläutert dieser Beitrag, wie sich ein Data Lake anlegen und mit Daten füllen lässt, bis er ein Fundament für quasi beliebige KI-Applikationen bildet. (mehr …)


Das könnte Sie auch interessieren:

Viele Anwendungen aus dem Industrie-4.0-Spektrum basieren auf der Verfügbarkeit von Produktdaten. Um diese strukturiert bereitzustellen, helfen Werkzeuge zur Datenklassifizierung wie die neue NovaDB im Zusammenspiel. Zusammen mit Anwendungspaketen können etwa elektronische Produktkataloge erstellt und gepflegt werden.‣ weiterlesen

Die MTU Maintenance Berlin-Brandenburg GmbH setzt zur Auswertung von Produktionsdaten selbstentwickelte Analysetools ein. Weil diese nicht den vollen Funktionsumfang moderner BI-Lösungen bieten, wurden in einem multiperspektiven Auswahlverfahren geeignete Softwareprodukte identifiziert. Dieses sollte sicherstellen, dass die gewählten Programme die Analyse- und Reportingprozesse bestmöglich unterstützen und im Unternehmen gut angenommen werden.‣ weiterlesen

KI-basierte Systeme und Maschinen werden immer autonomer, selbstständiger und intelligenter. Ob und wie ist es zu schaffen, dass sie auf Dauer menschlichen Werten und Regeln folgen? Dr. Kurt D. Bettenhausen, Vorsitzender des interdisziplinären Gremiums Digitale Transformation im VDI und Vorstandsmitglied der VDI/VDE-GMA, spricht im zehnten Teil unserer Serie Autonome Systeme mit dem VDI.‣ weiterlesen

Nachdem die PSI Software AG bereits bekanntgegeben hatte, das Finanzvorstand Harald Fuchs das Unternehmen im nächsten Jahr verlässt, steht nun fest, dass Gunnar Glöckner den Posten ab Juli 2021 übernehmen wird.‣ weiterlesen

Zurzeit liegt weder ein fest umrissenes Berufsbild noch klar formulierte Anforderungen an Projektingenieure vor, die in internationalen Projekten eingebunden sind.‣ weiterlesen

Der Getriebehersteller Neugart hat 18 Baureihen für Planetengetriebe mit vier Millionen möglichen Varianten im Programm. Trotz der Vielfalt kann der Hersteller seine Produkte innerhalb von 24 Stunden ausliefern. Denn Neugart hat den Aufwand für Konstruktion und Datenverwaltung durch ein regelbasiertes Variantenmanagement komplett automatisiert.‣ weiterlesen

Zum 1. November hat Dr. Clemens Weis die operative Geschäftsführung von Cideon übernommen. Er folgt auf Clemens Voegele, der den Posten des Chief Digital Officers der Friedhelm Loh Group übernommen hat. Als Vorsitzender der Geschäftsführung bleibt er jedoch Teil von Cideon.‣ weiterlesen

Gemeinsam wollen MHP und IFS verbesserte Lösungen für ein durchgängiges Service Lifecycle Management anbieten.‣ weiterlesen

25 Prozent der Unternehmen in Deutschland rechnen damit, dass in den kommenden fünf Jahren mehr Produktionsprozesse ausgelagert werden. Damit beschäftigen sich vor allem kleinere Unternehmen (bis 50Mio.€ Jahresumsatz). Etwa jede zweite Firma erhofft sich dadurch mehr Flexibilität.‣ weiterlesen

Lange liefen die Drucker im Weidmüller-Werk in Wutha-Farnroda morgens an ihrer Leistungsgrenze, wenn sie das ganze Papier zu den Fertigungsaufträgen ausgaben. Nach dem Rollout der Digital Manufacturing Suite von SAP änderte sich das. Heute sind die meisten Informationen digitalisiert und Werker mit mobiler IT statt Klemmbrettern unterwegs.‣ weiterlesen

Anzeige
Anzeige
Anzeige