Anzeige
Anzeige
Anzeige
Anzeige
Beitrag drucken

Fundament für KI-Applikationen

Wie sammelt man Rohdaten im Data Lake?

Eine Voraussetzung bei der Entwicklung von industriellen KI-Anwendungen sind ausreichende Daten. Diese sind jedoch nicht immer in der benötigten Menge, Qualität oder Struktur vorhanden. Anhand eines konkreten Beispiels erläutert dieser Beitrag, wie sich ein Data Lake anlegen und mit Daten füllen lässt, bis er ein Fundament für quasi beliebige KI-Applikationen bildet.

Von der Datenerfassung zur KI-Applikation. (Bild: AIM - Agile IT Management GmbH)

Von der Datenerfassung zur KI-Applikation. (Bild: AIM – Agile IT Management GmbH)

Die AIM Agile IT Management hat sich darauf spezialisiert, Data Lakes zur Sammlung von historischen und Rohdaten anzulegen und in Betrieb zu nehmen, wie sie zur Entwicklung von industriellen KI-Anwendungen benötigt werden. Ein Data Lake hat die Aufgabe, Daten aus einer Datenquelle unstrukturiert und ohne eine Transformation zu speichern. So wird jede Änderung an Datensätzen roh abgelegt. Im späteren Verlauf entsteht eine Datenbasis, die sich zur Lösung von Problemstellungen analysiert lässt. Das illustriert folgendes Beispiel. Für die Softwarefirma MediFox sollte mit industrieller KI eine Anwendung erstellt werden, die die Kündigungswahrscheinlichkeit ihrer Kunden vorhersagen kann. Mit Hilfe einer solchen Vorhersage (Churn Prediction) sollte auf ein eventuelles Kündigungsrisiko reagiert werden können. Die Churn Prediction sollte aufgrund der vorhandenen Daten des Kundeninformationssystems (KIS), des Customer-Relationship-Management-Systems (CRM) und des Servicedesks des Kunden realisiert werden. Im Fall einer Churn-Prediction-Anwendung kann man durch eine nachträgliche Transformation auf die notwendigen Daten zugreifen:

  • • Wann hat sich ein Ansprechpartner beim Endkunden geändert?
  • • Wann hat der Endkunde neue Lizenzen erworben bzw. wann wurde eine Lizenz verändert oder abbestellt?
  • • Wie ist die Zahlungsmoral des Kunden über die Zeit hinweg?
  • • Hierzu werden die Rohdaten aus drei verschiedenen Systemen benötigt:
  • • Endkundeninformationen aus dem Kundeninformationssystem (KIS)
  • • Rohdaten zu Service Requests und Incidents aus dem Jira Servicedesk
  • • Lizenzinformationen aus einer Lizenzdatenbank.

Asynchrone Datenverarbeitung

Zunächst werden die Rohdaten aus den Systemen extrahiert. Dazu muss für jedes System eine geeignete Schnittstelle identifiziert werden. Generell können Daten aus Systemen per Push- oder Pull-Mechanismus extrahiert werden und werden dann mithilfe eines Service in einen Kafka Topic geschrieben. Nun können die Daten asynchron verarbeitet werden, somit wird auch das eventuelle Risiko eines Rückstaus bei der Extraktion minimiert. Gleichzeitig stellt Kafka sicher, dass ein transaktionaler Kontext die Konsistenz aller zu speichernden Daten sicherstellt. Die zu speichernden Daten können ebenso binäre Formate enthalten, da die Transformation in weiterführende Daten bei der Ablage noch keine Rolle spielt. „Da wir in einer privaten Cloud beginnen und später in eine AWS- oder Microsoft-Azure- basierte Umgebung zur Speicherung der Daten im Data Lake wechseln können müssen, nutzen wir MinIO als Abstraktion des Dateisystems. MinIO stellt aus Sicht der Applikation immer einen S3-Bucket zur Verfügung. Auf diese Weise sind auch hybride Umgebungen oder Umzüge der Datenbasis kein Problem für den Data Lake“, sagt Carsten Hilber, AIM Co-Founder & DevOps Engineer.

Beitrag drucken

Fundament für KI-Applikationen

Wie sammelt man Rohdaten im Data Lake?

Eine Voraussetzung bei der Entwicklung von industriellen KI-Anwendungen sind ausreichende Daten. Diese sind jedoch nicht immer in der benötigten Menge, Qualität oder Struktur vorhanden. Anhand eines konkreten Beispiels erläutert dieser Beitrag, wie sich ein Data Lake anlegen und mit Daten füllen lässt, bis er ein Fundament für quasi beliebige KI-Applikationen bildet. (mehr …)

Beitrag drucken

Fundament für KI-Applikationen

Wie sammelt man
Rohdaten im Data Lake?

Eine Voraussetzung bei der Entwicklung von industriellen KI-Anwendungen sind ausreichende Daten. Diese sind jedoch nicht immer in der benötigten Menge, Qualität oder Struktur vorhanden. Anhand eines konkreten Beispiels erläutert dieser Beitrag, wie sich ein Data Lake anlegen und mit Daten füllen lässt, bis er ein Fundament für quasi beliebige KI-Applikationen bildet. (mehr …)


Das könnte Sie auch interessieren:

Mit einem Plus von 1,9 Punkten verzeichnet das Geschäftsklima der Digitalbranche im Januar einen erneuten Anstieg und liegt nun bei 18,5 Punkten. Erstmals seit Sommer 2022 liegen zudem die Geschäftserwartungen im positiven Bereich.‣ weiterlesen

Ob zur Remote-Unterstützung der Mitarbeiter vor Ort, zur Schulung und technischen Einweisung neuen Personals oder bei der Umplanung von Produktionsstraßen - fotorealistische digitale Zwillinge können Unternehmen vielfältig unterstützen.‣ weiterlesen

Viele ERP-Lösungen wurden einst von Spezialisten entwickelt und danach nur noch angepasst, erweitert und mit Updates versorgt. Doch steigende Digitalisierungsanforderungen, schnellere Produkteinführungen sowie der Fachkräftemangel schrauben die Anforderungen in die Höhe. Könnte Low-Code-Softwareentwicklung die Lösung sein?‣ weiterlesen

Mit einem Anstieg von 1,6 Punkten im Januar liegt das IAB-Arbeitsmarktbarometer bei 102,9 Punkten und damit über der neutralen Marke von 100. Für die Arbeitsmarktforscher deutet dies auf positive Entwicklungen auf dem Arbeitsmarkt hin.‣ weiterlesen

Mit ProKI, einem Demonstrations- und Transfernetzwerk für künstliche Intelligenz (KI) in der Produktion, soll die Anwendung von KI bei kleinen und mittleren Unternehmen (KMU) weiter vorangetrieben werden.‣ weiterlesen

Wolfgang Boos hat zum Jahreswechsel die Geschäftsführung des FIR an der RWTH Aachen übernommen. Er tritt die Nachfolge von Volker Stich an.‣ weiterlesen

Mit den Produkten der Marke Smartblick will F&M Werkzeug und Maschinenbau gerade kleineren Unternehmen ermöglichen, Fertigungsprozesse anhand von Maschinendaten zu analysieren und zu optimieren. Jetzt hat die Firma ein Modul vorgestellt, das mit künstlicher Intelligenz 'on Edge' prädiktive Qualitätsanalysen erstellt, also Predictive Quality ermöglicht.‣ weiterlesen

Die GSG Genii Software Gruppe hat die Übernahme der Camos Software und Beratung GmbH bekanntgegeben, einem Software-Spezialisten im Bereich Configure Price Quote (CPQ).‣ weiterlesen

Lichttechnische Messungen gehören bei der Produktion von Displays zum Standard. Während der Entwicklung müssen jedoch auch sehr unterschiedliche Messungen, meist detaillierter als in der Serienfertigung, durchgeführt werden. Das Zusammenspiel von Displayansteuerung, Messequipment und Auswertung der Messwerte ist dabei oft zeitaufwendig und fehlerbehaftet. Eine voll- oder teilautomatisierte Messung kann die Arbeit vereinfachen.‣ weiterlesen

Mit einem Mix aus Liefer- und Projektgeschäft wappnet sich die Firma Unterfurtner aus Österreich gegen Marktschwankungen. Dabei verursachten die unterschiedlichen Prozesse der Geschäftsbereiche früher viel Aufwand, den das alte ERP-System kaum abfederte. Der Rollout von AMS.ERP änderte das, denn die Software ist auf solche Anforderungen zugeschnitten.‣ weiterlesen