Die Datenfabrik als Rahmen für KI-Projekte

Skalierbare Fabrik für Data Scientists

Die nächsten deutlichen Wettbewerbsvorteile könnten an jene Firmen gehen, die künstliche Intelligenz und maschinelles Lernen besser als andere auf ihre Ziele ausrichten. Im folgenden Beitrag geht es um die Infrastruktur, mit der Data Scientists besonders produktiv arbeiten.

Datenfabrik mit sechs Stationen: Ein Fabrik-Modell für KI und Maschinelles Lernen bietet Data Scientists die optimale Umgebung für eine erfolgreiche Arbeit. (Bild: Dell EMC)
Datenfabrik mit sechs Stationen: Ein Fabrik-Modell für KI und Maschinelles Lernen bietet Data Scientists die optimale Umgebung für eine erfolgreiche Arbeit. (Bild: Dell EMC)

Das Tempo der Digitalisierung nimmt zu. Wollen sich Unternehmen einen Wettbewerbsvorsprung verschaffen, sollten möglichst alle relevanten Datenquellen ausgewertet werden und in Erkenntnisse für neue Produkte und Services münden. Dabei helfen zunehmend Algorithmen des maschinellen Lernens. Nachdem diese entsprechend trainiert wurden, können sie in großen Datenmengen Zusammenhänge, Muster sowie Trends erkennen, aus denen sich handlungsrelevante Erkenntnisse ableiten lassen. Wie aber können Unternehmen ihre Lösungen zur Datenanalyse effizient skalieren? Eine Antwort auf diese Frage liefert das Modell einer „Datenfabrik“ mit quasi industrialisierten KI-Prozessen als optimierte Arbeitsumgebung für Data Scientists. Beim Aufbau dieses Modells sollten Unternehmen sechs Punkte beachten.

1. Potenzial ausloten von KI-Technologie

Lassen sich mit Hilfe von KI bestehende Tools und Prozesse verbessern? Oder würde der Einsatz von KI-Technologien sogar einen disruptiven Charakter haben und das eigene Geschäftsmodell massiv verändern? Frameworks und Tools rund um KI und Maschinelles Lernen entwickeln sich sehr schnell. Im ersten Schritt sollte daher die IT-Abteilung diese Technologien und Funktionen evaluieren und ihre Auswirkungen auf das Unternehmen und deren potenziellen Geschäftswert identifizieren. Diese grundsätzliche Bewertung der Technologie bildet die Basis für die Planung der nächsten Schritte. Sie erfolgen in enger Zusammenarbeit mit den einzelnen Geschäftsbereichen, für die der Einsatz der Technologie besonders relevant ist, oder mit einem Team, das für Business Development zuständig ist. Letzterer Ansatz verfolgt das Ziel, mit möglichst schlanken Prozessen neue Produkte bereitzustellen und Freiraum für Innovationen zu schaffen.

Prioritäten setzen: Kriterien für die Auswahl der KI-Projekte sind die Unternehmensstrategie, die aktuellen Ziele oder eine höhere Effizienz in den vorhandenen Geschäftsprozessen. (Bild: Dell EMC)
Prioritäten setzen: Kriterien für die Auswahl der KI-Projekte sind die Unternehmensstrategie, die aktuellen Ziele oder eine höhere Effizienz in den vorhandenen Geschäftsprozessen. (Bild: Dell EMC)

2. Prioritäten setzen

Mit KI und maschinellem Lernen finden Unternehmen Datenmuster, um etwa Produkte und Services zu erstellen und neue Märkte zu erschließen. Dafür benötigen die Data Scientists eine unterstützende Infrastruktur und die passenden Tools. Angesichts begrenzter Ressourcen müssen aber selbst große Unternehmen Prioritäten bei ihren Effizienz- und Geschäftsmodellprojekten setzen. Kriterien für die Auswahl der wichtigsten Vorhaben sind die Gesamtstrategie, die aktuellen Businessziele, der zu erwartende Nutzen sowie die Verfügbarkeit der erforderlichen Daten. Die Daten müssen in dieser Phase nicht unbedingt komplett und in ihrer endgültigen Form bereitstehen, es sollten aber genügend vorhanden sein, um wenigstens das Pilotprojekt zu starten.

3. Produktivität der Data Scientists steigern

Bei der KI-basierten Datenanalyse gibt es keine Standardlösung. Manche Projekte sind sehr datenintensiv, andere benötigen weniger Informationen. Teilweise benötigen die Datenspezialisten sehr viel Zeit für das Aufbereiten und Formatieren der Daten, während sie in anderen Projekten mit komplexen und rechenintensiven neuronalen Netzen arbeiten. Auch die eingesetzten Bibliotheken und Tools werden sich sehr wahrscheinlich unterscheiden und hängen zum Teil auch von den persönlichen Präferenzen der Data Scientists und den Einsatzgebieten ab. Unternehmen sollten den Datenwissenschaftlern diese Freiheiten lassen und auf eine Standardisierung der Tools weitgehend verzichten. Jeder von ihnen ist viel produktiver, wenn er in seiner eigenen, ihm vertrauten Umgebung arbeiten kann, die speziell auf seine Herausforderung zugeschnitten ist und seine bevorzugten Tools enthält.

Erfolgsmessung: Mit einer Business-Intelligence-Lösung prüfen die Firmen, ob die mit agilen Methoden entwickelte KI-Anwendung im produktiven Einsatz den erwarteten Mehrwert liefert. (Bild: Dell EMC)
Mit einer Business-Intelligence-Lösung prüfen die Firmen, ob die mit agilen Methoden entwickelte KI-Anwendung im produktiven Einsatz den erwarteten Mehrwert liefert. (Bild: Dell EMC)

4. Auf Datenqualität achten

Analog zur Produktion bei Automobilherstellern müssen Unternehmen auch in der Datenfabrik sicherstellen, dass die Supply Chain die richtigen Komponenten Just-in-Time bereitstellt, damit die Fertigung des Produkts unterbrechungsfrei ablaufen kann. Im vorliegenden Fall geht es um die Daten als Rohstoff; am Ende steht ein Datenprodukt oder ein Service. Damit die KI-basierte Analyse funktioniert, müssen die Daten ein sehr hohes Qualitätsniveau aufweisen. Dazu gehören Kriterien wie Korrektheit, Konsistenz, Vollständigkeit, Aktualität und Einheitlichkeit. Unternehmen sollten daher großes Augenmerk auf die Vorbereitung und Validierung der Daten legen, damit die Daten-Fertigungslinie nicht unterbrochen wird. Data Scientists setzen bei der Datenanalyse auf interne, freigegebene Daten sowie bei Bedarf auch auf externe Bestände, etwa aus der Marktforschung oder aus Social-Media-Kanälen. Die IT-Infrastruktur für all dies muss mit den unterschiedlichen Datenaufkommen skalieren und alles zuverlässig speichern können. Denn die Quell-Datensätze werden permanent integriert, bereinigt und angereichert, um die Leistung des Datenmodells für maschinelles Lernen zu verbessern. In traditionellen Umgebungen mit Direct Attached Storage führt dies häufig zu Einbußen bei der Geschwindigkeit und zusätzlichen Kosten, da die Daten für jeden Data Scientist und Anwendungsfall mehrfach repliziert werden. Modernere Ansätze wie hochskalierbarer Network Attached Storage (Scale-Out-NAS) oder Storage aus der Cloud bieten Snapshot-Technologien, die Replikate schnell erstellen, da nur die jeweils geänderten Daten Kapazität verbrauchen. Auch die Rechenleistung muss skalierbar sein. Hier sollten Unternehmen auf eine flexible, virtualisierte Infrastruktur und die dynamische Verwaltung von Ressourcen in einem Cloud-Betriebsmodell setzen, um die Rechenkapazität je nach Anforderung nach oben und unten skalieren zu können. Auf diese Weise können Unternehmen Lastspitzen abfedern und die Serverauslastung erheblich verbessern.

5. Schneller umsetzen mit agilen Methoden

In KI-Projekten soll in aller Regel auf Basis der Algorithmen und statistischen Methoden ein Modell beziehungsweise eine Applikation für ein bestimmtes Einsatzgebiet entstehen. Erweist sich das erstellte Datenmodell als überzeugend, müssen die Ergebnisse so in die Geschäftspraxis übertragen werden, dass sich ein quantifizierbarer Nutzen ergibt. Der Data Scientist bereitet dann das entsprechende Arbeitspaket (Backlog) mit den benötigten Eigenschaften, Funktionalitäten und den Anforderungen für die Entwickler vor, die mit agilen Methoden arbeiten. Das Entwickler-Team setzt sich in der Regel aus Datenarchitekten und Spezialisten für die agile Entwicklung zusammen. Um effizient arbeiten zu können, benötigen die Entwickler die passenden Ressourcen, Data-Science-Tools für das Erstellen der Scoring-Modelle (Nutzwertanalysen) sowie geeignete Entwicklungs- und Analyseumgebungen. Hier haben sich virtualisierte und cloudbasierte Infrastrukturlösungen bewährt. Gleiches gilt für die anschließenden Tests des neuen Datenprodukts, bevor es in die Produktionsumgebung übertragen wird.

6. Erfolg messen und Datenprodukt stetig verbessern

Ist die neue Lösung im Einsatz, verändert sie meist auch Geschäftsprozesse. Entsprechend wichtig ist es, die erzielten Ergebnisse zu erfassen, auszuwerten und zu überprüfen, ob diese den Erwartungen entsprechen oder ob es notwendig ist, das Datenmodell und die Methodik anzupassen. Dafür ergänzen die Entwickler eine bestehende Business-Intelligence-Lösung oder Echtzeit-Monitoring-Dashboards um neue Berichtsfunktionen. Wenn Unternehmen all diese Schritte umsetzen, können sie mithilfe von maschinellem Lernen und KI-Methoden Daten effizient und mit Mehrwert für ihr Geschäft einsetzen – und das Fundament für eine erfolgreiche Zukunft schaffen.





  • MES und Lean-Management im Zusammenspiel

    Fertigungsunternehmen suchen stets nach Möglichkeiten, ihre Workflows zu optimieren, Verschwendung zu reduzieren und Ressourcen optimal einzusetzen. Der Lean-Ansatz ist hier ein bewährtes…


  • Innovationstreiber Thin[gk]athon: Kollaborative Intelligenz trifft auf Industrie-Expertise

    Der Thin[gk]athon, veranstaltet vom Smart Systems Hub, vereint kollaborative Intelligenz und Industrie-Expertise, um in einem dreitägigen Hackathon innovative Lösungsansätze für komplexe Fragestellungen…


  • Mit KI und Plattform-Ansatz Potenziale heben

    Flexibilität wird im Qualitätsmanagement immer wichtiger. Der Zertifizierungsdruck steigt weiter an und Lieferkettenprobleme erfordern häufiger die Qualifizierung alternativer Zulieferer. Digitale QM-Plattformen können…


  • Die Digitalisierung in Deutschlands Industrie

    Eine aktuelle Studie von Reichelt Elektronik betrachtet den aktuellen Stand der Digitalisierung und stellt die Frage, wie Deutschland im Vergleich zu anderen…


  • Management-Tool für KI-Use Cases

    Im EU AI Act wurden kürzlich Regeln für die Anwendung und Entwicklung von künstlicher Intelligenz festgelegt. Spätestens jetzt sollten Unternehmen ihre KI-Use-Cases…