Wer braucht noch ein Data Warehouse?

Sammelpunkt für historische Daten

Relevante, strukturierte und unstrukturierte Informationen in Echtzeit, kosteneffizient und flexibel über die Cloud erreichbar, jahrelang gespeichert, formatübergreifend und leicht verständlich – am besten in einer Lösung: Software-Entwickler, Big Data-Experten, IT- und Fachabteilungen sind auf der Suche nach der ‘einen IT-Plattform’, die alle Systeme, Infrastrukturen, Tools und interne sowie externe Dateien miteinander vereint. Wird dadurch das auf historische Daten spezialisierte Data Warehouse obsolet?



Predictive Maintenance dank historischen Vergleichsdaten aus dem Data Warehouse. Bild: © industrieblick / Fotolia.com

Ursula Flade-Ruf, Gründerin und Geschäftsführerin der MIP GmbH, sagt: „Eine alle Daten und Systeme umfassende Lösung halte ich für utopisch. Und Echtzeitlösungen ersetzen nicht das Data Warehouse, da sie völlig unterschiedliche Aufgaben erfüllen müssen.“ Dennoch schreitet die Integration von Data-Warehouse- und Big-Data-Technologien im Zuge von Digitalisierung und Internet of Things weiter voran. Dabei sind die Anforderungen an ein Data Warehouse (DWH) nahezu gleich geblieben: Es wird immer noch als zentraler Anlaufpunkt für alle Unternehmensinformationen und deren Aufbereitung genutzt. „Geändert haben sich hingegen Verarbeitungsgeschwindigkeit und Datenvolumen, die beide stetig zunehmen“, sagt Flade-Ruf. „Heute arbeiten wir im Big Data- und Data Lake-Umfeld daran, wie sich qualitative Informationen an das Data Warehouse ankoppeln lassen.“

Erkenntnisse gewinnen

Markus Ruf, Daten-Experte bei MIP sagt: „Viele verstehen unter Data Lake unstrukturierte Daten, die erst einmal alle in einem Hadoop-Cluster für spätere Analysen abgelegt werden.“ Data Scientists sollen hieraus dann wertvolle Erkenntnisse gewinnen. „Das Data Warehouse bleibt aber immer noch für die Aufbereitung von Standard-Reportings und -Analysen notwendig – gerade auch in Hinblick auf Vergleiche mit Vergangenheitsdaten“, so Ruf.

Alles eine Frage der Frage

Big-Data- mit DWH-Vorhaben unterscheiden sich bereits in der Fragestellung. Ursula Flade-Ruf sagt: „In Data-Warehouse-Projekten haben wir über Jahre mit unseren Kunden klären können, welche Kennzahlen und Resultate in die Auswertungen miteinfließen sollen. Bei Big-Data-Projekten ist jedoch noch nicht einmal das gewünschte Ergebnis bekannt.“ Dabei gelten vor allem unstrukturierte Daten als größte Herausforderung. „Wir beobachten gerade, dass Unternehmen zunächst mit neuen Technologien und Data Lakes experimentieren“, sagt Flade-Ruf. Doch umso unstrukturierter die Daten sind, desto schwerer ist es, vernünftige Fragen oder gar Ziele zu formulieren. „Dafür benötigt es ein ausgewähltes Team von Spezialisten aus den Fachbereichen und Daten-Experten, die mit den neuen Technologien umgehen können“, so Flade-Ruf. Denn ein Data Scientist kennt sich nicht unbedingt mit den unternehmensspezifischen Zielen und Prozessen aus. Erst gemeinsam wird eine zielgerichtete Annäherung an die enormen Informationsmengen möglich. „Um die Suche nach relevanten Fragen zu beschleunigen, können Advanced-Analytics-Lösungen oder beispielsweise Produkte wie der von IBM entwickelte, lernfähige Computer Watson unterstützen“, so Flade-Ruf.

Alt und neu

Dabei spielen neue Quellen beim Thema Daten eine entscheidende Rolle. Ursula Flade-Ruf sagt: „Hier existieren keine Standards. Wir arbeiten im Umfeld von Big Data und Data Warehouse darauf hin, die in diesen Quellen erzeugten, unstrukturierten Daten zu analysieren und darin Muster zu erkennen.“ Die Daten sollen dann in ein DWH überführt werden. Flade-Ruf: „Muster lassen sich aber nur unterscheiden und bewerten, wenn irgendwelche Vergleichsgrößen existieren – und die liegen in der Vergangenheit.“ Aus heutiger Sicht halten operative Systeme kaum historische Daten vor. Solche transaktionalen Systeme sind auf die Ausführung ausgerichtet. „Die Transaktion selbst ist flüchtig“, sagt Flade-Ruf. „Es ist nicht die Aufgabe von operativen Systemen, Daten über einen längeren Zeitraum zu speichern oder zu vergleichen.“ Diese Aufgabe fällt dem DWH zu. Selbst wenn heute über KI-gesteuerte Systeme wie Watson oder Roboter nachgedacht wird, die kognitive Fähigkeiten entwickeln sollen, funktioniert Lernen nur über den Vergleich mit bestimmten Systematiken, Mustern oder Profilen, die aus gespeicherten Informationen abgeleitet wurden. „Erst so lassen sich neue kognitive Verknüpfungen herstellen“, sagt Markus Ruf. „Lernen benötigt also immer den Vergleich mit der Vergangenheit.“

Bedarf für Data Warehouse

Anwendungsgebiete für DWHs finden sich zahlreich. Beispielsweise benötigen Unternehmen aufgrund steuerrechtlicher Vorgaben immer eine langfristige Dokumentation von Daten. Unterschiedliche Anforderungen in den Industriezweigen schaffen weitere Einsatzszenarien. „In dynamischen Branchen verändert sich das Kaufverhalten der Verbraucher sehr schnell“, sagt Ursula Flade-Ruf. „Predictive Analytics und Voraussagen benötigen aber stets den Vergleich mit vorliegenden Datenprofilen, um Muster oder neue Trends identifizieren zu können.“ In der Produktion existieren feststehende Kriterien für die Qualität von Produkten oder Prozessen. Diese basieren ebenfalls auf Vergangenheitsdaten. Ergebnisse aus Datenaufzeichnungen lassen sich nur validieren, indem die Qualität über eine gewisse Zeitspanne hinweg analysiert und gemessen wird. Ein DWH bleibt also eine wesentliche Säule für den Unternehmenserfolg. Das bestätigt auch die Umfrage ‘The State of the Data Warehouse’ unter Daten-Experten aus dem Jahr 2015: 99 Prozent halten Data Warehousing für wichtig bis sehr wichtig für ihre Geschäftsprozesse. „Unsere Empfehlung an Unternehmen lautet deshalb, ein solides Data Warehouse aufzubauen, Daten zielgerichtet zu säubern und aufzubereiten, um so die Basis für neue Technologien und Tools zu schaffen“, fasst Ursula Flade-Ruf zusammen.