Beitrag drucken

Infrastruktur für Data Analytics und KI-Projekte

Systeme verbinden mit den Fivetran-Konnektoren

Unternehmen brauchen für übergreifende Analysen und andere Datenprojekte – etwa mit Machine Learning – zunehmend Echtzeit-Daten aus verschiedenen Business-Systemen. Statt dafür eigene und mitunter pflegeintensive Datenpipelines aufzusetzen, können Unternehmen die Daten über die Konnektoren von Fivetran replizieren und übertragen.

Bild: Fivetran Inc.

Bild: Fivetran Inc.

Viele Unternehmen nutzen primär ein On-Premise Data Warehouse. Doch Teile des Data Stacks werden zunehmend in Cloud-basierte Data Warehouses oder in Data Lakes verlagert, wenn dort kostengünstige Rechenleistung in großem Umfang zur Verfügung steht. Die meisten Daten liegen jedoch immer noch in gesonderten Systemen und sind somit nicht einfach für die Analyse verfügbar. Es ist keineswegs trivial, die Daten aus den verschiedenen Systemen an einem zentralen Ort zu konsolidieren. In vielen Unternehmen erstellen Datenspezialisten hierfür eigene Datenpipelines. Das kann extrem zeitaufwendig sein und nicht selten fallen die Pipelines aus, etwa weil es API-Änderungen an der Quelle gab. Zudem liegen die Daten oft in mangelhafter Qualität vor und kommen mit zeitlicher Verzögerung am Bestimmungsort an.

Herausforderung bei ERP-Daten

Eine besondere Herausforderung stellt der Zugriff auf Daten dar, die in SAP-Systemen gespeichert sind. 99 Prozent der Unternehmen kämpfen hier mit Problemen bei der Datenintegration: Für 65 Prozent ist schon der Zugang zu den ERP-Daten schwierig. Das hat eine kürzlich von Dimensional Research und Fivetran durchgeführte weltweite Umfrage unter mehr als 400 ERP-Spezialisten und -Spezialistinnen ergeben. Bislang war die Integration dieser ERP-Daten kaum ein Problem, weil diese nur gezielt für spezifische Zwecke exportiert wurden. In Zeiten hoher Volatilität, fragiler Lieferketten und dem steigenden Druck, die OEE (Overall Equipment Effectiveness) zu erhöhen, ist es zunehmend wichtig, auch ERP-Daten in Echtzeit nutzen zu können.

Unternehmen, die dies mit eigenen Datenpipelines realisieren, müssen immense Datenmengen verarbeiten, die zudem stetig größer werden. Zudem müssen die Datenpipelines an Änderungen des Systems oder neue Produktlinien angepasst werden, damit keine veralteten, unzuverlässigen Daten entstehen. Diese manuellen Anpassungen kosten viel Zeit.

Automatisierung statt Handarbeit

Eine Alternative ist eine automatisierte und skalierbare Datenpipeline, wie sie Fivetran mit seinen High-Volume-Agent (HVA)-Konnektoren entwickelt hat. Diese Konnektoren des auf Datenbewegung spezialisierten Unternehmens basieren auf einer logbasierten Change-Data-Capture (CDC)-Technologie. Bei dieser Replikationsmethode werden die Daten mit einem Agent direkt aus den Protokollen des Quellsystems ausgelesen. So können sich auch große Datenmengen mit geringer Latenz und mit geringen Auswirkungen auf die Quelle verarbeiten lassen. Anbieter Fivetran verspricht damit den Zugriff auf exakte und granulare Daten nahezu in Echtzeit.

Neben den HVA-Konnektoren bietet das Unternehmen vorkonfigurierte und und verwaltete Konnektoren für über 450 Datenquellen. Sie sollen innerhalb weniger Minuten bereitstehen, um Daten aus den Quellen sowohl in Cloud- als auch in On-Premise-Umgebungen zu bewegen und zu zentralisieren. Die Konnektoren können sich automatisch an Änderungen der Quell-APIs und -Schemata anpassen, um die manuelle Pflege zu ersetzen.

Beispiele aus der Praxis

Das Beispiel Schüttflix demonstriert, wie das in der Praxis funktioniert: Das Logistik-Start-up will Lieferanten von Baumaterialien, Spediteure und Käufer über eine B2B-Plattform verbinden und so die Transaktionen beschleunigen und somit Kosten senken. Hierfür baute Schüttflix einen sogenannten Modern Data Stack auf. Dieser besteht im Wesentlichen aus HubSpot- und MySQL-Datenbanken sowie Google Sheets. Von hier werden Daten mit Konnektoren von Fivetran in Google BigQuery zentralisiert.

Heute stehen den Mitarbeitenden Dashboards mit aktuellen, detaillierten Informationen zu Lieferanten und Spediteuren zur Verfügung. Durch die ständige Überwachung der Lieferketten auf den Baustellen konnte Schüttflix Materialien stets rechtzeitig liefern. „Detaillierte Einblicke in die Daten haben die Abläufe in der Lieferkette vereinfacht, sie haben die Transparenz und das Wachstum gesteigert“, sagt Alexander Rupp, Head of Data and Business Intelligence bei Schüttflix. „Und Fivetran hat uns definitiv Geld gespart. Ich kann jetzt Konnektoren zu Datenquellen innerhalb einer Stunde einrichten. Als ich diesen Prozess selbst gemacht habe, hat das Wochen gedauert.“ Gleichzeitig haben die datengetriebenen Erkenntnisse eine Kultur der kontinuierlichen Verbesserung geschaffen, die die betriebliche Effizienz erhöht.

Bild: Fivetran Inc.

Bild: Fivetran Inc.

Logistik und Finances

Bei Pitney Bowes, Anbieter von Versand- und Postbearbeitungsprodukten, E-Commerce-Logistik und Finanzdienstleistungen, wurden für das Sales Reporting jede Nacht Daten aus SAP- und aus Oracle-Software extrahiert. Das Volumen der Datenintegration von SAP in die Data Cloud von Snowflake war erheblich gewachsen, der Prozess dauerte bis zu 31 Stunden. Zudem fragten immer mehr Kunden SAP-Daten für Dashboards und Reportings an, was schließlich ebenfalls nicht mehr zu bewältigen war.

Weil das bestehende System nicht skalierbar war, entschied sich Pitney Bowes für ein neues System. Das Logistikunternehmen hatte jedoch Schwierigkeiten, eines zu finden, das mit SAP-Anwendungen kompatibel ist. Fivetran konnte dies mit der einfachen Replikation aus den SAP-Systemen lösen.

Heute synchronisiert, validiert und repliziert Pitney Bowes viermal täglich Daten in die Snowflake-Data Cloud, ohne Auswirkungen auf die Quellanwendungen. Der größte Teil des Replikationsmanagements wird über das Interface von Fivetran abgewickelt. Damit entfällt auch die für die bisherige Batch-Verarbeitung erforderliche manuelle Überwachung. Pitney Bowes konnte für seine Oracle- und SAP-Systeme deutlich schnellere Verarbeitungszeiten feststellen. Jobs, die früher Tage dauerten, werden jetzt in weniger als einer Stunde erledigt. Zudem wurde der ‚technical Footprint‘ des Datenerfassungsprozesses reduziert – genauer konnten redundante Software-Lizenzen gekündigt und Hardware sowie Datenspeicher reduziert werden, was dem Unternehmen Kosten spart.


Das könnte Sie auch interessieren:

Die Nortec, Fachmesse für Produktion, wird vom 23. bis zum 26. Januar 2024 in Hamburg wieder zum gewohnten Termin stattfinden. "Wir sind bereits mitten in der Aufplanung und es kommen täglich noch neue Anmeldungen herein", berichtet Florian Schmitz, Leiter Messen und Events bei der Messe Stuttgart.‣ weiterlesen

Mit seinem neusten Bard-Update Gemini will Google das Konkurrenzprodukt ChatGPT 3.5 in sechs von acht branchenüblichen Benchmarks geschlagen haben. Bard wird es künftig in drei Versionen geben. Die mittlere davon ist für Durchschnittsanwender gedacht – und sie lässt sich bereits in englischer Sprache testen.‣ weiterlesen