Datenspeicher-Infrastruktur

Open Source contra kommerzielle parallele Dateisysteme – Wahrheit und Fiktion in einer HPC-Welt

Bei ständig wachsenden Datenmengen kommt es auf leistungsfähige Speicher an. HPC-Datenspeichersysteme bieten eine Möglichkeit dieser Problematik entgegenzutreten. Dabei gibt es die Wahl zwischen Opensource- und kommerziellen Systemen.

Bild: Panasas
Bild: Panasas

High-Performance Computing (HPC) und dessen Fähigkeit, große Datenmengen schnell zu speichern, zu verarbeiten und zu analysieren, treibt Innovationen voran. Da Unternehmen zunehmend auf neue Technologien wie künstliche Intelligenz (KI), maschinelles Lernen und Augmented Reality setzen, suchen sie nach leistungsfähigen Datenspeicherinfrastrukturen. HPC-Datenspeichersysteme basieren dabei auf parallelen Dateisystemen. Bei der Systemwahl können Unternehmen auf Open Source-Modelle oder kommerzielle parallele Dateisysteme zurückgreifen.

Anschaffungskosten – Was kann besser sein als kostenlos?

Open-Source-Produkte sind in aller Regel kostenlos für den Anwender — so auch bei bei parallelen Dateisystemen wie etwa Lustre oder BeeGFS. Unternehmensanwender können von einem solchen Systemen jedoch überfordert sein, da sie oftmals nicht die Handhabbarkeit und Benutzerfreundlichkeit bieten, wie die bestehende IT-Umgebung. Berücksichtigt man die Kosten für den zusätzlichen Personalbedarf zur Implementierung und Verwaltung eines parallelen Open-Spource-Dateisystems, sind mit der ‘kostenlosen‘ Anschaffung doch höhere Kosten verbunden. Kommerzielle parallele Dateisysteme werden als Plug-and-Play-Systeme geliefert, wodurch sich die Gesamtbetriebskosten in Grenzen halten. Darüber hinaus sind kommerzielle Systeme in der Lage, sich bei veränderten Workloads automatisch zu optimieren und neu anzupassen, was die Opportunitätskosten von Ausfallzeiten reduziert.

Individuelle Anpassung

Bei Open-Source-Dateisystemen können individuelle Codes implementiert werden und sie haben die Möglichkeit, die Funktionalität des Codes zu modifizieren, anzupassen und zu erweitern, um den spezifischen Arbeitsabläufen ihres Unternehmens gerecht zu werden. Aber sind Anwender auf der Suche nach Anpassbarkeit oder sehnen sie sich nach mehr Flexibilität? Wenn eine echte Anpassung erforderlich ist, sollten Unternehmensanwender die Art der Fähigkeiten und die Anzahl der Mitarbeiter einschätzen, die für eine erfolgreiche Anpassung und für den Support des Open-Source-Codes erforderlich sind. Ist Flexibilität das oberste Ziel, bieten wiederum kommerzielle Dateisysteme Anpassungsmöglichkeiten an sich ändernde Arbeitsabläufe, ohne Änderungen am Code vorzunehmen.

Kommerzielle Dateisysteme mit industrietauglicher Hardware sind selbstoptimierende Systemlösungen, die speziell für Anpassungsfähigkeit und Flexibilität in einer Vielzahl von Anwendungsfällen entwickelt worden sind. Anwender können das System nach ihrem Workload-Bedarf konfigurieren, ohne dass einzelne Komponenten überdimensioniert werden. Die Skalierbarkeit der Systeme ist uneingeschränkt und Bandbreite, Kapazität und Metadatenleistung können unabhängig voneinander eingestellt werden.

Bild: Panasas
Bild: Panasas

Große Datensätze schnell erarbeiten

Kommerzielle Systeme haben zudem die bisherige Performance-Lücke bei Open Source geschlossen. Die Leistung von Dateisystemen mit Open Source ist vergleichbar mit kommerziellen portablen Dateisystemen, die die neueste Hardware- und Speichertechnologie nutzen. Die Fähigkeit, schnell und unterbrechungsfrei zu skalieren, ist wesentlich bei kommerziellen Anwendungen, um auf Kurs zu bleiben und anspruchsvolle Markteinführungs-Zeitpläne einzuhalten. Die Verarbeitung größerer Datensätze mit hoher Genauigkeit bei gleichzeitiger Verarbeitung Tausender I/O-Operationen ist ein Muss beim Einsatz von High-End-Computing im kommerziellen Bereich. Beispiele dafür sind Simulation und Analyse mit computergestütztem Engineering (CAE), Energieerkundung und Medikamentenentwicklung sowie neu entstehende Arbeitsbereiche wie KI und autonomes Fahren.

Die Leistung wird optimiert und bleibt zuverlässig, wenn Soft- und Hardware zuvor abgestimmt werden, sodass sich das System automatisch an die steigende Komplexität anpassen kann. Dies ist der Fall bei portablen kommerziellen parallelen Dateisystemen, die für vorqualifizierte Standard-Hardwarekomponenten optimiert wurden und darauf abgestimmt sind. Open-Source-Dateisystemen kommt nicht die gleichen nahtlose Integration zugute, da sie oft tiefgreifende Kenntnisse über die Funktionsweise des Speichersystems erfordern, um es auf die maximale Leistung und Bandbreitennutzung abzustimmen und laufend neu einzustellen, die von verschiedenen Workloads benötigt werden.

Systemwartung – Was braucht es, damit die Dinge zuverlässig laufen?

In der schnelllebigen Welt von High Performance Computing nehmen Anwender immer wieder neue und komplexe Projekte in Angriff. Datenspeicherung ist dabei eine wesentliche Komponente, um geschäftskritische Arbeitsergebnisse zu erreichen. Lösungen sind zudem einfach zu implementieren und zu skalieren. Es entsteht ein sich selbst verwaltendes System, in dem alle typischen Wartungsabläufe und die Datensicherheit automatisiert werden, wodurch Ausfallzeiten oder die Gefahr von Datenverlusten gesenkt wird. Kommerzielle Dateisysteme beherrschen diesen automatisierten Betrieb, während viele Open-Source-Lösungen einer täglichen Speicherverwaltung und -wartung bedürfen.

Bild: Panasas
Bild: Panasas

Der Bedarf an leistungsfähiger Datenspeicher-Infrastruktur ist auf Unternehmensseite nicht zu unterschätzen. Die enormen Datenmengen, die beispielsweise durch KI-Technologien generiert werden, wachsen immer weiter an. HPC-Datenspeichersysteme — egal ob kommerziell oder Open Source — ermöglichen die Nutzung dieser Technologien. Bei der Wahl des Systems sollte dabei nicht nur der Kostenfaktor eine Rolle spielen, sondern auch geprüft werden, welcher Aufwand mit der Implementierung eines entsprechenden Systems verbunden ist.