Parallel SysPlex: Wie IBM Z kontinuierliche Verfügbarkeit durch RAS und Innovationen des z16 sicherstellt

Luca Walz

Note: Dieser Blogpost wurde für das Modul Enterprise IT (113601a) verfasst.

Kurzfassung

In einer zunehmend digitalisierten Welt ist hohe Verfügbarkeit eines Systems essenziell für geschäftskritische Anwendungen. Hierbei ermöglicht eine, von IBM für das IBM Z-Mainframe entwickelte, Cluster Technologie eine nahezu kontinuierliche Verfügbarkeit, welche durch dynamische Lastenverteilung, redundante Architektur und Echtzeit Datenverarbeitung erreicht wird.

Dieser Post behandelt, wie Parallel SysPlex durch die RAS Prinzipien (Reliability, Availability, Serviceability) sowie die technologischen Innovationen des IBM z16 eine 99,999% Systemverfügbarkeit erreicht. Hierbei wird insbesondere auf die Fehlerprävention, Fehlererkennung und automatische Wiederherstellungsmechanismen eingegangen.

Es wird gezeigt, dass Parallel SysPlex eine zentrale Rolle in geschäftskritischen Bereichen wie dem Finanzwesen, Gesundheitswesen und der hybriden Cloud-Integration spielt. Abschließend wird ein Ausblick auf die zukünfitige Entwicklung der IBM Z Plattform und mögliche Weiterentwicklungen der SysPlex Architektur gegeben.

1. Einleitung

1.1 Die Bedeutung von Hochverfügbarkeit in der modernen IT

Mittlerweile ist die Verfügbarkeit von IT Systemen in nahezu jeder Branche ein geschäftskritischer Faktor. Unternehmen sind zunehmend permanent auf IT Dienste angewiesen, sei es im Finanzwesen, Gesundheitssektor oder in der Logistik [1].

Ungeplante Systemausfälle können sowohl wirtschaftliche Schäden als auch den Verlust des Vertrauens in ein Unternehmen verursachen. Laut einer Studie von ITIC (2024) gaben 90% der mittelgroßen Unternehmen an, dass eine Stunde Downtime über 300.000 US Dollar kostet, während 41% sogar Verluste von 1 Millionen US Dollar oder mehr angeben [2]. Ein Beispiel für die Auswirkungen eines IT-Ausfalls ist der AWS Downtime Vorfall 2021. Aufgrund eines Netzwerkfehlers kam es zu Störungen bei Unternehmen wie Netflix und Disney+, wodurch Millionen von Nutzern stundenlang den Zugang zu Diensten verloren. Dies führte zu finanziellen Einbußen und Vertrauensverlust.[3]. Daher benötigen Unternehmen Systeme, die hochverfügbar, fehlertolerant und selbstheilend sind.

Dafür sind einige wesentliche Anforderungen an moderne IT-Architekturen notwendig: Sie sollten gegen ungeplante Ausfälle geschützt sein, um Downtime zu reduzieren. [2:1] Zudem müssen Systeme in der Lage sein, sich automatisch an Lastspitzen anzupassen, was eine dynamische Skalierbarkeit voraussetzt. Dies ist eine Kernanforderung moderner Cloud-Architekturen welche von Anbietern wie AWS und Microsoft regelmäßig betont wird [4][5]. Ebenfalls entscheidend ist, dass Probleme frühzeitig identifiziert und bei einem tatsächlichen Ausfall eine automatisierte Wiederherstellung der Anwendungen bzw. Systeme erfolgt. Darüber hinaus müssen höchste Sicherheitsstandards gewährleistet sein, um Vertraulichkeit, Integrität und Verfügbarkeit (CIA) zu gewährleisten. Dies wird durch Sicherheitsrahmen wie das NIST Framework unterstützt was umfassende Richtlinien für IT Infrastrukturen bietet [6].

Die IBM Z Plattform mit der Parallel SysPlex Technologie stellt eine bewährte Lösung dar, die diese Anforderungen erfüllt.

1.2 IBM Z und Parallel SysPlex Lösung

IBM Z als führende Plattform für Enterprise-IT

IBM Z ist eine führende Plattform für geschäftskritische Anwendungen, die hohe Anforderungen an Verfügbarkeit und Zuverlässigkeit stellen. Diese Systeme bieten eine Verfügbarkeit von 99,999%, was weniger als fünf Minuten ungeplanter Ausfallzeit pro Jahr entspricht. In den letzten Jahrzehnten hat sich IBM Z in Bereichen wie dem Finanzwesen und der Gesundheitsversorgung als unverzichtbare Lösung etabliert. Die Plattform ist auf kontinuierliche Weiterentwicklung ausgerichtet und schützt Unternehmen vor Systemausfällen [7].

Einführung von Parallel SysPlex

Parallel SysPlex wurde in den 1990er Jahren eingeführt, um mehrere IBM Z-Systeme zu einem einzigen System zu verbinden. Diese Cluster-Technologie ermöglicht eine Kombination aus Skalierbarkeit und Hochverfügbarkeit. Sie erlaubt es, Workloads zu verteilen und Ressourcen flexibel zu verwalten, ohne den laufenden Betrieb zu unterbrechen. Parallel SysPlex sorgt dafür, dass alle Systeme im Cluster wie ein einziges, leistungsstarkes System zusammenarbeiten [8].

Ziel dieses Posts

In diesem Kontext werden die Prinzipien von RAS (Reliability, Availability, Serviceability), die Technologie des IBM z16 und die Fehlerprävention innerhalb von Parallel SysPlex behandelt. Die Technologien und Designprinzipien von IBM Z ermöglichen eine hohe Verfügbarkeit und automatische Fehlerbehebung, was besonders für geschäftskritische Anwendungen und Unternehmen mit anspruchsvollen IT-Anforderungen wichtig ist [9].

2. Grundlagen: Was ist Parallel SysPlex?

2.1 Definition und Architektur

Parallel SysPlex ist eine Cluster-Architektur, die mehrere IBM Z Systeme zu einer logischen Einheit verbindet. Diese Architektur ermöglicht eine nahezu ununterbrochene Systemverfügbarkeit und eine flexible Ressourcennutzung. Ein zentrales Merkmal ist das Single System Image (SSI), welches sicherstellt, dass der gesamte Cluster für Nutzer und Anwendungen wie ein einziges System erscheint [10].

Ein essenzielles Element von Parallel SysPlex ist die Coupling Facility (CF), eine spezialisierte Hardwarekomponente, die extrem schnelle Datenkommunikation zwischen den Z-Systemen ermöglicht [8:1]. CF dient als Knotenpunkt des Datenaustausches, wodurch Latenzen minimiert und die Gesamtleistung gesteigert werden. Zudem verfügt Parallel SysPlex über automatisierte Wiederherstellungsmechanismen, die fehlerhafte Komponenten isolieren, ohne den laufenden Betrieb zu unterbrechen [11]. Dies ermöglicht eine unterbrechungsfreie IT-Infrastruktur, die besonders in Branchen wie Banken, Versicherungen und Cloud-Umgebungen genutzt wird [11:1].

2.2 Schüsselfunktion von Parallel SysPlex

Parallel SysPlex bietet eine Reihe von Funktionen, die zu einer hohen Verfügbarkeit und Flexibilität beitragen. Eine der wichtigsten ist die dynamische Lastenverteilung. Im Falle eines Systemausfalls werden Transaktionen automatisch auf verfügbare Ressourcen im Cluster umgeleitet, sodass der Betrieb nahtlos weiterläuft. Dies spielt eine zentrale Rolle bei der Aufrechterhaltung der Geschäftskontinuität und verhindert Systemausfälle durch Überlastung einzelner Systeme [12].

2.3 Geschäftliche Vorteile

Parallel SysPlex reduziert Single Points of Failure (SPOF). In traditionellen Systemen führt der Ausfall einer Hardwarekomponente oft zu einem Totalausfall. In einem Parallel SysPlex-Cluster wird diese Abhängigkeit minimiert, da sich Lasten dynamisch auf andere Systeme im Cluster verteilen. Dadurch werden Ausfallzeiten reduziert und eine durchgehende Betriebskontinuität gewährleistet [11:2].

Darüber hinaus optimiert Parallel SysPlex die Ressourcennutzung, da mehrere IBM Z Systeme als Einheit betrieben werden. Dies führt zu einer besseren Auslastung und geringeren Betriebskosten, da keine ungenutzten Ressourcen verschwendet werden.

3. RAS: Die Grundlage für Verfügbarkeit und Fehlerprävention

Die Architektur von Parallel SysPlex basiert auf den Prinzipien von Reliability, Availability und Serviceability (RAS). Diese RAS Prinzipien sind essenzieller Bestandteil der IBM Z Plattform und stellen sicher, dass die IT Infrastruktur nicht nur zuverlässig sonder auch widerstandsfähig gegenüber Fehlern ist [8:2]. Durch eine Kombination aus Hardware Redundanz, intelligenter Softwaresteuerung und proaktiven Wartungsmechanismen bietet Parallel SysPlex hohes Maß and Stabilität und Betriebskontinuität [13].

3.1 Reliability (Zuverlässigkeit)

Zuverlässigkeit in der IT beschreibt die Fähigkeit eines Systems, kontinuierlich fehlerfrei zu funktionieren. Parallel SysPlex erreicht diese Zuverlässigkeit durch eine robuste Hardware Architektur und eine weitreichende Softwareintegration [8:3]. Auf Hardware Level setzt IBM Z auf Technologien wie den Error Correcting Code (ECC). Dieser Mechanismus erkennt und korrigiert Speicherfehler automatisch, bevor sie sich auf den laufenden Betrieb auswirken [9:1]. Der Einsatz von Paritätsprüfungen ind Speicher- und Datenübertragungskomponenten stellt sicher, dass Datenintegrität in jedem Schritt des Verarbeitungsprozesses gewährt bleibt [13:1].

Darüber hinaus basiert die Hardware von IBM Z auf einer redundanten Architektur. Kritische Komponenten wie Prozessoren, Speicher und Netzwerkverbindungen sind mehrfach vorhanden, sodass ein Ausfall einzelner Teile keine Auswirkungen auf den Gesamtbetrieb hat [12:1]. Redundante Netzteile und Kühlungssysteme sorgen dafür, dass der physische Betrieb der Systeme selbst unter allen Umständen aufrecht erhalten wird [11:3].

Auf der Softwareseite trägt das Betriebssystem z/OS zur Zuverlässigkeit bei. Es überwacht konstant Systemprozesse und greift automatisch ein, wenn Abweichungen von Normalzuständen auftreten. Hierbei wird mithilfe von Predictive Failure Analysis (PFA) die Software in Echtzeit analysiert um Fehlerzustände präventiv zu erkennen [8:4]. Dies ermöglicht eine proaktive Fehlerbehebung, bevor sich ein Problem zu einer systemweiten Störung ausweitet. Die Zusammenarbeit von hardwarebasierten Sicherheitsmechanismen und Software Überwachung minimieren das Risiko von Datenverlusten und gewährleisten eine fehlerfreie Ausführung geschäftskritischer Anwendungen [13:2].

3.2 Availability (Verfügbarkeit)

In der IT bedeutet Verfügbarkeit, dass Systeme sowie Anwendungen jederzeit betriebsbereit sind und die Downtime eines Dienstes auf ein minimum reduziert wird. Parallel SysPlex erreicht eine nahezu kontinuierliche Verfügbarkeit durch mehrer verschiedene Mechanismen welche Ausfallzeiten verhindern und im Falle eines Fehlers eine schnelle Wiederherstellung ermöglichen [8:5].

Ein zentraler Ansatz ist die Durchführung von Concurrent Firmware Updates, bei denen Systemaktualisierungen während des laufenden Betriebs stattfinden. Dies verhindert, dass eventuelle Wartungsfenster zu Produktionsausfällen führen [9:2]. Parallel SysPlex ermöglicht zudem den Einsatz von Hot Plug Technologien, mit denen Hardware im laufenden Betrieb ausgetauscht oder erweitert werden kann. Diese Flexibilität gewährleistet eine kontinuierliche Anpassung der Infrastruktur an sich verändernde Geschäftsanforderungen [11:4].

Parallel SysPlex ist speziell darauf ausgelegt, ungeplante Ausfälle zu minimieren. Sollte es zu einem Fehler innerhalb eines Systems kommen, greift die Funktion der dynamischen Lastenverteilung. Hierbei werden Transaktionen oder Anwendungen, die auf dem ausgefallenen System liefen, automatisch auf andere Systeme im Cluster umgeleitet. Dieser Prozess erfolgt nahtlos und für die Endnutzer unbemerkt [12:2]. Die Coupling Facility spielt hierbei eine entscheidende Rolle, indem sie den Datenaustausch sowie die Synchronisation zwischen den Systemen sicherstellt. Sie stellt sicher, dass alle Systeme innerhalb des SysPlex Clusters mit den selben Daten arbeiten und verhindert Inkonsistenzen bei Systemwechseln [8:6].

Darüber hinaus ermöglicht die geografische Verteilung SysPlex Clustern, dass im Falle eines großflächigen Ausfalls (z.B. Naturkatasrophen), die Systeme an einem anderen Standort die komplette Arbeitslast übernehmen können. Diese Disaster Recovery Fähigkeit ist ein wesentlicher Vorteil der Parallel SysPlex Systeme und sorgt dafür, dass selbst bei nicht vorhersagbaren Störungen die Kontinuität gewährleistet ist [11:5]. IBM Z bietet hierfür auch eine Technologie wie GDPS (geographically Dispersed Parallel SysPlex), welche für automatische Backups und Synchronisationen über große Distanz hinweg sorgt. Somit wird in einem globalen Unternehmen eine ausfallsichere IT realisiert [9:3].

3.3 Serviceability (Wartungsfähigkeit)

Die Serviceability von Parallel Sysplex Systemen spiegelt sich in ihrer schnellen Diagnose, Reparatur und Aktualisierung, welche den laufenden Betrieb nicht beeinflusst, wieder. Eine Schlüsselaspekt ist der Einsatz von Field Replaceable Units (FRUs), bei welchen fehlerhafte Hardware modular aufgebaut und einfach auszutauschen ist. Dies reduziert den Wartungsaufwand und verkürzt Ausfallzeiten [8:7].

IBM setzt ebenfalls auf Automatisierung der Problemdiagnose welche mit Softwaretools wie IBM zAware durchgeführt wird. IBM zAware nutz maschinelles Lernen, um Log Daten zu analysieren und präventiv Muster zu erkennen, die auf Fehler hindeutet könnten. Diese Analyse beschleunigt die Identifikation vonFehlerquellen und verringert den manuellen Aufwand der Systemadministratoren. IBM zAware ist ein System welches nicht nur Fehler vorschlägt sondern auch prävnetive Maßnahmen vorschlägt, um Probleme zu vermeiden und den Wartungsaufwand signifikant zu reduzieren [14].

Aber nicht nur im Bereich der manuellen Wartung glänzt Parallel SysPlex. Durch Live Patching wird es dem System ermöglicht, während des laufenden Betriebs, Sicherheits- und Systemupdates durchzuführen. Hierdurch entfällt die Notwendigkeit zu geplanter Downtime um Updates durchzuführen. Dies ermöglicht eine kontinuierliche Weiterentwicklung der Systeme ohne die Verfügbarkeit zu gefährden [11:6].

Modulare Hardware, intelligente Diagnosewerkzeuge und die Fähigkeit, Systeme bei laufendem Betrieb zu warten, macht Parallel SysPlex zu einer der wartungsfreundlichsten IT Architekturen auf dem Markt. Sie sichert hohe Verfügbarkeit und minimiert die Gesamtbetriebskosten, da der Aufwand durch Wartung und Reparatur reduziert wird [8:8].


Die Umsetzung der RAS Prinzipien ist ein zentraler Grund dafür, dass Parallel SysPlex seit Jahrzehnten als Maßstab für Hochverfügbarkeit gilt. Unternehmen profitieren von einer robusten und widerstandsfähigen Architektur welche flexiblel auf Veränderung reagieren kann und permanent optimiert werden kann [12:3].

4. IBM z16: Technologische Innovationen für Parallel SysPlex

4.1 Prozessoren und Architektur

IBM z16 Plattformen sind mit den neusten Telum Prozessoren ausgestattet, welche dem Ziel an hoher Verfügbarkeit, Leistungssteigerung und Fehlerresistenz entwickelt wurden. Unter den vielen Neuerungen des Telum Prozessors ist die dynamische Core Sparing Technologie am interessantesten. Diese ermöglicht es, dass bei einem Hardware Fehler automatisch ein fehlerfreier Prozessor Kern zum Ausgleich eingesetzt wird. Dies führt zu einem nahtlosen Betrieb, ohne, dass es zu einem Ausfall des Systems kommt. Für Parallel SysPlex ist diese Funktion besonders wichtig da es einen wesentlichen Beitrag zur Aufrechterhaltung der Fehlertoleranz und Verfügbarkeit beiträgt [9:4].

Des Weiteren bietet der Telum Prozessor eine verbesserte Leistung durch die integration von AI Beschleunigern, welche vor allem für analytische und KI Anwendungen von Bedeutung sind. Durch die Integration dieser AI Engines verbessert sich unter anderem die Rechenleistung, aber sie tragen ebenfalls dazu bei Prozesse effizienter auszuführen, was den Betrieb des Systems optimiert [15]. Eine der Schlüsselkoponenten ist dabei der erhöhte Cache, welcher für eine bessere Datenverarbeitung sorgt und Latenz minimiert. Letzteres ist besonders gefragt in großen Systemen wie Parallel SysPlex [9:5].

Ein weiteres Element der Architektur des IBM z16 ist die Maschienencode Architektur welche eine genaue Wiederherstellung des Systems nach einem Fehler ermöglicht. Da das System den Maschienencode überwacht und entsprechend angepasst wird, kann das System im Falle einer Störung o.ä. den Betrieb mit minimaler Ausfallzeit wieder aufnehmen. So wird sicher gestellt, dass das System auch in kritischen Momenten schnell wieder betriebsbereit ist. Somit wird Downtime reduziert und Verfügbarkeit erhöht [13:3].

4.2 I/O-Subsystem

Das I/O-Subsystem des IBM z16 wurde mit höchster Redundanz und Verfügbarkeit im Sinn entwickelt. Es nutzt ein vollständig redundantes PCIe basiertes I/O-System, was eine schnelle Datenübertragung sowie Fehlerresistent garantiert. Es stellt sicher, dass das System, auch bei einem Ausfall einzelner I/O Elemente, nahtlos weiterläuft. Redundanz ist eines der Hauptmerkmale von Parallel SysPlex, da sie eine kontinuierliche Datenverarbeitung gewährleistet, selbst wenn Hardware fehlerhaft wird [9:6].

Die verbesserte Inter Drawer Konnektivität im IBM z16 stellt einen wichtigen technologischen Fortschritt dar und sorgt für höhere Skalierbarkeit und Flexibilität. Durch die Konnektivität ist es möglich, mehrere I/O-Subsystem miteinander zu verbinden und die Datenverarbeitung innerhalb des Systems zu optimieren. Besonders in einer parallelen Umgebung wie Parallel SysPlex ist diese Fähigkeit essenziell. Sie teilt Last dynamisch auf und maximiert Performance [7:1].

Die verbesserte I/O Architektur ermöglicht es mehreren IBM Z Systemen, gleichzeitig auf dieselben Ressourcen zuzugreifen, was in einer verteilten Clusterumgebung von hoher Bedeutung ist. Dies führt zu einer erhöhten Systemstabilität und Effizienz, da Ressourcen schnell und flexibel zugewiesen werden können [16] [9:7].

4.3 System Recovery Boost

Die System Recovery Boost Technologie des IBM z16 stellt ein weiteres herausragendes Merkmal dar. Sie beschleunigt die Wiederherstellungsprozesse nach geplanten oder ungeplanten Ausfällen erheblich. Mit dieser Technologie wird die Ausfallzeit verringert und das System kommt schneller auf seine normale Leistung zurück. Besonders bei größeren IT Infrastrukturen, in denen Ausfälle unmittelbare betriebliche und finanzielle Folgen haben können ist eine schnelle Wiederherstellung essenziell. System Recovery Boost nutzt Algorithmen, um Fehlerursachen schnell zu identifizieren und eine Wiederherstellung zu ermöglichen, sodass der Betrieb ohne Verzögerung fortgesetzt werden kann [17].

In hochverfügbaren Umgebungen wie dem IBM Z Parallel SysPlex ist diese Technologie von großer Bedeutung. Da die Systeme in einem Cluster zusammenarbeiten ist eine schnelle Wiederherstellung nötig. In Kombination mit den automatischen Wiederherstellungsmechanismen und der dynamischen Lastenverteilung von Parallel SysPlex wird der Betrieb effizient und zuverlässig aufrechterhalten [13:4].

Fehlerprävention und -erkennung im Detail

Eine Sicherstellung der Systemstabilität ist für IBM Z Systeme von höchster Priorität. Durch die Kombination aus hardware und softwarebasierten Methoden ist es möglich Fehler frühzeitig zu erkennen und zu beheben. Besonders in einer hochkritischen Umgebung wie Parallel SysPlex ist eine starke Fehlerprävantion und -erkennung essenziell.

5.1 Hardwarebasierte Fehlerprävention

IBM setzt eine Vielzahl von Maßnahmen ein, um Fehler bereit auf Hardwareebene zu verhindern. Ein Bestandteil dieser Strategie ist das Proton Beam Testing. Es wird eingesetzt um Chips auf sogenannte Soft Errors zu testen, welche durch hochenergetische Partikel, wie sie in kosmischer Strahlung vorkommen, verursacht werden können. Hierfür wird ein Hochenergie Protonenstrahl, welcher die Bedingungen im Weltall simuliert, genutzt. Durch diese Technologie können solche spezifischen Fehler frühzeitig erkannt und entsprechende Korrekturmaßnahmen in der Architektur vorgenommen werden. Dies verbessert die Fehlertoleranz der Telum Prozessoren und trägt maßgeblich zur langfristigen Zuverlässigkeit der Systeme bei [18].

Neben den Protonstrahlentests kommen auch Burn in Tests zum Einsatz. Hierbei werden Hardwarekomponenten durch anhaltende Belastungstests sogenannte Stress Tests, darauf geprüft ob sie Material oder Produktionsfehler aufweisen, bevor sie in den Betrieb gehen. Diese Stress Tests werden unter extrem Bedingungen durchgeführt, beispielsweise hohe Temperaturen und Spannungsspitzen werden simuliert um frühzeitige Ausfälle zu identifizieren. Durch diesen Ansatz werden fehlerhafte Komponenten bereits vor der Markteinführung aussortiert, was die Ausfallwahrscheinlichkeit signifikant reduziert [19].

Ebenso werden in den IBM Z Systemen Selbstdiagnosemechnismen integriert, welche die permanente Stabilität und Funktionstüchtigkeit der Hardware überwachen. Es werden spezielle Sensoren genutzt um beispielsweise Temperaturschwankungen, elektrische Fehlfunktionen oder mechanische Belastungen präventiv zu erkennen. So ist es möglich Probleme automatisch zu melden und zu korrigieren bevor es zu tatsächlichen Ausfällen kommen kann [20].

5.2 Fehlererkennung im Parallel SysPlex

Parallel SysPlex wurde entwicklet um hohe Verfügbarkeit zu gewährleisten, selbst wenn einzelne Komponenten ausfallen oder nicht wie gewohnt funktionieren. Die automatische Fehlererkennung und Isolation fehlerhafter logischer Partitionen (LPARs) ist ein essenzielles Element dieser Architektur. Mithilfe der Cross System Coupling Facility (XCF) überwachen IBM Z Systeme kontinuierlich den Status jeder Partition innerhalb eines SysPlex Verbunds. Falls eine LPAR eine Anomalie aufweist, wird diese automatisch isoliert, um die Auswirkungen auf das Gesamtsystem zu reduzieren. Dieser Mechanismus trägt dazu bei, dass der Parallel SysPlex Betrieb störungsfrei bleibt und keine Performance Probleme auftreten [8:9].

Die dynamische Sitzungsweiterleitung ist ebenfalls ein essenzieller Bestandteil der Architektur. Hierbei wird eine bestehende Sitzung im falle eines Fehlers automatisch auf andere, funktionierende, Systeme innerhalb des SysPlex Clusters umgeleitet. Dieser Prozess erfolgt ohne Unterbrechung für die Endnutzer. In Anwendungen, in denen jede Sekunde eines Systemausfalls zu finanziellen Verlusten führen kann, ist diese Technologie von entscheidender Bedeutung. IBM nutz hierfür spezielle Algorithmen zur Lastenverteilung, die sicherstellen, dass der Arbeitsaufwand gleichmäßig auf redundante Komponenten verteilt wird [21].

Ein weiteres essenzielles Element der Parallel SysPlex Architektur ist das System Management Facilities (SMF) Protokoll. Dieses Protokoll erfass Systemleistungsdaten und erkennt potenzielle Probleme bereits in frühen Stadien. Die erfassten Informationen werden zu Analyse von Systemzuständen genutzt, wodurch gezielte präventive Maßnahmen ergriffen werden können, um Ausfälle zu vermeiden [22].

5.3 Softwaregestützte Fehlerbehebung

Neben hardwarebasierter Prävention spielt auch die Software eine entscheidende Rolle bei der Fehlererkennung und -behebung- IBM Z Systeme verfügen über eine Maschiencode Architektur welche es ermöglicht, Fehler zu erkennen und automatisch zu beheben. Falls eine Anomalie erkennt wird, können Kontrollpunkte genutzt werden, um das System in einen konsistenten Zustand zurückzuführen. Dieser Mechanismus stellt sicher, dass Fehler keinen permanenten Einfluss auf den Betrieb haben und das System nach eine Korrektur sofort wieder betriebsbereit ist [23].

Hierzu wird eine Anwendung namens IBM Z Systems Automation benutzt. Eine NetView basierte Anwendung, welche einen einzigen Kontrollpunkt für eine Vielzahl von Systemverwaltungsfunktionen bietet. Sie überwacht, steuert und automatisiert eine Palette von Systemelementen, einschließlich Hardware und Software Ressourcen. IBM Z Systems Automation spielt eine entscheidende Rolle bei der Bereitstellung von Automatisierungslösungen [23:1].

Ein zusätzlicher Mechanismus zur Verbesserung ist der System Recovery Boost. Dieses Feature sorgt dafür, dass das System nach einem geplanten oder ungeplanten Ausfall schneller wieder in den Normalbetrieb zurückkehrt. Hierbei wird temporär die Rechenleistung erhöht um Wiederherstellungsprozesse zu beschleunigen. In dieser Phase können zusätzliche Prozessoren genutzt werden, um die Systemwiederherstellung zu optimieren und die Betriebsunterbrechung zu reduzieren [17:1].

6. Anwendungsbeispiele: Parallel SysPlex im Einsatz

Parallel SysPlex bietet eine hochverfügbare, skalierbare und fehlerresistente Infrastruktur, die in vielen Branchen eingesetzt wird. Besonders in Anwendungen, bei denen Ausfallzeiten verheerende Folgen haben könnten, spielt diese Technologie eine zentrale Rolle. Die Möglichkeit, mehrere IBM Z-Systeme zu einem Cluster zu verbinden, macht Parallel SysPlex zu einer gefragten Lösung für Unternehmen mit höchsten Anforderungen an Verfügbarkeit.

6.1 Banking und Finanzen

Im Finanzsektor ist die Echtzeitverarbeitung von Millionen von Transaktionen pro Sekunde entscheidend. Parallel SysPlex stellt eine redundante Infrastruktur bereit, die hohe Transaktionsvolumen ohne Unterbrechung verarbeiten kann. Banken und Finanzanbieter setzen IBM Z-Systeme mit Parallel SysPlex ein, um eine reibungslose Abwicklung von Transaktionen zu gewährleisten.

Ein weiteres zentrales Thema ist der Schutz sensibler Daten. Parallel SysPlex ermöglicht eine kontinuierliche Synchronisation von Daten über mehrere Systeme hinweg. Dadurch bleibt der Zugriff auch bei einem Ausfall einer Komponente ungestört. Angesichts strenger Datenschutzvorschriften in der Finanzbranche ist diese Architektur besonders wertvoll [24] [25].

6.2 Hybride Cloud Integration

Die Integration in hybride Cloud-Umgebungen ist ein weiteres Beispiel für den Einsatz von Parallel SysPlex. Unternehmen nutzen IBM Z und Parallel SysPlex, um On-Premises- und Cloud-Ressourcen zu kombinieren, ohne Sicherheit oder Verfügbarkeit zu gefährden.

Diese Architektur bietet Unternehmen die Möglichkeit, sensible Daten in einer privaten Cloud oder einem lokalen Rechenzentrum zu hosten, während sie gleichzeitig die Vorteile öffentlicher Cloud-Dienste nutzen. Parallel SysPlex sorgt für eine durchgehende Verfügbarkeit der Daten, unabhängig vom Speicherort [26].

Ein weiteres Beispiel ist die flexible Skalierung: Unternehmen können kurzfristig Cloud-Kapazitäten erweitern, ohne die Systemstabilität zu beeinträchtigen. Parallel SysPlex integriert lokale Infrastrukturen mit der Cloud und ermöglicht so eine permanente Servicebereitstellung [27].

6.3 Weitere Branchen

Parallel SysPlex ist nicht nur in Finanz- und Cloud-Umgebungen von Bedeutung, sondern auch in anderen Branchen:

  • Gesundheitswesen: Sicherer Zugriff auf elektronische Patientenakten (EPAs) rund um die Uhr. Die redundante Struktur gewährleistet einen nahtlosen Datenzugriff, auch bei technischen Störungen [28].

  • Logistik: Ermöglicht eine Echtzeit-Nachverfolgung von Waren und optimiert die Lieferkette durch kontinuierliche Systemverfügbarkeit [28:1].

  • Telekommunikation: Gewährleistet stabile Netzwerke für Echtzeitkommunikation wie VoIP und Streaming, auch bei Server- oder Datenbankausfällen. Die Skalierbarkeit von Parallel SysPlex verhindert Engpässe und sorgt für eine konsistente Servicequalität [28:2].

7. Ausblick und Fazit

7.1 Zukunft der IBM Z-Technologie

Die IBM Z Plattform wird kontinuierlich weiterentwickelt, um den immer steigenden Anforderungen an Verfügbarkeit, Sicherheit und Skalierbarkeit gerecht zu werden. Besonders hervorzuheben sind: zNext: Die nächste Generation der IBM Z Technologie wird voraussichtlich mehr Integration von KI und maschinellem Lernen bieten. Dies könnte durch verbesserte Telum Prozessoren mit weiteren neuronalen Netzwerken realisiert werden. Cloud Integration: Parallel SysPlex wird zunehmend mit hybriden Technologien kombiniert, um eine flexible Nutzung von On Premises und Cloud Ressourcen zu ermöglichen Erweiterte Resilienz: Durch Weiterentwicklungen in Fehlererkennung und Selbstheilungsmechanismen könnten zukünftige IBM Z Systeme noch robuster gegen Ausfälle werden.

7.2 Zusammenfassung

Parallel SysPlex in Kombination mit IBM Z 16 und RAS stellt eine ideale Lösung für Unternehmer dar, welche eine maximale Systemverfügbarkeit benötigen.

Die wichtigsten Erkenntnisse dieses Posts sind Maximale Verfügbarkeit durch redundante Architektur, die Ausfälle minimiert und eine automatische Lastverteilung gewährleistet. RAS Prinzipien als Schlüssel zu Resilienz: Eine Kombination aus Hardware und Software Lösungen ermöglicht eine hohe Fehlertoleranz und reduziert Ausfallzeiten Skalierbarkeit und Zukunftssicherheit: Die kontinuierliche Weiterentwicklung der IBM Z Plattform und die Integration von Cloud- und KI Technologien sorgen dafür, dass Unternehmen von einer stabilen Infrastruktur profitieren.

Parallel SysPlex ist und bleibt somit eine entscheidende Technologie für geschäftskritische Strukturen.

Literaturverzeichnis


  1. IT Ausfallsicherheit für Server im Unternehmen: https://www.keding-direct.de/it-dienstleistungen/it-sicherheit/ausfallsicherheit-verfuegbarkeit-itk-server-sicher-machen.html ↩︎

  2. ITIC 2024 Hourly Cost of Downtime Report Part 1: https://itic-corp.com/itic-2024-hourly-cost-of-downtime-report/ ↩︎ ↩︎

  3. Die technischen Hintergründe von Amazons AWS-Ausfall: https://www.heise.de/hintergrund/Die-technischen-Hintergruende-von-Amazons-AWS-Ausfall-6293942.html ↩︎

  4. AWS Well-Architected: https://aws.amazon.com/architecture/well-architected/?wa-lens-whitepapers.sort-by=item.additionalFields.sortDate&wa-lens-whitepapers.sort-order=desc&wa-guidance-whitepapers.sort-by=item.additionalFields.sortDate&wa-guidance-whitepapers.sort-order=desc ↩︎

  5. Best practices in cloud applications: https://learn.microsoft.com/en-us/azure/architecture/best-practices/index-best-practices ↩︎

  6. What is the NIST Cybersecurity Framework?: https://www.ibm.com/think/topics/nist ↩︎

  7. Parallel SysPlex: Documentation: https://www.ibm.com/de-de/products/zos/parallel-sysplex ↩︎ ↩︎

  8. Parallel Sysplex Principles: https://www.ibm.com/docs/en/cics-ts/6.x?topic=sysplex-parallel-principles ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  9. IBM z16 Technical Introduction: https://www.redbooks.ibm.com/redbooks/pdfs/sg248950.pdf ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  10. Clustering Techique: Parallel Sysplex: https://www.ibm.com/docs/en/zos-basic-skills?topic=techniques-clustering-technique-parallel-sysplex ↩︎

  11. Disaster Recovery: https://www.ibm.com/docs/en/zos-basic-skills?topic=availability-benefits-parallel-sysplex-disaster-recovery ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  12. Server Reliability Survey: IBM, Lenovo, Cisco Top ITIC’s List: https://techchannel.com/industry-news/server-reliability-survey-2024/#:~:text=Reliability%20Data,downtime%20(See%20Figure%201). ↩︎ ↩︎ ↩︎ ↩︎

  13. Parallel Sysplex: Worth the effort for continuous availability: https://www.ibm.com/docs/en/zos-basic-skills?topic=concepts-parallel-sysplex-worth-effort-continuous-availability ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  14. IBM zAware Guide: https://www.ibm.com/support/pages/sites/default/files/inline-files/SC27-2623-01.pdf ↩︎

  15. IBM Telum processor on IBM Z: https://www.ibm.com/z/telum#:~:text=The%20IBM%20Telum%20processor%20is,L3%20and%202GB%20L4%20cache. ↩︎

  16. IBM z16 Technical Overview: https://www.ibm.com/support/pages/system/files/inline-files/z16%20Technical%20Overview_0.pdf ↩︎

  17. Overview of System Recovery Boost: https://www.ibm.com/docs/en/zos/3.1.0?topic=boost-overview-system-recovery ↩︎ ↩︎

  18. Hardness assurance for proton direct ionization-induced SEEs using a a hight energy proton beam: https://research.ibm.com/publications/hardness-assurance-for-proton-direct-ionization-induced-sees-using-a-high-energy-proton-beam ↩︎

  19. Burn-In Integration and Test > Thermal Testing: https://s3vi.ndc.nasa.gov/ssri-kb/topics/47/ ↩︎

  20. IBM z13: Technical Guide: https://www.redbooks.ibm.com/redbooks/pdfs/sg248251.pdf ↩︎

  21. Benefits of Parallel Sysplex: Dynamic workload balancing: https://www.ibm.com/docs/en/zos-basic-skills?topic=availability-benefits-parallel-sysplex-dynamic-workload-balancing ↩︎

  22. Best Practices for IBM z/OS in a Parallel Sysplex IBM Z WSC Health Check Guidelines: https://www.ibm.com/support/pages/system/files/inline-files/Best%20Practices%20for%20zOS%20in%20a%20Parallel%20Sysplex_4.pdf ↩︎

  23. IBM Z System Automation: https://www.ibm.com/de-de/products/z-system-automation ↩︎ ↩︎

  24. What is data security?: https://www.ibm.com/think/topics/data-security ↩︎

  25. Data security and protection solutions: https://www.ibm.com/data-security ↩︎

  26. zPET Parallel Sysplex Environment – 2024: https://community.ibm.com/community/user/ibmz-and-linuxone/blogs/alex-diss/2024/06/27/zpet-parallel-sysplex-environment-2024?communityKey=2a2f855c-5950-4a9d-8485-86645982646a ↩︎

  27. Should you move worloads to the mainframe or the cloud – or both: https://www.kyndryl.com/us/en/perspectives/articles/2023/09/move-workloads-to-mainframe-cloud-or-both ↩︎

  28. An overview of the Parallel Sysplex and Coupling Facility on the IBM Z Mainframes: https://planetmainframe.com/2020/09/an-overview-of-the-parallel-sysplex-and-coupling-facility-on-the-ibm-z-mainframes/ ↩︎ ↩︎ ↩︎


Posted

in

by

Luca Walz

Comments

Leave a Reply