News & Presse

20.05.2010

WP: 10 Gigabit Ethernet wird erste Wahl für Rechenzentren der nächsten Generation.

Ein High-Performance-Cluster in der biomedizinischen Forschung stützt sich auf 10-Gigabit-Ethernet (10-GbE) mit iWARP

Ein großes Forschungsinstitut erzielte in einem Cluster mit 4032 Kernen eine Leistung von nahezu 36 TeraFLOPS bei einer Effizienz von über 84 Prozent (HPL-Benchmark). Möglich wurde dies durch die Nutzung von iWARP und 10-GbE, womit der typische Overhead durch Kernel-Benutzer-Kontextwechsel, mehrfache Kopien des Puffers zwischen Speicherbereichen und durch die TCP/IP-Verarbeitung reduziert werden konnte.

Kurzzusammenfassung

iWARP (Internet Wide Area RDMA Protocol) erlaubt den Aufbau von Netzwerken mit geringer Latenz, die sich für High-Performance-Cluster eignen. Das Entscheidende: Alles geschieht mit standardbasierter, überall verbreiteter Ethernet-Technik. Ein Schlüsselvorteil der Vernetzung mit iWARP ist ihre Kompatibilität mit bestehenden Netzwerkinfrastrukturen, Managementlösungen und Anwendungen.

Dieses Papier zeigt, wie Cluster-Computing auf iWARP-Basis eingesetzt werden kann, um mithilfe von 10-GbE sehr hohe Leistung zu erzielen. Es beginnt mit der Beschreibung der Architektur eines Clusters auf iWARP-Basis, bevor die iWARP-Technik als solche kurz erläutert wird. Das Papier schließt mit einem Bericht über die Performance, die mit einem solchen Cluster erreicht wurde, sowie Beobachtungen zum Nutzen, den iWARP künftig auf diesem Gebiet erbringen kann.

Eine Großforschungseinrichtung erzielte mit iWARP und NetEffect™ 10-GbE-Server-Cluster-Adaptern in einem Cluster mit 4032 Kernen exzellente Leistung und nahezu lineare Skalierbarkeit. Dies ergab eine Messung mit dem HPC-LINPACK-Benchmark. Ergebnis ist ein im Vergleich sehr kostengünstiger Ansatz für die Verarbeitung sehr großer Mengen technischer Daten: die Netzwerk-Hardware besteht ausschließlich aus marktüblichen Komponenten.

Architektur eines iWARP-Clusters für die medizinische Forschung

Um größere Workloads in bestimmten, für ihre Forschung kritischen Bereichen, wie Bioinformatik, Bildanalyse und Sequenzierung, zu unterstützen, baute eine Forschungseinrichtung ein ausgedehntes Cluster (4032 Kerne) auf iWARP-Basis auf. Bei den Rechnern fiel die Wahl auf Zweiprozessorserver des Typs Dell PowerEdge R610 mit Intel® Xeon® x5550-Prozessoren und 2,66 GHz Taktfrequenz. Die Server sind jeweils mit 24 GB RAM und einem einzelnen 80-GB-SATA-Festplattenlaufwerk ausgestattet. Für die RDMA-Verbindung (Remote Direct Memory Access) nutzt der Aufbau NetEffect™ 10-GbE-Server-Cluster-Adapter.


Bild 1: Der Cluster besteht aus 504 Servern mit je zwei Quadcore-Prozessoren, je Rack mit zwei Rack-Level-Switches verbunden, die ihrerseits einen Uplink ins zentrale Netzwerk besitzen.

Der Cluster wird für eine Reihe von Aufgaben genutzt, darunter Bildanalyse, verschiedene Bioinformatik-Software und -Werkzeuge, CFD-Modelling, Software für rechnerische Chemie und viele Softwarepakete, die aus Open-Source-Quellen, kommerziellem Erwerb und Eigenentwicklung stammen. Der Cluster wurde so konzipiert, dass er einerseits für alle aktuell benötigten wissenschaftlichen Berechnungen geeignet ist und andererseits eine Plattform bildet, die andere Arten von Aufgaben, die im Laufe seines Lebenszyklus auf ihn zukommen könnten, bewältigen kann.

Die in Abbildung 1 gezeigte Cluster-Topologie besteht aus 14 Server-Racks mit 36 Servern pro Rack, insgesamt also 504 Servern. Auf Rack-Ebene hat jeder Server zwei Verbindungen zu einem der zwei 1-HE-Switches Arista 7148SX mit je 48 Ports: eine 10-GbE-Verbindung (über direkt angeschlossenes Twinax-Kabel) für den RDMA-Verkehr und eine 1-GbE-Verbindung für den gesamten anderen Datenverkehr. Jeder Arista-7148SX-Switch hat acht 10-GbE-Uplinks (16 pro Rack) zu einer Gruppe von Arista-7xxx-Switches.

Als Software läuft auf dem Cluster Red Hat Enterprise Linux* 5.3, OFED (OpenFabrics Enterprise Distribution) 1.4.1 und Intel® MPI (Message Passing Interface) 3.2.1.

Einsatz von iWARP zur Reduzierung des Overheads und der Latenz in Multi-Gigabit-Netzwerken

Seine weite Verbreitung macht Ethernet extrem kostengünstig für den allgemeinen LAN-Datenverkehr. Es liegt nahe, diesen Vorteil auch für andere Einsatzbereiche zu nutzen – etwa als Basistechnik für leistungsstarke Rechencluster. Für diesen Zweck galt es jedoch zunächst, einige Probleme zu bewältigen. Als Erstes musste die Verbindungsgeschwindigkeit auf ein hinreichend hohes Niveau gebracht werden, was mit der weithin verfügbaren 10-GbE-Netzwerktechnik erreicht wurde.

Um die Vorteile der 10-GbE-Übertragungsrate voll ausschöpfen zu können, mussten jedoch die für Ethernet-Netzwerke typischen Latenzen überwunden werden. iWARP spezifiziert eine Reihe von Standarderweiterungen für TCP/IP, die einen Transportmechanismus für RDMA definieren. Damit bietet iWARP einen Weg, um RDMA mit geringen Latenzen über Ethernet zu übertragen (Bild 2):

• Lösung für einen Kernel-Bypass:

Daten werden direkt in den Benutzerspeicher übertragen. Dies vermeidet Kernel-User-Kontextwechsel, wodurch sowohl die Latenz als auch die Prozessorauslastung reduziert werden.

• Vermeiden von Kopien des Puffers zwischen Speicherbereichen

Daten werden direkt in die Applikations-Puffer übertragen, anstatt sie mehrfach in die Stackpuffer der Treiber und des Netzwerks zu kopieren. Dies führt zu einer weiteren Verringerung der Latenz sowie zur Reduzierung der Speicher- und Prozessorauslastung.

• Beschleunigte TCP/IP-Verarbeitung (Datentransport)

Die TCP/IP-Verarbeitung erfolgt in der Hardware, anstatt dafür die Netzwerk-Stack-Software des Betriebssystems zu beanspruchen. Dies erlaubt eine zuverlässige Verbindungsverarbeitung bei hoher Geschwindigkeit und Auslastung.


Bild 2: iWARP verbessert den Durchsatz, indem es den Overhead reduziert, der mit Kernel-User-Kontextwechseln, Kopien des Puffers zwischen Speicherbereichen und der TCP/IP-Verarbeitung verbunden ist.

Das iWARP-Protokoll wurde für den Datenverkehr innerhalb einer Ethernet-Infrastruktur entwickelt, daher sind keine Änderungen an den bestehenden Ethernet-Netzwerken oder Geräten erforderlich. Die Kompatibilität von iWARP mit Ethernet erlaubt dabei, dass IT-Organisationen gleichzeitig alle Vorteile der Erweiterungen von Ethernet in Anspruch nehmen können, darunter etwa Data-Center-Bridging, Switches mit geringer Latenz und IP-Sicherheit.
Übliche Ethernet-Switches und Router transportieren den iWARP-Verkehr über existierende TCP/IP-Protokolle. Da iWARP oberhalb der TCP-Schichten angesiedelt ist, brauchen Netzwerkgeräte iWARP nicht zu verarbeiten und spezielle Funktionseigenschaften sind nicht erforderlich. Dies erlaubt die Nutzung von branchenüblichen Managementkonsolen, die mit existierenden IP-Management-Protokollen arbeiten. Die Open Fabrics Alliance (www.openfabrics.org) stellt einen Open-Source-RDMA-Software-Stack zur Verfügung, der für iWARP sowohl gegenüber der Hardware als auch gegenüber Applikationen transparent ist. Diese Eigenschaften erlauben eine problemlose iWARP-Integration in bestehende Umgebungen, während gleichzeitig die strengsten Anforderungen hinsichtlich Kosten und Leistung erfüllt werden.

Performance- und Skalierungs-Ergebnisse

Bei HPL-Benchmark-Tests, den Projektingenieure mit diesem Cluster auf Basis von 4000 Kernen im Labor durchführten, kam eine Leistung vom 35,81 TeraFLOPS bei 84,14 Prozent Effizienz heraus (Bild 3). Die verwendete HPL-Problemgröße war 1 200 000 und die für die halbe Leistung erforderliche Problemgröße (N/2-Problemgröße) war 300 000. Wichtig: Die Leistungsdaten skalieren nahezu linear mit der Anzahl der Kerne.

Aus Ingenieurs-Perspektive hilft die Linearität der Ergebnisse beim Performance-Gewinn sicherzustellen, dass diese Topologie auch für Rechenaufgaben im sehr großen Stil geeignet ist. Im Vergleich zu den Systemen in der Top-500-Rangliste vom letzten Juni zeigt dieser Cluster die höchste Effizienz einer Ethernet-Lösung. Über alle x86-Lösungen insgesamt kommt der Cluster in Sachen Effizienz immerhin unter die ersten 30 dieser Rangliste. Nachdem die Datenrate selbst bei dieser Cluster-Größe keinen nennenswerten Einbruch zeigt, liegt der Schluss nahe, dass sich die Lösung auch weit über die hier gezeigte Größenordnung hinaus skalieren lässt. Natürlich müsste diese Hypothese erst noch untersucht werden, um ihre Gültigkeit zu beweisen. Aus kostentechnischer Perspektive zeigen die Ergebnisse, dass bis zu mindestens 500 Knoten jeder einem Cluster hinzugefügte Rechenknoten einen angemessenem Mehrwert im Verhältnis zu den Gesamtkosten des Clusters bietet.

Die genannten Leistungs- und Effizienzwerte müssen unter Berücksichtigung der Tatsache erwogen werden, dass die gewählte Cluster-Konfiguration die Verbindungen zu den Arista-7xxx-Switches um den Faktor 2,475:1 überbeansprucht. Die Nutzung von freien Ports in den Racks für zusätzliche Verbindungen in das Netzwerk würde die Überbeanspruchung reduzieren. Dies könnte möglicherweise zu noch besseren Performance-Ergebnissen führen – ein interessanter Punkt, der zu einem späteren Zeitpunkt noch genauer untersucht werden sollte.


Bild 3: Messungen mit dem HPC-LINPACK-Benchmark ergaben für das Cluster auf Basis von iWARP und 10-GbE eine Performance von 35,81 TeraFLOPS bei 84,14 Prozent Effizienz.

Fazit

Die in diesem Whitepaper beschriebenen Untersuchungsergebnisse mit einem künstlichen Benchmark-Test deuten auf einen sehr hohen Nutzen dieser Cluster-Topologie für die künftige Forschung hin. Die Ergebnisse zeigen, dass der Einsatz weit verbreiteter Ethernet-Technik in Rechenclustern inzwischen überzeugende Leistung, Effizienz und Skalierbarkeit liefert. Mit Unterstützung von iWARP mit NetEffect 10-GbE-Server-Cluster-Adaptern lässt sich der RDMA-Verkehr sehr effektiv über die Ethernet-Netzwerkinfrastruktur übertragen. Mit zunehmender Reife von 10-GbE, wie sie sich beispielsweise in höheren Port-Dichten der Switches und Technik für weiter sinkende Latenzwerte ausdrückt, erscheinen die Vorzüge von Ethernet für den Aufbau von Super-Computing-Plattformen sogar noch vielversprechender.

Weiterführende Quellen

Um mehr über die in diesem Whitepaper beschriebene Technik, Produkte und Implementierungen zu erfahren, empfehlen wir folgende Quellen:
10-GbE-iWARP-fähige NetEffect™ Ethernet-Server-Cluster-Adapter: www.intel.com
Arista Switches: www.aristanetworks.com
Arista Vertretung Region DACH: www.seicom-muc.de
Dell PowerEdge* R610 Server: www.dell.com
HPL-Benchmark-Website: www.netlib.org

Für weitere Informationen zum Thema iWARP empfehlen wir das Papier „Understanding iWARP: Eliminating Overhead and Latency in multi-Gb Ethernet Networks“, das unter folgendem Link heruntergeladen werden kann:
download.intel.com

Copyright © 2009 Intel Corporation (http://www.intel.com/). Alle Rechte vorbehalten. Intel, das Intel-Logo und Xeon sind Marken der Intel Corporation in den USA und anderen Ländern.

Übersetzung vom Englischen ins Deutsche: SEiCOM Communication Systems GmbH (www.seicom-muc.de)

Weitere Informationen:

SEiCOM Communication Systems GmbH
Dieter Seipt
Klenzestr. 1-3
D-85737 Ismaning
Tel: 089 - 96 24 56-700
Fax: 089 - 96 24 56-956
E-Mail: info@seicom-muc.de
Web: www.seicom-muc.de

Weiterführende Links:
Arista Pressemitteilung
Download Whitepaper (.PDF)