Netzwerkarchitektur: Vom Fat Tree zum flachen Netzwerk

Giacomo Bernardi, Senior Principal Engineer at AWS. (Foto: ©Amazon/AWS)

Autor: Giacomo Bernardi, Senior Principal Engineer at AWS

Rechenzentren wachsen schneller als je zuvor. Die Netzwerkarchitektur, auf der sie basieren, hat sich jedoch seit Jahrzehnten kaum verändert. Die Technik kann mit vielen Entwicklungen nicht mithalten. Die Lösung begann mit einer Nachricht auf Slack. Ein Netzwerkexperte von Amazon, Ratul Mahajan, suchte jemanden mit Kenntnissen in Graphentheorie. Seshadhri Comandur antwortete, ein Mathematikprofessor an der University of California. Aus diesem kurzen Austausch entstand eine Zusammenarbeit, die die Netzwerkarchitektur von Rechenzentren grundlegend verändert hat. Gemeinsam lösten wir ein Problem, das die Branche seit Jahrzehnten beschäftigte.

(von links nach rechts) Seshadhri Comandur, Giacomo Bernardi und Ratul Mahajan kommen aus verschiedenen Bereichen bei Amazon, aus verschiedenen Ländern. Zusammen haben sie den Informationsfluss in Rechenzentren von Grund auf neu gedacht. (Foto: ©Amazon/AWS)

Das strukturelle Problem von herkömmlicher Architektur
Rechenzentren übertragen täglich enorme Datenmengen zwischen unzähligen Servern. Die dafür verwendete Standardarchitektur, der sogenannte Fat Tree, folgt dem Prinzip eines Organigramms: Router sind in streng hierarchischen Ebenen angeordnet, und Datenpakete müssen immer über die oberen Ebenen geschickt werden, bevor sie ihr Ziel erreichen. Das funktioniert, hat aber strukturelle Schwächen. An der Spitze des Baums entsteht beispielsweise oft ein Datenstau. Schon der Ausfall eines einzelnen Routers kann ganze Bereiche des Netzwerks abschneiden. Und die zusätzlichen Router-Ebenen bedeuten mehr Hardware, Stromverbrauch und potenzielle Fehlerquellen.

Theoretisch war die bessere Alternative seit den frühen 1990er Jahren bekannt: ein flaches Netzwerk, in dem Router sich direkt und zufällig miteinander verbinden. Simulationen belegten die Vorteile. Aber die Umsetzung in einem echten Rechenzentrum scheiterte an drei Problemen: Ein vollständig zufälliges Netzwerk erzeugt ein unbeherrschbares Kabeldurcheinander, erfordert Routing-Berechnungen, die Standard-Hardware überfordern, und lässt sich vor dem Bau nicht mathematisch verlässlich modellieren. Die Idee blieb somit zunächst nur Theorie.

RNG: Der Weg vom Konzept zur Praxis
AWS hat diese Probleme mit einem Ansatz gelöst, den das Team Resilient Network Graphs nennt, kurz RNG. Der Kern ist eine sogenannte quasi-zufällige Topologie. Sie ist nicht vollständig zufällig und nicht hierarchisch, sondern ein kalkulierter Kompromiss, der die mathematischen Vorteile zufälliger Netzwerke liefert und trotzdem in der Praxis handhabbar bleibt. Zwei Neuentwicklungen machen RNG praxistauglich: die ShuffleBox und das Routing-Protokoll Spraypoint. Sie lösen jeweils ein anderes der Kernprobleme, und erst ihr Zusammenspiel macht die neue Architektur möglich.

Close-up von RNG Racks. (Foto: ©Amazon/AWS)

Die ShuffleBox ist ein passives optisches Bauteil ohne eigene Stromversorgung. Sie sitzt zwischen den Servern und den Verbindungen zu anderen ShuffleBoxen. Intern sind die Kabel nach einem festen, mathematisch berechneten Muster geschaltet. Dieses Muster sorgt dafür, dass die Verbindungen zwischen verschiedenen ShuffleBoxen in ihrer Gesamtheit jene bereits erwähnte Topologie erzeugen, ohne dass jede Verbindung einzeln geplant werden müsste. Wenn ein neues Server-Rack angeschlossen wird, steckt der Techniker es in einen freien Port der lokalen ShuffleBox.

Das Routing-Problem löst das Spraypoint-Protokoll. Der Quell-Router verteilt hierbei den Datenverkehr zufällig auf alle seine Nachbar-Router. Von dort leitet ein klassischer Shortest-Path-Algorithmus die Pakete zu sogenannten Waypoints, die den Verkehr zum Ziel-Router weiterführen. Spraypoint bietet fast doppelt so viele unabhängige Pfade zwischen Routern wie Standard-Shortest-Path-Routing. Staus werden umgangen, und der Ausfall eines einzelnen Routers hat begrenzte Auswirkungen.

Weniger Hardware, bessere Performance
Die Ergebnisse zeigen sich im Arbeitsalltag. RNG verwendet 69 Prozent weniger Router als ein vergleichbares Fat-Tree-Netzwerk. Das reduziert direkt die Hardware-Kosten, den Kühlaufwand und den operativen Overhead an jedem Standort. Der Datendurchsatz verbessert sich um bis zu 33 Prozent. Für den Stromverbrauch der Netzwerkgeräte erwartet AWS eine Reduktion von 40 Prozent gegenüber der bisherigen Architektur, mit entsprechenden Auswirkungen auf den CO2-Ausstoss in den betroffenen Regionen.

Das erste Rechenzentrum in der Produktion auf Basis von RNG ging Ende 2024 in Irland in Betrieb. 2025 folgte der Rollout in Spanien und Deutschland. Seit April 2026 ist RNG die Standard-Architektur für die meisten neuen AWS Rechenzentren weltweit. Für Kunden bedeutet das eine robustere Infrastruktur hinter jedem API-Call, jeder Datenbankabfrage und jedem Machine-Learning-Training, ohne dass eine einzige Zeile Code angepasst werden muss. Mehr Durchsatz, weniger Ausfälle und zusätzlich hat sich die CO2-Bilanz verbessert. RNG liefert all das als Upgrade.

Server-Racks. (Foto: ©Amazon/AWS)

Exit mobile version