Was ist der Vorteil eines Cisco-Top-of-Rack-Designs?

7

Abgesehen von dem offensichtlichen Kabelsalat, den Sie vermeiden (was ich als Netzwerktechniker kenne, ist großartig, aber schwer als Ausrede zu verwenden, wenn Sie mit jemandem argumentieren, der keinen Sinn darin sieht), was gewinnen Sie gegenüber Kupfer direkt zu einem größeren Ader?

Kontext: - Der Preis spielt keine Rolle

Das Unternehmen hatte sich bereits für einen dualen Nexus-Kern entschieden.
- Option 1: Nexus 7004, die fast vollständig mit 10G SFP + und aggregierten Verbindungen zu mehreren FEXs oben auf jedem Rack im DC sowie aggregierten SAN- und verschiedenen Serververbindungen gefüllt sind
- Option 2: Nexus 7009-Kerne, die ca. 1/3 mit verschiedenen Modulen gefüllt, um die Aggregation aller Glasfaserverbindungen von allen Geräten aufzunehmen.
Dies ist ein kolokalisiertes Rechenzentrum
Im Netzwerk gehostete Standarddienste für Call Center / Unternehmensdomänen
QoS ist ein sehr wichtiger Punkt, der hervorgehoben werden muss, da dieses Unternehmen ein Callcenter ist

Problem:

Ich kann es nicht rechtfertigen, mich für das "Top-of-Rack" -Setup von Cisco zu entscheiden, obwohl ich weniger Kabelprobleme und einen modulareren Aufbau haben möchte. Ich kann dies nicht tun, weil Sie einen Fehlerpunkt in das Netzwerk einfügen. Dies erhöht die Latenz (auch wenn sie nur geringfügig ist) usw. Nicht nur das, sondern jetzt, da ich darüber nachdenke, da alle FEXs für den Betrieb auf das Nexus angewiesen sind, erhöhen Sie nicht nur die Wahrscheinlichkeit eines Hardwarefehlers Ein Block von Geräten wird heruntergefahren, aber jetzt ein Software-Prozess, der ausfallen und zu Fehlfunktionen des FEX führen kann.

Kann jemand anderes einen Grund sehen, sich nicht für einen größeren Kern und keine FEXs zu entscheiden, bevor ich das Top-of-Rack-Design auf den Ideenfriedhof für dieses Projekt lege?

cisco best-practices cisco-nexus-7k

— skrumcd
quelle

Ich habe keine gute Antwort, aber die Fehlerisolierung fällt mir ein.

— Josef Gunsburg

Ja - das habe ich mir auch überlegt. Letztendlich ist es eine Fehlerisolierung auf Kosten des Risikos weiterer Fehler.

— skrumcd

7

Denken Sie daran, dass ein FEX von Natur aus eine Methode ist, um den Stoff und damit den Namen zu erweitern. Die Möglichkeit, zentral zu verwalten, während immer noch "Line Cards" im gesamten DC verteilt sind, ist der eigentliche Grund für die Verwendung eines FEX. Die drastische Reduzierung der Verkabelung ist für jeden wertvoll, egal ob technisch oder nicht, und das Argument, die gesamte Infrastruktur an weniger Punkten verwalten zu können, ist schlicht und einfach Zeitersparnis.

Einer Ihrer großen Zweifel ist, dass Sie sich Sorgen über einzelne Fehlerquellen machen. Alle Geräte können Dual-Homed-fähig sein. In bestimmten Konfigurationen können Sie sogar virtuelle Portkanäle mit den Nexus 2K FEXs selbst einrichten.

Schauen Sie sich die Dokumentation von Cisco an . Sie werden feststellen, dass Sie mit weniger Aufwand eine Topologie entwerfen können, die genauso redundant ist wie die von Ihnen in Betracht gezogene Option "Direktkabel".

— Mierdin
quelle

Wir könnten einzelne Fehlerstellen bis hin zum Muster der Elektronen, die den Draht kreuzen, diskutieren. Ich denke, ich sehe nur eine weitere, insbesondere eine, die von einem einzigen Satz von Geräten gesteuert wird, von denen wahrscheinlich dieselbe Software ausgeführt wird und könnte haben also die gleichen Fehler, die unnötig sind, wenn sie nicht durch ein Budget begrenzt sind. Ich denke du hast mir geholfen meine eigene Frage zu beantworten :)

— skrumcd

Tatsächlich. Eine Line Card ist genauso ein Fehlerpunkt wie ein FEX. ('tho es ist einfacher, die FEX zu trennen)

— Ricky Beam

1

Überlegen Sie, wo Ihre Fehlerdomänen liegen. Können Sie es tolerieren, dass einzelne Server oder einzelne Racks oder eine Reihe von Racks ausfallen, bevor Sie übermäßig besorgt sind? Dieses Verständnis bestimmt die Lösung, um Ihre Entwurfsziele zu erreichen, und bestimmt die Zuverlässigkeit, die Sie an jedem Punkt (Server, Rack, Zeilen) im Netzwerk erreichen müssen.

— Generalnetworkerror

13

Was die Vorteile betrifft, werden die ersten Kabel schlampig, und wenn Sie schlampig sind, treten Probleme auf. Ich habe gesehen, dass die Verkabelung der Infrastruktur in einem Rechenzentrum aus verschiedenen Gründen schlecht ist. Benötigen Sie weitere Kabel? Dann spielt jemand mit der Kabelanlage und etwas könnte beschädigt werden. Der Umgang mit fast 400 an ein Gerät angeschlossenen Kabeln führt zu mehr versehentlichen Verbindungsabbrüchen als 48. Die Verwaltung ist einfach viel einfacher.

Zweitens hilft dies zur Zukunftssicherung. Während Kupfer mit 10 Gbit / s vorhanden ist, können die Entfernungsbeschränkungen je nach Situation problematisch sein. Darüber hinaus verbraucht 10G Kupfer tendenziell mehr Strom, je länger Sie unterwegs sind.

Drittens können FEXes einfacher ersetzt werden. Wenn Sie von 1 Gbit / s Kupfer auf 10 Gbit / s SFP + wechseln möchten, ändern Sie einfach den FEX. Ihr Kern bleibt gleich und die Konfiguration bleibt weitgehend erhalten.

Ich sehe die von Ihnen bereitgestellten Negative nicht und sehe nur Vorteile dafür.

Abhängig von der Einrichtung Ihres Rechenzentrums würde ich entweder zwei Fabric Extender oben im Rack oder einen verwenden (wenn Server mit benachbarten Racks gemeinsam genutzt werden können). Server sollten an zwei separate Extender angeschlossen werden. Jeder Fabric Extender kann mit FETs an beide Nexus 7k angeschlossen werden (die ebenfalls angeschlossen werden sollten).

Dies sollte Ihre Ausfallwahrscheinlichkeit verringern. FEXes sind eine Erweiterung des Gehäuses (gelesen für Rechenzentrum mit hoher MTBF) und ähneln eher einem Modul in einem 1U- "Körper" im Gegensatz zu einem sekundären Verteilungs- oder Zugriffsgerät. Sie booten, sie booten die Software vom Kern, so dass es keinen Softwareunterschied gibt. Sie können einen 7k oder einen Extender verlieren, ohne irgendwo den Service zu verlieren. Möglicherweise ein 7k und eine Reihe von Extendern, ohne den Service zu verlieren.

Sie können dies dann auch als eine einzige logische Einheit verwalten, sodass Server beispielsweise eine Link-Aggregation durchführen können, selbst wenn sie mit zwei verschiedenen Extendern verbunden sind. Dies erhöht sowohl die Leistung als auch die Ausfallwahrscheinlichkeit.

Ich kann nicht sehen, wie dies die Latenz in irgendeiner Weise erhöhen und es tatsächlich verbessern könnte.

Wenn Sie die erweiterten Funktionen von Nexus verwenden, sehe ich nur weitere Vorteile.

Letztendlich müssen Sie die Wahl für Ihre eigenen Bedürfnisse treffen. Aber ich sage dies, wenn Sie untersuchen, wie die Top-Internetunternehmen ihre Rechenzentren betreiben, werden Sie feststellen, dass die meisten von ihnen eine Art Top-of-Rack-Bereitstellung haben. Sie wählen dies nicht, weil dies ihre Ausfallzeit erhöht oder die Leistung verringert. Sie tun dies, weil es Ausfallzeiten reduziert, die Leistung erhöht und die Verwaltbarkeit erheblich verbessert.

Bearbeiten: Konsolidieren aus meinen Kommentaren, damit ich löschen kann. Der Kommentarzug zu dieser Antwort ist derzeit zu lang, um nützlich zu sein.

— YLearn
quelle

Ich denke, Sie haben den Eindruck, dass die FEXs mehr bieten als sie - wir können sowohl die Server als auch die FEXs genauso einfach multihome.

— skrumcd

Ja, aber im Kern streiten wir uns zwischen der Idee, ein Kabel direkt zum Kern zu verlegen, und der Verlegung zu FEX-Geräten, die ausfallen könnten .

— skrumcd

Um ganz klar zu sein: Der Preis spielt keine Rolle, ebenso wenig wie die Portdichte, da dies durch die verbleibenden 5-6 Slots auf jedem Nexus abgedeckt wird. Wenn Sie das wissen, würden Sie sich trotzdem dafür entscheiden, einen Fex zwischen den Servern und dem Kern zu platzieren?

— skrumcd

4

Ich stimme YLearn zu, dass FEXs Top-of-the-Rack, das zum Kern zurückkehrt, auf lange Sicht besser sein wird. Wir haben festgestellt, dass wir kein volles Gehäuse füllen konnten, da wir keine Kabel mehr in das Loch im Boden des Racks bekommen konnten. Ich denke, Sie haben mit größerer Wahrscheinlichkeit einen Ausfall aufgrund der Masse der Verkabelung im Kernnetzwerk-Rack als ein Gerät, das ausfällt. Es ist einfach, ein oder zwei Kabel zu klopfen, wenn Sie nach etwas suchen oder neue Kabel verwenden. Dies ist auch einfacher und schneller Ersetzen Sie ein 2 m langes Patchkabel als ein 20 m langes Kabel zurück zum Kern, falls ein Kabel ausfällt.

— Epaphus

3

Ich habe zu viele Orte ohne eine ordnungsgemäße Einrichtung des TOR-Schalters besucht. Es ist fehleranfällig, chaotisch und führt zu mehr Ausfällen. Letztendlich ist dies kein Argument - es sind Meinungen, die auf der realen Erfahrung mehrerer Menschen beruhen. Sie scheinen ziemlich fest entschlossen zu sein, eine direkte Verbindung zu den 7Ks herzustellen. Das ist gut. Wird es funktionieren? Ja. Wenn Sie Ihre Verkabelung nicht viel berühren, funktioniert es einwandfrei. Denken Sie daran, wenn es 2 Uhr morgens ist und Sie ein langes Arus-Kabel zwischen den Racks verlegen und sagen: "Warum habe ich keine TOR-Schalter bekommen?" Es ist nicht die anfängliche Verkabelung, die nervt. Es ist jeder einzelne danach.

— Bigmstone

4

1.) Die Chancen stehen gut, dass Sie sich im Colo-Raum eher den 7010 mit Luftstrom von vorne nach hinten als den 7009 mit seitlichem Luftstrom ansehen möchten.

2.) Einer der offensichtlichen Punkte in der Diskussion zwischen ToR und zentralisiertem Schalten ist normalerweise die Skalierbarkeit. Wenn Ihr Colo-Fußabdruck ziemlich fest ist, ist das kein großes Problem. Wenn es auf nennenswerte Weise wachsen soll, sollte die Fähigkeit, das Netzwerk auf rationale Weise zu erweitern, in Betracht gezogen werden. Trotzdem würde ich wahrscheinlich nur ungern einen 7004 als Konzentrationspunkt für die FEX-Einheiten verwenden, wenn das Wachstum ein Problem wäre. Der 7K kann derzeit auf 48 Extender laufen und wird in Zukunft wahrscheinlich höher steigen. Wenn Sie für die Dauer in 6 Schränken sein werden, spielt es jedoch keine Rolle.

3.) Das Unbekannte hier (zumindest basierend auf der Ausgangsfrage) ist die Dichte der Server in den Racks. Wenn es 6-8 4U sind, ist der FEX übertrieben. Wenn es sich um viele Dutzend GE-Verbindungen von 1Us oder Blade-Pass-Throughs handelt, wird das Verkabelungsargument ernsthafter. Ich habe bestimmte (dysfunktionale) Setups mit mehr als 384 Kabeln zu einem einzelnen Rack gesehen. Das möchte ich nicht noch einmal sehen.

Alles in allem wird der Hauptunterschied zwischen einem kleinen 7K, der eine Reihe von FEX-Einheiten hostet, und einem größeren 7K, das dieselben Verbindungen zu Hause ausführt, im kleinen Maßstab nicht groß sein. Wie oben erwähnt, wird der FEX nur als eine weitere Leitungskarte im Gehäuse angezeigt. Mit wenigen Ausnahmen entsprechen die Merkmale und Funktionen von FEX-Ports den nativen Ports und werden als solche verwaltet.

Außerdem - Entgegen dem weit verbreiteten Verdacht ist der Leistungsverlust bei der Verwendung eines FEX bei korrekter Auslegung nicht signifikant. Argumente zur Latenz werden in Mikrosekunden gemessen (und das gesamte Design wird besser mit einer anderen Plattform behandelt, wenn dies ein Problem darstellt).

— rnxrx
quelle

3

Es gibt (abgesehen von den Kosten) keinen großen Unterschied zwischen der Verlegung von Kabeln direkt zum Kern oder der Verwendung von Fabric Extendern dazwischen.

Wenn Sie Ihre Server direkt mit den Kernen verbinden, verbinden Sie jeden Server mit zwei Verbindungen, eine mit jedem Core-Switch. Auf diese Weise bleibt der Dienst auch dann erhalten, wenn ein Core-Switch ausfällt.
Wenn Sie Fabric Extender über jedem Rack platzieren, sind Ihre Server über zwei Links mit zwei verschiedenen Fabric Extendern verbunden, die beide mit zwei Core-Switches verbunden sind. Die Verbindung zwischen FEX und Core Switch ist eine L1-Verbindung, und der gesamte Aufbau von Fabric Extendern verhält sich wie ein einziger logischer Switch. Das Setup führt keine zusätzlichen STP-Knoten ein, daher sollte es keine längere Latenz als bei der ersten Option geben. Bei Verbindungsverlust sollten entweder beide Core-Switches oder beide FEXs oder die entsprechenden Links ausfallen. Der Ausfall eines einzelnen FEX oder Core Switch hat keine Auswirkungen auf den Dienst. Während die Fabric Extender eine relativ neuere Idee sind, ist die Art und Weise, wie die Arbeit tatsächlich besser ist als Option 1.

Da Sie erwähnt haben, dass Sie erwähnt haben, dass Budgets kein Problem darstellen, möchten Sie möglicherweise die Größe Ihres Nexus 7Ks (und der Glasfaserkonnektivität) so bemessen, dass eine ausreichende Kapazität für ein zukünftiges Upgrade auf 40G oder 100G vorhanden ist. Die FEXs können entsprechend den aktuellen Anforderungen installiert werden. Wenn Sie später auf 100G aktualisieren möchten, müssen Sie nur die FEXs ersetzen, ohne das Nexus 7ks oder die Verkabelung ändern zu müssen.

— Surajram Kumaravel
quelle

Der Fabric Extender verfügt nicht über eine eigene Software oder Konfiguration. Es ist ein Plug-and-Play-Gerät, das die Software von den übergeordneten Nexus-Switches herunterlädt. Ich denke also nicht, dass Sie es als zusätzlichen Software-Fehlerpunkt betrachten können.

— Surajram Kumaravel

1

Sicher kannst du. Ein Prozess, der auf Ihrem Nexus-Elternteil ausgeführt wird, führt einen Fex aus, führt das Flash-Update durch, stellt sicher, dass der Fex ordnungsgemäß als Leitungskarte erkannt wird, steuert / konfiguriert die FEXs als solche usw.

— skrumcd

Und wie unterscheidet sich das von einer Chassis-Lösung? Sie führen einen Prozess aus, um zu erkennen, wann ein Modul eingesetzt ist, überprüfen / aktualisieren den Flash des Moduls (und ggf. die Tochterkarte), stellen sicher, dass das Modul richtig erkannt wird, wenden die Konfiguration an usw.

— YLearn

3

Der Preis ist normalerweise einer der großen Treiber für ein "Top-of-Rack" -Design, und Sie haben gesagt, dass die Kosten keine Rolle spielen.

Wir haben es aus zwei anderen Gründen verwendet, die ich noch nicht aufgelistet hatte: Modularität oder einfache Bereitstellung.

Wenn Sie ein Standard-Rack-Design haben, können Sie ein ganzes Rack (oder eine Gruppe von Racks) zusammen als ein Modul bauen und testen oder sie fertig kaufen. Dann müssen Sie nur noch ein paar Kabel oben anschließen, anstatt alle Maschinen wieder anzuschließen.

Der andere Fall mit Top-of-Rack kann sehr sinnvoll sein (oder Top-of-Racks, abhängig von Ihrer Anwendung), wenn Sie über eine Standard-Build-Konfiguration verfügen, um eine "Zelle" Ihrer Infrastruktur bereitzustellen. Manchmal ist die Kommunikation innerhalb einer "Zelle" hoch (zum Beispiel: Webserver, App-Server, DB-Server, Image-Server usw.). Nicht jeder hat diese Art von Konfiguration, aber es kann praktisch sein, damit Sie die Leistung einer Zelle charakterisieren können. Beim Skalieren werden mehr Zellen hinzugefügt, anstatt die gesamte Infrastruktur zu erweitern (was zu mehr Leistungsüberraschungen führen kann).

— Neil Katin
quelle

1

Ohne Budgetbeschränkung ist es letztendlich nicht sinnvoll, sich nicht einfach für das 7009-Design zu entscheiden, da weniger Geräte vom Ausfall einer einzelnen Faserlinie betroffen sind als eines gesamten Fabric Extenders.

Auch hier ist der Fabric Extender sowohl ein zusätzlicher Hardware- als auch ein Software-Fehlerpunkt in einer Umgebung, in der keine zusätzliche Portdichte erforderlich ist, die über das hinausgeht, was das Kerngerät bietet.

— skrumcd
quelle

1

Ich bin mit dieser Haltung nicht einverstanden, da dies eine alte Denkweise für Rechenzentren ist. IIRC Google, Microsoft, Netflix, Facebook und viele andere sind mit dieser Haltung nicht einverstanden. Fühlen Sie sich frei zu recherchieren, wie sie es tun, da die meisten einige Details ihrer Rechenzentren öffentlich zur Verfügung gestellt haben.

— YLearn

1

@YLearn, ohne hier Partei zu ergreifen, ist ein Design für die großen Jungs für ein kleines Rechenzentrum nicht unbedingt richtig, obwohl ich dem, was sie tun, mehr Gewicht geben würde.

— Generalnetworkerror