Wodurch sinkt die Gesamtleistung einer Cisco-Switch-Schnittstelle?

16

Ich habe ein HP c7000 Blade-Chassis, das Cisco 3120X- und Cisco 3120G-Switches enthält, auf denen ios 12.2 (58) SE1 ausgeführt wird. Die Blades selbst sind sehr leicht belastet, dennoch weisen viele Schnittstellen an verschiedenen Blade-Switches im Chassis eine relativ hohe Anzahl von Leistungsabfällen auf. Wenn ich überprüfe, dass die Anzahl der Ausgaben wiederholt abfällt, sehe ich nicht nur, dass der Zähler zunimmt, sondern manchmal auch abnimmt. Die Zahlen korrelieren nicht mit den auf der Schnittstelle aufgezeichneten Paketen. QoS-Einstellungen sind Standardeinstellungen für die Plattform.

Die folgenden Proben wurden alle innerhalb eines Zeitraums von 30 Sekunden entnommen:

bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 451110
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 451110
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 902220
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Die Gesamtleistung sinkt auf 1353330
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 1804440
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 1804440
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 1804440
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus
  Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 451490

bc1019-3120-stack> sh int gi2 / 0/7 | Ich gebe Rate aus
  5 Minuten Ausgaberate 301000 Bits / Sek., 119 Pakete / Sek

1) Gibt es irgendetwas anderes, das zu Ausgabeausfällen führen kann, außer dass der Server die Frames nicht schnell genug empfängt?

2) Wie viele Ausgabefälle kann der Schnittstellenzähler maximal aufzeichnen? Überschlägt es sich, wenn es das Maximum erreicht?

3) Was würde als eine gesunde Rate von Leistungsabfällen angesehen werden?

— User123456
quelle

Wie Leonardo Abdalla betonte, sind die auf unserem Blade-Chassis festgestellten unregelmäßigen Leistungsabfälle auf den Fehler CSCtq86186

— User123456 zurückzuführen, der

Es ist ein Fehler. Wir haben das Gleiche getroffen und auf c3750e-universalk9-mz.150-2.SE4.bin aktualisiert, und alles ist in Ordnung. JB

14

Wenn nicht jemand Zähler löscht, sollten Sie niemals Zähler vom Typ Kilometerzähler sehen (diejenigen, die aufgrund einer Paketaktion inkrementiert werden), sie sollten immer zunehmen. Dieser Teil klingt wie ein Bug.

Was insbesondere den Output betrifft, gibt es so viele verschiedene Ursachen, dass es sehr schwierig ist, ihn genau zu lokalisieren. Manchmal ist die Rückwandplatine des Switch überlastet, und diese können angezeigt werden, wenn die Ausgabe an der ausgehenden Schnittstelle abfällt. In seltenen Fällen können auch Mikrobursts auftreten, die bei einer Abfrage in Intervallen von 1 Minute nicht angezeigt werden und die Schnittstelle schnell überlasten, aber dann sehr schnell wieder herunterfallen. Ich würde vorschlagen, die SNMP-OID für Ausgabeeinbrüche zu nehmen und diese dann grafisch darzustellen und zu sehen, wie sie dem CLI-Zähler entspricht.

Im Allgemeinen möchten Sie keine Ausgabefehler, da diese auf ein Paket hinweisen, das es nicht zum Ziel geschafft hat. Aber wenn Sie Ihre Links heiß laufen lassen (was Sie sagen, dass Sie es nicht sind), sind sie zu einem gewissen Grad unvermeidbar, hauptsächlich aufgrund der Pufferung der inneren Schalter usw.

— Aaron
quelle

Ich frage mich, ob es in diesem Fall so viele Ausfälle gibt, dass die Zähler herumlaufen.

— Nr.

1

Es handelt sich um 32-Bit-Zähler, sodass Sie nicht an die Grenzen stoßen. (und möglicherweise 64bit intern)

— Ricky Beam

8

Mein erster Gedanke ist Unicast-Flooding, vor allem, wenn die Zähler über mehrere Ports im selben VLAN gleichzeitig erhöht werden. Ich stimme Aaron zu, dass das Dekrementieren des Zählers wie ein Bug klingt. Der Zähler wird sich wahrscheinlich um 2 ^ 64 drehen, aber das wird nicht innerhalb von Sekunden geschehen. Ich würde eine gesunde Rate von Leistungsabfällen als Null betrachten, aber dies ist nicht realistisch - selbst im Rechenzentrum. Machst du 10G Uplinks?

— Dennis Olvany
quelle

Ja, ein 10-Gigabyte-Uplink von jedem der beiden 3120X im Blade-Chassis (ein Port aufgrund von STP blockiert)

— User123456

So wie ein 1G-Uplink einen 100M-Downlink leicht überfordert, bin ich mir sicher, dass dies auch für 10G / 1G gilt. Dies gilt insbesondere dann, wenn eine Unicast-Überflutung auftritt. Ich bezweifle, dass Unicast-Flooding in den Bandbreiten- / pps-Statistiken erkennbar ist.

— Dennis Olvany

5

Scheint, als würdest du den Fehler CSCtq86186 treffen. Dieser Fehler wurde in den Jahren 3750 und 2960 gefunden, wirkt sich jedoch möglicherweise auch auf die Blade-Schalter aus.

— Leonardo Abdalla
quelle

Dies ist genau der Fehler, den wir bei unseren 3120ern finden - behoben in 15.0 (2) SE. Vielen Dank!

— User123456

4

Wenn es zu einer Unicast-Flut kommt, sollte sich dies schnell zeigen, wenn Sie Wireshark auf einem der Hosts ausführen oder einen der Ports überbrücken.

Klingt es so, als hätten Sie redundante Kerne in einer quadratischen Topologie? Fügen Sie in diesem Fall den folgenden Befehl zu Ihrer VLAN-Schnittstelle hinzu:

arp timeout 300

CAM-Tabellen enthalten Einträge für 5 Minuten, ARP-Tabellen für vier Stunden (Standardeinstellung). Durch Einstellen des ARP auf die CAM kann die Unicast-Überflutung auf Kosten einer geringfügigen Erhöhung der CPU beseitigt werden. Catalyst 6500/6000 Switches ARP- oder CAM-Tabelle - Fehlerbehebung

— Peter
quelle

1

Ausgangsverluste sind bei kleineren Schaltern mit kleinen Puffern eher üblich, da jeder Burst den Puffer erschöpft. Ich bin mit der 3120 nicht wirklich vertraut, daher kann ich nicht für die Größe des Puffers sprechen, aber zumindest ist dies ein häufiger Grund, bis man zu Leistungseinbrüchen kommen könnte.

Die spezifischen Gründe sind Head-of-Line-Blocking (HOLB), bei dem mehrere Quellports an ein Ziel gesendet werden und es zu einer Überlastung kommt. Ein weiterer häufiger Grund ist der Wechsel von einer höheren zu einer niedrigeren Portgeschwindigkeit, dh von 10G zu 1G oder von 40G zu 10G.

Ich empfehle, show controller ethernet-controller X auszuführen, wobei X Ihr Port ist. Sie sollten einige Informationen zu Ausgabefehlern erhalten, z. B. wenn versucht wird, Daten in großen Frames auszugeben, was passieren kann, wenn Sie keine konsistente MTU in Ihrem Netzwerk haben.

— kll
quelle