PROBLEM: Die Server in zwei Clustern verlieren immer wieder die Heartbeat-Konnektivität miteinander, was zu Datenbankausfällen führt. Ausfälle sind kurz, aber störend.
INSTALLIEREN:
- Es gibt zwei Cluster mit jeweils drei Servern.
- Jeder Server verfügt über eine Netzwerkkarte, die mit einem einzelnen Layer 2-Switch (Catalyst 2950) verbunden ist, wobei die Switch-Ports mit 100 MB / Vollduplex fest codiert sind.
- Die DBAs bestätigen, dass jede Heartbeat-NIC fest auf 100 MB / Vollduplex codiert ist.
- In VLAN 100 und im selben Subnetz (10.40.60.0/24) sind zwei Cluster konfiguriert.
- Die Verwaltungs-IP-Adresse befindet sich in einem separaten Subnetz (10.40.1.0/24) und der Switch-Port befindet sich in VLAN 1.
SYMPTOME:
- Ich sehe eine ständig steigende Fehleranzahl an den Switch-Ports. Für die drei Server in einem Cluster betragen die Eingabefehler (alle CRC) etwa 3% der gesamten Eingabepakete. Es gibt keine Ausgabefehler. Der andere Cluster macht ungefähr 6% der gesamten Eingabepakete aus.
- Die Sende- und Empfangslast an den Switch-Ports ist gering, unter 20/255 bei txload und rxload.
- Das Switch-Protokoll zeigt die Switch-Ports an:
16. Mai 11:15:31 PDT:% LINEPROTO-5-UPDOWN: Leitungsprotokoll auf der Schnittstelle FastEthernet0 / 13, Status auf down geändert
16. Mai 11:15:32 PDT:% LINK-3-UPDOWN: Schnittstelle FastEthernet0 / 13 geändert Status nach unten
16. Mai 11:15:34 PDT:% LINK-3-UPDOWN: Schnittstelle FastEthernet0 / 13, Status nach oben geändert
16. Mai 11:15:35 PDT:% LINEPROTO-5-UPDOWN: Leitungsprotokoll auf Schnittstelle FastEthernet0 / 13, Status geändert nach oben
- Ich habe die alte Cat5-Verkabelung zwischen der Server-Heartbeat-Netzwerkkarte und dem Switch durch eine neue Cat6-Verkabelung ersetzt - keine Auswirkung.
- Ich habe ein neues VLAN 200 in einem neuen Subnetz (10.40.61.0/24) erstellt und die DBAs ihre Heartbeat-NICs in einem Cluster erneut IP-fähig machen lassen - keine Auswirkung.
- Wir haben jede Kombination aus Geschwindigkeit und Duplex am Switch-Port und an der Netzwerkkarte ausprobiert - kein Effekt, bei beiden wurde auf 100 MB / Vollduplex zurückgegriffen.
- Die Datenbankadministratoren haben die Broadcom-Treiber in beiden Clustern auf den neuesten Stand gebracht. Der Fehleranteil im 6% -Cluster ist auf 4% gesunken, der andere Cluster liegt immer noch bei 3%.
MEINE VORGESCHLAGENEN NÄCHSTEN SCHRITTE:
- Auf den Servern befinden sich Intel-Netzwerkkarten. Versuchen Sie, den Cluster-Heartbeat auf eine Intel-Netzwerkkarte zu verschieben. Vielleicht ist es ein Broadcom-Problem?
- Wechseln Sie den Schalter zu einem Gig-fähigen Schalter. Es ist ein Catalayst 3560x verfügbar, dessen Aufnahme jedoch ein Projekt verzögert. Vielleicht Gig am Switch-Port und NIC wird besser spielen?
GEDANKEN?
Kann ich auf dem vorhandenen 2950-Switch etwas konfigurieren, um die Fehler zu minimieren? Welche zusätzlichen Schritte zur Fehlerbehebung sollte ich unternehmen?