Ich brauche ein paar frische Augen.
Wir verwenden eine 15 km lange Glasfaserleitung, über die Faserkanal und 10 GbE gemultiplext werden (passives optisches CWDM). Für FC haben wir Langstreckenlaser, die bis zu 40 km lang sind ( Skylane SFCxx0404F0D ). Der Multiplexer ist durch die SFPs begrenzt, die max. 4 Gbit Faserkanal. Der FC-Switch ist eine Brocade 5000-Serie. Die jeweiligen Wellenlängen betragen 1550, 1570, 1590 und 1610 nm für FC und 1530 nm für 10 GbE.
Das Problem ist, dass die 4GbFC-Stoffe so gut wie nie sauber sind. Manchmal sind sie für eine Weile sogar mit viel Verkehr auf ihnen. Dann können sie plötzlich anfangen, Fehler zu produzieren (RX CRC, RX-Codierung, RX-Disparität, ...), selbst wenn nur geringfügiger Datenverkehr auf ihnen vorhanden ist. Ich füge einige Fehler- und Verkehrsdiagramme an. Fehler liegen derzeit in der Größenordnung von 50 bis 100 Fehlern pro 5 Minuten bei 1 Gbit / s Datenverkehr.
Optik
Hier ist die Ausgangsleistung eines Ports zusammengefasst (gesammelt mit sfpshow
verschiedenen Switches)
SITE-A-Einheiten = uW (Mikrowatt) SITE-B ********************************************** FAB1 SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko) RX 95.2 TX 1175.6 FAB2 SW2 TX 1422.0 RX 104.6 SW4 1610nm (ok) RX 54.3 TX 1468.4
Was ich an dieser Stelle neugierig finde, ist die Asymmetrie in den Leistungsstufen. Während SW2 mit 1422uW sendet und SW4 mit 104uW empfängt, empfängt SW2 nur mit 54uW das SW4-Signal mit ähnlicher Ausgangsleistung.
Umgekehrt für SW1-3.
Auf jeden Fall haben die SFPs eine Empfangsempfindlichkeit von bis zu -18dBm (ca. 20uW), also sollte es auf jeden Fall in Ordnung sein ... Aber nichts ist.
Einige SFPs wurden vom Hersteller als fehlerhaft diagnostiziert (die oben gezeigten mit "ko"). Die 1610nm sind anscheinend in Ordnung, sie wurden mit einem Verkehrsgenerator getestet. Die Standleitung wurde ebenfalls mehrmals getestet. Alles ist innerhalb der Toleranzen. Ich warte auf die Ersetzungen, aber aus irgendeinem Grund glaube ich nicht, dass es die Dinge verbessern wird, da die scheinbar guten auch keine ZERO-Fehler produzieren.
Früher waren aktive Geräte beteiligt (eine Art 4GFC-Retimer), bevor das Signal auf die Leitung gelegt wurde. Keine Ahnung warum. Diese Ausrüstung wurde aufgrund der Probleme beseitigt, so dass wir jetzt nur noch haben:
- der Fernlaser im Schalter,
- (neu) 10 m LC-SC-Monomode-Kabel zum Mux (für jedes Fabric),
- die Mietleitung,
- das gleiche, aber umgekehrt auf der anderen Seite des Links.
FC schaltet
Hier ist eine Portkonfiguration von Brocade portcfgshow
(das ist natürlich auf beiden Seiten so)
Bereichsnummer: 0 Geschwindigkeitsstufe: 4G Füllwort (Aktiv) 0 (Leerlauf-Leerlauf) Füllwort (aktuell) 0 (Leerlauf-Leerlauf) AL_PA Offset 13: AUS Amtsanschluss EIN Langstrecken-LS VC Link Init OFF Gewünschte Entfernung 32 Km Reservierte Puffer 70 L_Port gesperrt AUS G_Port gesperrt AUS Disabled E_Port OFF E_Port gesperrt AUS ISL R_RDY-Modus AUS RSCN unterdrückt AUS Dauerhafte Deaktivierung AUS LOS TOV aktivieren AUS NPIV-Fähigkeit EIN QOS E_Port OFF Port Auto Disable: AUS Ratenbegrenzung AUS EX Port AUS Spiegelanschluss AUS Guthabenwiederherstellung EIN F_Port Buffers OFF Fehlerverzögerung: 0 (R_A_TOV) NPIV PP-Limit: 126 CSCTL-Modus: AUS
Das Erzwingen der Links zu 2GbFC führt zu keinen Fehlern, aber wir haben 4GbFC gekauft und wollen 4GbFC.
Ich weiß nicht mehr, wo ich suchen soll. Irgendwelche Ideen, was als nächstes zu versuchen ist oder wie es weitergeht?
Wenn 4GbFC nicht zuverlässig funktioniert, frage ich mich, was die Leute machen, die mit 8 oder 16 arbeiten ... Ich gehe nicht davon aus, dass "ein paar Fehler hier und da" akzeptabel sind.
Übrigens stehen wir mit allen Herstellern in Kontakt (FC-Switch, MUX, SFPs, ...). Außer den SFPs, die geändert werden müssen (einige wurden zuvor geändert), hat niemand eine Ahnung. Brocade SAN Health sagt, dass der Stoff in Ordnung ist. MUX, na ja, es ist passiv, es ist nur ein Prisma, Natur vom Feinsten.
Irgendwelche Aufnahmen im Dunkeln?
ANHANG: Antworten auf Ihre Fragen
@ Chopper3: Dies ist die zweite Generation von Brocades, die das Problem aufweist. Früher hatten wir 5000, jetzt haben wir 5100. Zu Beginn, als wir noch den aktiven MUX hatten, haben wir einmal einen Langstreckenlaser gemietet, um ihn direkt in den Schalter zu stecken, um Tests für einen Tag durchzuführen, an diesem Tag war er natürlich sauber. Aber wie gesagt, manchmal ist es einfach so sauber. Und manchmal ist es nicht. Alternative Switches würden bedeuten, das gesamte SAN neu zu erstellen und nur zu testen. Alternative SFPs, na ja, sie sind einfach so schwer zu bekommen.
@longneck: Die Leitung ist vermietet. Es ist eine dunkle Faser (9um Monomode), also ist sonst niemand drauf. Klar gibt es Spleiße. Ich kann nicht hinschauen, aber ich muss darauf vertrauen, dass sie richtig gemacht wurden. Wie gesagt, die Leitung wurde überprüft und erneut überprüft (unter Verwendung eines optischen Zeitbereichsreflektometers). Offensichtlich haben Sie nicht alle diese Ausrüstung selbst, weil es viel zu teuer ist.
@mdpc: Was wäre für dich der "falsche" Kabeltyp? Bis auf den Schalter ist alles Monomode, ja. Die Anschlüsse sind auch die richtigen. Ja, ich weiß, dass es die grünen gibt, bei denen die Faser in einem bestimmten Winkel abgeschnitten ist usw. Aber wir haben die richtigen für alles, was ich weiß.
Fortschrittsbericht Nr. 1
Wir hatten zwei Fabrics (= 2x2 Switches) mit Brocade 5100s mit FabricOS 6.4.1 und zwei Fabrics (weitere 2x4 Switches) mit FabricOS 7.0.2.
Bei den ISLs für große Entfernungen (eine in jedem Fabric) stellte sich heraus, dass bei FOS 6.4.1 für große Entfernungen Warnungen bezüglich der VC Init-Einstellung und folglich des Füllworts ausgegeben wurden. Das sind aber nur Warnungen. In FOS 7.0.2 müssen Sie Änderungen an VCI und dem Füllwort für Fernverbindungen vornehmen.
Das Setzen von FOS 6.4.1 auf die LS-Einstellung (Long Distance Static Distance) mit falscher VCI- und Füllworteinstellung hat den gesamten Stoff funktionsunfähig gemacht (in einer SCN-Schleife stecken, verwenden, um fabriclog -s
zu sehen, Sie sehen es nirgendwo anders, kein Portfehler) Zähler oder irgendetwas Steigendes).
Momentan gebe ich dem einen Stoff mit den IMHO korrekteren Einstellungen einen Schlag und es scheint in Ordnung zu sein, während der andere ohne viel Verkehr immer noch hier und da Fehler hat.
Zusamenfassend:
- Wir haben den aktiven Teil des MUX (den FC-Retimer) eliminiert.
- Wir bauen die Langstrecken-SFPs selbst in die Endgeräte ein.
- Um sicherzugehen, haben wir neue Monomode-Kabel gekauft, um die Endgeräte mit dem verbleibenden passiven Teil des MUX zu verbinden.
- Wir probieren jetzt einige Fernkonfigurationen aus.
Es ist fast schwarze Magie. Alles, was passiert, ist größtenteils empirisch, niemand scheint eine Ahnung zu haben, was die genauen Gründe sind, etwas zu tun. ("Wir haben es versucht und es hat nicht funktioniert, dann haben wir es versucht und es hat funktioniert, also sind wir dabei geblieben." Aber niemand scheint wirklich zu wissen warum.)
Ich halte dich auf dem Laufenden.
Fortschrittsbericht Nr. 2
Wir haben die neuen Laser für eines der Stoffe auf Garantie bekommen. Es ist auch bei 4GbFC extrem sauber.
Sie senden mit ungefähr 2 mW (3 dBm), während die anderen nur mit 1,5 mW (1,5 dBm) arbeiten, obwohl das eigentlich ausreichen sollte.
Das andere Gewebe (wo die Laser anscheinend in Ordnung sind) erzeugt immer noch ein oder zwei CRCs selten.
Mit sfpshow
dem SFP werden die tatsächlichen Empfangsfehler angezeigt
Status / Strg: 0x82 Alarmflags [0,1] = 0x5, 0x40 Warnflags [0,1] = 0x5, 0x40
Jetzt muss ich herausfinden, was das bedeutet. Ich bin mir nicht sicher, ob es vorher da war.
Nun, ich werde zuerst meinen Kopf mit einer Woche Urlaub klären. 8-)