Problem mit dem Netzwerkdurchsatz (ARP-bezogen)

9

Das kleine College, an dem ich arbeite, hat einige sehr seltsame Netzwerkprobleme. Ich suche hier Ratschläge oder Ideen. Im Sommer ging es uns gut, aber die Probleme begannen wenige Tage, nachdem die Studenten für das Herbstsemester auf den Campus zurückgekehrt waren.

Symptome

Das Hauptsymptom ist, dass der Internetzugang funktioniert, aber er ist sehr langsam ... oft bis zu Zeitüberschreitungen. Ein typisches Ergebnis von Speedtest.net gibt beispielsweise einen Download von 0,4 Mbit / s zurück, ermöglicht jedoch eine Upload-Geschwindigkeit von 3 bis 8 Mbit / s. Zu den geringeren Symptomen gehören eine stark eingeschränkte Leistung beim Übertragen von Daten zu und von unserem Dateiserver oder in einigen Fällen sogar die Unfähigkeit, sich am Computer anzumelden (der Domänencontroller kann nicht erreicht werden). Das Problem betrifft mehrere VLANs und hat Geräte auf nahezu jedem von uns betriebenen VLAN betroffen.

Das Problem betrifft nicht alle Computer im Netzwerk. Auf einem nicht betroffenen Computer werden in der Regel mindestens 11 Mbit / s von speedtest.net heruntergeladen, und möglicherweise viel mehr, abhängig von den aktuellen Verkehrsmustern auf dem Campus.

Es gibt eine Variation des größeren Problems. Wir haben ein VLAN, in dem sich Benutzer nicht bei fast allen Computern anmelden konnten. IT-Mitarbeiter würden sich mit einem lokalen Administratorkonto (oder in einigen Fällen zwischengespeicherten Anmeldeinformationen) anmelden, und von dort aus würde eine Freigabe / Erneuerung oder ein Ping des Gateways es dem Computer ermöglichen, ... für eine Weile zu arbeiten. Erschwerend kommt hinzu, dass dieses VLAN unsere Computerlabors abdeckt, die die Software Deep Freeze verwenden, um die Festplatten nach einem Neustart vollständig zurückzusetzen. Es könnte genau dasselbe Problem sein, das sich aufgrund veralteter Daten auf Computern, die die Informationen auf niedriger Ebene seit Wochen nicht dauerhaft geändert haben, unterschiedlich manifestiert. Wir konnten dies jedoch lösen, indem wir ein neues VLAN erstellten und die Labore auf den neuen VLAN-Großhandel umstellten.

Anstiftungen

Schließlich stellten wir fest, dass alle betroffenen Maschinen kürzlich DHCP-Leases hatten. Wir können vorhersagen, wann eine Maschine "langsam" wird, indem wir beobachten, wann ein DHCP-Lease zur Erneuerung ansteht. Wir haben damit gespielt, die Lease-Zeit für ein Test-VLAN sehr kurz einzustellen, aber alles, was wir getan haben, war, unsere Fähigkeit zu entfernen, vorherzusagen, wann die Maschine langsam werden würde. Maschinen mit statischen IPs haben so gut wie immer normal funktioniert. Das manuelle Freigeben / Erneuern einer Adresse führt niemals dazu, dass eine Maschine langsam wird. In einigen Fällen wurde dieser Prozess sogar behobeneine Maschine in diesem Zustand. Meistens hilft es jedoch nicht. Wir haben auch festgestellt, dass mobile Computer wie Laptops beim Übergang zu neuen VLANs wahrscheinlich langsam werden. Wireless auf dem Campus ist in "Zonen" unterteilt, in denen jede Zone einer kleinen Gruppe von Gebäuden zugeordnet ist. Wenn Sie in ein neues Gebäude umziehen, können Sie sich in einer Zone befinden, wodurch Sie eine neue Adresse erhalten. Eine Maschine, die aus dem Ruhemodus zurückkehrt, ist wahrscheinlich auch langsam.

Milderungen

Manchmal, aber nicht immer, kann der Arp-Cache auf einem betroffenen Computer wieder normal funktionieren. Wie bereits erwähnt, kann das Freigeben / Erneuern der IP-Adresse eines lokalen Computers diesen Computer reparieren, dies ist jedoch nicht garantiert. Das Pingen des Standard-Gateways kann manchmal auch bei einem langsamen Computer hilfreich sein.

Was am meisten zu helfen scheint, um das Problem zu beheben, ist das Löschen des Arp-Cache auf unserem Core-Layer-3-Switch. Dieser Switch wird für unser DHCP-System als Standard-Gateway für alle VLANs verwendet und übernimmt das Inter-VLAN-Routing. Das Modell ist ein 3Com 4900SX. Um das Problem zu beheben, haben wir das Cache-Timeout auf dem Switch auf die niedrigstmögliche Zeit eingestellt, aber es hat nicht geholfen. Ich habe auch ein Skript zusammengestellt, das alle paar Minuten ausgeführt wird, um automatisch eine Verbindung zum Switch herzustellen und den Cache zurückzusetzen. Leider funktioniert dies nicht immer und kann sogar dazu führen, dass einige Maschinen für kurze Zeit im langsamen Zustand sind (obwohl sich diese nach einigen Minuten von selbst zu korrigieren scheinen). Wir haben derzeit einen geplanten Job, der alle 10 Minuten ausgeführt wird, um den Core-Switch zu zwingen, seinen ARP-Cache zu löschen. Dies ist jedoch alles andere als perfekt oder wünschenswert.

Reproduktion

Wir haben jetzt eine Testmaschine, die wir nach Belieben in den langsamen Zustand zwingen können. Es ist mit einem Switch verbunden, dessen Ports für jeden unserer VLANs eingerichtet sind. Wir machen die Maschine langsam, indem wir eine Verbindung zu verschiedenen VLANs herstellen, und nach ein oder zwei neuen Verbindungen wird es langsam.

In diesem Abschnitt ist auch anzumerken, dass dies zu Beginn früherer Semester bereits geschehen ist, aber in der Vergangenheit ist das Problem nach einigen Tagen von selbst verschwunden. Es löste sich von selbst, bevor wir die Gelegenheit hatten, viel diagnostische Arbeit zu leisten ... daher haben wir es diesmal so lange in den Begriff hineinziehen lassen; Die Erwartung war, dass dies eine kurzlebige Situation sein würde.

Andere Faktoren

Es ist erwähnenswert, dass wir im letzten Jahr ungefähr ein halbes Dutzend Schalter hatten, die geradezu versagten. Dies sind hauptsächlich 3Coms aus der Zeit 2003/2004 (meistens 4200), die alle ungefähr zur gleichen Zeit eingesetzt wurden. Sie sollten weiterhin unter die Garantie fallen. Der Kauf von HP hat den Service etwas erschwert. Meistens bei Stromversorgungen, die ausgefallen sind, aber in einigen Fällen haben wir eine Stromversorgung von einem Switch mit einem ausgefallenen Mainboard verwendet, um einen Switch mit einem ausgefallenen Netzteil wieder zum Leben zu erwecken. Wir haben jetzt USV-Geräte an allen bis auf drei von vier Schaltern, aber das war nicht der Fall, als ich vor zweieinhalb Jahren anfing. Aufgrund schwerwiegender Budgetbeschränkungen (wir standen vor ein paar Jahren auf der Liste der finanziell herausgeforderten Institutionen der Abteilung Ed) musste ich mich an Netgear und TrendNet wenden, um Ersatz zu erhalten.

Erwähnenswert ist auch, dass die große Veränderung in unserem Netzwerk in diesem Sommer darin bestand, von einer einzelnen campusübergreifenden drahtlosen SSID auf den zuvor erwähnten Zonenansatz umzusteigen. Ich glaube nicht, dass dies die Ursache des Problems ist, wie ich bereits sagte: Wir haben das schon einmal gesehen. Es ist jedoch möglich, dass dies das Problem verschärft und möglicherweise einer der Gründe dafür ist, dass es so schwer zu isolieren war.

Diagnose

Zunächst schien uns angesichts des Zeitpunkts und der anhaltenden Natur des Problems klar, dass die Ursache des Problems eine infizierte (oder böswillige) Studentenmaschine war, die eine ARP-Cache-Vergiftung durchführt. Wiederholte Versuche, die Quelle zu isolieren, sind jedoch fehlgeschlagen. Diese Versuche umfassen zahlreiche Wireshark-Paketspuren und sogar das Abschalten ganzer Gebäude für kurze Zeit. Wir konnten nicht einmal einen schlechten ARP-Eintrag für eine rauchende Waffe finden. Meine derzeitige beste Vermutung ist ein überlasteter oder fehlerhafter Core-Switch, aber ich bin mir nicht sicher, wie ich das testen soll, und die Kosten für das blinde Ersetzen sind hoch.

Auch hier sind alle Ideen willkommen.

Update:
Core Switch wird ersetzt. Nach 4 Tagen läuft alles gut ... aber ich werde auf die Zwei-Wochen-Marke warten, bevor ich das Problem als behoben bezeichne.

networking performance arp

— Joel Coel
quelle

Sehen Sie Paketverlust auf den betroffenen Computern? Wenn ja, wo tritt der Paketverlust auf? mtrkann hier hilfreich sein.

— EEAA

3

Dies sieht verdächtig aus, als ob einer Ihrer Switches fehlerhaft ist, seine Arp-Tabellen beschädigt und die beschädigten Einträge an die anderen Switches weitergibt. Daher die teilweise Entlastung, wenn die Tabellen auf dem L3-Kern gelöscht werden. Ich empfehle dringend, ALLE Schalter zurückzusetzen, bevor Sie weitere Fehlerbehebungsversuche durchführen. Mit etwas Glück klärt dies das Problem insgesamt. Wenn ein Switch wirklich fehlerhaft ist, schlägt die Einschaltdiagnose nach dem Neustart hoffentlich fehl. PS Leichte Schwankungen im Stromnetz können diesen Effekt haben. Wenn sich Ihre Switches nicht in der USV befinden, kann dies die Hauptursache sein.

— Tonny

@ErikA wir haben einige Paketverlust. Ich werde sehen, ob ich eine bessere Ablaufverfolgung erhalten kann ... aber der Paketverlust kommt von jedem Ort auf dem Campus, was bedeutet, dass der einzige gemeinsame Verbindungspunkt der Core-Switch und der mit unseren Servern verbundene Switch ist.

— Joel Coel

1

@Tonny Wir haben alle (fast alle) Schalter im Rahmen der Fehlerbehebung mindestens zweimal zurückgesetzt. Das schien die Beschwerden für ungefähr anderthalb Tage zu reduzieren (nicht zu beseitigen). Wir haben ungefähr 40 Schaltereinheiten mit USV-Geräten für alle außer drei oder vier. Die Hauptsache hier ist, dass alle unsere Switches ungefähr zur gleichen Zeit installiert wurden und wir im letzten Jahr 6 völlige Ausfälle hatten, daher ist das sehr glaubwürdig.

— Joel Coel

1

Ich habe keine 3com-Erfahrung, aber vielleicht gibt es eine Möglichkeit, die Anzahl der von einem bestimmten Port gelernten Mac-Adressen zu begrenzen. Sie können dies an allen Zugriffsports für die Schülercomputer tun, falls jemand einen Mac überflutet und Ihre Switches in Hubs verwandelt.

— Bad Dos

2

Joel,

Da Sie Amtsleitungen eingerichtet haben und das Problem nach Belieben duplizieren können. Installieren Sie Wireshark auf einem Laptop und spiegeln Sie einen Uplink-Port. Wenn Sie eine Paketrate von über 10.000 oder eine Portauslastung nahe der Höchstgeschwindigkeit sehen, haben Sie ein Problem.

Möglicherweise liegt ein Problem mit der Hardware / dem Spanning Tree vor. Normalerweise habe ich festgestellt, dass Benutzer beide Netzwerkkarten auf ihrem Computer anschließen, um "mehr Durchsatz zu erzielen".

Normalerweise können Sie bei Spanning Tree-Problemen die Schleifenerkennung oder die Broadcast-Begrenzung pro Port Ihres Anbieters aktivieren. Dadurch wird jeder Port mit einer gefundenen Schleife beendet. Sie können auch den "bpdu-Schutz" aktivieren, dh den Port deaktivieren, an dem der bpdu empfangen wurde, und einen Fehler an die Syslog / SNMP-Trap-Empfänger senden.

Joe

— user1940189
quelle

1

Ich habe ähnliche Probleme gesehen und es war eine Schleife im LAN, die Chaos und Sättigung des gesamten Subnetzes verursacht (vermutlich durch Broadcast-Verkehr, da der Switch seinen eigenen MAC an einem zusätzlichen Port sieht).

EDIT: Auch dies ist in Bildungseinrichtungen (zwei meiner früheren Sysadmin-Jobs) üblich, da die kleinen Lieblinge gerne mit Patchkabeln / Steckdosen herumspielen ...

— George
quelle

Wir haben viel Zeit damit verbracht, genau dies zu überprüfen, haben es aber schließlich ausgeschlossen.

— Joel Coel

0

Klingt für mich so, als hätten Sie schlechte Hardware, die Broadcast-Stürme verursacht. Verwenden Sie Wireshark, um nach Sendungen zu suchen und einen Host zu finden, der Ihnen Probleme bereitet ...

— Gen
quelle

Es ist sehr unwahrscheinlich, dass dies der Fall ist, wenn einige Maschinen einwandfrei funktionieren und andere nicht. Ein Broadcast-Sturm wird das gesamte VLAN in kürzester Zeit in die Knie zwingen.

— Paul Gear

0

Joes Idee ist gut, aber da es wahrscheinlich kein Broadcast-Sturm ist, der Ihr Problem verursacht (ich denke, Sie sind mit einer ARP-Cache-Vergiftung oder einem ähnlichen Problem auf dem richtigen Weg; es könnte sogar ein IP-Adresskonflikt sein). es wird das Problem wahrscheinlich nicht lösen.

Eine verwandte Technik zur Verwendung der dynamischen ARP- und DHCP-Prüfung, sofern Ihre Switches dies unterstützen. Wenn Sie dies aktivieren, überwachen die Switches DHCP-Transaktionen und lassen nur ARP-Einträge zu, die mit den bekannten Einträgen in der DHCP-Datenbank übereinstimmen oder die Sie manuell angegeben haben.

Wenn Ihre Switches diese Funktion nicht haben, ist das Linux-Dienstprogramm arpwatch eine weitere Option, um sie aufzuspüren. Sie verfolgt alle ARP-Anforderungen und teilt Ihnen mit, wann eine Änderung der IP-MAC-Zuordnung festgestellt wird.

— Paul Gear
quelle