Das kleine College, an dem ich arbeite, hat einige sehr seltsame Netzwerkprobleme. Ich suche hier Ratschläge oder Ideen. Im Sommer ging es uns gut, aber die Probleme begannen wenige Tage, nachdem die Studenten für das Herbstsemester auf den Campus zurückgekehrt waren.
Symptome
Das Hauptsymptom ist, dass der Internetzugang funktioniert, aber er ist sehr langsam ... oft bis zu Zeitüberschreitungen. Ein typisches Ergebnis von Speedtest.net gibt beispielsweise einen Download von 0,4 Mbit / s zurück, ermöglicht jedoch eine Upload-Geschwindigkeit von 3 bis 8 Mbit / s. Zu den geringeren Symptomen gehören eine stark eingeschränkte Leistung beim Übertragen von Daten zu und von unserem Dateiserver oder in einigen Fällen sogar die Unfähigkeit, sich am Computer anzumelden (der Domänencontroller kann nicht erreicht werden). Das Problem betrifft mehrere VLANs und hat Geräte auf nahezu jedem von uns betriebenen VLAN betroffen.
Das Problem betrifft nicht alle Computer im Netzwerk. Auf einem nicht betroffenen Computer werden in der Regel mindestens 11 Mbit / s von speedtest.net heruntergeladen, und möglicherweise viel mehr, abhängig von den aktuellen Verkehrsmustern auf dem Campus.
Es gibt eine Variation des größeren Problems. Wir haben ein VLAN, in dem sich Benutzer nicht bei fast allen Computern anmelden konnten. IT-Mitarbeiter würden sich mit einem lokalen Administratorkonto (oder in einigen Fällen zwischengespeicherten Anmeldeinformationen) anmelden, und von dort aus würde eine Freigabe / Erneuerung oder ein Ping des Gateways es dem Computer ermöglichen, ... für eine Weile zu arbeiten. Erschwerend kommt hinzu, dass dieses VLAN unsere Computerlabors abdeckt, die die Software Deep Freeze verwenden, um die Festplatten nach einem Neustart vollständig zurückzusetzen. Es könnte genau dasselbe Problem sein, das sich aufgrund veralteter Daten auf Computern, die die Informationen auf niedriger Ebene seit Wochen nicht dauerhaft geändert haben, unterschiedlich manifestiert. Wir konnten dies jedoch lösen, indem wir ein neues VLAN erstellten und die Labore auf den neuen VLAN-Großhandel umstellten.
Anstiftungen
Schließlich stellten wir fest, dass alle betroffenen Maschinen kürzlich DHCP-Leases hatten. Wir können vorhersagen, wann eine Maschine "langsam" wird, indem wir beobachten, wann ein DHCP-Lease zur Erneuerung ansteht. Wir haben damit gespielt, die Lease-Zeit für ein Test-VLAN sehr kurz einzustellen, aber alles, was wir getan haben, war, unsere Fähigkeit zu entfernen, vorherzusagen, wann die Maschine langsam werden würde. Maschinen mit statischen IPs haben so gut wie immer normal funktioniert. Das manuelle Freigeben / Erneuern einer Adresse führt niemals dazu, dass eine Maschine langsam wird. In einigen Fällen wurde dieser Prozess sogar behobeneine Maschine in diesem Zustand. Meistens hilft es jedoch nicht. Wir haben auch festgestellt, dass mobile Computer wie Laptops beim Übergang zu neuen VLANs wahrscheinlich langsam werden. Wireless auf dem Campus ist in "Zonen" unterteilt, in denen jede Zone einer kleinen Gruppe von Gebäuden zugeordnet ist. Wenn Sie in ein neues Gebäude umziehen, können Sie sich in einer Zone befinden, wodurch Sie eine neue Adresse erhalten. Eine Maschine, die aus dem Ruhemodus zurückkehrt, ist wahrscheinlich auch langsam.
Milderungen
Manchmal, aber nicht immer, kann der Arp-Cache auf einem betroffenen Computer wieder normal funktionieren. Wie bereits erwähnt, kann das Freigeben / Erneuern der IP-Adresse eines lokalen Computers diesen Computer reparieren, dies ist jedoch nicht garantiert. Das Pingen des Standard-Gateways kann manchmal auch bei einem langsamen Computer hilfreich sein.
Was am meisten zu helfen scheint, um das Problem zu beheben, ist das Löschen des Arp-Cache auf unserem Core-Layer-3-Switch. Dieser Switch wird für unser DHCP-System als Standard-Gateway für alle VLANs verwendet und übernimmt das Inter-VLAN-Routing. Das Modell ist ein 3Com 4900SX. Um das Problem zu beheben, haben wir das Cache-Timeout auf dem Switch auf die niedrigstmögliche Zeit eingestellt, aber es hat nicht geholfen. Ich habe auch ein Skript zusammengestellt, das alle paar Minuten ausgeführt wird, um automatisch eine Verbindung zum Switch herzustellen und den Cache zurückzusetzen. Leider funktioniert dies nicht immer und kann sogar dazu führen, dass einige Maschinen für kurze Zeit im langsamen Zustand sind (obwohl sich diese nach einigen Minuten von selbst zu korrigieren scheinen). Wir haben derzeit einen geplanten Job, der alle 10 Minuten ausgeführt wird, um den Core-Switch zu zwingen, seinen ARP-Cache zu löschen. Dies ist jedoch alles andere als perfekt oder wünschenswert.
Reproduktion
Wir haben jetzt eine Testmaschine, die wir nach Belieben in den langsamen Zustand zwingen können. Es ist mit einem Switch verbunden, dessen Ports für jeden unserer VLANs eingerichtet sind. Wir machen die Maschine langsam, indem wir eine Verbindung zu verschiedenen VLANs herstellen, und nach ein oder zwei neuen Verbindungen wird es langsam.
In diesem Abschnitt ist auch anzumerken, dass dies zu Beginn früherer Semester bereits geschehen ist, aber in der Vergangenheit ist das Problem nach einigen Tagen von selbst verschwunden. Es löste sich von selbst, bevor wir die Gelegenheit hatten, viel diagnostische Arbeit zu leisten ... daher haben wir es diesmal so lange in den Begriff hineinziehen lassen; Die Erwartung war, dass dies eine kurzlebige Situation sein würde.
Andere Faktoren
Es ist erwähnenswert, dass wir im letzten Jahr ungefähr ein halbes Dutzend Schalter hatten, die geradezu versagten. Dies sind hauptsächlich 3Coms aus der Zeit 2003/2004 (meistens 4200), die alle ungefähr zur gleichen Zeit eingesetzt wurden. Sie sollten weiterhin unter die Garantie fallen. Der Kauf von HP hat den Service etwas erschwert. Meistens bei Stromversorgungen, die ausgefallen sind, aber in einigen Fällen haben wir eine Stromversorgung von einem Switch mit einem ausgefallenen Mainboard verwendet, um einen Switch mit einem ausgefallenen Netzteil wieder zum Leben zu erwecken. Wir haben jetzt USV-Geräte an allen bis auf drei von vier Schaltern, aber das war nicht der Fall, als ich vor zweieinhalb Jahren anfing. Aufgrund schwerwiegender Budgetbeschränkungen (wir standen vor ein paar Jahren auf der Liste der finanziell herausgeforderten Institutionen der Abteilung Ed) musste ich mich an Netgear und TrendNet wenden, um Ersatz zu erhalten.
Erwähnenswert ist auch, dass die große Veränderung in unserem Netzwerk in diesem Sommer darin bestand, von einer einzelnen campusübergreifenden drahtlosen SSID auf den zuvor erwähnten Zonenansatz umzusteigen. Ich glaube nicht, dass dies die Ursache des Problems ist, wie ich bereits sagte: Wir haben das schon einmal gesehen. Es ist jedoch möglich, dass dies das Problem verschärft und möglicherweise einer der Gründe dafür ist, dass es so schwer zu isolieren war.
Diagnose
Zunächst schien uns angesichts des Zeitpunkts und der anhaltenden Natur des Problems klar, dass die Ursache des Problems eine infizierte (oder böswillige) Studentenmaschine war, die eine ARP-Cache-Vergiftung durchführt. Wiederholte Versuche, die Quelle zu isolieren, sind jedoch fehlgeschlagen. Diese Versuche umfassen zahlreiche Wireshark-Paketspuren und sogar das Abschalten ganzer Gebäude für kurze Zeit. Wir konnten nicht einmal einen schlechten ARP-Eintrag für eine rauchende Waffe finden. Meine derzeitige beste Vermutung ist ein überlasteter oder fehlerhafter Core-Switch, aber ich bin mir nicht sicher, wie ich das testen soll, und die Kosten für das blinde Ersetzen sind hoch.
Auch hier sind alle Ideen willkommen.
Update:
Core Switch wird ersetzt. Nach 4 Tagen läuft alles gut ... aber ich werde auf die Zwei-Wochen-Marke warten, bevor ich das Problem als behoben bezeichne.
mtr
kann hier hilfreich sein.