Warum verliert meine HyperV-VM zufällig die Konnektivität?


10

Ich habe ein seltsames zeitweise auftretendes Konnektivitätsproblem, das etwa alle zwei Wochen auftritt.

Zuerst meine Konfiguration: Ich führe einen HyperV-Failovercluster mit zwei physischen Hosts (Knoten 01 und Knoten 02) aus. Auf den Hosts wird der Windows Server 2008 R2 HyperV-Server (der kostenlose) mit SP1 ausgeführt. Auf diesen Hosts werden zwei VMs ausgeführt, auf denen jeweils Windows Server 2008 R2 Web Edition mit SP1 ausgeführt wird. Mein Speicherserver ist Windows Storage Server 2008, der über iSCSI verbunden ist. Auf beiden Hosts sowie auf dem Speicherserver werden die neuesten Netzwerktreiber ausgeführt, die direkt von der Intel-Website heruntergeladen wurden.

Hier ist das Problem: In 99,99% der Fälle funktioniert alles perfekt. Ungefähr alle zwei bis drei Wochen verlieren die VMs gleichzeitig die Netzwerkverbindung, sowohl eingehende als auch ausgehende. Wenn das passiert,

  1. Ich kann keine RDP in eine der VMs übertragen.
  2. Ich kann RDP in jeden Host.
  3. Ich kann über den Failover-Cluster-Manager eine Verbindung zu einer der VMs herstellen, indem ich mit der rechten Maustaste auf den Knoten klicke und "Mit virtueller Maschine verbinden" auswähle.
  4. Sobald ich wie oben in Nr. 3 beschrieben eine Verbindung zur VM hergestellt habe, kann ich keine Websites oder Computer im LAN mehr aufrufen. Durch Deaktivieren und erneutes Aktivieren der virtuellen Netzwerkverbindung in der VM wird das Problem nicht behoben.
  5. Wenn ich die VM auf einen anderen Knoten verschiebe, wird das Problem behoben (für die nächsten zwei Wochen).
  6. Wenn ich den Host neu starte und die VM wieder darauf verschiebe, wird das Problem behoben (für die nächsten zwei Wochen).
  7. In diesem Fall führt der Failovercluster KEIN automatisches Failover der VM durch.
  8. Es gibt keine ungewöhnlichen Ereignisprotokolleinträge auf einem der Hosts oder VMs.

Dies ist ungefähr 5 Mal mit den gleichen Symptomen wie oben beschrieben passiert. Ich vermute ein Problem mit dem Netzwerktreiber oder der Netzwerkhardware, aber da ich bereits die neuesten Treiber verwende, bin ich mir nicht sicher, was ich dagegen tun soll.

Dies ist ein echter Head-Scratcher ... irgendwelche Ideen?

Aktualisieren

Ich habe hier einen sehr ähnlichen Fall gefunden: Virutal Machine verliert die Netzwerkverbindung auf Hyper V Cluster

Update 29.07.2011

Nach der Installation von Hotfixes und der Aktualisierung der Netzwerktreiber tritt immer noch das gleiche Problem auf. Als Antwort auf den Kommentar, in dem nach Hardwaredetails gefragt wird, handelt es sich bei dem Server um einen Intel SR1670HV, bei dem es sich um ein 1U-Gehäuse handelt, das zwei unabhängige S5500HV-Motherboards enthält. Die Kommunikation erfolgt über die integrierten NICs der Motherboards, Intel 82574L. Der Netzwerktreiber ist Version 16.2.49.0.


Können Sie Detials über Ihre Hardware hinzufügen (Anzahl der Nics)
Jim B

Welche Marke / welches Modell von Netzwerkkarten haben Sie auf dem Server?
Chris S

Informationen zu Hardware und Netzwerkkarten wurden oben hinzugefügt.
Mike

Über welchen Marken- / Modellschalter verbinden Sie sich?
ErnieTheGeek

Ich hatte ein ähnliches Problem mit CentOS-Images auf einem MS hyperV-Server. Haben Sie dedizierte Netzwerkkarten für jeden Computer oder eine gemeinsam genutzte Netzwerkkarte? Nachdem wir zu dedizierten Nics gewechselt waren, verschwand dieses Problem ... das ist jedoch keine echte Lösung ...
n8whnp

Antworten:


7

Wir hatten ein Problem wie dieses, wo ich bin. Ich erinnere mich nicht an die genauen Details, aber die endgültige Lösung hatte mit einer widersprüchlichen Mac-Adresse zu tun, die einem virtuellen Netzwerkadapter dynamisch zugewiesen wurde. Es hat sehr geholfen, diese auf ihre Dynamik zu beschränken. Normalerweise möchten Sie das nicht tun, da es schwieriger sein kann, eine virtuelle Maschine auf einen anderen Host zu verschieben, aber es hat uns in diesem Fall geholfen.

Der andere Teil ist, dass die physischen Nics von Broadcom erstellt wurden und wir dort auch einen Konfigurationsfehler hatten, bei dem ein früherer Administrator fälschlicherweise versucht hatte, das Broadcom-Dienstprogramm zu verwenden, um die beiden Nics auf dem Host zusammenzuführen, um die Bandbreite / den Durchsatz zu verbessern. Wir haben dieses Setup entfernt und eines der Netzwerkkarten so konfiguriert, dass es auf dem Hostcomputer überhaupt keine IP-Adresse hat, aber dennoch für das Passthrough zu virtuellen Gästen verwendet werden kann. Dann stellen wir jede virtuelle Maschine so ein, dass nur die eine oder die andere NIC verwendet wird, wobei die Last basierend auf dem historischen Datenverkehr ausgeglichen wird. Das bedeutet natürlich kein Failover, wenn ein Adapter oder eine Verbindung ausfällt, und wir haben nicht gut nachverfolgt, ob der Datenverkehr im Laufe der Zeit ausgeglichen geblieben ist, aber seitdem ist er absolut stabil.


5

Ich bin mir bewusst, dass dies eine alte Frage ist, aber ich bin auf dasselbe Problem gestoßen und habe so viel Zeit damit verschwendet, es zu lösen, dass ich dachte, ich würde die Lösung teilen, die für mich funktioniert hat. Ich habe hier die Lösung für mein Problem gefunden:

http://invendows.wordpress.com/2008/03/06/network-issue-with-hyper-v/

Die Lösung in meiner Situation bestand darin, das TCP-Offloading auf den VMs zu deaktivieren. Ich werde den entsprechenden Abschnitt aus dem Link zitieren:

Um das TCP-Offloading zu deaktivieren, musste ich in jeder VM, die mit der Broadcom 8507 Nextreme II-Netzwerkkarte verbunden ist, einen neuen Registrierungswert erstellen und festlegen.

Ich habe die folgende Registrierungsänderung verwendet, um das TCP-Offloading zu deaktivieren:

Schlüssel: HKLM \ SYSTEM \ CurrentControlSet \ Services \ Tcpip \ Parameters

Wert (DWORD): DisableTaskOffload = 1

Nachdem ich das TCP-Offload auf jeder VM auf diese Weise deaktiviert hatte, waren alle Probleme behoben und ich konnte mehrere VMs mit einem NIC-Port der Broadcom 5708 Nextreme II-NIC verbinden.

Mein Server verfügt über Broadcom NetExtremeNetzwerkkarten, daher scheint es, dass die Ursache für dieses Problem definitiv mit dem Treiber zusammenhängt, aber die Einstellung DisableTaskOffload= 1 hat das Problem für mich vollständig behoben. Hoffe, dass diese Informationen jemand anderem Stunden der Suche ersparen!


1
+1, danke für diesen Tipp, ich bin seit ein paar Tagen ohne Probleme gelaufen.
m0dest0

1
Kein Problem, m0dest0. Freut mich zu hören, dass es dir geholfen hat. :)
BruceHill

3

Ich bin in einer viel einfacheren Hyper-V-Umgebung auf etwas Ähnliches gestoßen und bin auf diesen Artikel bei Microsoft gestoßen. Scheint zu Ihrer Situation zu passen, wenn die Webserver stark ausgelastet sind.

http://support.microsoft.com/kb/974909 - Die Netzwerkverbindung einer laufenden virtuellen Hyper-V-Maschine geht bei starkem ausgehendem Netzwerkverkehr auf einem Windows Server 2008 R2-basierten Computer verloren


Der KB-Artikel, auf den Sie verweisen, war vor SP1, aber ich habe einen ähnlichen Artikel nach SP1 erstellt, der vielversprechend aussieht: support.microsoft.com/kb/2263829
Mike

1
Ich habe dies als Antwort entfernt, da ich den Hotfix installiert habe, das Problem jedoch weiterhin auftritt. Daher bleibt diese Frage unbeantwortet ...
Mike

2

Wir hatten das gleiche Problem, obwohl es in unserem Fall alle 24-48 Stunden war. Ich würde überprüfen, ob Ihr Antiviren- / Firewall-Produkt Server 2008 mit Hyper-V spcefisch unterstützt. Wenn nicht, versuchen Sie es mit einem anderen (oder wenn möglich vorübergehend entfernten) Antiviren- / Firewall-Produkt, um festzustellen, ob das Problem behoben ist .

Nach einem Anruf bei Microsoft und mehreren Uploads von Dump- / Protokolldateien später stellten sie fest, dass TrendMicro OfficeScan in unserem Fall der Schuldige war. Wir haben eine Version verwendet, die von Hyper-V nicht explizit unterstützt wurde. Nach dem Upgrade auf die neueste Version ist das Problem behoben.


2

Dies stellte sich als Hardwareproblem heraus. Ich habe das Problem auf einen von Netgear GSM7224v2 verwalteten Switch isoliert, ihn durch einen D-Link DGS-1024D ersetzt und seitdem funktioniert alles einwandfrei.

Als "Lektion gelernt" habe ich in diesem Fall wahrscheinlich 99% meines Diagnoseaufwands für die Fehlerbehebung bei Softwareeinstellungen für ein Hardwareproblem aufgewendet. Ich habe sogar 259 US-Dollar für den Microsoft-Support bezahlt (und viel Zeit mit ihnen telefoniert), um das herauszufinden, indem ich mich in den Softwareeinstellungen umgesehen habe. Ich denke, die Moral der Geschichte ist es, Ihre Hardware genauso zu verdächtigen wie Ihre Software.


1

Haben Sie in den Netzwerkadaptereigenschaften für den VM-Gast Jumbo-Pakete und Large Send Offload deaktiviert? Aufgrund meiner Erfahrung mit diesen Einstellungen würde ich es definitiv versuchen.


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.