Wir haben einen Cluster mit zwei Knoten eingerichtet, auf dem SQL Server 2012 unter Windows Server 2012 R2 ausgeführt wird. Der Basiscluster besteht nur aus diesen beiden Knoten. Das Quorum wird als Knoten + Festplattenmehrheit eingerichtet, wobei sich eine gemeinsam genutzte Festplatte auf einem EqualLogic-Array befindet, das über iSCSI eine Verbindung herstellt. Die Clusterkonfiguration wird ohne Fehler überprüft.
Die beiden auf dem Cluster ausgeführten Verfügbarkeitsgruppen (beide primär auf Knoten 1) wurden heute auf beiden Knoten aufgelöst. Bei Betrachtung der Clusterereignisse gibt es nichts, bis versucht wird, den Dienst neu zu starten. Alles unter dem Windows-Failovercluster wird grün angezeigt (online und ohne Warnungen) - Festplatten, Netzwerkschnittstellen, Knoten usw.
Beim Betrachten des Anwendungsprotokolls in der Windows-Ereignisanzeige wurde das Ereignis, das anzeigt, dass die Verfügbarkeitsgruppen in den Auflösungsstatus wechseln, vom Cluster dazu aufgefordert, da kein Quorum eingerichtet werden konnte. Ich kann in keinem Protokoll etwas anderes finden, das dies unterstützt, und das Quorum wird während der Clusterüberprüfung übergeben.
Die AGs erholen sich nicht. Wir haben im AlwaysOn-Protokoll in SQL Server-Protokollen festgestellt, dass der erste Knoten einen Spiegelungsendpunktfehler hatte. Dies trat unmittelbar nach einer Speicherzugriffsverletzung mit Symptomen auf, die einem Problem ähneln, das Microsoft mit Cumulative Update 6 behoben hat. Wir werden dies als Nächstes versuchen.
Ich konnte den SQL Server-Dienst auf Knoten 1 neu starten (derjenige mit den Speicherzugriffsverletzungen, mit denen die zweite Notiz nicht kommunizieren konnte), und ich konnte die Verfügbarkeitsgruppe zu diesem Zeitpunkt wieder online schalten. Ein Neustart bringt auch alles wieder auf 100%.
Haben Sie einen Einblick, warum dies nicht Knoten 1 ausgefallen wäre und die Datenbank auf Knoten 2 am Leben erhalten hätte, wenn der Spiegelungsendpunkt ausgefallen wäre? Wir sind derzeit auf AG Level 3; Würde eine Erhöhung auf 4 den Fehler auf Knoten 1 auslösen, während der Dienst auf Knoten 2 am Leben bleibt?