Windows DFSR - Die Berechtigungen für replizierte Verzeichnisse wurden geändert und haben jetzt mehr als eine Woche lang einen Rückstand von 350.000

Frage: Gibt es eine Möglichkeit, diesen 350.000-Dateien-Rückstand schneller zu vervollständigen? Für fast jede Datei war die einzige Änderung eine Änderung der ACL für jede betroffene Datei. Einige Dateien haben den Inhalt geändert, dies ist jedoch in dieser Situation nicht der Fall.

Dies könnte behoben sein. Ich werde diesen Text bearbeiten, um Erfolg / Misserfolg nach einer gewissen Zeit und Überprüfung zu bestätigen. Gegen Ende dieses Fragetextes habe ich die kürzlich vorgenommenen Änderungen detailliert beschrieben, die dies möglicherweise behoben haben.

Wir haben eine DFSR-Replikationsgruppe mit ca. 450.000 Dateien und belegen 1,5 TB Speicherplatz. In dieser Situation gibt es zwei Windows Server 2008 R2-Server, die ungefähr 500 Meilen voneinander entfernt sind. Es gibt andere Server, die jedoch nicht an dieser Replikationsgruppe beteiligt sind. Server ALPHA ist der Hauptserver und wird von den meisten Mitarbeitern verwendet. Server BETA ist der Server im Remote-Büro und ist weniger ausgelastet.

Hier ist ein Diagramm des Rückstands für diese Replikationsgruppe (PNG, das auf Google Drive gehostet wird), das den langsamen Synchronisierungsfortschritt zeigt.

Ich musste einen Berechtigungseintrag entfernen, der sich im Stammverzeichnis dieser Replikationsgruppe befand, der natürlich von den meisten Unterordnern geerbt wurde. Ich habe diese Änderung auf dem Server ALPHA vorgenommen. Unmittelbar danach hatte DFSR einen Dateirückstand von 350.000. Es ist mehr als eine Woche her und jetzt sind es 267.000. Das einzige, was sich (anfangs) geändert hat, war die Änderung der Einzelberechtigung.

Dies ist passiert (dies ist nicht die Lösung, nur eine weitere Erklärung dessen, was dieses Problem verursacht hat): http://blogs.technet.com/b/askds/archive/2012/04/14/saturday-mail-sack -wenn-es-sich-herausstellt-Freitag-Nacht-war-in-Ordnung-für-Kampf.aspx # dfsr

Alle Änderungen, die auf Server BETA auftreten, werden sehr schnell auf Server ALPHA repliziert, da in dieser Richtung kein Rückstand besteht. Alle auf BETA geänderten Dateien gelangen problemlos zu ALPHA.

Es wird rund um die Uhr mit voller Geschwindigkeit über eine 50-Mbit / s-Verbindung an einem Ende auf eine Glasfaser mit 100 Mbit / s am anderen Ende repliziert. Der Staging-Bereich beträgt auf jedem Server 100 GB. In den Ereignisprotokollen ist überhaupt nichts Interessantes. Es gibt ein nicht verwandtes Ereignis mit hohem Wasserzeichen, das für eine nicht verwandte Replikationsgruppe angezeigt wird, die weder für diese bestimmte Replikation noch für dieses ALPHA / BETA-Serverpaar gilt. Insbesondere gibt es keine Ereignisprotokolleinträge für hohe Wasserzeichen oder für Verbindungsfehler.

ALPHAs Ansicht der Replikationsgruppe:

Bandbreiteneinsparungen : Reduzierung um 99,83% (30,85 MB repliziert statt 18,1 GB)

Ich glaube, dass die 30,85 MB / 18,1 GB seit dem letzten Neustart des DFSR-Dienstes auf ALPHA und BETA aufgetreten sind. Wenn ja, zeigt dies, dass es, obwohl es sehr lange dauert (länger als ich glaube, dass es dauern sollte), den Dateiinhalt nicht tatsächlich über das Kabel überträgt.

Replizierter Ordner : 1,46 TB (tatsächliche Größe), 439.387 (Dateien), 52.886 (Ordner)

Konflikt- und gelöschter Ordner : 100,00 GB (konfigurierte Größe), 34,01 GB (tatsächliche Größe), 19.620 (Dateien), 2.393 (Ordner)

Staging-Ordner : 200,00 GB (konfigurierte Größe), 92,54 GB (tatsächliche Größe)

Ich habe einen Fehler mit hohem Wasserzeichen in den Protokollen (14. Mai, 19 Uhr) und habe daher die Staging-Quote von 100 GB auf 200 GB erhöht. Ich weiß, dass die von Microsoft genehmigte Route um 20% erhöht werden soll, aber ich spiele nicht damit herum. Wir haben viel Speicherplatz auf den Staging-Festplatten-Arrays.

Das Deaktivieren des Antivirenprogramms auf allen Servern hat nicht geholfen, obwohl ich dachte, es hätte ein bisschen geholfen. Im Moment habe ich Antivirus wieder aktiviert, aber den Pfad der Replikationsgruppe so festgelegt, dass er vom Scannen ausgeschlossen wird, um diese Variable aus der Gleichung zu entfernen.

Gibt es eine Möglichkeit, dies schneller zu machen? Ich würde diese Änderung nur auch auf Server-BETA vornehmen, aber es gibt Dateien, die sich auf ALPHA geändert haben, aber nicht auf BETA repliziert wurden, und durch die Änderung der geerbten Berechtigung auf BETA würden ALTE Dateien von BETA auf ALPHA übertragen (weil DFSR dies zu tun scheint) Ignorieren Sie die Zeitstempel der Datei, wenn Sie vergleichen, welche Datei bei einer Kollision der Gewinner ist. Und das zu haben wäre ziemlich schlimm.

Der Rückstand nimmt langsam ab. Sehr, sehr langsam. Es geht aber weiter. Aber bei dieser Geschwindigkeit wird es Wochen dauern, bis es fertig ist. Ich denke darüber nach, nur eine Kopie des Datensatzes auf ein 3-TB-Laufwerk zu schieben und an das Remote-Büro zu senden. Gibt es einen besseren Weg?

16. Mai, 4 Uhr morgens US PT: Was könnte das Problem behoben haben (vorausgesetzt, es ist sowieso ehrlich behoben):

Ich habe mehrere Änderungen an den DCs vorgenommen, die vor langer Zeit hätten vorgenommen werden sollen. Das Problem ist, dass dieses Netzwerk von jemand anderem geerbt wurde, der es wahrscheinlich von jemand anderem geerbt hat usw. Ich kann nicht versprechen, welche Änderung das Problem behoben hat. Hier sind sie in keiner bestimmten Reihenfolge:

Alle Domänencontroller befanden sich nicht in der Organisationseinheit "Domänencontroller". Ich habe noch nie eine Windows-Domäne gesehen, deren Domänencontroller anderswo waren. Ich brachte sie dorthin zurück, wo sie hingehörten. Sie befanden sich zuvor in Organisationseinheiten, die nach dem Namen der Stadt getrennt waren, in der sich jedes Büro befindet. (Ich habe das Gefühl, dass ich jetzt, da ich diese umgezogen habe, einige Klempnerarbeiten erledigen muss, aber derzeit scheint alles in Ordnung zu sein ...)
AVG Anti-Virus wird auf allen DCs und DFSR-teilnehmenden Servern ausgeführt. Ich habe die replizierten Ordner und die Staging-Ordner vom aktiven / On-Access-Scannen ausgeschlossen. Ich glaube nicht, dass dies das Problem behoben hat, und ich werde dieses Problem wahrscheinlich später testen, um festzustellen, ob das Rückgängigmachen dieser Änderung die Replikationsgeschwindigkeit von DFSR beeinträchtigt. Das ist eine Herausforderung für einen anderen Tag.
dcdiag.exe hat ein DNS-Problem in Bezug auf RODCs beanstandet. Ich habe dieses Problem behoben, obwohl wir überhaupt keine RODCs in der Domain haben. Ich bezweifle, dass dies irgendetwas behoben hat.
Einer der SRV-Datensätze _ldap._tcp.domain.GUID._msdcs.DOMAIN.NET fehlte für einen der Domänencontroller (nicht für einen der DFSR-Server), und ich habe Abhilfe geschaffen. Ich glaube auch nicht, dass das geholfen hat.
Bei einem Neustart von Server BETA wurde ein fehlerhaftes Herunterfahren der DFSR-Datenbank (Ereignis 2212) beanstandet, und es dauerte Stunden, bis die Datenbank neu erstellt wurde. Als es fertig war, meldete es Ereignis 2214, um mich wissen zu lassen, dass es fertig war. Danach lief die Replikation immer noch extrem langsam, aber es hätte möglicherweise geholfen, alles zu lösen, was feststeckte.
Einer der Domänencontroller hatte in seiner Schnittstellenkonfiguration nicht 127.0.0.1 als sekundären DNS-Server. Ich habe es hinzugefügt. Dies war keiner der DFSR-Server, so dass dies wahrscheinlich nichts damit zu tun hatte.
Ich folgte dem TechNet-Blog: Optimieren der Replikationsleistung in den von DFSR empfohlenen Registrierungseinstellungen für DFSR-Server. Ich habe alle Werte für den "getesteten Hochleistungswert" verwendet, außer dass AsyncIoMaxBufferSizeBytes auf 4194304 festgelegt wurde, was eine Stufe niedriger als der Hochwert ist. Dies hätte bei dem Problem helfen können ... oder vielleicht auch nicht. Es ist schwer zu sagen, wann man zu viele Variablen ändert.
dcdiag.exe hat sich über ein Problem bei der Kommunikation mit dem RPC-Dienst auf BETA beschwert, jedoch erst, nachdem die oben genannten Änderungen bereits vorgenommen wurden. Dies schien das wahrscheinlichste Problem zu sein, aber ich habe nichts getan, um es zu korrigieren. Das VPN lief ordnungsgemäß und die Firewall blockierte es nicht. Es ist möglich, dass einer der oben genannten Punkte das RPC-Problem verursacht und dann behoben hat, oder es könnte ein einfacher Zufall gewesen sein. Ich bin nicht diesen Fehler jetzt immer und Replikation läuft reibungslos derzeit.

Die Moral der Geschichte lautet: Ändere eine Sache nach der anderen oder du wirst nie wirklich wissen, was sie behoben hat. Aber ich war verzweifelt und hatte keine Zeit mehr, um das Problem zu beheben. Deshalb habe ich nur ein paar Kugeln auf das Problem abgefeuert. Wenn ich jemals den Fix finde, werde ich das hier melden. Verlassen Sie sich jedoch nicht darauf, dass ich es einschränke.

EDIT 21.05.2012: Ich habe dieses Problem gelöst, indem ich gestern etwa sieben Stunden mit einem Ersatzserver (GAMMA) zum Remote-Büro gefahren bin. GAMMA fungiert jetzt als primärer lokaler Server, während der übliche Server (BETA) die Replikation aufholt. Seit ich es eingerichtet habe, haben die Server die Replikationsgeschwindigkeit verdoppelt. Dies sagt mir zwar, dass es sich um ein VPN-Problem handeln könnte, aber ich bin weniger geneigt zu glauben, dass dies der Fall ist, da alle neuen Updates von ALPHA auf GAMMA repliziert wurden und sehr schnell und gut verlaufen sind.

EDIT 22.05.2012: Es ist gerade bei 12000 und sollte in ein paar Stunden fertig sein. Ich werde eine schöne Grafik des Fortschritts vom langsamen Start bis zum schnellen Ende veröffentlichen. Das Problem ist, dass das einzige, was wirklich "behoben" wurde, die lokale Serververbindung ist. Ich denke derzeit, dass vielleicht das VPN Teil des Problems ist. Und wenn das der Fall ist, habe ich das Gefühl, dass diese Frage noch nicht ganz beantwortet ist. Nachdem ich mehr Zeit hatte, um zu überprüfen, wie sich die Dinge über das VPN replizieren und ob Fehler auftreten, werde ich den Fortschritt debuggen und melden.

Wenn sich etwas ändert, werde ich hier aktualisieren.

— Emmaly Wilson
quelle

Wie viele Daten müssen repliziert werden und wie viel Bandbreite ist zwischen Ihrem Standort und dem Remotestandort verfügbar? Drosseln Sie auch die DFS-Replikation?

— MDMarra

Meine Antwort zum Hinzufügen ist dieselbe wie bei MDMarra (überprüfen Sie Ihren Replikationszeitplan und die Staging-Größe), daher hinterlasse ich nur einen Kommentar. Wenn es sich um eine Berechtigungsänderung handelt, werden nicht die tatsächlichen Daten repliziert, sondern die Sicherheitsattribute für jede Datei. In diesen Fällen ist der Rückstand normalerweise nicht von der Bandbreite abhängig. Sie haben nichts erwähnt, was im Ereignisprotokoll angezeigt wird, aber es lohnt sich, einen Blick darauf zu werfen. Führen Sie auch einen DFSR-Diagnosebericht für die Replikationsgruppe aus.

— Jeff Miles

Außerdem hat Windows Server 2012 eine Funktion, die dieses Problem für immer beseitigen

— Jeff Miles

Ich habe die Frage aktualisiert, um diese Fragen zu beantworten.

— Emmaly Wilson

dfsrdiag replicationstate /azeigt, dass nur zwei Dateien gesendet werden, beide jedoch denselben Dateinamen haben. Es heißt, dass es ohnehin zwei ausgehende Verbindungen zu BETA von ALPHA gibt. Die Datei, die gesendet wird, ist 850 MB groß. Wie zuvor beschrieben, bin ich davon überzeugt , nicht , dass es tatsächlich sendet den gesamte Dateiinhalt, obwohl ich nicht sicher bin , was wäre es , wenn nicht tun , da es eine sehr lange Zeit in Anspruch nimmt mit einer einzigen Datei nur zu beschäftigen. Die Datei wurde zuletzt im Jahr 2008 (auf beiden Servern) aktualisiert, sodass es keinen Grund gibt, etwas anderes zu tun, als die ACL-Informationen für die Datei auf BETA zu aktualisieren.

— Emmaly Wilson

Sehr seltsames Problem, insbesondere nach Überprüfung der Bearbeitung.

Ich würde das DFSR-Debug-Protokoll überprüfen, das sich hier befindet:% systemroot% \ debug Standardmäßig sollten 9 vorherige Protokolldateien vorhanden sein, die in GZ archiviert wurden, und eine, in die gerade geschrieben wird.

Öffnen Sie das in einer Textdatei und suchen Sie nach dem Text "Warnung" oder "Fehler". Weitere Informationen zu den Debug-Protokollen finden Sie in dieser Blog-Reihe: http://blogs.technet.com/b/askds/archive/2009/03/23/understanding-dfsr-debug-logging-part-1- Protokollierungsstufen-Protokollformat-guid-s.aspx

Weitere Fragen / Anregungen:

Ist beim Betrachten des Ressourcenmonitors etwas fehl am Platz? Übermäßige Festplatten- oder CPU-Aktivität außerhalb einer Basislinie?

Wenn möglich, würde ich sowohl Alpha- als auch Beta-Server neu starten. Wenn es Ihr Problem löst, wissen Sie vielleicht nie, was das eigentliche Problem war, aber wenn es kritisch ist, dass dies bald behoben ist, ist es einen Versuch wert.

Bearbeiten basierend auf Fragenaktualisierung

Sie haben zwei Einträge erwähnt, die sich auf eine 850-MB-Datei beziehen, sowie einen Fehler im DFSR-Debug-Protokoll.

Können Sie versuchen, den Staging-Speicherort auf jedem Server in einen anderen Ordner oder ein anderes Laufwerk zu ändern? Falls die Dateien, die gerade bereitgestellt werden, beschädigt sind oder die Replikation auf irgendeine Weise blockieren.

— Jeff Miles
quelle

Die neueste Protokolldatei enthält nichts, was mit "Warnung" übereinstimmt, aber Fehler. Die Fehler sind alle wie folgt: "20120513 23: 38: 59.198 6592 ASYN 755 [WARN] AsyncUnbufferedFileWriter :: SetFileSizeEstimate [Fehler: 87 (0x57) FileUtil :: SetFileValidDataLength fileutil.cpp: 1657 6592 W Der Parameter ist falsch.] "Ich habe auch das Antivirenprogramm deaktiviert, um zu sehen, ob dies zu dieser schrecklichen Verlangsamung führt. Ich habe vergessen, dass av sogar auf diesen Servern war und es kann sehr wohl die Ursache für die Probleme sein. : - |

— Emmaly Wilson

Der Frage wurden Antiviren-Hinweise hinzugefügt. Wie bereits erwähnt, scheint es nichts zu beeinflussen.

— Emmaly Wilson

Ich habe sowohl ALPHA als auch BETA im Verlauf des Debuggens dieses Problems viele Male neu gestartet. Abgesehen von den damit verbundenen Fehlern in den Ereignisprotokollen auf dem gegenüberliegenden Server schien dies keine Auswirkungen zu haben. Die CPU-Aktivität auf beiden Servern ist sehr gering. Selbst bei hoher Mittagslast beträgt der Durchschnitt kaum 20%. Gleiches gilt für RAM. Festplattenschreibvorgänge sind sehr häufig, werden jedoch nie zu 100% angezeigt. Es scheint nicht an die Festplatten-E / A gebunden zu sein. Im Moment muss ich nur davon ausgehen, dass irgendwo etwas auf eine Art Suche und Zeitüberschreitung wartet? Ich sehe keinen anderen Grund für dieses Verhalten. Ich grabe immer noch ...

— Emmaly Wilson

Ich musste BETA wegen der angewendeten Windows-Updates neu starten und es kam wieder mit einem 2212, aber nicht mit einem 2214, also warte ich jetzt und warte. Vielleicht ist es ein Zeichen für gute Dinge, die kommen werden. Oder es bedeutet, dass BETA einfach mehr vermasseltes Zeug enthält. Server: pfft.

— Emmaly Wilson

... kein Würfel. Gleiche Langsamkeit, gleiche Probleme. Ich werde weiter pushen.

— Emmaly Wilson

Sie können den Replikationszeitplan anpassen, damit DFS-R außerhalb der Geschäftszeiten (oder gegebenenfalls auch außerhalb der Geschäftszeiten) mit voller Geschwindigkeit replizieren kann.

Sie können auch versuchen, die Staging-Größe auf dem zurückgemeldeten Server zu erhöhen. Dies sollte die Leistung in dieser Situation erhöhen.

Sie erwähnen nicht, ob es begrenzt ist oder nicht, aber ich gehe davon aus, dass Sie über ein WAN repliziert haben.

— MDMarra
quelle

Ich habe die Frage aktualisiert, um auf Ihre Antwort zu antworten. Insbesondere werden der Replikationsplan mit voller Geschwindigkeit rund um die Uhr und der 100-GB-Staging-Bereich beschrieben. Was Sie gesagt haben, wäre hilfreich, wenn diese Elemente nicht bereits vorhanden wären. Ich schätze Ihre Interaktion dazu.

— Emmaly Wilson

Ich habe die Erfahrung gemacht, dass dies genau so funktioniert.

Ich bin darauf gestoßen, nachdem ich die Sicherheit einer relativ kleinen Sammlung von 4 DFS-Replikationsgruppen aktualisiert hatte (550 GB Daten, 58.000 Dateien, insgesamt 3,4.000 Ordner). Die tatsächlich auf dem Kabel übertragenen Daten sind niedrig, sodass anscheinend nicht ganze Dateien nur für Sicherheitsänderungen verschoben werden. Die Festplattenaktivität scheint jedoch neu kopiert zu werden - anhaltende Festplattenübertragungsraten zwischen 60 und 100 MB / s und Festplattenwarteschlangen von 30, bis zu 500 auf SSD-Tiered-Speicherplatz.

Meiner Meinung nach weist DFS in seinem Staging- und Destaging-Prozess eine große Abwanderung auf, was zu extremen Festplatten-E / A führt. Ein anfänglicher Replikationsprozess zwischen zwei mit Gigabit-LAN verbundenen Boxen dauert um ein Vielfaches länger als die gleichen Daten, die einfach zwischen Boxen kopiert werden. Dies scheint darauf hinzudeuten, dass jedes replizierte Byte mehrere Bytes Lese- und Schreibzugriff auf die Festplatte erfordert.

Sicherheitsupdates scheinen keine spezielle Replikationslogik zu haben, die die Verwendung der anspruchsbasierten Sicherheit von 2012 (die AFAICT nicht weit verbreitet ist) ausschließt, was zu derselben Abwanderung von Phase / Ziel führt, die Sie für Datenänderungen erhalten würden.

— Mobokratie
quelle