Ich versuche zu verstehen, wie Daten am besten erfasst werden können, um mit der Messung der MTTR-Metriken (Mean Time To Repair) zu beginnen, und ich muss mich darum kümmern, wie sich "Rollback" positiv oder negativ auf die MTTR auswirkt.
Szenario 1
Unter der Annahme, dass eine solide Überwachung vorhanden ist, wird Code bereitgestellt, der einen Vorfall verursacht, der ziemlich schnell erkannt wird (niedriger MTTI). Zum Zeitpunkt der Identifizierung gibt es zwei mögliche Hauptpfade (ja, ich vereinfache dies zu Diskussionszwecken zu stark):
Setzen Sie die Bereitstellung zurück und geben Sie schnell Stabilität zurück, jedoch ohne die beabsichtigten Funktionen in der Produktion.
Roll-Forward mit zusätzlichen Änderungen, die den Vorfall beheben und die beabsichtigten Funktionen am Leben erhalten.
In diesem Szenario ist die MTTR verdammt niedrig, da die Stabilität der Website ziemlich schnell wiederhergestellt werden kann. Das beabsichtigte Ergebnis der Änderung ist jedoch nicht live, und daher bleibt der Code / die Funktion / die Änderung noch in Bearbeitung. Wenn ein Ziel eine niedrige MTTR ist, scheint dies einen Anreiz für das Rollback als Wiederherstellungsmechanismus zu sein.
Szenario 2
In diesem Szenario wird MTTR streng daran gemessen, wie lange es dauert, bis der erwartete Code / die erwartete Funktion / Änderung in der Produktion ordnungsgemäß funktioniert. Selbst wenn ich ein Rollback durchführe, läuft der MTTR-Timer weiter, bis meine "feste" Codeänderung in das Produkt übergeht. In diesem Fall scheint MTTR an die Stabilität der Geschäftsergebnisse gebunden zu sein, anstatt nur "Hey, die Dinge sind stabil".
Die Antwort mag jetzt so einfach sein, dass MTTR nicht als Metrik in einem Vakuum verwendet wird, sondern in Verbindung mit der Änderungsfehlerrate - eine extrem niedrige MTTR, die durch häufige Rollbacks verursacht wird, könnte auf eine himmelhohe Änderungsfehlerrate hinweisen. Die Idee, die MTTR-Messung vom Geschäftsergebnis zu trennen, scheint mir jedoch nicht richtig zu sein.
Ich überdenke das vielleicht viel, aber ich bin gespannt, wie andere die MTTR messen und wie der Endzeitpunkt für die "Wiederherstellung" ist. Verwenden Sie es einfach als Stabilität oder bestimmen andere Faktoren, was "wiederhergestellt" bedeutet?