Wie kann ich Entwickler in meinem Team davon überzeugen, "Sie bauen es, Sie leiten es" zu akzeptieren? Dabei denke ich an dieses Zitat von Werner Vogels :
Die Übernahme der operativen Verantwortung der Entwickler hat die Qualität der Services sowohl aus Kunden- als auch aus technologischer Sicht erheblich verbessert. Das traditionelle Modell ist, dass Sie Ihre Software an die Wand bringen, die Entwicklung und Betrieb voneinander trennt, sie wegwerfen und dann vergessen. Nicht bei Amazon. Sie bauen es, Sie leiten es. Dies bringt Entwickler in Kontakt mit dem täglichen Betrieb ihrer Software. Es bringt sie auch in den täglichen Kontakt mit dem Kunden. Diese Kundenfeedbackschleife ist für die Verbesserung der Servicequalität von entscheidender Bedeutung.
Ich denke speziell an eine Reihe von Entwicklern, die:
- Wurden in eine Entwicklerrolle eingestellt, mit wenig / keiner Erwähnung von ops-bezogenen Aufgaben.
- Habe einem Ops-Team traditionell "Code über die Wand geworfen".
- Herkömmlicherweise haben sie einen 9-5-Arbeitszeitplan und sind aktiv gegen die Idee der "Pager-Pflicht", die Teilnahme an der Notfallwiederherstellung, das Verfassen von Obduktionen usw., insbesondere außerhalb der normalen Geschäftszeiten. (Hinweis: Ich habe diesbezüglich nur sehr selten Ausfälle im Auge. Ich schlage nicht vor, dass wir die Arbeitsbelastung dieses Teams um Kundensupport außerhalb der Geschäftszeiten erweitern.)
- Sie sind derzeit nicht dafür verantwortlich, Überwachungen oder Warnungen für ihre Anwendungen zu schreiben / zu unterstützen.
Angenommen, es gibt ein Team, das rasch neue Cloud-Mikroservices mit einem Profil entwickelt, das derart wird, dass die Weitergabe dieser Services an ein Ops-Team nicht optimal ist, weil es nicht mithalten kann, um tiefgreifende Kenntnisse zu erlangen die Dienste, die erforderlich sind, um sie effektiv zu verwalten und zu überwachen. "Sie bauen es, Sie führen es aus" würde für dieses Team besser funktionieren, da Aufgaben an jedes verantwortliche Teammitglied delegiert werden könnten. Daher begann dieses Team mit dem Entwerfen der Infrastruktur, dem Überwachen / Warnen von Tools für die Dienste und (sehr selten) dem Reagieren auf Ausfallereignisse.
Ich interessiere mich speziell für Methoden, die durch Beispiele aus der Praxis untermauert werden. Wie wurde dies an anderen Arbeitsplätzen erfolgreich umgesetzt, und ob dabei kanonische Schritte zu befolgen sind? Alle Links zu Aufzeichnungen, die Antworten unterstützen können, wären sehr hilfreich.