Nach Monaten der Vernachlässigung, E-Mail-Flammen und Management-Kämpfen wurde unser aktueller Systemadministrator gefeuert und mir "die Server-Anmeldeinformationen" übergeben. Solche Anmeldeinformationen bestehen aus einem Root-Passwort und nichts anderem: keine Prozeduren, keine Dokumentation, keine Tipps, nichts.
Meine Frage ist: Angenommen, er hat Sprengfallen zurückgelassen, wie übernehme ich die Server mit so wenig Ausfallzeiten wie möglich?
Hier sind die Details:
- ein Produktionsserver in einer Serverfarm im Keller; Ubuntu Server 9.x wahrscheinlich mit Grsec-Patches (Gerüchte, die ich das letzte Mal gehört habe, als ich den Administrator gefragt habe)
- Ein interner Server, der die gesamte interne Dokumentation, das Datei-Repository, die Wikis usw. enthält. Wieder ein Ubuntu-Server, einige Jahre alt.
Angenommen, beide Server sind gepatcht und auf dem neuesten Stand, also würde ich lieber nicht versuchen, mich einzumischen, es sei denn, es gibt einen guten Grund (dh das kann dem oberen Management erklärt werden).
Auf dem Produktionsserver sind einige Websites gehostet (Standard-Apache-PHP-MySQL), ein LDAP-Server, eine ZIMBRA-E-Mail-Suite / ein ZIMBRA-E-Mail-Server und, soweit ich das beurteilen kann, einige VMware-Workstations, die ausgeführt werden. Keine Ahnung, was da drin passiert. Wahrscheinlich ist einer der LDAP-Master, aber das ist eine wilde Vermutung.
Der interne Server verfügt über ein internes Wiki / CMS, einen LDAP-Slave, der die Anmeldeinformationen vom Produktionsserver repliziert, einige weitere VMware-Workstations und ausgeführte Sicherungen.
Ich könnte einfach zum Administrator der Serverfarm gehen, auf den Server zeigen, ihnen sagen, dass sie sudo
diesen Server bitte herunterfahren sollen, sich im Einzelbenutzermodus anmelden und mich damit abfinden. Gleiches gilt für den internen Server. Trotzdem würde das Ausfallzeiten bedeuten, das obere Management wäre verärgert, und der alte Systemadministrator würde auf mich zurückschießen und sagen: „Sehen Sie? Sie können meinen Job und andere Belästigungen nicht erledigen, und vor allem müsste ich möglicherweise ein paar Wochen unbezahlte Zeit verlieren.
Am anderen Ende des Spektrums konnte ich mich einfach als Root anmelden und mich über den Server bewegen, um zu verstehen, was passiert. Mit allen Risiken, Überraschungen auszulösen.
Ich suche nach einer Lösung in der Mitte: Versuchen Sie, alles so zu halten, wie es ist, während Sie verstehen, was und wie passiert, und vor allem vermeiden, dass Sprengfallen zurückbleiben .
Was sind deine Vorschläge?
Bisher habe ich darüber nachgedacht, mit dem internen Server zu „üben“, das Netzwerk zu trennen, mit einer Live-CD neu zu starten, das Root-Dateisystem auf ein USB-Laufwerk zu laden und es auf eine getrennte, isolierte virtuelle Maschine zu laden, um die frühere Systemadministration zu verstehen Denken (a-la 'kenne deinen Feind'). Könnte das gleiche Kunststück mit dem Produktionsserver schaffen, aber ein vollständiger Speicherauszug würde jemanden auffallen lassen. Vielleicht kann ich mich einfach als root anmelden, crontab überprüfen, das .profile auf Befehle überprüfen, die gestartet wurden, das letzte Protokoll sichern und alles, was mir in den Sinn kommt.
Und deshalb bin ich hier. Jeder noch so kleine Hinweis wäre sehr dankbar.
Zeit ist auch ein Problem: In einigen Stunden oder Wochen können Auslöser auftreten. Fühlt sich an wie einer dieser schlechten Hollywood-Filme, nicht wahr?