Antworten:
In 15 Jahren in der Branche muss ich noch eine neue Beratungsrolle bei einem Unternehmen einnehmen, um festzustellen, dass es über eine "gute" Infrastruktur verfügt. Das ist normalerweise der Grund, warum ich gerufen werde, um sie in Ordnung zu bringen.
Die übliche Ursache für dieses Durcheinander sind nicht-technische Entscheidungsträger, die technische Entscheidungen treffen.
Vor ein paar Jahren habe ich eine "Bewertung" der Netzwerkinfrastruktur eines kleinen Fertigungsunternehmens durchgeführt. Während dieser Arbeit stellte ich fest, dass das ERP-System nie gesichert wurde. Unbekannterweise hat der frühere IT-Auftragnehmer Backup Exec für tägliche vollständige Sicherungen konfiguriert, jedoch nie eine Art "Dump" oder Stop / Start des von seinem ERP-System verwendeten Datenbankservers per Skript ausgeführt, sodass die Datenbankdateien immer verwendet und vom System übersprungen wurden Sicherung. Aus diesem Grund führten sie weit über 3 Jahre lang tägliche Bandsicherungen durch, auf denen keine Daten ihres ERP-Systems gespeichert waren. Sie haben das Band pflichtgemäß ausgewechselt, so wie es der Auftragnehmer ihnen gesagt hatte, aber anscheinend hat sich niemand (einschließlich des Auftragnehmers) die Mühe gemacht, zu überprüfen, was sich tatsächlich auf den Bändern befand.
In früheren Zeiten verließ einer unserer leitenden Administratoren unser Unternehmen und übergab mir die Verantwortung für das "Document Imaging System". Ich war ein kleiner Mann im Team, unerfahren und begierig darauf, irgendetwas zu unternehmen.
Es war wie der alte Coke-Werbespot mit Mean Joe Green ... Ich war total begeistert, der primäre (einzige) Administrator eines kundenorientierten Produktionssystems zu werden, und auf dem Weg zur Tür sagte er: "Hey, Junge, fang an "Ich erwarte, er warf mir einen Stapel zerknitterter Papiere mit ein paar Anmeldungen und einer Telefonnummer zur Unterstützung zu, anstatt eines verschwitzten Handtuchs.
Die Euphorie ließ schnell nach ... Das System bestand aus 2 Servern, auf denen eine Datenbank ausgeführt wurde, einer Freigabe, etwa 6 Arbeitsstationen mit Scannern und Verarbeitungsanwendungen sowie einem Webserver und App-Benutzern, die zum Referenzieren von Dokumenten angemeldet waren. Es war eine unheilige Mischung aus Apache und Java und mindestens zwei Arten von Skripten, die unter Windows SQL Server ausgeführt wurden. Oh ja. Wir hatten auch für eine Reihe von "Anpassungen" bezahlt, die oft zusammenbrachen und deren Support-Leute sich immer glücklicherweise nicht bewusst waren.
Kurze Liste der guten Zeiten:
Es wurde kaum etwas dokumentiert und ich entdeckte jede Falte, wenn etwas kaputt ging. Wie gesagt ... die Berichte waren falsch oder wurden nicht gedruckt. Oder Desktop hat eine neue Version der JVM veröffentlicht und niemand konnte scannen. Oder jemand hat den Dongle von der Scan-Workstation geworfen und die App ist abgestürzt. Oder das Protokolldateisystem ist voll. Oder Daten aus einer OCR-Extraktion haben eine App zum Absturz gebracht, weil etwas falsch erfasst und als illegal gesendet wurde. Oder herauszufinden, dass ungefähr 3 Dutzend Tickets mit Unterstützung für verschiedene Abteilungen offen waren und viele schon seit Monaten offen waren. Usw. Ich entdeckte neue, wichtige Dinge mit einer Geschwindigkeit von 4-5 pro Woche und lernte sehr schnell die Besonderheiten dieser App und ihre Bedürfnisse sowie genügend SQL Server, um die Datenbank mäßig gesund zu halten.
Das Beste war, als ich zu der internen Benutzergruppensitzung eingeladen wurde, um mich in meiner neuen Rolle "willkommen zu heißen". Das ist kein Scherz. 30 wütende User im Kreis und ich durfte in der Mitte sitzen.
Es war rau, aber ich habe ziemlich schnell gelernt. Abgesehen von den Schmerzen war es eine großartige Gelegenheit. Ein Teil von mir wünscht sich, es wäre nicht so versuchsweise gewesen, aber vielleicht hätte ich nicht so schnell gelernt.
Entschuldigung, das war so lange ... aber ahh ... es ist wie eine Therapie;)
Vor ungefähr 12 Jahren begann ich als Sysadmin bei einem mittelgroßen ISP mit ungefähr 30 Mitarbeitern zu arbeiten. Sie hatten noch nie einen echten Systemadministrator gehabt, nur einige Leute, die dachten, sie wüssten, was sie taten (manchmal hatten sie recht, meistens nicht. Insgesamt ist es erstaunlich, dass die Systeme überhaupt funktionierten).
Das i-Tüpfelchen war jedoch, dass fast jeder im Ort die Root-Passwörter für die Server hatte. Ich weiß nicht, was die Rezeptionistin angeht, aber mit Sicherheit hatten alle Manager, Helpdesk-Mitarbeiter, Webentwickler und alle anderen, die mit dem System interagierten, Wurzeln - sowohl aktuelle als auch frühere Mitarbeiter, da sie es nie geändert haben. und sie würden es ALLE benutzen. nach Lust und Laune. Wenn ein Kunde beispielsweise den Helpdesk mit einer Beschwerde anrief, loggte er sich als root ein und spielte mit dem System herum, bis das Problem des betreffenden Kunden gelöst war oder auf magische Weise aufhörte (was er als "gelöst" ansah). Dies würde natürlich zahlreiche andere Probleme verursachen ... die andere Mitarbeiter des Helpdesks zur gleichen Zeit mit derselben "Anmeldung als root und Metzgerei des Systems" -Methode bearbeiten würden.
natürlich, das root-passwort zu ändern und change-management und andere prozesse einzurichten, um zu kontrollieren, was geändert wurde und wann und wie und von wem war eines der allerersten dinge, die ich gemacht habe. oh yeah ... und Backup- und Revisionskontrolle auch für Konfigurationsdateien.
(Das allererste, was ich getan habe, war, den Open-Relay-Mail-Server zu schließen und einige Anti-Spam-Filter zu implementieren. Tatsächlich bin ich mir sicher, dass ich den Job bekommen habe, weil ich im Interview erwähnt habe, dass ich einiges an Anti getan habe -spam work. mir unbekannt, sie hatten ein ernstes Spam- / Open-Relay-Problem, das monatelang bestand und von dem sie keine Ahnung hatten, wie es behoben werden sollte, so dass sie ständig auf die schwarze Liste gesetzt wurden. Kurz danach entdeckte ich die schrecklichen Neuigkeiten dass fast jeder im Ort Root-Zugriff hatte)
Das Entfernen der Root-Privilegien verursachte zunächst viel Ärger, aber zum Glück unterstützte mich mein Chef und mein angestrebtes Ziel und sie stellten schnell fest, dass die Server weitaus zuverlässiger waren als jemals zuvor (nicht) schwer zu erreichen, wenn man bedenkt, was den Armen angetan wurde)
Ein kleines Netzwerk, das vollständig standardisiert wurde: Windows 95 und NT Server .
Es war vor ein paar Wochen. ; - /
Easy, der erste IS Manager-Job, hat eine benutzerdefinierte App zur Auftragserfassung gefunden, die vom Ehemann des AP-Angestellten in dBase geschrieben wurde. Sie können auf die Bildschirme schauen und feststellen, in welcher Reihenfolge sie codiert wurden, weil er dabei gelernt hat, Einige Bildschirme waren einfarbig, andere sahen aus, als ob eine Regenbox über sie geworfen worden wäre. Viele Teile sperren die jeweilige Datei ausschließlich, sodass jeweils nur ein Kundendienstmitarbeiter den Kundenstamm bearbeiten kann.
Ergänzen Sie dieses Thinnet-Koaxialkabel im Remote-Büro mit den günstigen Twist-On-Steckverbindern (ungecrimpt). Die Fehlerbehebung bei Telefonanrufen begann mit dem Hinweis, dass das Netzwerk ausgefallen ist, gefolgt von der Frage, ob irgendjemand Möbel oder Computer bewegt hat oder ob das Reinigungspersonal irgendwo gesaugt hat Brechen Sie den Token-Ring, aber nicht genug, um zu sehen, dass sie locker waren.
Dann kehrte der Eigentümer mit einer Kopie der USNews von einer Geschäftsreise zurück, zeigte auf eine Computeranzeige und sagte: "Warum verwenden wir diese Server nicht?" Eine Weile dachte ich, ich würde in einem Dilbert-Cartoon leben. Ich weiß nur, dass Scott Adams mich verfolgt und sich Notizen macht ...
Oh. So habe ich diesen Job angefangen .
Es war im Jahr 2000 bei einem kleinen ISP. Bei den meisten Servern handelte es sich in Tower-Gehäusen um Pentium 1-Serverhardware. Für die DNS- und RADIUS-Authentifizierung war dies kein Problem, und sie arbeiteten tatsächlich noch viele Jahre, aber der eigentliche Knackpunkt war, dass alles BSD / OS 4.2 war. Obwohl ich mit FreeBSD vertraut war (ich hatte diese BSD-Version bereits bei meiner ersten Arbeit verwendet), ist es eine Untertreibung zu sagen, dass es zu diesem Zeitpunkt ziemlich archaisch war. Was warEin Problem war der Mailserver und der Webserver. Sie waren etwas schnellere Maschinen, aber schrecklich überladen. Ich glaube nicht, dass die Hardware so robust war. Eher wie Desktop-Computer, die das Glück hatten, nicht zu sterben. Seit der Gründung des Unternehmens im Jahr 1994 war nichts aufgerüstet worden. Alles war in einer Ecke des Büros verstaut, in der zufällig keine ausreichende Klimaanlage vorhanden war. Und wenn ich "Büro" sage, meine ich einen Raum für alle. In der Vergangenheit gab es mehrere Fälle von Serverausfällen aufgrund von Hitze.
Okay, archaische Architektur: überprüfen.
Vorheriger Systemadministrator: Grob inkompetent, dauerte nur ein paar Monate. Ich glaube, er hatte erst begonnen, die neue Abrechnungsdatenbank in Betrieb zu nehmen (und von seinem alten Abrechnungssystem auf Papier umzustellen), bevor er in Luft aufging. Zuvor war es der Eigentümer des Unternehmens, der genug wusste, um Konten, Apache-Websites und angehaltene Startserver zu erstellen. Vielleicht ein bisschen mehr. Gelegentlich hatte er Hilfe von einem Freund. Wer arbeitete eigentlich als Makler. Die Haltung des Chefs gegenüber Systemadministratoren: "Wer braucht sie? Sie zahlen jemandem 40.000 US-Dollar, um herumzusitzen und Kaffee zu trinken, während Sie Protokolle lesen. Ich benötige Mitarbeiter des technischen Supports."
Sicherheit: keine. Nein, wirklich . Ein T1 versorgte die Server mit der Internetverbindung. Und das Büro. Feste öffentliche IPs für alles. Die Haltung des Chefs: "Oh, wir sind sicher. Wir führen BSD / OS 4.2 aus! Wir hatten noch nie einen Einbruch!" Zumindest waren die Passwörter nicht vollständig zurückgestellt, aber jeder Standardserver lief auf jedem Computer. Natürlich ungepatcht. Alte Versionen von jedem Server-Daemon auch.
Feuer: Überall! Alles! Auf!! Feuer!!! Das, was ich als erstes innerhalb einer Woche nach meiner Einstellung getan habe (ich möchte vielleicht als technischen Support hinzufügen. Möchten Sie auch die Systemadministration übernehmen? Tun Sie dies, wenn Sie nicht beschäftigt sind - ich war jung genug und arm genug, um mich nicht darum zu kümmern), das hatte ich Hämmerte ein Shell-Skript zusammen, das festlegte, wie oft sich ein Kunde gleichzeitig in den Einwahlpool einloggen konnte. Dies hat das dringlichste Problem behoben, dass der Einwahlpool ständig ausgelastet ist - da Spammer ihn als Mittel zur Bündelung der Bandbreite verwenden. Habe ich erwähnt, dass der AAA-RADIUS-Server in dieser Version nicht über diese Funktionalität verfügt? Weder dass ein neuer AAA-RADIUS-Server auf dieser Plattform kompilieren könnte? Auch konnte FreeRADIUS nicht? Siehe Abschnitt 1, Archaische Hardware. Später habe ich sogar das Gleiche getan, um die eigentliche Buchhaltung zu implementierenPersonen, die sich 30 Stunden im Monat angemeldet haben, haben keine 300 Stunden im Monat in Anspruch genommen. Ich scheine mich zu erinnern, dass der Mail-Server kein offenes Relay war, aber es könnte gewesen sein. Es war auf der anderen Seite schrecklich überlastet, weil sendmail, in welcher archaischen Version auch immer, immer noch das mbox-Format verwendete, das das Parsen jeder Nachricht aus einer flachen Datei anstelle von Mailboxen im Maildir-Format mit einer Nachricht pro Datei erforderte . Wenn also jemand mit einem großen Postfach jemals seine Post überprüft hat, ist der Server für alle zum Erliegen gekommen. Und natürlich befanden sich ausgehendes SMTP und ausgehendes POP auf demselben Computer. Es gab natürlich keine Spam-Filterung. Bei eingehender oder ausgehender Mail. Ich kann mich nicht erinnern, was mit dem Webserver los war, abgesehen von der Tatsache, dass jede neue Site manuell hinzugefügt wurde. Das ist schon schlimm genug.
Backups: Backups? Ahahahaha! Aaaaaah!
Das Verwirrendste an diesem Ort war jedoch, dass es keinen Druckserver gab . Wollten Sie eine Datei drucken? Stehen Sie von Ihrem Schreibtisch auf, drehen Sie die Wählscheibe an der Switchbox auf Ihren Computer, gehen Sie zurück und drucken Sie die Datei. Ich erinnere mich, dass es auch nicht lange dauerte, bis ich das reparierte.
Meine aktuelle Domino-Umgebung muss diejenige sein. Einer der bisherigen langfristigen Betreiber war ausschließlich an einer schnellen und schmutzigen Entwicklungsarbeit interessiert, so dass über einen Zeitraum von 10 Jahren absolut keine grundlegende Haushaltsarbeit geleistet wurde. Die beiden, die ihm folgten, mir aber - verständlicherweise - vorausgingen, sahen es sich einmal an und beschlossen, nur die Köpfe gesenkt zu lassen. Im Moment gibt es also keine standardisierten Namenskonventionen, Benutzerkonten in allen ACLs, alte Administratoren und Entwickler, die schon lange mit Konten (und immer noch in vertraulichen Gruppen) arbeiten, und die Hälfte der Benutzer hat dasselbe Kennwort , eine andere Hälfte von ihnen hat ihre Passwörter in einer Tabelle aufgezeichnet, es gibt eine schöne geschäftskritische App mit zwei benutzerdefinierten internen SicherheitsdatenbankenZusätzlich zur Standard-ACL über 1000 Datenbanken (einschließlich "Kopie von Kopie von"), die vor dem Einfrieren auf Version 6 vier oder fünf schnelle und fehlerhafte Upgrades durchlaufen haben und fast täglich beschädigt werden . Er war auch paranoid in Bezug auf die Skalierbarkeit von Windows, so dass ich übrigens 8-CPU-Boxen habe.
Es nach draußen zu bringen und zu schießen, wäre eine Gnade.
Als ich an meinem jetzigen Arbeitsplatz anfing, erbte ich die Position von einem Mann, der nach ein paar Wochen wegen grober Inkompetenz entlassen wurde. Er schaffte es nicht viel, während er hier arbeitete, außer jede Dokumentation, die er von seinem Vorgänger bekommen hatte, zu zerstören, alle Administratorkennwörter in etwas Zufälliges zu ändern, selbst wenn er es nicht wusste, und einige "versteckte" Konten in die Maschinen zu pflanzen, um danach hineinzukommen .
Passwörter und Hintertüren waren kein wirkliches Problem, aber es ging weiter, ohne zu wissen, was was und wie es interessant war. Trotzdem hat noch kein Benutzer darunter gelitten, aber ich hatte das Glück, dass dieser Typ zu dumm war, um echten Schaden anzurichten.
Diese Frage macht mir den Kopf weh. Ich arbeite für die Regierung ... das niedrigste Gebot gewinnt!
Als ich meine jetzige Position übernahm, arbeitete ich zwei Wochen lang mit dem Kerl zusammen, der weglief und hauptsächlich an der Programmierung einer Web-App arbeitete. Er hatte sechs Monate lang mit einem Bauunternehmer zusammengearbeitet, damit ich eine gute Vorstellung davon hatte, was los war, als die App lief in Produktion gebracht. Einen Monat später wurde die App geschabt und sie warfen dem Auftragnehmer Geld zu, um einfach wegzugehen. Ich beschäftige mich NOCH mit vb6-Apps ohne Dokumentation, die manchmal andere Apps aufrufen, für die ich nicht einmal den Code habe!
Ich werde nicht einmal auf alle bizarren Serverkonfigurationen eingehen, auf Offsite-Backups auf der anderen Straßenseite oder darauf, dass eine ganze andere Abteilung unsere Router und Switches "handhabt" Bauen ohne Kosten! Natürlich nicht, jetzt werden nur Portgebühren erhoben und doppelte MACs gesperrt! Wir verwenden um Himmels willen SIP-Telefone! Und wir müssen die Kosten für die Einrichtung eines Testgeräts rechtfertigen.
Ich muss aufhören, das wird mich zum Weinen bringen. Ich bin jeden Tag erstaunt, dass irgendetwas jemals in der Regierung erledigt wird.
Fileserver, der 250 GB an Dateien für ca. 30 Clients (Laptops / Desktops-Mix) bereitstellt, deren Ordner jeweils Netzwerkfreigaben zugeordnet sind. Das Schlimme daran ist, dass Windows XP mit der maximalen Anzahl von 10 Clientverbindungen ausgeführt wurde. Als erstes habe ich Server 2003 formatiert / installiert.
Am nächsten Tag waren meine Kollegen sehr glücklich, da sie alle gleichzeitig arbeiten konnten.
Als ich in meiner jetzigen Firma anfing, Small Business Server 2003 zu verwenden, wuchsen wir schließlich zu einem Punkt, an dem wir von SBS2003 zu einer tatsächlichen "echten" Serverumgebung wechseln mussten. Leider hat das Umstellungspaket bei uns nicht funktioniert, und MS durch unsere kürzlich gekaufte Volumenlizenz hat mir bei der Umstellung geholfen. Mit Helfen meine ich, mir eine Liste von Dingen zu geben, die verschoben und geändert werden müssen, aber nicht genau wie.
Jetzt bin ich ziemlich erfahren im Umgang mit Active Directory, aber eines der Dinge, die sie mir nicht mitteilten, war, wie SBS es NICHT mag, wenn eine der FSMO-Rollen entfernt wird. Nach 8 oder 12 Stunden wird es neu gestartet, um zu zeigen, wie sauer ich bin Aus ist es.
Es war ein Albtraum, von SBS2003 auszusteigen, und gelegentlich sehe ich hier und da SBS-Verweise in AD oder einen Verweis auf den alten SBS-Server, und es sind ungefähr 2 Jahre vergangen.
Oh, übrigens, ich hasse SBS! :)
Ein Windows 2003-Server, der auch ein DC ist und Exchange 2003 ausführt. Bisher schon schlimm genug, aber es gibt noch mehr ... Es war auch der Terminalserver, der SQL-Server, der Web- und FTP-Server, der WSUS-Server, Antivirus-Updates und der zentrale Konfigurationsserver und es gehostet Roaming-Profile der Benutzer. Es war auch der zentrale Backup-Server, der DAT-Bänder verwendete.
Noch nicht schlimm genug? Der Computer hatte eine einzelne CPU, 2 GB RAM und ein Paar SATA-Laufwerke mit 7.200 U / min, die als RAID 1 konfiguriert waren. Das Array war in 2 logische Laufwerke unterteilt, wobei das Systemlaufwerk 16 GB umfasste, von denen weniger als 2 GB frei waren. Die Maschine wurde von einem Auftragnehmer aus gebrauchten Teilen zusammengebaut, der die Spezifikationen ohne Zweifel auf der Grundlage der verfügbaren Teile empfahl, und fast so viel in Rechnung stellte, wie ein anständiger neuer Server gekostet hätte. Er war auch für die Konfiguration und Inbetriebnahme der Maschine verantwortlich. Sein Rat wurde angenommen, weil er sich seit fast einem Jahrzehnt mit dem Klienten befasst hatte. Ich habe dafür gesorgt, dass er sich nicht mehr mit ihnen befasst.
Ich habe ein Netzwerk-Audit der europäischen Aktivitäten eines SEHR großen Computerherstellers ( Irland, Ahem ) durchgeführt. Es hat Wochen gedauert, aber wir haben festgestellt, dass jedes einzelne Datenbit, das auf jede einzelne Festplatte jedes einzelnen PCs / Servers, den sie hergestellt haben, geschrieben wurde, über die gleichen 4 Drahtfäden übertragen wurde - sie hatten einen einzigen 1-Gbit / s-Port, der ALLE ihre Daten übertrug baut. Als wir ihnen sagten, dass sie RAN mehr Kabel / SFPs besorgen sollten und es innerhalb von 30 Minuten multipathen ließ, war das ein Schock.
Meine erste Aufgabe bestand darin, eine Migration von einem über 18-jährigen "Point 4" -Minicomputer zu planen. Sie wollten ihre Ausrüstung modernisieren, "weil der Eigentümer das Gefühl hatte, dass die vorhandene Ausrüstung in die Jahre gekommen ist". Dieser alte Timesharing-Minicomputer verwendete ein überarbeitetes Televideo 955-Terminal mit einem benutzerdefinierten ROM, und es gab insgesamt 1 Terminal-Emulationsprogramm auf dem Markt, mit dem Sie einen Computer anschließen konnten, der als dummes Terminal fungierte. Natürlich lief dieses Programm nur auf System 7.
Der Verkäufer hatte sein Geschäft längst eingestellt . Teile wurden von einem Hardwaresupport-Anbieter mit einem Jahresvertrag bereitgestellt und waren alle paar Monate zu Besuch, da etwas anderes kaputt ging und ausgetauscht werden musste.
Das größte Problem, das ich geerbt habe, war physisch, nicht Software. Der Serverschrank war zufällig auch der Elektro- und Telefonschrank. Also hatte es eine Klimaanlage in Form eines riesigen Transformators, der den Raum heizte. Der Schrank war auch aus einem Raum, der für kleine Besprechungen verwendet werden würde. Ich musste Schilder anbringen, die den Leuten sagten, sie sollten die Türen zum Schrank nicht schließen, selbst wenn es laut war. Die Klimaanlage des Hauptgebäudes war zum Glück ausreichend und es trat kein Fehler von der Temperatur auf. Die Verkabelung war auch ein bisschen chaotisch. So ziemlich das Nest deiner Standardratten, das von den Schaltern zu den Servern geht. Der beste Teil davon war, dass eines der Gestelle von den anderen paar Gestellen getrennt war, so dass es einen kleinen Weg zwischen den Gestellen gab. Es hatte nur einen Server, und die stromkabel dafür gingen einfach ohne schutz über den boden und lagen auch nicht flach. Dies machte es einfach, den Fuß auf sie zu haken. Nachdem Sie nach vorne gefallen waren und der Pflanze ins Gesicht sehen wollten, wurde das halshohe Patchkabel, über das Sie träge gespannt waren, Sie fangen und versuchen, Ihren Hals zu schnappen.
Ich hatte nicht die Gelegenheit, diesen Patch an die Decke zu bringen, bevor wir unsere Büros bezogen haben (in einen Serverraum mit REAL AC!), Aber ich war verrückt nach Klettverschlüssen in diesem ganzen Schrank. Sie könnten tatsächlich durchgehen, ohne sich danach umzubringen!
Ein Unternehmen, für das ich bei meiner Ankunft gearbeitet habe, verfügte über einen Office-Server (zwei Festplatten, von denen eine nicht viel weniger gespiegelt war) und einen gemieteten Colocated-Server (insgesamt eine Festplatte). Es sind überhaupt keine Bandsicherungen vorhanden.
Der Rest des LAN hatte seine Herausforderungen - aber das bloße Glück, dass der Ort seit mehr als drei Jahren so funktioniert, ist erstaunlich. Keine Spiegelung, keine Redundanz, keine Bänder.
IIS 4 (oder 3? Kann mich nicht erinnern) auf NT 4, das das Firmen-Intranet auf einem Desktop-Computer ohne Redundanz oder Backup für ungefähr 12 Jahre ausführte, war (brachte ihn letzten Monat raus) das Schlimmste, was ich je gesehen habe . Nichts Außergewöhnliches, aber trotzdem.
Eine Informix-Datenbank, deren am stärksten ausgelastete, geschäftskritische Tabelle über 16.000 Speicherbereiche verfügte, war bis zu 38.000 Speicherbereiche im Tablespace (Think Fragmented Disk) groß und doppelt so hoch wie die unterstützte Ebene. (Der Verkäufer hat tatsächlich einen Papierbrief geschrieben, in dem es heißt: "Ihre Datenbank wird jederzeit abstürzen".)
Der vorherige DBA, SA und die Netzwerkperson sind gegangen und ich war ungefähr 6 Wochen von der Schule entfernt. Ich habe viel recherchiert und herausgefunden, wie das Problem behoben werden kann, was eine Ausfallzeit von 6 Stunden bedeuten würde. Chef weigerte sich, einen Ausfall zu planen.
An einem der geschäftigsten Tage des Jahres friert das System ein. 500 Callcenter-Betreiber und eine Commerce-Website sind ausgefallen. Es war schwierig, das Problem nach einem Fehler zu beheben, da der Anbieter es noch nie zuvor für eine Tabelle dieser Größe und mit dem von uns verwendeten "interessanten" Datenbankschema durchgeführt hatte. Also haben wir genau das getan, was ich ursprünglich geplant hatte, außer dass die Überprüfung der Datenbankintegrität weitere 5 Stunden in Anspruch nahm.
Zugegeben, das war Ende der 90er Jahre, aber hier habe ich gearbeitet. Wir hatten unsere Serversoftware in einem Debugger ausgeführt, der die Arbeitsmaschine meines Chefs war, da er den größten Teil seiner Arbeit zu Hause auf einem anderen Computer erledigte. Aber wer führt noch den Produktionscode in einem Debugger aus?
Server mit zwei Festplatten, die von einem Hardware-Chassis gespeist wurden - eines Tages starb eine Festplatte und es ertönte ein Alarm, die Kollegen im Büro entschieden, den Alarm auszuschalten, drei Monate später starb die zweite Festplatte und sie riefen an - können nicht auf ihren Server zugreifen
Bei einem Job hielt einer der vorherigen Administratoren es für eine gute Idee, fast alle Sun-Server so einzustellen, dass sie nicht automatisch gestartet werden. Er würde auch keine Init-Skripte in die richtigen Runlevel-Verzeichnisse schreiben, weil ich immer noch nicht weiß, ob dieser Computer abgestürzt ist. Natürlich war der andere Administrator bei solchen Dingen etwas besonnener, was im Grunde dazu führte, dass der gesamte Shop inkonsistent war und die Dinge während der ersten geplanten und ungeplanten Ausfälle wirklich interessant machte.
Ich habe eine Windows NT4-Box am Leben erhalten, auf der Citrix ausgeführt wird. Es wurde ursprünglich mit Software-Raid eingerichtet. Das stimmt. Software-Raid, Windows NT4. Der letzte Fehler hat beide Laufwerke beschädigt ..
Für die Neugierigen läuft Windows NT4 nicht gerne als virtueller Rechner auf einem Linux-Host :-D
Kunde hatte 5 Mitarbeiter. Ihre alte IT-Person wurde unter Verwendung von Low-End-Gaming-PC-Geräten und zwei Servern maßgefertigt. 1 war auch ein Domänencontroller, auf dem Exchange ausgeführt wurde. der andere war ein Terminalserver. Jeder Mitarbeiter verwendete einen Thin Client, um eine Verbindung zum Server herzustellen und von diesem aus zu arbeiten. Beide liefen unter Windows 2000 und wurden vor 5 Jahren gebaut. Unnötig zu erwähnen, dass die Low-End-Raid-Karten auf beiden Servern innerhalb von ein paar Tagen starben. Ich habe die Server durch einen Standard-HP-Server ersetzt und sie mit regulären Minitowers ausgestattet. Ich habe die Server auch auf ihre eigenen USV-Einheiten gestellt, anstatt beide auf derselben Basis laufen zu lassen, ohne dass ein WAP- und Monitor-Backup durchgeführt wurde.
Darüber hinaus waren 6 Netzwerkdrucker im Büro und 2 verwendeten DHCP. Die anderen 4 hatten zugewiesene IPs, aber sie waren ohne Dokumentation über den delegierten IP-Bereich verteilt.
Es war traurig, aber nach einem Monat der Anpassung (die alten Hasen haben die Änderung in ihrer Arbeitsweise nicht gut aufgenommen), rufen sie jetzt sehr selten an.
Ich wurde gerufen, um ein schlecht funktionierendes MySQL-System zu reparieren, nur um ein inkorrektes Header-Element im zu entdecken, /etc/my.cnf
das dazu führte, dass all die netten Tuning-Parameter, die sie verwendet hatten, zugunsten der Standardeinstellungen ignoriert wurden ...
Wir hatten also ein System mit einer Datenbank von 7 GB auf einem Server mit 16 GB RAM, das die InnoDB-Datenbank-Engine verwendete ...
Die fehlerhafte Konfiguration wurde für InnoDB auf 12 GB RAM gesetzt ...
Das System verwendete nur 128 MB RAM für InnoBD ... also eine Menge Festplattenaktivität für jede Abfrage und Aktualisierung!
Eine schnelle Korrektur des Headers, ein Neustart des MySQL-Dienstes und hey-presto, alles wurde zwischengespeichert und lief hervorragend :)
Seltsam, dass niemand darüber nachgedacht hatte zu überprüfen, ob die von ihnen angewendeten Tuning-Parameter tatsächlich verwendet wurden !! : - /