Wir betreiben seit ungefähr zwei Jahren einige Websites außerhalb der Amazons AWS-Infrastruktur. Seit ungefähr zwei Tagen ist der Webserver ein- oder zweimal am Tag ausgefallen, mit dem einzigen Fehler, den ich feststellen kann:
HTTP/1.1 503 Service Unavailable: Back-end server is at capacity
Es werden keine Alarme (CPU / Disk IO / DB Conn) von CloudWatch ausgelöst. Ich habe versucht, die Website über die elastische IP zu besuchen, um die ELB zu überspringen.
HTTP request sent, awaiting response... Read error (Connection reset by peer) in headers. Retrying.
Ich sehe nichts Ungewöhnliches in den Apache-Protokollen und habe überprüft, dass sie ordnungsgemäß gedreht wurden. Ich habe keine Probleme, auf den Computer zuzugreifen, wenn er über SSH "down" ist und wenn ich die Prozessliste betrachte, sehe ich 151 Apache2-Prozesse, die mir normal erscheinen. Durch einen Neustart von Apache wird das Problem vorübergehend behoben. Diese Maschine arbeitet nur als Webserver hinter einer ELB. Anregungen wäre sehr dankbar.
CPU-Auslastung Durchschnitt: 7,45%, Minimum: 0,00%, Maximum: 25,82%
Speicherauslastung Durchschnitt: 11,04%, Minimum: 8,76%, Maximum: 13,84%
Swap-Nutzungsdurchschnitt: N / A, Minimum: N / A, Maximum: N / A
Speicherplatznutzung für / dev / xvda1 bereitgestellt auf / Durchschnitt: 62,18%, Minimum: 53,39%, Maximum: 65,49%
Lassen Sie mich klarstellen, dass ich denke, dass das Problem bei der einzelnen EC2-Instanz und nicht bei der ELB liegt. Ich wollte das nur nicht ausschließen, obwohl ich die elastische IP nicht erreichen konnte. Ich vermute, ELB gibt nur die Ergebnisse der tatsächlichen EC2-Instanz zurück.
Update: 2014-08-26
I should have updated this sooner but the "fix" was to take a snapshot of the "bad" instance and start the resulting AMI. It hasn't gone down since then. I did look at the health check when I was still experiencing issues and could get to the health check page (curl http://localhost/page.html
) even when I was getting capacity issues from the load balancer. I'm not convinced it was a health check issue but since no one, including Amazon, can provide a better answer I'm marking it as the answer. Thank you.
Update: 2015-05-06 Ich dachte, ich kehre hierher zurück und sage, dass ein Teil des Problems, von dem ich jetzt fest überzeugt bin, die Einstellungen für die Gesundheitsprüfung waren. Ich möchte nicht ausschließen, dass sie ein Problem mit dem AMI darstellen, da es nach dem Start des Ersatz-AMI definitiv besser wurde, aber ich stellte fest, dass unsere Integritätsprüfungen für jeden Load Balancer unterschiedlich waren und derjenige, der die meisten Probleme hatte hatte eine sehr aggressive, ungesunde Schwelle und eine Reaktionszeitüberschreitung. Unser Verkehr nimmt unvorhersehbar zu, und ich denke, zwischen den Einstellungen für aggressive Gesundheitsprüfungen und den Verkehrsspitzen war es ein perfekter Sturm.