Entschlüsseln fortlaufender Syslog-Nachrichten von mpt2sas

15

Zusammenfassung

Ich habe diese kryptischen Nachrichten in Syslog erhalten, seit ich neue Hardware installiert habe, und ich kann nicht herausfinden, was das Problem ist, ob es ernst ist oder was ich dagegen tun soll.

Sie stammen vom neuen SATA-HBA und folgen einem Muster. Ich werde einige der ersten Nachricht erhalten, gefolgt von einigen der zweiten Nachricht 5-30 Sekunden später. Sie kommen in Blobs, die alle in derselben Sekunde protokolliert werden, und die genaue Menge variiert zwischen etwa 2 und 35. Es kann Minuten oder Stunden zwischen dem Auftreten der Einträge sein.

Beispiel für die beiden Nachrichten:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

Es ist immer immer 0x31120303 gefolgt von 0x31110d01.

mpt2sas ist der Treiber für den SATA-Hostbusadapter, den ich verwende, aber der Fehlerinhalt ist zu kryptisch. Es sagt mir nicht, worin das Problem besteht, mit welcher Festplatte oder welchem Port es sich befasst oder wie schwerwiegend es ist.

Hardware

Supermicro X9SCL mit einem Xeon E3-1220 und 8 GB RAM.

LSI SAS2008-basierter Supermicro AOC-USAS2-L8I- SAS / SATA-HBA, verbunden mit einem Supermicro CSE-M35T-1B- Plattenfachsatz. Es sind drei Western Digital WD30EZRX und zwei Segate ST3000DM001 angeschlossen . Alle 3-TB-Laufwerke (tatsächlich genau die gleiche Anzahl von Sektoren). Es werden keine Port-Expander verwendet.

Der HBA, die Festplattenfächer und 4 der Laufwerke sind neu. Einer der WD30EZRXes ist seit Monaten im Einsatz, hatte keine Probleme damit. Wurde es zuvor mit dem integrierten Intel SATA-Controller verbunden, wurde es mit diesem neuen Setup in die Laufwerksschächte verschoben.

Hatte Probleme mit dem HBA, der häufig zurückgesetzt werden musste und eine wirklich schreckliche Leistung zeigte. Aktualisierte die Firmware / das BIOS auf "Phase 12", die neueste von Supermicro erhältliche Version, und änderte den Typ in IT (dh Passthrough von IR für integrierten RAID, da ich den gesamten Software-RAID verwenden wollte): 2008IT12.FW. Dieses Update hat alle frühen Probleme behoben und ich habe die obigen Meldungen erst später erhalten (siehe unten).

Die ersten vier Festplatten, die ich hinzugefügt habe, befinden sich alle am ersten SFF-8087-Port (aufgeteilt auf 4 SATA-Kabel). Die neueste Festplatte, die ich hinzugefügt habe, befindet sich am anderen Port, falls dies von Bedeutung ist.

Die einzige andere Festplatte im System enthält das Betriebssystem und ist eine ältere Intel 80 GB SSD, die an den integrierten SATA-Controller angeschlossen ist.

Software

Ubuntu 11.10 (oneiric). Linux 3.0.0-14-Server x86_64. Verwenden des mit dem Betriebssystem gelieferten mpt2sas-Treibers.

Der Versuch, mit Linux md ein RAID6-Array mit diesen fünf Festplatten zu erstellen. Begonnen mit einem entarteten Array von 3 Festplatten, den beiden Segates und einem der neuen WD-Laufwerke. Das ging schnell und ging sehr gut, keine Meldungen in den Logs nachdem ich das Firmware Update gemacht habe. In der Zwischenzeit verwende ich immer noch die alte WD-Festplatte an Port 0 desselben Controllers.

Fügte dem Array die andere neue WD-Festplatte hinzu. Der Neuaufbau hat begonnen und ich erhalte diese Meldungen nun regelmäßig im Syslog. Ich bin nicht sicher, wie lange es dauern soll, eine Festplatte zum Array hinzuzufügen, aber die geschätzte Zeit (cat / proc / mdstat) reicht von Tausenden bis Zehntausenden von Minuten, viel länger als die ersten drei Festplatten. Ich verstehe, dass die WD-Festplatten viel langsamer sind; Ich bekam verschiedene Modelle, um die Wahrscheinlichkeit eines Ausfalls mehrerer Festplatten zu verringern, und dies waren die beiden billigsten 3-TB-Modelle.

Anmerkungen

SMART meldet keine Probleme auf Festplatten. Es gibt keine protokollierten Fehler auf Datenträgern und keine der Fehlerstatistiken liegt in der Nähe des Schwellenwerts.

Die protokollierten Meldungen wurden erst angezeigt, nachdem ich den letzten Datenträger hinzugefügt habe. Dies deutet darauf hin, dass möglicherweise ein Problem vorliegt, aber nichts anderes darauf hinweist.

Ich habe eine Header-Datei gefunden , die den Protokollmeldungen dieses Treibers zu entsprechen scheint. Die erste Meldung scheint ein Abbruch (Code 12) für einen "Subcode" 0303 zu sein, der nicht aufgelistet ist. Die zweite Meldung ist ein Zurücksetzen (Code 11) aus einem Grund, der ebenfalls nicht klar ist. Wenn ich feststellen könnte, was 0303 und 0d01 bedeuten, wäre das wirklich hilfreich.

Ich weiß, dass 4 Festplatten in einem RAID6 mit 5 Festplatten ein unvollständiges Array sind. Ich plane, den Inhalt der alten Festplatte in das Array zu kopieren, sobald die Integration der vierten Festplatte abgeschlossen ist, und dann die alte Festplatte ebenfalls zum Array hinzuzufügen.

— Chris Smith
quelle

5

Wahrscheinlich liegt die beste Lösung in einem Hardwareproblem zwischen Ihren Festplatten und bis zu Ihrem sas raid controller. Ich empfehle zu versuchen:

Führen Sie alle Diagnosetools des Herstellers aus, sofern diese verfügbar sind
Überprüfen Sie die Kabel, setzen Sie sie wieder ein und ersetzen Sie sie
Entfernen Sie Hardwarekomponenten und tauschen Sie die Hardware in der Kette aus, die die Festplatten mit Ihrem RAID-Controller verbindet, einschließlich des Controllers selbst (dh versuchen Sie für Sie etwas anderes als das integrierte RAID des Motherboards).

Ich hatte einen von zwei identischen Dell PowerEdge R515, der sehr ähnliche Meldungen gab (Protokolle, die sich regelmäßig mit mpt2sas0-Meldungen füllen, obwohl ich nicht die genauen numerischen Codes habe). Die bootfähige Diagnose von Dell hat diese als "Hardwarefehler" erkannt und das Problem durch Ersetzen der RAID-SAS-Rückwandplatine behoben.

Als ich nachforschte, konnte ich keine umfassende Ressource finden, was verschiedene mpt2sas0-Fehlercodes bedeuten. Ich vermute, dass sie sogar hardwarespezifisch sind (jemand, der mehr über SAS weiß, muss dies bestätigen oder ablehnen). Ihre Fehlercodes könnten also etwas völlig anderes bedeuten, aber wenn SMART sauber ist, ist es schwer, sich andere gute Gründe vorzustellen, warum mpt2sas0 Fehlercodes meldet.

Diese Fehler können sehr schwerwiegend sein. Mein R515 arbeitete eine Woche lang scheinbar in Ordnung mit diesen Meldungen mit einem Ubuntu Linux-Software-RAID 6 mit 12 Festplatten, warf dann aber plötzlich alle 12 Festplatten als defekt (!) Aus dem Array aus.

Auch in meinem Fall war der SMART für alle Festplatten komplett sauber. Eine gute Prüfung ist ein intelligenter Selbstdiagnosetest: smartctl -t long /dev/sdXund überprüfen Sie die Ergebnisse etwa einen Tag später mit smartctl -l selftest /dev/sdX. Wenn alles in Ordnung ist, sollte der Test sagen Completedund die LBA_first_errSpalte sollte leer sein.

— Rickard Armiento
quelle

Hinweis: Der RAID-Controller (wirklich HBA) ist bereits eine separate Karte. Der integrierte SATA-Controller funktioniert einwandfrei. Ich habe ein Ersatzkabel für SFF-8087 bestellt, sollte morgen hier sein. Das ist zu diesem Zeitpunkt mein Hauptverdächtiger.

— Chris Smith

Das schlechte Kabel war das Problem! Ich habe beide (zwei SFF-Ports) durch höherwertige Kabel ersetzt und seitdem keine Probleme mehr! Ich akzeptiere Ihre Antwort, da sie die längste ist und auf ein fehlerhaftes Kabel hindeutet. PS: Ich habe definitiv die langen SMART-Tests gemacht. Keine Probleme auf einer der Festplatten.

— Chris Smith

Schön zu hören, dass Sie das Problem gefunden haben. Danke für's Annehmen.

— Rickard Armiento

Für mich ist es echt komisch, dass ich dieses Problem vorher auch nur im Falle der Dell PowerEdge Plattform habe. Gleiches Ergebnis war das Problem mit Kabeln ...

— Mazeryt

3

Wow, eine schwierige Frage.

Dies scheint darauf hinzudeuten, dass 0x31120303 ein Bus-Reset ist, da eines Ihrer Geräte stark ausgelastet ist. Es heißt auch, dass Sie sich keine Sorgen machen müssen. (Haha, ja richtig.)

Dies weist darauf hin, dass diese Protokollmeldungen auftreten, weil eines Ihrer Geräte zu lange braucht, um auf Befehle zu reagieren. Dies sagt dasselbe und zeigt auch an, dass es unter starker Last auftritt.

Dies ist zwar keine vollständige Antwort, zeigt Ihnen aber hoffentlich eine nützliche Richtung.

— Michael Hampton
quelle

Ich habe einige dieser Postings gesehen, konnte aber nie feststellen, dass die genaue Nachricht ankam. Es stellte sich heraus, dass es sich um ein schlechtes SFF-8087-> SATA-Kabel handelt. Danke für die Hilfe!

— Chris Smith

0

Dies bedeutet, dass Sie einen Fehler auf der Festplatte haben. Es handelt sich um eine SATA-Festplatte in einem SAS-Controller von LSI. Aufgrund des Fehlers wurden alle ausstehenden Anforderungen abgebrochen.

In den meisten Fällen liegt ein mittlerer Fehler auf der Festplatte vor, der den Fehler auslöst. Dieser Fehler ist an sich kein mittlerer Fehler, und Sie müssen in den Protokollen nach weiteren Hinweisen suchen, um die Ursache des ursprünglichen Festplattenfehlers zu ermitteln.

Etwas ausführlichere Version unter: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

— Baruch Even
quelle

Interessanter Beitrag, danke fürs Teilen! SATA ist ein beschissenes Protokoll, aber die Festplatten sind billig und tun, was ich brauche. Die Meldung wurde nicht mehr angezeigt, seit ich das fehlerhafte Kabel ausgetauscht habe.

— Chris Smith

1

Weitere Informationen zum Entschlüsseln von LSI Loginfo finden Sie mit einem Dienstprogramm, das ich zum Entschlüsseln erstellt habe: blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes

— Baruch Even