Wie genau ist IQR zur Erkennung von Ausreißern?


11

Ich schreibe ein Skript, das die Laufzeiten von Prozessen analysiert. Ich bin mir ihrer Verteilung nicht sicher, aber ich möchte wissen, ob ein Prozess "zu lange" läuft. Bisher habe ich 3 Standardabweichungen der letzten Laufzeiten verwendet (n> 30), aber mir wurde gesagt, dass dies nichts Nützliches bietet, wenn die Daten nicht normal sind (was nicht der Fall zu sein scheint). Ich habe einen weiteren Ausreißertest gefunden, der besagt:

Finden Sie den Interquartilbereich, der IQR = Q3 - Q1 ist, wobei Q3 das dritte Quartil und Q1 das erste Quartil ist. Dann finden Sie diese beiden Zahlen:

a) Q1 - 1,5 * IQR b) Q3 + 1,5 * IQR

Der Punkt ist ein Ausreißer, wenn <a oder> b

Meine Daten sind in der Regel 2 Sekunden, 3 Sekunden, 2 Sekunden, 5 Sekunden, 300 Sekunden, 4 Sekunden, wobei 300 Sekunden offensichtlich ein Ausreißer sind.

Welche Methode ist besser? Die IQR-Methode oder die Standardabweichungsmethode?


4
Vielleicht möchten Sie die Antwort von @ user603 hier lesen: Gibt es eine Boxplot-Variante für Poisson-verteilte Daten, um Informationen zum Anpassen dieser Regel für verzerrte Daten zu erhalten ?
Gung - Reinstate Monica

3
Diese "IQR" -Methode sollte niemals blind angewendet werden. Es ist Teil eines Prozesses der explorativen Datenanalyse (wie von Nick Cox in seiner Antwort beschrieben), bei dem Sie zunächst einen Weg finden würden, die Daten erneut auszudrücken, um sie annähernd symmetrisch zu verteilen.
whuber

2
Basierend auf Ihren Kommentaren zu den Antworten lautet die richtige Antwort "weder", da es bei Ihrem zugrunde liegenden Anliegen nicht um Ausreißer geht, sondern um den Prozess.
whuber


Die Zahlen sind zeitaufwändig, sodass sie niemals symmetrisch sind, es sei denn, Sie skalieren sie irgendwie neu.
JP Bennett

Antworten:


14

Es gibt wirklich ganze Bücher über Ausreißer.

Die übliche spezifische Antwort lautet, dass die Standardabweichung von Ausreißern hochgezogen wird, sodass jede auf der SD basierende Regel möglicherweise eine schlechte Leistung erbringt.

Die von Ihnen zitierten Tukey-Regeln für Quartile +/- 1,5 IQR stammen aus der Handarbeit mit kleinen und mittelgroßen Datensätzen in den 1970er Jahren und wurden entwickelt, um Werte anzugeben, über die Sie möglicherweise individuell nachdenken möchten. Es ist nicht klar, ob sie auf viel größere Datensätze übertragen werden oder ob sie zutreffen, wenn Sie eine erhebliche Schiefe erwarten.

Eine allgemeinere Antwort ist, dass eine Ausreißerregel gut ist, wenn sie immer die richtigen Entscheidungen trifft, aber wie können Sie das beurteilen?

Dies ist umstrittenes Gebiet, aber ich würde erwarten, dass ein Ausreißer in einem Diagramm hervorsticht und sich stark von anderen unterscheidet. Aber es ist oft (normalerweise?) Eine schwierige Aufgabe, den Unterschied zwischen dem, was Sie von einer Distribution mit starkem Schwanz erwarten, und dem, was zu wild ist, um es als etwas anderes als einen Ausreißer zu betrachten, zu erkennen. Manchmal lässt die Transformation einen Ausreißer viel gewöhnlicher aussehen.

Wenn Sie robuste Methoden verwenden, müssen Sie sich möglicherweise weniger Gedanken darüber machen, welche Werte als Ausreißer bezeichnet werden, sondern eher über Ausreißer im Allgemeinen.


1

Sie sagen, Sie sind sich der Verteilung nicht sicher, aber laufende Prozesse lassen sich leicht erfassen und für die Verteilung bewerten. Sparen Sie einfach ein paar Mal und analysieren Sie diese. Angesichts der Zeiten, die Sie gepostet haben, könnten Sie in wenigen Stunden viele bekommen.

Ihre Suche nach einer Regel für einen Ausreißer muss nicht so allgemein sein. Es kann spezifisch für Ihre Aufgabe sein. Sie können viele Daten sammeln. Sammeln Sie es, untersuchen Sie es und entscheiden Sie dann, wann ein Prozess zu lang ist. Möglicherweise funktioniert ein IQR-basierter Ansatz, aber Sie können Ihren Datensatz oder eine parametrische Anpassung verwenden, um Simulationen durchzuführen und festzustellen, ob er gut funktioniert. Gleiches gilt für SD. Es kann sein, dass> 50s zu lang sind und das ist alles, was Sie brauchen.


Ich sammle Daten zu verschiedenen Prozessen. Sie können jeweils unterschiedliche Verteilungen haben. Ich brauche nur eine einfache Möglichkeit, "Laufzeit zu groß" zu sagen, um die Techniker zu warnen, die Dinge weiter zu untersuchen. Es kann allgemein sein, solange es Dinge kennzeichnet, die markiert werden sollen. Wenn ein paar Fehlalarme auftreten, soll es so sein. False Positives sollten jedoch auf ein Minimum beschränkt werden, da es bei zu vielen den Zweck des Skripts zunichte macht und ich einfach alle Ergebnisse ausgeben und die Techniker darüber informieren sollte. Der Zweck des Drehbuchs ist es, "die Dinge
einzugrenzen

Sie können beurteilen, ob die Prozesse gleich oder unterschiedlich sind. Wenn sie wirklich sehr unterschiedlich sind, kann eine allgemeine Regel dazu führen, dass ein bestimmter Prozess die Warnung häufiger als nötig auslöst. Diese Informationen sollten wirklich in Ihrer Frage sein.
John

3
Dieses Problem als Suche nach Ausreißern zu charakterisieren, ist ungerecht: Sie befassen sich tatsächlich mit einem Problem der Qualitätskontrolle . Die Hauptunterschiede sind: (1) Sie haben einen fortlaufenden Datenstrom anstelle eines statischen Datensatzes, den Sie analysieren müssen, und (2) Sie beabsichtigen, regelmäßige Maßnahmen festzulegen, die als Ergebnis jeder Analyse zu ergreifen sind: das heißt, ob Sie eingreifen (und dies versuchen) den Prozess verbessern) oder nicht (und den Prozess so laufen lassen, wie er ist). Das Verständnis, dass dies die Natur Ihres Problems ist, zeigt, dass die umfangreiche Literatur zur Qualitätskontrolle relevant ist und eine Vielzahl von Lösungen bietet.
whuber

+1 @whuber. Ausreißer sind hier nicht relevant. Weder die durchschnittliche Laufzeit noch ein Perzentil davon hängt mit dem zusammen, was "zu lang" ist. Der Weg, um herauszufinden, was "zu lang" ist, kann eine Befragung von Benutzern oder eine Überprüfung mit Ingenieuren oder nur eine Vermutung des Sitzes der Hose oder etwas anderes sein, aber es ist keine statistische Frage.
Peter Flom - Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.