Ich habe viel über Ausreißer recherchiert, insbesondere als ich von 1978 bis 1980 bei Oak Ridge an der Validierung von Energiedaten gearbeitet habe. Es gibt formelle Tests für univariate Ausreißer für normale Daten (z. B. Grubbs-Test und Dixons Ratio-Test). Es gibt Tests für multivariate Ausreißer und Zeitreihen. Das Buch von Barnett und Lewis über "Ausreißer in statistischen Daten" ist die Bibel über Ausreißer und deckt so ziemlich alles ab.
Als ich bei Oak Ridge an der Datenvalidierung arbeitete, hatten wir große multivariate Datensätze. Für univariate Ausreißer gibt es eine Richtung für Extreme (hoch über dem Mittelwert und hoch unter dem Mittelwert). Für multivariate Ausreißer gibt es jedoch viele Möglichkeiten, nach Ausreißern zu suchen. Unsere Philosophie war es zu überlegen, wie die Daten verwendet werden sollen. Wenn Sie versuchen, bestimmte Parameter wie eine bivariate Korrelation oder einen Regressionskoeffizienten zu schätzen, möchten Sie in die Richtung schauen, die den größten Effekt auf den interessierenden Parameter hat. Zu dieser Zeit hatte ich Mallows 'unveröffentlichte Arbeit über Einflussfunktionen gelesen. Die Verwendung von Einflussfunktionen zur Erkennung von Ausreißern wird im multivariaten Analysebuch von Gnanadesikan behandelt. Natürlich finden Sie es auch in Barnett und Lewis.
Die Einflussfunktion für einen Parameter wird an Punkten im multivariaten Raum der Beobachtungen definiert und misst im Wesentlichen die Differenz zwischen der Parameterschätzung beim Einbeziehen des Datenpunkts und dem Auslassen des Datenpunkts. Sie können solche Schätzungen mit jedem Stichprobenpunkt durchführen, aber normalerweise können Sie eine schöne funktionale Form für die Einflussfunktion ableiten, die Einblick und schnellere Berechnung ermöglicht.
Zum Beispiel zeige ich in meinem Artikel im American Journal of Mathematical and Management Science von 1982 "Die Einflussfunktion und ihre Anwendung auf die Datenvalidierung" die analytische Formel für die Einflussfunktion für die bivariate Korrelation und dass die Konturen des konstanten Einflusses Hyperbel sind. Die Konturen geben also die Richtung in der Ebene an, in der die Einflussfunktion am schnellsten zunimmt.
In meinem Aufsatz zeige ich, wie wir die Einflussfunktion für die bivariate Korrelation mit den FPC-Form-4-Daten zur Erzeugung und zum Verbrauch von Energie angewendet haben. Es gibt eine eindeutig hohe positive Korrelation zwischen den beiden und wir fanden einige Ausreißer, die einen großen Einfluss auf die Schätzung der Korrelation hatten. Weitere Untersuchungen ergaben, dass mindestens einer der Punkte fehlerhaft war und wir ihn korrigieren konnten.
Ein wichtiger Punkt, den ich immer erwähne, wenn ich über Ausreißer diskutiere, ist, dass die automatische Zurückweisung falsch ist. Der Ausreißer ist nicht immer ein Fehler und liefert manchmal wichtige Informationen zu den Daten. Gültige Daten sollten nicht entfernt werden, nur weil sie nicht unserer Realitätstheorie entsprechen. Ob es schwierig ist oder nicht, der Grund, warum der Ausreißer aufgetreten ist, sollte immer untersucht werden.
Ich sollte erwähnen, dass dies nicht das erste Mal ist, dass multivariate Ausreißer auf dieser Website diskutiert wurden. Eine Suche nach Ausreißern würde wahrscheinlich zu mehreren Fragen führen, bei denen multivariate Ausreißer diskutiert wurden. Ich weiß, dass ich zuvor auf meine Arbeit und diese Bücher verwiesen und Links zu ihnen gegeben habe.
Auch wenn es um die Ablehnung von Ausreißern geht, haben viele von uns auf dieser Website dagegen geraten, insbesondere wenn dies ausschließlich auf der Grundlage eines statistischen Tests erfolgt. Peter Huber erwähnt oft robuste Schätzungen als Alternative zur Ausreißer-Ablehnung. Die Idee ist, dass robuste Prozeduren die Ausreißer abschwächen und ihre Auswirkungen auf die Schätzung verringern, ohne dass sie hartnäckig zurückgewiesen und ein nicht robuster Schätzer verwendet werden muss.
Die Einflussfunktion wurde ursprünglich von Frank Hampel in seiner Dissertation in den frühen 1970er Jahren (1974, glaube ich) entwickelt. Seine Idee war es, mithilfe von Einflussfunktionen Schätzer zu identifizieren, die nicht robust gegenüber Ausreißern sind, und dabei zu helfen, robuste Schätzer zu entwickeln.
Hier ist ein Link zu einer früheren Diskussion zu diesem Thema, in der ich einige meiner Arbeiten zur Erkennung von Ausreißern in Zeitreihen mithilfe von Einflussfunktionen erwähnte.