Die beste Option zur Verwendung der Regression zum Auffinden von Ausreißern ist die Verwendung einer robusten Regression.
Die normale Regression kann von Ausreißern auf zwei Arten beeinflusst werden:
x¯
Zweitens ist eine "äußere" Beobachtung im x-Raum eine einflussreiche Beobachtung - sie kann die Anpassung der Linie in diese Richtung ziehen. Wenn es weit genug entfernt ist, geht die Linie durch den einflussreichen Punkt:
In der linken Darstellung gibt es einen Punkt, der ziemlich einflussreich ist und der die Linie ziemlich weit von der großen Masse der Daten entfernt. In der richtigen Darstellung wurde es noch weiter entfernt - und jetzt geht die Linie durch den Punkt. Wenn der x-Wert so extrem ist, bewegt sich die Linie beim Auf- und Abbewegen des Punktes mit, wobei der Mittelwert der anderen Punkte und der eine einflussreiche Punkt durchlaufen werden.
Ein einflussreicher Punkt, der perfekt mit dem Rest der Daten übereinstimmt, ist möglicherweise kein so großes Problem, aber einer, der weit von einer Linie durch den Rest der Daten entfernt ist, passt die Linie eher an sie als an die Daten an.
Wenn Sie sich das Diagramm auf der rechten Seite ansehen, zeigt die rote Linie - die Regressionslinie der kleinsten Quadrate - den Extrempunkt überhaupt nicht als Ausreißer - ihr Residuum ist 0. Stattdessen befinden sich die großen Residuen der Linie der kleinsten Quadrate in der Hauptteil der Daten!
Dies bedeutet, dass Sie einen Ausreißer komplett übersehen können .
Schlimmer noch, bei multipler Regression kann ein Ausreißer im x-Raum für eine einzelne x-Variable nicht besonders ungewöhnlich aussehen. Wenn die Möglichkeit eines solchen Punktes besteht, ist es möglicherweise sehr riskant, die Regression der kleinsten Quadrate zu verwenden.
Robuste Regression
Wenn Sie eine robuste Linie - insbesondere eine robuste Linie für einflussreiche Ausreißer - wie die grüne Linie im zweiten Diagramm anpassen - hat der Ausreißer einen sehr großen Rest.
In diesem Fall haben Sie die Hoffnung, Ausreißer zu identifizieren - dies sind Punkte, die in gewissem Sinne nicht nahe an der Linie liegen.
Ausreißer entfernen
Sie können sicherlich eine robuste Regression verwenden, um Ausreißer zu identifizieren und dadurch zu entfernen.
Sobald Sie jedoch eine robuste Regressionsanpassung haben, die bereits nicht stark von Ausreißern betroffen ist, müssen Sie die Ausreißer nicht unbedingt entfernen - Sie haben bereits ein Modell, das gut passt.