Meine Antwort geht davon aus, dass das OP noch nicht weiß, welche Beobachtungen Ausreißer sind, denn wenn das OP dies tun würde, wären Datenanpassungen offensichtlich. Ein Teil meiner Antwort befasst sich daher mit der Identifizierung der Ausreißer.
Wenn Sie ein OLS-Modell erstellen (y gegen x) erhalten Sie einen Regressionskoeffizienten und anschließend den Korrelationskoeffizienten. Ich denke, es kann von Natur aus gefährlich sein, die "Gegebenheiten" nicht herauszufordern. Auf diese Weise verstehen Sie, dass der Regressionskoeffizient und seine Geschwister auf keinen Ausreißern / ungewöhnlichen Werten beruhen. Wenn Sie nun einen Ausreißer identifizieren und Ihrem Regressionsmodell einen geeigneten 0/1-Prädiktor hinzufügen, wird der resultierende Regressionskoeffizient für diexist jetzt gegenüber dem Ausreißer / der Anomalie robust. Dieser Regressionskoeffizient für diexist dann "wahrer" als der ursprüngliche Regressionskoeffizient, da er vom identifizierten Ausreißer nicht kontaminiert wird. Beachten Sie, dass keine Beobachtungen dauerhaft "weggeworfen" werden. es ist nur eine Anpassung für dieyWert ist implizit für den Punkt der Anomalie. Dieser neue Koeffizient für diex kann dann in eine robuste umgewandelt werden r.
Eine alternative Sichtweise hierfür ist nur die Anpassung y Wert und ersetzen Sie das Original y Wert mit diesem "geglätteten Wert" und führen Sie dann eine einfache Korrelation aus.
Dieser Vorgang müsste wiederholt durchgeführt werden, bis kein Ausreißer mehr gefunden wird.
Ich hoffe, diese Klarstellung hilft den Nachwählern, das vorgeschlagene Verfahren zu verstehen. Vielen Dank an whuber, der mich zur Klärung gedrängt hat. Wenn noch jemand Hilfe dabei braucht, kann man immer a simuliereny, x Datensatz und injizieren Sie einen Ausreißer an einem bestimmten x und befolgen Sie die vorgeschlagenen Schritte, um eine bessere Schätzung von zu erhalten r.
Ich freue mich über Kommentare dazu, als ob sie "falsch" wären. Ich würde gerne wissen, warum dies hoffentlich durch ein numerisches Gegenbeispiel unterstützt wird.
BEARBEITET, UM EIN EINFACHES BEISPIEL ZU PRÄSENTIEREN:
Ein kleines Beispiel wird ausreichen, um die vorgeschlagene / transparente Methode zum „Erhalten einer Version von r, die für Ausreißer weniger empfindlich ist“ zu veranschaulichen, die die direkte Frage des OP ist. Dies ist ein leicht zu befolgendes Skript, das Standard-Ols und einige einfache Arithmetik verwendet. Denken Sie daran, dass B der ols-Regressionskoeffizient gleich r * [sigmay / sigmax] ist.
Betrachten Sie die folgenden 10 Beobachtungspaare.
Und grafisch
Der einfache Korrelationskoeffizient beträgt 0,75 mit sigmay = 18,41 und sigmax = 0,38
Nun berechnen wir eine Regression zwischen y und x und erhalten Folgendes
Wobei 36,538 = 0,75 * [18,41 / 0,38] = r * [Sigmay / Sigmax]
Die Ist- / Anpassungstabelle schlägt eine erste Schätzung eines Ausreißers bei Beobachtung 5 mit einem Wert von 32,799 vor.
Wenn wir den 5. Punkt ausschließen, erhalten wir das folgende Regressionsergebnis
Dies ergibt eine Vorhersage von 173,31 unter Verwendung des x-Werts 13,61. Diese Vorhersage legt dann eine verfeinerte Schätzung des Ausreißers wie folgt nahe; 209-173,31 = 35,69.
Wenn wir jetzt die ursprünglichen 10 Werte wiederherstellen, aber den Wert von y in Periode 5 (209) durch den geschätzten / bereinigten Wert 173,31 ersetzen, erhalten wir
und
Neu berechnet r erhalten wir den Wert .98 aus der Regressionsgleichung
r = B * [Sigmax / Sigmay] .98 = [37.4792] * [.38 / 14.71]
Somit haben wir jetzt eine Version oder r (r = 0,98), die bei Beobachtung 5 weniger empfindlich für einen identifizierten Ausreißer ist. Hinweis: Das oben verwendete Sigmay (14.71) basiert auf dem angepassten y in Periode 5 und nicht auf dem ursprünglich kontaminierten Sigmay (18.41). Der Effekt des Ausreißers ist aufgrund seiner geschätzten Größe und der Stichprobengröße groß. Was wir hatten, waren 9 Messpaare (1-4; 6-10), die stark korreliert waren, aber der Standard r wurde vom Ausreißer bei Obervation 5 verschleiert / verzerrt.
Es gibt einen weniger transparenten, aber nicht leistungsfähigen Ansatz zur Lösung dieses Problems, nämlich die Verwendung des TSAY-Verfahrens http://docplayer.net/12080848-Outliers-level-shifts-and-variance-changes-in-time-series.html to Suchen und beheben Sie alle Ausreißer in einem Durchgang. Beispielsweise wird vorgeschlagen, dass der Ausreißerwert 36,4481 beträgt, sodass der angepasste Wert (einseitig) 172,5419 beträgt. Eine ähnliche Ausgabe würde eine tatsächliche / bereinigte Grafik oder Tabelle erzeugen.. Tsays Verfahren überprüft tatsächlich iterativ jeden einzelnen Punkt auf "statistische Wichtigkeit" und wählt dann den besten Punkt aus, der angepasst werden muss. Zeitreihenlösungen sind sofort anwendbar, wenn in den Daten keine Zeitstruktur erkennbar ist oder möglicherweise angenommen wird. Was ich tat, war, die Einbeziehung eines Zeitreihenfilters zu unterdrücken, da ich Domänenwissen hatte / "wusste", dass es im Querschnitt ienon-longitudinal erfasst wurde.