Cooks Distanzgrenzwert


9

Ich habe die Entfernung des Kochs gelesen, um Ausreißer zu identifizieren, die einen großen Einfluss auf meine Regression haben. In Cooks ursprünglicher Studie sagt er, dass eine Cut-off-Rate von 1 vergleichbar sein sollte, um Influencer zu identifizieren. In verschiedenen anderen Studien wird jedoch oder als Grenzwert verwendet.4n4n- -k- -1

In meiner Studie hat keiner meiner Residuen ein D höher als 1. Wenn ich jedoch als Cutoff verwende , gibt es verschiedene Daten Punkte, die als Influencer gelten. Ich habe mich entschlossen zu testen, ob das Entfernen dieser Datenpunkte meine allgemeine lineare Regression beeinflussen würde. Alle meine Infusionen behielten ihre Bedeutung und es war keine offensichtliche Veränderung erkennbar.4n(4149=.026)

Soll ich alle meine Datenpunkte behalten und die Grenzrate von 1 verwenden? Oder entfernen Sie sie?


Check Baltagi (2011) Econometrics, 5e. In Kapitel 8, Abschnitt 8.1. Er schlägt ein anderes Maß vor, das sich aus der Entfernung des Kochs ergibt, und es prüft auch auf Verzerrungen / Einflüsse von einflussreichen Beobachtungen in der Var-Covar-Matrix, die Sie möglicherweise auch benötigen, da sich Ihre Schätzer nicht viel ändern ...
SirAlex

10
Sie sollten auf der Grundlage dieser Diagnose keine Daten entfernen. Ihr Zweck ist es, Ihnen zu helfen , über sie und ihre Auswirkungen auf Ihre Analyse nachzudenken .
whuber

Antworten:


5

Ich würde wahrscheinlich mit Ihrem Originalmodell mit Ihrem vollständigen Datensatz gehen. Ich denke im Allgemeinen, dass diese Dinge Sensitivitätsanalysen erleichtern. Das heißt, sie weisen Sie darauf hin, was zu überprüfen ist, um sicherzustellen, dass Sie nicht nur wegen etwas Dummem ein bestimmtes Ergebnis haben. In Ihrem Fall haben Sie einige potenziell einflussreiche Punkte, aber wenn Sie das Modell ohne diese Punkte erneut ausführen, erhalten Sie im Wesentlichen die gleiche Antwort (zumindest in Bezug auf die Aspekte, die Sie vermutlich interessieren). Mit anderen Worten, verwenden Sie einen beliebigen Schwellenwert - Sie passen das Modell nur als Prüfung an, nicht als "echte" Version. Wenn Sie der Meinung sind, dass andere Personen ausreichend über die potenziellen Ausreißer besorgt sind, können Sie beide Modellanpassungen melden. Was Sie sagen würden, ist in der Art von,

Hier sind meine Ergebnisse. Man könnte befürchten, dass dieses Bild nur aufgrund einiger ungewöhnlicher, aber sehr einflussreicher Beobachtungen entsteht. Dies sind die Ergebnisse desselben Modells, jedoch ohne diese Beobachtungen. Es gibt keine wesentlichen Unterschiede.

Es ist auch möglich, sie zu entfernen und das zweite Modell als primäres Ergebnis zu verwenden. Das Beibehalten des ursprünglichen Datensatzes bedeutet schließlich eine Annahme darüber, welche Daten genauso zum Modell gehören wie die Teilmenge. Aber die Leute sind wahrscheinlich sehr skeptisch gegenüber Ihren gemeldeten Ergebnissen, da es psychologisch zu einfach ist, sich selbst zu überzeugen, ohne wirklich korrupte Absicht, sich an die Reihe von Post-hoc-Optimierungen (wie das Löschen einiger Beobachtungen) zu halten, die sie geben das Ergebnis, das sie am meisten erwartet hatten. Indem Sie immer mit dem vollständigen Datensatz arbeiten, verhindern Sie diese Möglichkeit und versichern den Leuten (z. B. Gutachtern), dass dies in Ihrem Projekt nicht der Fall ist.

Ein weiteres Problem ist, dass die Leute am Ende der Blase nachjagen . Wenn Sie einige potenzielle Ausreißer löschen und Ihr Modell erneut ausführen, erhalten Sie Ergebnisse, die neue, unterschiedliche Beobachtungen als potenzielle Ausreißer anzeigen. Wie viele Iterationen sollen Sie durchlaufen? Die Standardantwort darauf ist, dass Sie bei Ihrem ursprünglichen, vollständigen Datensatz bleiben und stattdessen eine robuste Regression ausführen sollten . Dies kann wiederum als Sensitivitätsanalyse verstanden werden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.