Ich würde wahrscheinlich mit Ihrem Originalmodell mit Ihrem vollständigen Datensatz gehen. Ich denke im Allgemeinen, dass diese Dinge Sensitivitätsanalysen erleichtern. Das heißt, sie weisen Sie darauf hin, was zu überprüfen ist, um sicherzustellen, dass Sie nicht nur wegen etwas Dummem ein bestimmtes Ergebnis haben. In Ihrem Fall haben Sie einige potenziell einflussreiche Punkte, aber wenn Sie das Modell ohne diese Punkte erneut ausführen, erhalten Sie im Wesentlichen die gleiche Antwort (zumindest in Bezug auf die Aspekte, die Sie vermutlich interessieren). Mit anderen Worten, verwenden Sie einen beliebigen Schwellenwert - Sie passen das Modell nur als Prüfung an, nicht als "echte" Version. Wenn Sie der Meinung sind, dass andere Personen ausreichend über die potenziellen Ausreißer besorgt sind, können Sie beide Modellanpassungen melden. Was Sie sagen würden, ist in der Art von,
Hier sind meine Ergebnisse. Man könnte befürchten, dass dieses Bild nur aufgrund einiger ungewöhnlicher, aber sehr einflussreicher Beobachtungen entsteht. Dies sind die Ergebnisse desselben Modells, jedoch ohne diese Beobachtungen. Es gibt keine wesentlichen Unterschiede.
Es ist auch möglich, sie zu entfernen und das zweite Modell als primäres Ergebnis zu verwenden. Das Beibehalten des ursprünglichen Datensatzes bedeutet schließlich eine Annahme darüber, welche Daten genauso zum Modell gehören wie die Teilmenge. Aber die Leute sind wahrscheinlich sehr skeptisch gegenüber Ihren gemeldeten Ergebnissen, da es psychologisch zu einfach ist, sich selbst zu überzeugen, ohne wirklich korrupte Absicht, sich an die Reihe von Post-hoc-Optimierungen (wie das Löschen einiger Beobachtungen) zu halten, die sie geben das Ergebnis, das sie am meisten erwartet hatten. Indem Sie immer mit dem vollständigen Datensatz arbeiten, verhindern Sie diese Möglichkeit und versichern den Leuten (z. B. Gutachtern), dass dies in Ihrem Projekt nicht der Fall ist.
Ein weiteres Problem ist, dass die Leute am Ende der Blase nachjagen . Wenn Sie einige potenzielle Ausreißer löschen und Ihr Modell erneut ausführen, erhalten Sie Ergebnisse, die neue, unterschiedliche Beobachtungen als potenzielle Ausreißer anzeigen. Wie viele Iterationen sollen Sie durchlaufen? Die Standardantwort darauf ist, dass Sie bei Ihrem ursprünglichen, vollständigen Datensatz bleiben und stattdessen eine robuste Regression ausführen sollten . Dies kann wiederum als Sensitivitätsanalyse verstanden werden.