Es ist fast immer ein Betrug, Beobachtungen zu entfernen , um ein Regressionsmodell zu verbessern . Sie sollten Beobachtungen nur fallen lassen, wenn Sie wirklich glauben, dass dies tatsächlich Ausreißer sind.
Sie haben beispielsweise Zeitreihen vom Herzfrequenzmesser an Ihre Smartwatch angeschlossen. Wenn Sie sich die Serie ansehen, ist es leicht zu erkennen, dass es bei Messwerten wie 300 bps zu fehlerhaften Beobachtungen kommen würde. Diese sollten entfernt werden, aber nicht, weil Sie das Modell verbessern möchten (was immer es bedeutet). Es handelt sich um Lesefehler, die nichts mit Ihrer Herzfrequenz zu tun haben.
Eine Sache, die Sie jedoch beachten sollten, ist die Korrelation von Fehlern mit den Daten. In meinem Beispiel könnte argumentiert werden, dass Sie Fehler haben, wenn der Herzfrequenzmesser während Übungen wie Laufen oder Springen verschoben wird. Wodurch diese Fehler mit der Herzfrequenz korreliert werden. In diesem Fall müssen diese Ausreißer und Fehler sorgfältig entfernt werden, da dies nicht der Fall ist zufällig sind
Ich werde Ihnen ein Beispiel geben, wann Sie Ausreißer nicht entfernen sollten . Angenommen, Sie messen die Bewegung eines Gewichts an einer Feder. Wenn das Gewicht im Verhältnis zur Stärke des Gewichts klein ist , werden Sie feststellen, dass das Hookesche Gesetz sehr gut funktioniert: wobei F Kraft, k Spannungskoeffizient und Δ x die Position des Gewichts ist .
F=−kΔx,
FkΔx
Wenn Sie nun ein sehr schweres Gewicht aufsetzen oder das Gewicht zu stark verschieben, werden Abweichungen sichtbar: Bei ausreichend großen Abweichungen scheint die Bewegung vom linearen Modell abzuweichen. Sie könnten also versucht sein, die Ausreißer zu entfernen , um das lineare Modell zu verbessern. Dies wäre keine gute Idee, da das Modell nicht sehr gut funktioniert, da Hookes Gesetz nur annähernd richtig ist.Δx
UPDATE In Ihrem Fall würde ich vorschlagen, diese Datenpunkte zu ziehen und näher zu betrachten. Könnte es sich um ein Versagen des Laborgeräts handeln? Externe Störungen? Probendefekt? etc.
Versuchen Sie als nächstes herauszufinden, ob das Vorhandensein dieser Ausreißer mit dem korreliert werden kann, was Sie in dem von mir angegebenen Beispiel messen. Wenn es eine Korrelation gibt, gibt es keinen einfachen Weg, dies zu erreichen. Wenn keine Korrelation besteht, können Sie die Ausreißer entfernen