Die Rolle der "Datenbereinigung" besteht darin, herauszufinden, wann "unsere Gesetze (Modelle) nicht funktionieren". Das Anpassen von Ausreißern oder abnormalen Datenpunkten ermöglicht es uns, "robuste Schätzungen" der Parameter im aktuellen Modell zu erhalten, die wir unterhalten. Diese "Ausreißer" erlauben, wenn sie nicht behandelt werden, eine unerwünschte Verzerrung der Modellparameter, da die Schätzung "dazu dient, diese Datenpunkte zu erklären", die sich "nicht gemäß unserem hypothetischen Modell verhalten". Mit anderen Worten, es gibt eine Menge Amortisation in Bezug auf die erklärte Summe der Quadrate, wenn man sich auf die "Bösen" konzentriert. Die empirisch identifizierten Punkte, die gereinigt werden müssen, sollten sorgfältig geprüft werden, um möglicherweise Ursachenfaktoren zu entwickeln / vorzuschlagen, die nicht im aktuellen Modell enthalten sind.
Wie lässt sich die Auswirkung einer Intervention in einem Staat im Vergleich zu einem anderen anhand der jährlichen Sterblichkeitsrate bewerten?
Wissenschaft zu betreiben bedeutet, nach wiederholten Mustern zu suchen.
Anomalien zu erkennen bedeutet, Werte zu identifizieren, die nicht wiederholten Mustern folgen. Woher sonst würden Sie wissen, dass ein Punkt gegen dieses Modell verstößt? Tatsächlich muss der Prozess des Wachstums, Verstehens, Findens und Überprüfens von Ausreißern iterativ sein. Dies ist kein neuer Gedanke.
Sir Frances Bacon schrieb vor etwa 400 Jahren in Novum Organum: „Fehler in Natur, Sport und Monstern korrigieren das Verständnis in Bezug auf gewöhnliche Dinge und enthüllen allgemeine Formen. Denn wer die Wege der Natur kennt, wird ihre Abweichungen leichter bemerken; und wer auch immer Abweichungen kennt, wird ihre Wege genauer beschreiben. “
Wir ändern unsere Regeln, indem wir beobachten, wann die aktuellen Regeln versagen.
Wenn die identifizierten Ausreißer tatsächlich alle Impulse sind und ähnliche Auswirkungen (Größe) haben, schlagen wir Folgendes vor (aus einem anderen Poster zitiert):
"Eine" schnelle und schmutzige "Möglichkeit, dies in einer Regressionseinstellung zu tun, besteht darin, einen Indikator für die Epidemiejahre / -perioden als Regressorvariable aufzunehmen. Dies gibt Ihnen eine durchschnittliche Schätzung der Auswirkung von Epidemien (und geht implizit davon aus, dass dies der Fall ist) Dies gilt jedoch nur für die Beschreibung des Effekts, da Ihre Regressionsvariable bei der Vorhersage unbekannt ist (Sie wissen nicht, welche Perioden in Zukunft epidemisch sein werden). "
Dies setzt natürlich voraus, dass die einzelnen Anomalien (Pulsjahre) ähnliche Auswirkungen haben. Wenn sie sich unterscheiden, wäre eine oben beschriebene Portmanteau-Variable falsch.