Kann die Datenbereinigung die Ergebnisse statistischer Analysen verschlechtern?


17

Bei Epidemien (plötzlicher Anstieg der Zahl) kommt es zu einer Zunahme der Fälle und Todesfälle aufgrund einer Viruszirkulation (wie das West - Nil - Virus in den USA im Jahr 2002) oder einer Abnahme der Resistenz von Menschen oder einer Kontamination von Nahrungsmitteln oder Wasser oder einer Zunahme der Zahl von Todesfällen Mücken. Diese Epidemien treten als Ausreißer auf, die alle 1 bis 5 Jahre auftreten können. Indem wir diese Ausreißer beseitigen, beseitigen wir Hinweise auf Epidemien, die einen wichtigen Teil der Vorhersage und des Krankheitsverständnisses ausmachen.

Ist eine Datenbereinigung beim Umgang mit Ausreißern aufgrund von Epidemien erforderlich?

Wird es die Ergebnisse verbessern oder die Ergebnisse der statistischen Analyse verschlechtern?

Antworten:


12

Es kommt tatsächlich auf den Zweck Ihrer Forschung an. Meiner Meinung nach könnte es mehrere geben:

  1. Sie möchten verstehen, welche typischen Faktoren Fälle und Todesfälle verursachen und welche nicht von Epidemieperioden und epidemieverursachenden Faktoren betroffen sind (Sie sind also an typischen nicht erzwungenen Hauptwahrscheinlichkeiten interessiert). In diesem Fall müssen Sie die Epidemie offensichtlich beseitigen Zeiträume von den Daten, wie sie sind, um die Ausreißer zu erforschen, zu was Sie schließen möchten
  2. ÖLS
  3. Ihr primäres Ziel ist es, Epidemien zu erkennen und in Echtzeit zu überwachen - es ist ein Spezialgebiet der Ökonometrie, mit dem einige meiner Kollegen an der Universität Vilnius zusammenarbeiten (auf jeden Fall möchten Sie viele epidemische Beobachtungen haben, mit denen Sie sich befassen können )

Wenn Ihr primäres Ziel also 2 ist, führt das Löschen der Daten zu falschen Schlussfolgerungen über die zukünftigen Prognosen, dh zu einer ungenauen Prognoseleistung. Es ist auch richtig, dass der zweite Fall nicht unbedingt bessere Prognosen liefert, aber Sie könnten zumindest Rückschlüsse auf die Wahrscheinlichkeiten von Epidemien und deren Dauer ziehen. Dies ist von entscheidender Bedeutung für versicherungsmathematische Mathematiker. Vielleicht sind Sie es also?


Tolle und einfache Antwort. Sie haben in jungen Jahren ein beachtliches Wissen.
DrWho

15

Ich persönlich würde das nicht "Datenbereinigung" nennen. Ich denke an Datenbereinigung eher im Sinne der Datenbearbeitung - Bereinigung von Inkonsistenzen im Datensatz (z. B. ein Datensatz hat ein Alter von 1000 Jahren gemeldet oder eine Person im Alter von 4 Jahren ist alleinerziehend usw.).

Das Vorhandensein eines echten Effekts in Ihren Daten macht sie nicht "chaotisch" (im Gegenteil, das Vorhandensein von echten Effekten würde sie reich machen) - obwohl dies Ihre mathematische Aufgabe komplizierter machen kann. Ich würde vorschlagen, dass die Daten auf diese Weise "bereinigt" werden, wenn dies der einzig mögliche Weg ist, um eine Vorhersage zu erhalten. Wenn es einen praktikablen Weg gibt, der keine Informationen wegwirft, dann benutze diesen.

Es hört sich so an, als könnten Sie von einer Art zyklischer Analyse profitieren, vorausgesetzt, Sie sagen, dieser Effekt käme von Zeit zu Zeit (so etwas wie ein "Konjunkturzyklus").

Aus meiner Sicht kann das Entfernen eines echten Effekts aus dieser Quelle Ihre Vorhersagen nur verschlechtern, wenn Sie eine Vorhersage treffen möchten. Dies liegt daran, dass Sie genau die Informationen "weggeworfen" haben, die Sie vorhersagen möchten!

Der andere Punkt ist, dass es schwierig sein kann zu bestimmen, wie viel Todesfälle durch die Epidemie verursacht wurden und wie viel durch die gewöhnlichen Fluktuationen verursacht wurde.

In der statistischen Terminologie klingt die Epidemie so, aus Ihrer Sicht ist es ein "Ärgernis" für das, was Sie tatsächlich analysieren möchten. Sie sind also nicht besonders daran interessiert, müssen dies jedoch in Ihrer Analyse irgendwie berücksichtigen. Eine "schnelle und schmutzige" Möglichkeit, dies in einer Regressionseinstellung zu tun, besteht darin, einen Indikator für die Epidemiejahre / -perioden als Regressorvariable aufzunehmen. Auf diese Weise erhalten Sie eine durchschnittliche Schätzung der Auswirkungen von Epidemien (und es wird implizit davon ausgegangen, dass die Auswirkungen für jede Epidemie gleich sind). Dieser Ansatz kann jedoch nur zur Beschreibung des Effekts verwendet werden, da Ihre Regressionsvariable bei der Vorhersage unbekannt ist (Sie wissen nicht, welche Perioden in Zukunft epidemisch sein werden).

Eine andere Möglichkeit, die Epidemie zu erklären, besteht darin, ein Mischmodell mit zwei Komponenten zu verwenden: ein Modell für den Epidemieteil und ein Modell für den "gewöhnlichen" Teil. Das Modell läuft dann in zwei Schritten ab: 1) Klassifizieren einer Periode als epidemisch oder normal, dann 2) Anwenden des Modells, auf das es klassifiziert wurde.


(+1) nette Vorschläge, obwohl wahrscheinlich mehr nicht so schmutzige Tricks möglich sind.
Dmitrij Celov

+1; Für die Nachwelt möchte ich folgenden Kommentar abgeben: Sie geben an, dass "das Entfernen eines echten Effekts ... Ihre Vorhersagen nur verschlimmern kann". Im Kontext haben Sie eindeutig Recht, im allgemeinen Fall ist dies jedoch nicht unbedingt der Fall. (Ich denke an den „Bias-Varianz-Kompromiss“, der bei der prädiktiven Modellierung eine große Rolle spielt.) Auch hier bin ich der Meinung, dass Sie hier richtig liegen und dass Sie über den Bias-Varianz-Kompromiss Bescheid wissen. Ich möchte es für jeden erwähnen, der in Zukunft auf diese Antwort stößt und diese Aussage möglicherweise falsch interpretiert.
gung - Reinstate Monica

5

Um Ihnen eine allgemeine Antwort auf Ihre Frage zu geben, lassen Sie mich einen meiner alten Geschäftsführer paraphieren: Die Forschungsmöglichkeiten finden Sie in den Ausreißern des Modells, das Sie anpassen.

Die Situation ist ähnlich wie bei dem Experiment, das mein Robert Millikan zur Bestimmung der Ladung eines Elektrons durchgeführt hat. Jahrzehntelang nachdem er den Nobelpreis für sein Experiment erhalten hatte, wurden seine Notizen überprüft und es wurde festgestellt, dass er eine große Anzahl von Datenpunkten verwarf, weil sie nicht mit den von ihm gesuchten Ergebnissen übereinstimmten. Ist das schlechte Wissenschaft?

Wenn Sie einige Ausreißer finden, dann sind sie möglicherweise auf "statistische Abberationen" zurückzuführen. Wenn Sie jedoch mehr als ein paar Ausreißer finden, müssen Sie Ihre Daten genauer untersuchen. Wenn Sie keine Ursache für die Abberationen angeben können, verstehen Sie den Prozess nicht und ein statistisches Modell wird Ihr Problem nicht lösen. Der Zweck eines Modells besteht darin, einen Prozess zusammenzufassen. Das Modell fasst einen Prozess, den der Experimentator nicht versteht, nicht auf magische Weise zusammen.


Es ist die menschliche Tendenz. Robert Millikan war keine Ausnahme. Ich bin sehr froh, dass so viele neue Dinge aufgeklärt wurden und die Philosophie hinter einem statistischen Modell hervorgehoben wird.
DrWho

5

Die Rolle der "Datenbereinigung" besteht darin, herauszufinden, wann "unsere Gesetze (Modelle) nicht funktionieren". Das Anpassen von Ausreißern oder abnormalen Datenpunkten ermöglicht es uns, "robuste Schätzungen" der Parameter im aktuellen Modell zu erhalten, die wir unterhalten. Diese "Ausreißer" erlauben, wenn sie nicht behandelt werden, eine unerwünschte Verzerrung der Modellparameter, da die Schätzung "dazu dient, diese Datenpunkte zu erklären", die sich "nicht gemäß unserem hypothetischen Modell verhalten". Mit anderen Worten, es gibt eine Menge Amortisation in Bezug auf die erklärte Summe der Quadrate, wenn man sich auf die "Bösen" konzentriert. Die empirisch identifizierten Punkte, die gereinigt werden müssen, sollten sorgfältig geprüft werden, um möglicherweise Ursachenfaktoren zu entwickeln / vorzuschlagen, die nicht im aktuellen Modell enthalten sind.

Wie lässt sich die Auswirkung einer Intervention in einem Staat im Vergleich zu einem anderen anhand der jährlichen Sterblichkeitsrate bewerten?

Wissenschaft zu betreiben bedeutet, nach wiederholten Mustern zu suchen.

Anomalien zu erkennen bedeutet, Werte zu identifizieren, die nicht wiederholten Mustern folgen. Woher sonst würden Sie wissen, dass ein Punkt gegen dieses Modell verstößt? Tatsächlich muss der Prozess des Wachstums, Verstehens, Findens und Überprüfens von Ausreißern iterativ sein. Dies ist kein neuer Gedanke.

Sir Frances Bacon schrieb vor etwa 400 Jahren in Novum Organum: „Fehler in Natur, Sport und Monstern korrigieren das Verständnis in Bezug auf gewöhnliche Dinge und enthüllen allgemeine Formen. Denn wer die Wege der Natur kennt, wird ihre Abweichungen leichter bemerken; und wer auch immer Abweichungen kennt, wird ihre Wege genauer beschreiben. “

Wir ändern unsere Regeln, indem wir beobachten, wann die aktuellen Regeln versagen.

Wenn die identifizierten Ausreißer tatsächlich alle Impulse sind und ähnliche Auswirkungen (Größe) haben, schlagen wir Folgendes vor (aus einem anderen Poster zitiert):

"Eine" schnelle und schmutzige "Möglichkeit, dies in einer Regressionseinstellung zu tun, besteht darin, einen Indikator für die Epidemiejahre / -perioden als Regressorvariable aufzunehmen. Dies gibt Ihnen eine durchschnittliche Schätzung der Auswirkung von Epidemien (und geht implizit davon aus, dass dies der Fall ist) Dies gilt jedoch nur für die Beschreibung des Effekts, da Ihre Regressionsvariable bei der Vorhersage unbekannt ist (Sie wissen nicht, welche Perioden in Zukunft epidemisch sein werden). "

Dies setzt natürlich voraus, dass die einzelnen Anomalien (Pulsjahre) ähnliche Auswirkungen haben. Wenn sie sich unterscheiden, wäre eine oben beschriebene Portmanteau-Variable falsch.


@IrishStat: Tolle Erklärung und ein unvergessliches Zitat. Sie haben Ihr Dienstalter und Fachwissen beibehalten. Können Sie bitte Ihre Aussage "Wissen wartet darauf entdeckt zu werden" unter Bezugnahme auf meine frühere Frage erweitern
?

1
@DrWHO: Die Identifizierung der LEVEL SHIFT im Jahr 2014, die eine sehr schlecht aussehende Restfläche behoben hat, ist ein Beispiel für "Wissen, das erst entdeckt werden muss", da sie die offensichtliche Verzögerung zwischen dem Datum einer Richtlinienänderung und dem vollständigen Datum der Implementierung / Umsetzung enthüllte Die Aussage, dass eine permanente (Stufen-) Verschiebung im Jahr 2004 (Jahr 11 von 17) vollständig realisiert wurde, spiegelt das tatsächliche Datum wider, an dem es sich bei dem Datum de jure um ein paar Jahre zuvor handelte.
IrishStat

@IrishStat: Danke für die Klarstellung. Es ist sehr schwierig, politische Entscheidungsträger, Ärzte und die Öffentlichkeit davon zu überzeugen, dass eine bestimmte Behandlung drastische Veränderungen im Krankheitsverlauf zur Folge haben kann. Es dauert Jahrzehnte. Diese Pegelverschiebung im Jahr 2004 spiegelt die Verzögerung bei der Annahme von Neuem wider. Ist es besser, die Ebenenverschiebung
DrWho

1
Mein Kommentar oben sollte LEVEL SHIFT im Jahr 2004 gewesen sein. Entschuldigung für die Verwirrung.
IrishStat

1
@DrWHO: In Beantwortung Ihrer Frage "Ist es besser, die Ebenenverschiebung zu verlassen oder sie als Ausreißer für die Berechnungen der Todesfälle in Zustand 1 zu behandeln, während Sie sich mit der Frage befassen". Wenn Sie es nicht behandeln, kann man einfach sagen, dass STATE1 im Jahr 2004 einen Level Shift Change hatte, während STATE2 dies nicht tat. Sie sind also unterschiedlich, aber man kann keine Wahrscheinlichkeit auf diese Aussage setzen. Nach der Behandlung von STATE1 für die Pegelverschiebung hat man die Daten für eine Statusänderung im Jahr 2004 normalisiert. Die normalisierten Daten (bereinigten Daten) können dann ohne Verlust der Allgemeinheit mit den normalisierten Daten von STATE2 verglichen werden.
IrishStat

5

Eine der am häufigsten verwendeten Methoden zum Auffinden von Epidemien in retrospektiven Daten besteht darin, nach Ausreißern zu suchen - viele Grippeforscher konzentrieren sich beispielsweise in erster Linie auf die Reste ihrer angepassten Modelle und nicht auf die Modelle selbst, um Orte zu sehen, an denen "der Tag" ist Vorhersagen des Modells scheitern - eine der Möglichkeiten, wie das Modell scheitern kann, ist das Auftreten einer Epidemie.

Es ist jedoch unerlässlich, dass Sie in Ihren Ergebnissen zwischen der Suche nach Ausreißern unterscheiden - wahrscheinlich nicht die beste Idee überhaupt - und dem, was die meisten Leute als "Datenbereinigung" bezeichnen. Hier suchen Sie nach Ausreißern, nicht weil sie ein statistisches Problem darstellen, sondern weil sie Probleme mit der Datenqualität aufwerfen.

Zum Beispiel gibt es in einem Datensatz, den ich habe, eine Variable für den Beginn einer Krankheit. Für ein Fach liegt dieses Datum im November 1929. Habe ich das für richtig gehalten? Nein. Dies weist auf ein Datenqualitätsproblem hin, das behoben werden muss. In diesem Fall wird das Datum anhand anderer Informationen zum Thema korrigiert. Diese Art der Datenbereinigung verbessert aktiv die Qualität Ihrer statistischen Ergebnisse.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.