Werden Datenverarbeitungsfehler bereits in die statistische Analyse eingepreist?

Ok, faire Warnung - dies ist eine philosophische Frage, die keine Zahlen beinhaltet. Ich habe viel darüber nachgedacht, wie sich Fehler im Laufe der Zeit in Datensätze einschleichen und wie dies von Analysten behandelt werden sollte - oder ob es überhaupt wichtig sein sollte?

Als Hintergrund mache ich die Analyse einer Langzeitstudie, die viele Datensätze umfasst, die von wahrscheinlich 25 Personen über einen Zeitraum von 7 bis 8 Jahren gesammelt wurden - niemand hat jemals alle Daten in eine kohärente Struktur gebracht (das ist meine Aufgabe). Ich habe viel Daten eingegeben (von Fotokopien alter Laborhefte transkribiert) und finde immer wieder kleine Transkriptionsfehler, die andere Leute gemacht haben, und auch Dateneingaben, die schwer oder unmöglich zu lesen sind - hauptsächlich wegen der Tinte ist im Laufe der Zeit verblasst. Ich verwende den Kontext, um die besten Vermutungen darüber anzustellen, was die Daten aussagen, und lasse die Daten insgesamt darauf hinweisen, wenn ich nicht ganz sicher bin. Aber ich denke immer wieder daran, dass jedes Mal, wenn Daten kopiert werden, die Fehlerhäufigkeit unvermeidlich zunimmt, bis die ursprünglichen Daten vollständig verloren gehen.

Dies führt mich zu einem Gedanken: Zusätzlich zu Instrumenten- / Messfehlern und Aufzeichnungsfehlern gibt es eine grundlegende Komponente „Datenverarbeitungsfehler“, die mit der Zeit und mit einer stärkeren Handhabung der Daten zunimmt (Randnotiz: Dies ist wahrscheinlich der Fall) Nur eine andere Art, den 2. Hauptsatz der Thermodynamik zu formulieren, richtig? Die Datenentropie wird immer zunehmen. Infolgedessen frage ich mich, ob eine Art "Korrektur" eingeführt werden sollte, um die Lebensgeschichte von Datensätzen zu berücksichtigen (ähnlich einer Bonferroni-Korrektur). Mit anderen Worten, sollten wir davon ausgehen, dass ältere oder mehr kopierte Datensätze weniger genau sind, und wenn ja, sollten wir die Ergebnisse entsprechend anpassen?

Mein anderer Gedanke ist jedoch, dass Fehler ein fester Bestandteil der Datenerfassung und -verarbeitung sind. Da alle statistischen Tests mit realen Daten entwickelt wurden, werden diese Fehlerquellen möglicherweise bereits in die Analyse einbezogen.

Ein weiterer erwähnenswerter Punkt ist, dass Datenfehler, da sie zufällig sind, die Stärke eines Befundes mit größerer Wahrscheinlichkeit verringern als verbessern - mit anderen Worten, Datenverarbeitungsfehler würden zu Fehlern vom Typ 2 und nicht zu Fehlern vom Typ 1 führen . Wenn Sie also in vielen Kontexten alte / fragwürdige Daten verwenden und dennoch einen Effekt finden, erhöht dies Ihr Vertrauen, dass der Effekt real ist (da er stark genug ist, um das Hinzufügen eines zufälligen Fehlers zum Datensatz zu überleben). Aus diesem Grund sollte die "Korrektur" vielleicht in die andere Richtung gehen (das für einen "Befund" erforderliche Alpha-Niveau erhöhen) oder uns einfach nicht stören?

Wie auch immer, es tut mir leid, dass ich so ausführlich und stumpf bin. Ich bin mir nicht sicher, wie ich diese Frage präziser stellen soll. Danke, dass du mit mir zusammen bist.

dataset error

— Jas Max
quelle

Das ist eine gute Frage (+1). Ein Punkt: Es könnte ein erheblicher Fehler sein, die meisten der von Ihnen erwähnten Datenfehler als "zufällig" zu behandeln. Beispielsweise gibt es bei Transkriptionen tendenziell weitaus mehr Vertauschungen der Ziffern "0", "5", "6" und "8" als bei anderen Ziffern (und einige davon können als "." Falsch verstanden werden und umgekehrt ). Außerdem werden Änderungen an wichtigen Datenwerten (z. B. den Extremen) häufig schnell identifiziert und behoben. Obwohl diese Datenkorruptionsprozesse sicherlich ein gewisses Zufallselement aufweisen, kann ihre korrekte Charakterisierung ein wichtiges Thema sein.

— whuber

Warum behandeln Sie Datenverarbeitungsfehler nicht als Teil von Messfehlern und behandeln sie entsprechend? Wenn ich zur Messung der Anzahl der Vergnügungsparkfahrer 20 Personen einsetzen muss, um die Tore zu beobachten, kann ich dieses 20-Personen-Team als eine Art Messgerät betrachten

— Aksakal

@whuber, es ist immer noch zufällig, 8 und 5 zu verwechseln, obwohl es möglicherweise nicht die gleiche Wahrscheinlichkeit hat, 5 und 7 zu

— verwechseln

@whuber, das ist ein faszinierender Punkt (ungleiche Häufigkeit bestimmter Arten von Transkriptionsfehlern), über den ich nicht nachgedacht hatte. Können Sie mich auf Quellen hinweisen, um mehr darüber zu erfahren? Ich frage mich, ob ein Datenqualitätstest basierend auf der Ziffernfrequenz entwickelt werden könnte. Ich habe von ähnlichen Tests für betrügerische / gefälschte Daten auf der Grundlage der Ziffernfrequenz gehört, daher stelle ich mir vor, dass etwas Ähnliches möglich wäre, wenn die von Ihnen genannten Trends konsistent wären.

— Jas Max

@whuber, noch ein Gedanke. Sie erwähnen, dass 0, 5, 6, 8 oft verwirrt sind - weil sie gleich aussehen? Es macht mir klar, dass verschiedene Fehlerquellen charakteristische Substitutionsfehler aufweisen würden. Wenn Sie beispielsweise die Daten hören (aufzeichnen, was jemand gesagt hat), werden 5 und 9 wahrscheinlich häufiger verwechselt. Wenn die Fehlerquelle Entropie wäre (Verblassen der Tinte oder Bewegen der Elektronen), wäre die Substitution meiner Meinung nach zufälliger, aber möglicherweise auch einzigartig. Wenn diese Muster beibehalten werden, könnten Sie möglicherweise Fehlerquellen in großen Datenmengen untersuchen, basierend auf der Häufigkeit der Ziffern.

— Jas Max

Ich stimme dem Vorschlag von @Aksakal zu: Wenn Messfehler vom Analysten als potenziell wichtig angesehen werden, können und sollten sie im Rahmen des Datengenerierungsprozesses explizit modelliert werden.

Ich sehe mehrere Überlegungen, die gegen die Einführung eines generischen Korrekturfaktors sprechen, der beispielsweise auf dem Alter des Datensatzes basiert.

Erstens kann das Alter ein sehr schlechter Indikator für den Grad der Datenverschlechterung sein. Die Technologie der Vervielfältigung, Komprimierung und Konservierung sowie der Aufwand und die Sorgfalt, mit denen die korrekte Transkription überprüft wurde, sind anscheinend die wichtigen Faktoren. Einige alte Texte (z. B. die Bibel) sind seit Jahrhunderten ohne jegliche Verschlechterung erhalten geblieben. Ihr VHS-Beispiel ist zwar legitim, aber insofern ungewöhnlich, als jedes Duplizierungsereignis immer zu Fehlern führt und es keine einfachen Möglichkeiten gibt, nach Transkriptionsfehlern zu suchen und diese zu korrigieren - wenn Sie billige, weit verbreitete Technologien für die Duplizierung und Speicherung verwenden. Ich gehe davon aus, dass man durch Investitionen in teurere Systeme den Grad der eingeführten Fehler erheblich senken kann.

Dieser letzte Punkt ist allgemeiner: Datenerhaltung und -verbreitung sind wirtschaftliche Aktivitäten. Die Übertragungsqualität hängt stark von den eingesetzten Ressourcen ab. Diese Auswahl hängt wiederum von der wahrgenommenen Bedeutung der Daten für denjenigen ab, der die Vervielfältigung und Übertragung vornimmt.

Wirtschaftliche Überlegungen gelten auch für den Analysten. Es gibt immer mehr Faktoren, die Sie bei Ihrer Analyse berücksichtigen können. Unter welchen Bedingungen sind Datentranskriptionsfehler erheblich genug und wichtig genug, um berücksichtigt zu werden? Meine Vermutung ist: Solche Bedingungen sind nicht üblich. Wenn eine potenzielle Datenverschlechterung als wichtig genug angesehen wird, um sie in Ihrer Analyse zu berücksichtigen, ist es wahrscheinlich wichtig genug, sich die Mühe zu machen, den Prozess explizit zu modellieren, anstatt einen generischen "Korrektur" -Schritt einzufügen.

Schließlich besteht keine Notwendigkeit, einen solchen generischen Korrekturfaktor de novo zu entwickeln . Es gibt bereits eine umfangreiche statistische Theorie und Praxis für die Analyse von Datensätzen, für die Messfehler als wichtig angesehen werden.

Zusammenfassend: Es ist ein interessanter Gedanke. Ich denke jedoch nicht, dass dies zu Änderungen in der Analysepraxis führen sollte.

— Arthur Small
quelle