Ok, faire Warnung - dies ist eine philosophische Frage, die keine Zahlen beinhaltet. Ich habe viel darüber nachgedacht, wie sich Fehler im Laufe der Zeit in Datensätze einschleichen und wie dies von Analysten behandelt werden sollte - oder ob es überhaupt wichtig sein sollte?
Als Hintergrund mache ich die Analyse einer Langzeitstudie, die viele Datensätze umfasst, die von wahrscheinlich 25 Personen über einen Zeitraum von 7 bis 8 Jahren gesammelt wurden - niemand hat jemals alle Daten in eine kohärente Struktur gebracht (das ist meine Aufgabe). Ich habe viel Daten eingegeben (von Fotokopien alter Laborhefte transkribiert) und finde immer wieder kleine Transkriptionsfehler, die andere Leute gemacht haben, und auch Dateneingaben, die schwer oder unmöglich zu lesen sind - hauptsächlich wegen der Tinte ist im Laufe der Zeit verblasst. Ich verwende den Kontext, um die besten Vermutungen darüber anzustellen, was die Daten aussagen, und lasse die Daten insgesamt darauf hinweisen, wenn ich nicht ganz sicher bin. Aber ich denke immer wieder daran, dass jedes Mal, wenn Daten kopiert werden, die Fehlerhäufigkeit unvermeidlich zunimmt, bis die ursprünglichen Daten vollständig verloren gehen.
Dies führt mich zu einem Gedanken: Zusätzlich zu Instrumenten- / Messfehlern und Aufzeichnungsfehlern gibt es eine grundlegende Komponente „Datenverarbeitungsfehler“, die mit der Zeit und mit einer stärkeren Handhabung der Daten zunimmt (Randnotiz: Dies ist wahrscheinlich der Fall) Nur eine andere Art, den 2. Hauptsatz der Thermodynamik zu formulieren, richtig? Die Datenentropie wird immer zunehmen. Infolgedessen frage ich mich, ob eine Art "Korrektur" eingeführt werden sollte, um die Lebensgeschichte von Datensätzen zu berücksichtigen (ähnlich einer Bonferroni-Korrektur). Mit anderen Worten, sollten wir davon ausgehen, dass ältere oder mehr kopierte Datensätze weniger genau sind, und wenn ja, sollten wir die Ergebnisse entsprechend anpassen?
Mein anderer Gedanke ist jedoch, dass Fehler ein fester Bestandteil der Datenerfassung und -verarbeitung sind. Da alle statistischen Tests mit realen Daten entwickelt wurden, werden diese Fehlerquellen möglicherweise bereits in die Analyse einbezogen.
Ein weiterer erwähnenswerter Punkt ist, dass Datenfehler, da sie zufällig sind, die Stärke eines Befundes mit größerer Wahrscheinlichkeit verringern als verbessern - mit anderen Worten, Datenverarbeitungsfehler würden zu Fehlern vom Typ 2 und nicht zu Fehlern vom Typ 1 führen . Wenn Sie also in vielen Kontexten alte / fragwürdige Daten verwenden und dennoch einen Effekt finden, erhöht dies Ihr Vertrauen, dass der Effekt real ist (da er stark genug ist, um das Hinzufügen eines zufälligen Fehlers zum Datensatz zu überleben). Aus diesem Grund sollte die "Korrektur" vielleicht in die andere Richtung gehen (das für einen "Befund" erforderliche Alpha-Niveau erhöhen) oder uns einfach nicht stören?
Wie auch immer, es tut mir leid, dass ich so ausführlich und stumpf bin. Ich bin mir nicht sicher, wie ich diese Frage präziser stellen soll. Danke, dass du mit mir zusammen bist.