Es hilft zu verstehen, wie die Daten aufgezeichnet wurden.
Lassen Sie mich eine Geschichte teilen . Vor langer Zeit wurden viele Datensätze nur in verblassender Hardcopy gespeichert. In diesen dunklen Tagen habe ich einen Vertrag mit einer Organisation (von großer Abstammung und Größe; viele von Ihnen besitzen wahrscheinlich ihren Bestand) geschlossen, um etwa 10 ^ 5 Aufzeichnungen von Umweltüberwachungsdaten in einem ihrer Produktionswerke zu computerisieren. Zu diesem Zweck markierte ich persönlich ein Regal mit Laborberichten (um zu zeigen, wo sich die Daten befanden), erstellte Dateneingabeformulare und schloss einen Vertrag mit einer Zeitarbeitsfirma für Alphabetisierung abArbeiter, um die Daten in die Formulare einzugeben. (Ja, für Leute, die lesen konnten, mussten Sie extra bezahlen.) Aufgrund des Werts und der Sensibilität der Daten habe ich diesen Prozess parallel mit zwei Mitarbeitern gleichzeitig durchgeführt (die sich normalerweise von Tag zu Tag geändert haben). Es dauerte ein paar Wochen. Ich habe eine Software geschrieben, um die beiden Sätze von Einträgen zu vergleichen und alle aufgetretenen Fehler systematisch zu identifizieren und zu korrigieren.
Junge, waren da Fehler! Was kann schon schief gehen? Eine gute Möglichkeit, Fehler zu beschreiben und zu messen, besteht auf der Ebene des Basisdatensatzes , der in diesem Fall eine Beschreibung eines einzelnen Analyseergebnisses (der Konzentration einer Chemikalie, häufig) für eine bestimmte Probe war, die an einem bestimmten Überwachungspunkt auf einer Probe erhalten wurde gegebenes Datum. Beim Vergleich der beiden Datensätze fand ich:
Auslassungsfehler : Ein Datensatz würde einen Datensatz enthalten, ein anderer nicht. Dies geschah normalerweise, weil entweder (a) eine oder zwei Zeilen am Ende einer Seite übersehen wurden oder (b) eine ganze Seite übersprungen wurde.
Offensichtliche Auslassungsfehler , die wirklich Dateneingabefehler waren. Ein Datensatz wird durch einen Überwachungspunktnamen, ein Datum und den "Analyten" (normalerweise einen chemischen Namen) identifiziert. Wenn einer dieser Einträge einen Tippfehler aufweist, wird er nicht mit den anderen Datensätzen abgeglichen, mit denen er verknüpft ist. In der Tat verschwindet der richtige Datensatz und ein falscher Datensatz wird angezeigt.
Gefälschte Vervielfältigung . Dieselben Ergebnisse können in mehreren Quellen vorkommen, mehrfach transkribiert werden und scheinen echte Wiederholungsmessungen zu sein, wenn dies nicht der Fall ist. Duplikate sind einfach zu erkennen, aber die Entscheidung, ob sie fehlerhaft sind, hängt davon ab, ob Duplikate überhaupt im Datensatz erscheinen sollen. Manchmal kann man es einfach nicht wissen.
Frank Dateneingabefehler . Die "guten" sind leicht zu fassen, weil sie den Typ des Datums ändern : Wenn Sie beispielsweise den Buchstaben "O" für die Ziffer "0" verwenden, wird eine Zahl zu einer Nicht-Zahl. Andere gute Fehler ändern den Wert so sehr, dass er mit statistischen Tests leicht erkannt werden kann. (In einem Fall wurde die führende Ziffer in "1.000.010 mg / kg" abgeschnitten, sodass ein Wert von 10 erhalten blieb. Dies ist eine enorme Änderung, wenn Sie von einer Pestizidkonzentration sprechen!) Die schlechten Fehler sind schwer zu fassen, da sie sich ändern Ein Wert, der zu den übrigen Daten passt (Art), z. B. "80" für "50". (Diese Art von Fehler tritt ständig bei OCR-Software auf.)
Transpositionen . Die richtigen Werte können eingegeben werden, sind jedoch den falschen Aufnahmetasten zugeordnet. Dies ist heimtückisch, da die globalen statistischen Merkmale des Datasets möglicherweise unverändert bleiben, zwischen den Gruppen jedoch falsche Unterschiede auftreten können. Wahrscheinlich kann nur ein Mechanismus wie die doppelte Eingabe diese Fehler erkennen.
Wenn Sie sich dieser Fehler bewusst sind und wissen oder eine Theorie haben, wie sie auftreten, können Sie Skripte schreiben, um Ihre Datensätze auf das mögliche Vorhandensein solcher Fehler zu überprüfen und sie zur weiteren Behandlung zu markieren. Sie können sie nicht immer auflösen, aber Sie können mindestens ein Feld "Kommentar" oder "Qualitätskennzeichen" hinzufügen, um die Daten während ihrer späteren Analyse zu begleiten.
Seitdem habe ich mich mit Fragen der Datenqualität befasst und noch viel mehr Möglichkeiten gehabt, große statistische Datensätze umfassend zu überprüfen. Keiner ist perfekt; Sie alle profitieren von Qualitätskontrollen. Einige der Prinzipien, die ich im Laufe der Jahre entwickelt habe, sind:
Stellen Sie, wann immer möglich, Redundanz bei der Dateneingabe und bei der Datenübertragung her: Prüfsummen, Summen, wiederholte Eingaben: alles, was die automatische interne Konsistenzprüfung unterstützt.
Wenn möglich, erstellen und eine andere Datenbank ausnutzen , die , was sollten die Daten beschreibt , wie folgt aussehen: das heißt, computerlesbaren Metadaten. In einem Drogenexperiment wissen Sie beispielsweise im Voraus, dass jeder Patient dreimal gesehen wird. Auf diese Weise können Sie eine Datenbank mit allen korrekten Datensätzen und ihren Bezeichnern mit den Werten erstellen, die nur darauf warten, ausgefüllt zu werden. Füllen Sie sie mit den angegebenen Daten aus und suchen Sie nach Duplikaten, Auslassungen und unerwarteten Daten.
Normalisieren Sie Ihre Daten immer (insbesondere in mindestens die vierte Normalform ), unabhängig davon, wie Sie das Dataset für die Analyse formatieren möchten. Dies zwingt Sie dazu, Tabellen für jede konzeptionell unterschiedliche Entität zu erstellen, die Sie modellieren. (Im Umweltbereich umfasst dies Tabellen mit Überwachungsorten, Proben, Chemikalien (Eigenschaften, typische Bereiche usw.), Tests dieser Proben (ein Test deckt normalerweise eine Reihe von Chemikalien ab) und die einzelnen Ergebnisse dieser Tests. Auf diese Weise erstellen Sie viele effektive Überprüfungen der Datenqualität und -konsistenz und identifizieren viele potenziell fehlende oder doppelte oder inkonsistente Werte.
Dieser Aufwand (der gute Datenverarbeitungsfähigkeiten erfordert, aber unkompliziert ist) ist erstaunlich effektiv. Wenn Sie große oder komplexe Datenmengen analysieren möchten und nicht über ausreichende Kenntnisse der relationalen Datenbanken und ihrer Theorie verfügen, sollten Sie dies so schnell wie möglich zu Ihrer Liste der zu lernenden Dinge hinzufügen. Es wird sich während Ihrer Karriere auszahlen.
Führen Sie immer so viele "dumme" Überprüfungen durch, wie Sie nur können . Hierbei handelt es sich um die automatische Überprüfung offensichtlicher Dinge, sodass Daten in die erwarteten Zeiträume fallen, die Anzahl der Patienten (oder Chemikalien oder was auch immer) sich immer korrekt summiert und die Werte immer vernünftig sind (z. B. muss ein pH-Wert zwischen 0 und 14 und möglicherweise in liegen) ein viel engerer Bereich für z. B. Blut-pH-Werte usw. Hier kann die Fachkompetenz am hilfreichsten sein: Der Statistiker kann furchtlos dumme Fragen an die Experten stellen und die Antworten zur Überprüfung der Daten nutzen.
Natürlich kann noch viel mehr gesagt werden - das Thema ist ein Buch wert -, aber dies sollte ausreichen, um Ideen anzuregen.