Es gibt grundlegende Dinge, die Sie mit jedem Datensatz tun können:
- Werte validieren (Stringlängentoleranz, Datentyp, Formatierungsmasken, erforderliche Feldpräsenz usw.)
- Bereichskorrektheit (Liegen diese scheinbar korrekten Daten innerhalb der erwarteten Wertebereiche)
- Vorverarbeitung (Wenn ich versuche, diese Daten zu analysieren, kann ich die Grundlagen ausführen, ohne auf Fehler zu stoßen)
- Vorläufige Berichterstellung (Erstellen Sie einen Bericht anhand eines Datensatzes und stellen Sie sicher, dass dieser einen Gesundheitstest besteht.)
- Definieren von Null vs. Leer vs. Null vs. Falsch für eine bestimmte Datenspalte
- Identifizieren von nicht korrekten Daten (numerische Werte, die sich erheblich von anderen Werten in einem Datensatz unterscheiden, Zeichenfolgenwerte, die so aussehen, als wären sie falsch geschrieben, usw.)
- Beseitigen oder Korrigieren offensichtlich fehlerhafter Daten
Das Verstehen von Daten zum Erkennen von Fehlern ist ein völlig anderes Spiel, und es ist sehr wichtig.
Beispielsweise können Sie eine Regel festlegen, die besagt, dass eine Seriennummer in einem bestimmten Datensatz vorhanden sein muss und dass diese Seriennummer alphanumerisch mit einer maximalen Zeichenfolgenlänge von 255 und einer minimalen Zeichenfolgenlänge von 5 sein muss.
Wenn Sie sich die Daten ansehen, werden Sie möglicherweise feststellen, dass eine bestimmte Seriennummer lautet. "PLEASE ENTER SERIAL"
Sie ist vollkommen gültig, aber falsch.
Das liegt auf der Hand, aber sagen wir, Sie verarbeiten Bestandsdaten und hatten eine Preisspanne für 1000 Aktien, die unter einem Dollar lagen. Viele Menschen würden nicht wissen, dass ein so niedriger Aktienkurs an bestimmten Börsen ungültig und an anderen Börsen vollkommen gültig ist. Sie benötigen Kenntnisse über Ihre Daten, um zu verstehen, ob das, was Sie sehen, problematisch ist oder nicht.
In der realen Welt haben Sie nicht immer den Luxus, Ihre Daten genau zu verstehen.
Ich vermeide Probleme, indem ich die Menschen um mich herum nutze. Bei kleinen Datenmengen kann ich jemanden bitten, die Daten vollständig zu überprüfen. Für große Unternehmen ist es sinnvoller, eine Reihe von Zufallsstichproben zu ziehen und jemanden zu bitten, die Daten auf ihre Richtigkeit zu überprüfen.
Darüber hinaus ist es unerlässlich, die Datenquelle und die Vertrauenswürdigkeit dieser Datenquelle in Frage zu stellen. Ich habe oft mehrere widersprüchliche Datenquellen und wir erstellen Regeln, um die "Quelle der Wahrheit" zu bestimmen. Manchmal verfügt ein Datensatz in einem bestimmten Aspekt über hervorragende Daten, andere Datensätze sind jedoch in anderen Bereichen stärker.
Manuell eingegebene Daten sind normalerweise das, was ich am skeptischsten finde, aber in einigen Fällen sind sie stärker als alles, was durch Automatisierung erfasst werden kann.