Tatsächlich ist Benfords Gesetz eine unglaublich mächtige Methode. Dies liegt daran, dass die Häufigkeitsverteilung der ersten Ziffer nach Benford auf alle Arten von Datensätzen anwendbar ist, die in der realen oder natürlichen Welt vorkommen.
Sie haben Recht, dass Sie das Benford-Gesetz nur unter bestimmten Umständen anwenden können. Sie sagen, dass die Daten eine einheitliche Protokollverteilung haben müssen. Technisch gesehen ist das absolut richtig. Sie könnten die Anforderung jedoch viel einfacher und nachsichtiger beschreiben. Alles, was Sie brauchen, ist, dass der Datensatzbereich mindestens eine Größenordnung überschreitet. Sagen wir von 1 bis 9 oder 10 bis 99 oder 100 bis 999. Wenn es zwei Größenordnungen überschreitet, sind Sie im Geschäft. Und Benfords Gesetz sollte ziemlich hilfreich sein.
Das Schöne an Benfords Gesetz ist, dass es Ihnen dabei hilft, Ihre Ermittlungen sehr schnell auf die Nadel (n) im Heuhaufen von Daten einzuschränken. Sie suchen nach Anomalien, bei denen sich die Frequenz der ersten Ziffer stark von den Benford-Frequenzen unterscheidet. Sobald Sie feststellen, dass es zwei viele Sechser gibt, wenden Sie das Benfordsche Gesetz an, um sich nur auf die Sechser zu konzentrieren. Aber nehmen Sie es jetzt zu den ersten beiden Ziffern (60, 61, 62, 63, etc ...). Vielleicht finden Sie heraus, dass es viel mehr 63s gibt als von Benford vorgeschlagen (Sie würden das tun, indem Sie die Häufigkeit von Benford berechnen: log (1 + 1/63), die Ihnen einen Wert nahe 0% gibt). Sie verwenden also Benford für die ersten drei Ziffern. Wenn Sie herausfinden, dass es viel zu viele 632er gibt (oder was auch immer, wenn Sie die Frequenz von Benford berechnen: log (1 + 1/632)), als Sie erwartet haben, sind Sie wahrscheinlich auf dem richtigen Weg. Nicht alle Anomalien sind Betrug. Aber,
Wenn es sich bei dem Datensatz, den Marc Hauser manipuliert hat, um natürliche, nicht eingeschränkte Daten mit einem entsprechenden Bereich handelt, der breit genug ist, dann wäre das Benford-Gesetz ein ziemlich gutes Diagnosewerkzeug. Ich bin sicher, dass es auch andere gute Diagnosewerkzeuge gibt, die unwahrscheinliche Muster erkennen. Wenn Sie diese mit dem Benfordschen Gesetz kombinieren, hätten Sie die Marc Hauser-Affäre höchstwahrscheinlich effektiv untersuchen können (unter Berücksichtigung der genannten Datenanforderungen des Benfordschen Gesetzes).
Ich erkläre Benfords Gesetz ein bisschen mehr in dieser kurzen Präsentation, die Sie hier sehen können:
http://www.slideshare.net/gaetanlion/benfords-law-4669483