Es gibt gute Gründe, eine große Anzahl von Behältern zu haben, z. B. Behälter für jeden möglichen Wert, wenn der Verdacht besteht, dass das Detail eines Histogramms kein Rauschen, sondern eine interessante oder wichtige Feinstruktur ist.
Dies hängt nicht direkt mit der genauen Motivation für diese Frage zusammen, da eine automatisierte Regel für eine optimale Anzahl von Behältern gewünscht wird, sondern ist für die gesamte Frage relevant.
Lassen Sie uns sofort zu Beispielen springen. In der Demografie ist eine Rundung des gemeldeten Alters üblich, insbesondere aber nicht nur in Ländern mit eingeschränkter Alphabetisierung. Was passieren kann, ist, dass viele Menschen ihr genaues Geburtsdatum nicht kennen oder dass es soziale oder persönliche Gründe gibt, ihr Alter zu unterschätzen oder zu übertreiben. Die Militärgeschichte ist voll von Beispielen von Menschen, die Lügen über ihr Alter erzählen, um zu vermeiden oder Dienst bei Streitkräften zu suchen. In der Tat werden viele Leser jemanden kennen, der sehr schüchtern oder auf andere Weise nicht ganz ehrlich über sein Alter ist, auch wenn sie nicht bei einer Volkszählung darüber lügen. Das Nettoergebnis variiert, aber wie bereits angedeutet, ist es normalerweise eine Rundung, z. B. sind Alter, die mit 0 und 5 enden, viel häufiger als Alter, das ein Jahr weniger oder mehr beträgt.
Ein ähnliches Phänomen der Ziffernpräferenz tritt auch bei ganz unterschiedlichen Problemen auf. Bei einigen altmodischen Messmethoden muss die letzte Ziffer einer gemeldeten Messung durch Interpolation zwischen abgestuften Markierungen mit dem Auge gemessen werden. Dies war in der Meteorologie mit Quecksilberthermometern ein langer Standard. Es wurde festgestellt, dass einige gemeldete Ziffern insgesamt häufiger vorkommen als andere, und dass viele von uns einzeln Unterschriften haben, ein persönliches Muster, bei dem einige Ziffern gegenüber anderen bevorzugt werden. Die übliche Referenzverteilung ist hier die Gleichmäßigkeit, dh solange der Bereich möglicher Messungen um ein Vielfaches größer als die "Maßeinheit" ist, wird erwartet, dass die endgültigen Ziffern mit gleicher Häufigkeit auftreten. Also , wenn gemeldete Schatten Temperaturen könnte eine Reihe von (sagen wir) decken 50 ⋯∘C Die zehn letzten Ziffern, Brüche eines Grades .0, .1, , .8, .9 sollten jeweils mit einer Wahrscheinlichkeit von 0.1 auftreten. Die Qualität dieser Annäherung sollte auch für einen begrenzten Bereich gut sein.⋯
Im Übrigen ist die Betrachtung der letzten Ziffern der gemeldeten Daten eine einfache und gute Methode zur Überprüfung auf fabrizierte Daten, die viel einfacher zu verstehen und weniger problematisch ist als die derzeit modische Prüfung der ersten Ziffern unter Berufung auf das Benford-Gesetz.
Das Ergebnis für Histogramme sollte jetzt klar sein. Eine spitzenartige Präsentation kann dazu dienen, diese Art von Feinstruktur zu zeigen oder allgemeiner zu überprüfen. Wenn nichts Interessantes erkennbar ist, kann der Graph natürlich von geringem Nutzen sein.
Ein Beispiel zeigt die Häufung von Altersangaben aus der Volkszählung von Ghana für 1960. Siehe http://www.stata.com/manuals13/rspikeplot.pdf
Es gab eine gute Überprüfung der Verteilungen der letzten Ziffern in
Preece, DA 1981. Verteilung der letzten Ziffern in Daten. The Statistician 30: 31-60.
Ein Hinweis zur Terminologie: Einige Leute schreiben über die eindeutigen Werte einer Variablen, wenn sie besser über die unterschiedlichen Werte einer Variablen sprechen würden. Wörterbücher und Gebrauchsanweisungen weisen weiterhin darauf hin, dass "einzigartig" bedeutet, nur einmal vorzukommen. Somit könnte das unterschiedliche gemeldete Alter einer Bevölkerung in Jahren 0, 1, 2 usw. sein, aber die große Mehrheit dieser Altersgruppen ist nicht auf eine Person beschränkt.