Wikipedia berichtet, dass nach der Freedman- und Diaconis-Regel die optimale Anzahl von Behältern in einem Histogramm wachsen sollte
Dabei ist die Stichprobengröße.
Wenn Sie sich jedoch die nclass.FD
Funktion in R ansehen , die diese Regel implementiert, zumindest mit Gaußschen Daten, und wenn , scheint die Anzahl der Bins schneller zu wachsen als , näher an (tatsächlich schlägt die beste Anpassung ). Was ist der Grund für diesen Unterschied?n 1 / 3 n 1 - √ m≈n0,4
Edit: mehr Infos:
Die Linie ist die OLS-Linie mit einem Schnittpunkt von 0,429 und einer Steigung von 0,4. In jedem Fall wurden die Daten ( x
) aus einem Standard-Gaußschen generiert und in die eingespeist nclass.FD
. Das Diagramm zeigt die Größe (Länge) des Vektors gegenüber der optimalen Anzahl von Klassen, die von der nclass.FD
Funktion zurückgegeben werden.
Zitat aus Wikipedia:
Ein guter Grund, warum die Anzahl der Bins proportional zu ist der folgende: Angenommen, die Daten werden als n unabhängige Realisierungen einer begrenzten Wahrscheinlichkeitsverteilung mit glatter Dichte erhalten. Dann bleibt das Histogramm gleichermaßen »robust«, da n gegen unendlich tendiert. Wenn die »Breite« der Verteilung ist (z. B. die Standardabweichung oder der Interquartilbereich), liegt die Anzahl der Einheiten in einem Bin (die Häufigkeit) in der Größenordnung von und der relative Standardfehler in der Größenordnung . Im Vergleich zum nächsten Bin liegt die relative Änderung der Frequenz in der Größenordnung von vorausgesetzt, die Ableitung der Dichte ist ungleich Null. Diese beiden sind in derselben Reihenfolge, wenn s n h / s √ h/shs/n 1 / 3 kn 1 / 3ist von der Ordnung , so dass von der Ordnung .
Die Freedman-Diaconis-Regel lautet: