Optimale Anzahl von Behältern im Histogramm nach der Freedman-Diaconis-Regel: Differenz zwischen theoretischer Rate und tatsächlicher Anzahl


8

Wikipedia berichtet, dass nach der Freedman- und Diaconis-Regel die optimale Anzahl von Behältern in einem Histogramm wachsen solltek

kn1/3

Dabei ist die Stichprobengröße.n

Wenn Sie sich jedoch die nclass.FDFunktion in R ansehen , die diese Regel implementiert, zumindest mit Gaußschen Daten, und wenn , scheint die Anzahl der Bins schneller zu wachsen als , näher an (tatsächlich schlägt die beste Anpassung ). Was ist der Grund für diesen Unterschied?n 1 / 3 n 1 - log(n)(8,16)n1/3 mn0,4n11/3mn0.4


Edit: mehr Infos:

Geben Sie hier die Bildbeschreibung ein

Die Linie ist die OLS-Linie mit einem Schnittpunkt von 0,429 und einer Steigung von 0,4. In jedem Fall wurden die Daten ( x) aus einem Standard-Gaußschen generiert und in die eingespeist nclass.FD. Das Diagramm zeigt die Größe (Länge) des Vektors gegenüber der optimalen Anzahl von Klassen, die von der nclass.FDFunktion zurückgegeben werden.

Zitat aus Wikipedia:

Ein guter Grund, warum die Anzahl der Bins proportional zu ist der folgende: Angenommen, die Daten werden als n unabhängige Realisierungen einer begrenzten Wahrscheinlichkeitsverteilung mit glatter Dichte erhalten. Dann bleibt das Histogramm gleichermaßen »robust«, da n gegen unendlich tendiert. Wenn die »Breite« der Verteilung ist (z. B. die Standardabweichung oder der Interquartilbereich), liegt die Anzahl der Einheiten in einem Bin (die Häufigkeit) in der Größenordnung von und der relative Standardfehler in der Größenordnung . Im Vergleich zum nächsten Bin liegt die relative Änderung der Frequenz in der Größenordnung von vorausgesetzt, die Ableitung der Dichte ist ungleich Null. Diese beiden sind in derselben Reihenfolge, wenn s n h / s n1/3snh/s h/shs/n 1 / 3 kn 1 / 3s/(nh)h/shist von der Ordnung , so dass von der Ordnung .s/n1/3kn1/3

Die Freedman-Diaconis-Regel lautet:

h=2IQR(x)n1/3

Soweit ich mich erinnere, ist die Bin-Nummer proportional zu , nicht wie oben angegeben. n1/3
Nick Cox

1
Es ist spät am Tag für mich, Literatur zu überprüfen, aber Ihre Formel läutet keine Glocken bei mir.
Nick Cox

Dies sind sicherlich nichts anderes als vernünftige Faustregeln, und daher ist eine Diskrepanz theoretisch nicht von Bedeutung. Gibt es mehr als das?
Michael Lew

1
Sie planen nicht ; Sie scheinen (aufgerundet) zu . Wenn Sie Ihre Datensätze nicht auf einen konstanten Wert von standardisieren , verwechselt dieses Diagramm Änderungen im Bereich mit Änderungen in (vermutlich ist der IQR ziemlich stabil). Was genau tun Sie, um diesen Plot zu erstellen? k = Bereich  n 1 / 3 / ( 2  IQR ) Bereich / IQR khk=Range n1/3/(2 IQR)Range/IQRk
whuber

2
@whuber: Ja, das scheint der Unterschied zu sein: Ich habe vergessen, mich auf die Erhöhung des Bereichs einzustellen.
user603

Antworten:


8

Der Grund liegt in der Tatsache, dass erwartet wird, dass die Histogrammfunktion alle Daten enthält, sodass sie den Bereich der Daten umfassen muss.

Die Freedman-Diaconis-Regel gibt eine Formel für die Breite der Behälter an.

Die Funktion gibt eine Formel für die Anzahl der Fächer an.

Die Beziehung zwischen der Anzahl der Fächer und der Breite der Fächer wird durch den Bereich der Daten beeinflusst.

Mit Gaußschen Daten nimmt der erwartete Bereich mit .n

Hier ist die Funktion:

> nclass.FD
function (x) 
{
    h <- stats::IQR(x)
    if (h == 0) 
        h <- stats::mad(x, constant = 2)
    if (h > 0) 
        ceiling(diff(range(x))/(2 * h * length(x)^(-1/3)))
    else 1L
}
<bytecode: 0x086e6938>
<environment: namespace:grDevices>

diff(range(x)) ist der Bereich der Daten.

Wie wir sehen, wird der Datenbereich durch die FD-Formel für die Behälterbreite geteilt (und aufgerundet), um die Anzahl der Behälter zu erhalten.

Es scheint, ich hätte klarer sein können, daher hier eine detailliertere Erklärung:
Die tatsächliche Freedman-Diaconis-Regel ist keine Regel für die Anzahl der Behälter, sondern für die Behälterbreite. Nach ihrer Analyse sollte die Behälterbreite proportional zu . Da die Gesamtbreite des Histogramms eng mit dem Probenbereich zusammenhängen muss (sie kann aufgrund der Aufrundung auf schöne Zahlen etwas breiter sein) und sich der erwartete Bereich mit ändert , ist die Anzahl der Bins nicht ganz umgekehrt proportional zu Behälterbreite, muss aber schneller zunehmen. Die Anzahl der Fächer sollte also nicht so groß wie , sondern etwas schneller, da die Reichweite dadurch erreicht wird. n n 1 / 3n1/3nn1/3

Betrachtet man die Daten aus Tippetts Tabellen von 1925 [1], so scheint der erwartete Bereich in normalen Standardproben mit ziemlich langsam zu wachsen - sogar langsamer als :log ( n )nlog(n)

Geben Sie hier die Bildbeschreibung ein

(In der Tat weist Amöbe in den Kommentaren unten darauf hin, dass es proportional - oder fast proportional - zu , was langsamer wächst, als Ihre Analyse in der Frage vermuten lässt. Dies lässt mich fragen, ob es das gibt Es ist ein anderes Problem aufgetreten, aber ich habe nicht untersucht, ob dieser Bereichseffekt Ihre Daten vollständig erklärt.)log(n)

Ein kurzer Blick auf Tippetts Zahlen (die bis zu n = 1000 reichen) legt nahe, dass der erwartete Bereich in einem Gaußschen Wert in über sehr nahe an der , aber es scheint für Werte in diesem Bereich nicht wirklich proportional zu sein. 10n1000log(n)10n1000

Geben Sie hier die Bildbeschreibung ein

[1]: LHC Tippett (1925). "Über die extremen Individuen und die Bandbreite der Proben, die einer normalen Bevölkerung entnommen wurden". Biometrika 17 (3/4): 364–387


1
Nicht wirklich, nein. Weitere Details hinzugefügt.
Glen_b -Reinstate Monica

1
Die tatsächliche Freedman-Diaconis-Regel ist keine Regel für die Anzahl der Behälter, sondern für die Behälterbreite. Nach ihrer Analyse sollte die Behälterbreite proportional zu . Da die Gesamtbreite des Histogramms eng mit dem Probenbereich zusammenhängen muss (sie kann aufgrund der Aufrundung auf schöne Zahlen etwas breiter sein) und sich der erwartete Bereich mit ändert , ist die Anzahl der Bins nicht ganz umgekehrt proportional zu Behälterbreite. Die Anzahl der Fächer sollte also nicht mit wachsen - zumindest nicht ganz, da die Reichweite so groß ist . n n 1 / 3n1/3nn1/3
Glen_b -Rate State Monica

3
Die Argumentation, die Sie in Ihrer Frage aus Wikipedia zitieren, berücksichtigt nicht die Auswirkung des Stichprobenbereichs.
Glen_b -Reinstate Monica

1
Ich denke das löst es.
user603

2
Wenn ich diesen math.SE-Beitrag richtig anwende , sollte der Bereich um wachsenlog(n)
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.