Wann ist ein Histogramm mit einheitlichen Behältern besser als ein Histogramm mit nicht einheitlichen Behältern?
Dies erfordert eine Art Identifizierung dessen, was wir optimieren möchten. Viele Leute versuchen, den durchschnittlichen integrierten mittleren quadratischen Fehler zu optimieren, aber in vielen Fällen denke ich, dass dies den Punkt eines Histogramms etwas verfehlt. es oft (für mein Auge) "glättet"; Für ein Erkundungswerkzeug wie ein Histogramm kann ich viel mehr Rauheit tolerieren, da die Rauheit selbst mir ein Gefühl dafür gibt, inwieweit ich mit dem Auge "glätten" sollte. Ich neige dazu, die übliche Anzahl von Behältern nach solchen Regeln mindestens zu verdoppeln, manchmal sogar viel mehr. Ich stimme Andrew Gelman in dieser Hinsicht eher zu . in der Tat, wenn mein Interesse wirklich eine gute AIMSE bekommen würde, sollte ich wahrscheinlich sowieso kein Histogramm in Betracht ziehen.
Wir brauchen also ein Kriterium.
Lassen Sie mich zunächst einige der Optionen von Histogrammen mit ungleicher Fläche diskutieren:
Es gibt einige Ansätze, die in Bereichen mit geringerer Dichte mehr Glättung (weniger, breitere Bins) bewirken und engere Bins haben, in denen die Dichte höher ist - wie z. B. Histogramme mit "gleicher Fläche" oder "gleicher Anzahl". Ihre bearbeitete Frage scheint die Möglichkeit der gleichen Anzahl zu berücksichtigen.
Die histogram
Funktion in Rs lattice
Paket kann ungefähr gleich große Balken erzeugen:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
Diese Neigung rechts neben dem ganz linken Behälter ist noch deutlicher, wenn Sie die vierte Wurzel ziehen. Bei gleich breiten Behältern kann man es nur sehen, wenn man 15 bis 20 Mal so viele Behälter verwendet, und dann sieht der rechte Schwanz schrecklich aus.
Es gibt ein gleich Zählungs Histogramm hier , mit R-Code, das Probe-Quantile verwendet die Pausen zu finden.
Zum Beispiel, auf den gleichen Daten wie oben, hier sind 6 Behälter mit (hoffentlich) jeweils 8 Beobachtungen:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
Diese Lebenslauffrage verweist auf ein Papier von Denby und Mallows, dessen Version hier heruntergeladen werden kann und das einen Kompromiss zwischen Behältern gleicher Breite und Behältern gleicher Fläche beschreibt.
Es werden auch die Fragen behandelt, die Sie zu einem gewissen Grad hatten.
Sie könnten das Problem vielleicht als eine Möglichkeit betrachten, die Brüche in einem stückweise konstanten Poisson-Prozess zu identifizieren. Das würde dazu führen, dass so funktioniert . Es gibt auch die damit verbundene Möglichkeit, Algorithmen vom Typ Clustering / Klassifizierung anhand von (sagen wir) Poisson-Zählungen zu betrachten, von denen einige Algorithmen eine Reihe von Bins ergeben würden. Clustering wurde in 2D-Histogrammen (tatsächlich Bilder ) verwendet, um Regionen zu identifizieren, die relativ homogen sind.
- -
Wenn wir ein Histogramm mit gleicher Anzahl und ein zu optimierendes Kriterium hätten, könnten wir einen Bereich von Zählungen pro Bin ausprobieren und das Kriterium auf irgendeine Weise bewerten. Das hier erwähnte Wand-Papier [ Papier oder Arbeitspapier pdf ] und einige seiner Verweise (z. B. auf die Papiere von Sheather et al.) Umreißen die Schätzung der "Plug-in" -Behälterbreite auf der Grundlage von Kernel-Glättungsideen zur Optimierung von AIMSE. Im Großen und Ganzen sollte ein solcher Ansatz an diese Situation angepasst werden können, obwohl ich mich nicht daran erinnere, dass er dies getan hat.