Mein Rat wäre im Allgemeinen, dass es noch kritischer als in 1-D ist, wenn möglich zu glätten, dh so etwas wie eine Kernel-Dichteschätzung (oder eine andere solche Methode wie die Log-Spline-Schätzung) durchzuführen, die tendenziell wesentlich effizienter ist als die Verwendung Histogramme. Wie Whuber betont, ist es durchaus möglich, sich durch das Auftreten eines Histogramms täuschen zu lassen, insbesondere bei wenigen Behältern und kleinen bis mittleren Stichprobengrößen.
Wenn Sie beispielsweise versuchen, den mittleren integrierten quadratischen Fehler (MISE) zu optimieren, gelten Regeln für höhere Dimensionen (die Anzahl der Bins hängt von der Anzahl der Beobachtungen, der Varianz, der Dimension und der "Form" ab). sowohl für die Schätzung der Kerneldichte als auch für Histogramme.
[In der Tat sind viele der Probleme für das eine auch Probleme für das andere, daher sind einige der Informationen in diesem Wikipedia-Artikel relevant.]
Diese Abhängigkeit von der Form scheint zu implizieren, dass Sie für eine optimale Auswahl bereits wissen müssen, was Sie zeichnen. Wenn Sie jedoch bereit sind, einige vernünftige Annahmen zu treffen, können Sie diese verwenden (so könnten beispielsweise einige Leute "ungefähr Gauß" sagen), oder Sie können alternativ eine Form eines "Plug-in" -Schätzers des entsprechenden verwenden funktional.
[ 1 ]
Die Analyse in höheren Dimensionen ist etwas komplizierter (ähnlich wie bei der Schätzung der Kerneldichte von 1-D zu r-Dimensionen), aber es gibt einen Begriff in der Dimension, der in die Potenz von n kommt.
[2]
h∗=R(fk)−1/2(6∏di=1R(fi)1/2)1/(2+d)n−1/(2+d)
R(f)=∫Rdf(x)2dxfifithx
n−1/4
h∗k≈3.5σkn−1/(2+d)hkk∗σkk
ρ
h∗i=3.504σi(1−ρ2)3/8n−1/4
Wenn die Verteilung schief oder stark schwanzförmig oder multimodal ist, ergeben sich im Allgemeinen viel kleinere Binbreiten. Folglich sind die normalen Ergebnisse oft bestenfalls Obergrenzen für die Bindung.
Natürlich ist es durchaus möglich, dass Sie nicht an einem mittleren integrierten quadratischen Fehler interessiert sind, sondern an einem anderen Kriterium.
[1]: Wand, MP (1997),
"Datenbasierte Auswahl der Histogrammfachbreite",
American Statistician 51 , 59-64
[2]: Scott, DW (1992),
Multivariate Dichteschätzung: Theorie, Praxis und Visualisierung ,
John Wiley & Sons, Inc., Hoboken, NJ, USA.