Wenn wir die Verteilung kontinuierlicher Daten sichtbar sehen wollen, welches zwischen Histogramm und PDF sollte verwendet werden?
Was sind die formelmäßigen Unterschiede zwischen Histogramm und PDF?
Wenn wir die Verteilung kontinuierlicher Daten sichtbar sehen wollen, welches zwischen Histogramm und PDF sollte verwendet werden?
Was sind die formelmäßigen Unterschiede zwischen Histogramm und PDF?
Antworten:
So klären Sie den Dirks-Punkt:
Angenommen, Ihre Daten sind ein Beispiel für eine Normalverteilung. Sie könnten das folgende Diagramm erstellen:
Die rote Linie ist die empirische Dichteschätzung, die blaue Linie ist das theoretische PDF der zugrunde liegenden Normalverteilung. Beachten Sie, dass das Histogramm hier in Dichten und nicht in Frequenzen ausgedrückt wird. Dies geschieht zu Darstellungszwecken, im Allgemeinen werden Frequenzen in Histogrammen verwendet.
Um Ihre Frage zu beantworten: Sie verwenden die empirische Verteilung (dh das Histogramm), wenn Sie Ihre Stichprobe beschreiben möchten, und das PDF, wenn Sie die hypothetische zugrunde liegende Verteilung beschreiben möchten.
Der Plot wird durch folgenden Code in R generiert:
x <- rnorm(100)
y <- seq(-4,4,length.out=200)
hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Ein Histogramm ist eine Altersschätzung einer Dichte vor dem Computer. Eine Dichteschätzung ist eine Alternative.
Heutzutage verwenden wir beide und es gibt eine umfangreiche Literatur darüber, welche Standardeinstellungen verwendet werden sollten.
Ein pdf hingegen ist ein Ausdruck in geschlossener Form für eine bestimmte Distribution. Dies unterscheidet sich von der Beschreibung Ihres Datensatzes mit einer geschätzten Dichte oder einem geschätzten Histogramm.
Hier gibt es keine feste Regel. Wenn Sie die Bevölkerungsdichte kennen, ist ein PDF besser. Andererseits beschäftigen wir uns häufig mit Stichproben, und ein Histogramm kann einige Informationen enthalten, die eine geschätzte Dichte überdeckt. Andrew Gelman macht zum Beispiel Folgendes geltend:
Ein Hauptvorteil eines Histogramms besteht darin, dass es als Diagramm der Rohdaten die Keime seiner eigenen Fehlerbewertung enthält. Oder anders ausgedrückt: Die Unregelmäßigkeit eines leicht unterglätteten Histogramms ist nützlich, da die Variabilität der Stichproben visuell angezeigt wird. Wenn Sie sich die Histogramme in meinen Büchern und veröffentlichten Artikeln ansehen, verwende ich deshalb so gut wie immer viele Behälter. Ich mag auch fast nie jene Schätzungen der Kerneldichte, die Menschen manchmal verwenden, um eindimensionale Verteilungen anzuzeigen. Ich möchte lieber das Histogramm sehen und wissen, wo sich die Daten befinden.
Relatives Frequenzhistogramm ( diskret )
Dichtehistogramm ( diskret )
Wahrscheinlichkeitsdichtefunktion PDF ( kontinuierlich )
Diese Verweise waren hilfreich :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
Kontinuierliche_Wahrscheinlichkeitsverteilung von der oben genannten Site
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html