Dies ist eine Geschichte über Freiheitsgrade und statistische Parameter und warum es schön ist, dass die beiden eine direkte einfache Verbindung haben.
Historisch gesehen tauchten die " " -Begriffe in Eulers Studien zur Beta-Funktion auf. Er benutzte diese Parametrisierung bis 1763 und Adrien-Marie Legendre auch: Ihre Verwendung begründete die nachfolgende mathematische Konvention. Diese Arbeit datiert alle bekannten statistischen Anwendungen vor.- 1−1
Die moderne mathematische Theorie liefert durch die Fülle von Anwendungen in der Analyse, der Zahlentheorie und der Geometrie zahlreiche Hinweise darauf, dass die " " -Terme tatsächlich eine Bedeutung haben. Einige dieser Gründe habe ich in den Kommentaren zur Frage skizziert.- 1−1
Interessanter ist, was die "richtige" statistische Parametrisierung sein sollte. Das ist nicht ganz so klar und muss auch nicht mit der mathematischen Konvention übereinstimmen. Es gibt ein riesiges Netz häufig verwendeter, bekannter, miteinander verbundener Familien von Wahrscheinlichkeitsverteilungen. Daher implizieren die Konventionen, die zum Benennen (dh Parametrisieren) einer Familie verwendet werden, normalerweise verwandte Konventionen zum Benennen verwandter Familien. Ändern Sie eine Parametrierung und Sie möchten sie alle ändern. Wir könnten diese Beziehungen daher auf Hinweise untersuchen.
Nur wenige Menschen stimmen nicht darin überein, dass die wichtigsten Verbreitungsfamilien aus der Familie Normal stammen. Es sei daran erinnert, dass eine Zufallsvariable als "normalverteilt" bezeichnet wird, wenn eine Wahrscheinlichkeitsdichte proportional zu . Bei und soll eine Standardnormalverteilung haben .X ( X - μ ) / σ f ( x ) exp ( - x 2 / 2 ) σ = 1 μ = 0 XX(X−μ)/σf(x)exp(−x2/2)σ=1μ=0X
Viele Datensätze werden mit relativ einfachen Statistiken untersucht, bei denen rationale Kombinationen der Daten und niedrige Potenzen (typischerweise Quadrate) verwendet werden. Wenn diese Daten als Zufallsstichproben aus einer Normalverteilung modelliert werden - so dass jedes als Realisierung einer Normalvariablen , haben alle eine gemeinsame Verteilung und sind unabhängig -, werden die Verteilungen dieser Statistiken durch bestimmt die Normalverteilung. Die in der Praxis am häufigsten auftretenden sindx 1 , x 2 , … , x n x i X i X ix1,x2,…,xnxiXiXi
t ν t ν = n - 1 t = ˉ Xtν , die Student- Verteilungt mit "Freiheitsgraden". Dies ist die Verteilung der Statistik wobei den Mittelwert der Daten und modelliert ist der Standardfehler des Mittelwerts. Die Division durch zeigt , dass muß oder größer ist , wo eine ganze Zahl istν=n−1se ( X ) ˉ X =(X1+X2+⋯+Xn)/nse(X)=(1/√
t=X¯se(X)
X¯=(X1+X2+⋯+Xn)/nn ) √( X 2 1 + X 2 2 + ⋯ + X 2 n ) / ( n - 1 ) - ˉ X 2 n-1n2ν1se(X)=(1/n−−√)(X21+X22+⋯+X2n)/(n−1)−X¯2−−−−−−−−−−−−−−−−−−−−−−−−−−−−√n−1n2ν1oder größer. Die scheinbar etwas komplizierte Formel ist die Quadratwurzel einer rationalen Funktion der Daten zweiten Grades: Sie ist relativ einfach.
χ 2 ν χ 2 ν ν χ 2 1 / ν χ 2χ2ν , die (Chi-Quadrat) -Verteilungχ2 mit "Freiheitsgraden" (df). Dies ist die Verteilung der Quadratsumme von unabhängigen Standard-Normalvariablen. Die Verteilung des Mittelwerts der Quadrate dieser Variablen wird daher eine Verteilung sein, die mit skaliert ist : Ich werde dies als eine "normalisierte" Verteilung bezeichnen.ννχ21/νχ2
F ν 1 , ν 2 F ( ν 1 , ν 2 ) χ 2 ν 1 ν 2Fν1,ν2 , die Verhältnisverteilung mit ParameternF(ν1,ν2) ist das Verhältnis zweier unabhängiger normalisierter Verteilungen mit Freiheitsgraden und .χ2ν1ν2
Mathematische Berechnungen zeigen, dass alle drei Verteilungen Dichten haben. Wichtig ist, dass die Dichte der Verteilung proportional zum Integranden in Eulers integraler Definition der Gamma ( ) -Funktion ist. Vergleichen wir sie:χ 2 ν Γχ2νΓ
f ≤ 2 ν ( 2 x ) ≤ x ν / 2 - 1 e - x ;f Γ ( ν ) ( x ) ∝ x ν - 1 e - x .
fχ2ν(2x)∝xν/2−1e−x;fΓ(ν)(x)∝xν−1e−x.
Dies zeigt, dass zweimal eine Variable eine Gamma-Verteilung mit dem Parameter . Der Faktor der Hälfte ist lästig genug, aber subtrahieren würde die Beziehung viel schlimmer machen. Dies liefert bereits eine überzeugende Antwort auf die Frage: Wenn der Parameter einer Verteilung die Anzahl der quadrierten Normalvariablen zählen soll, die sie erzeugen (bis zu einem Faktor von ), dann der Exponent in seiner Dichte Funktion muss eine weniger als die Hälfte dieser Anzahl sein. χ 2 & ngr; & ngr; / 2 1 χ 2 1 / 2χ2νν/21χ21/2
Warum ist der Faktor weniger störend als eine Differenz von ? Der Grund ist, dass der Faktor konsistent bleibt, wenn wir Dinge addieren. Wenn die Summe der Quadrate von unabhängigen Standardnormalen proportional zu einer Gammaverteilung mit dem Parameter (mal einem Faktor) ist, dann ist die Summe der Quadrate von unabhängigen Standardnormalen proportional zu einer Gammaverteilung mit dem Parameter (mal dem gleichen Faktor). Daher ist die Summe der Quadrate aller Variablen proportional zu einer Gamma-Verteilung mit dem Parameter (immer noch der gleiche Faktor). 1 / 2 1 n n m m n + m m + n1/21nnmmn+mm+nDie Tatsache, dass das Hinzufügen der Parameter das Hinzufügen der Zählungen so genau nachahmt, ist sehr hilfreich.
Wenn wir jedoch dieses nervige " " aus den mathematischen Formeln entfernen würden, würden diese netten Beziehungen komplizierter. Wenn wir beispielsweise die Parametrisierung der Gamma-Verteilungen so ändern, dass sie sich auf die tatsächliche Potenz von in der Formel bezieht , wird eine Verteilung mit einer "Gamma " -Verteilung in Beziehung gesetzt (seit der Potenz von in) sein PDF ist ), dann müsste die Summe von drei Verteilungen als "Gamma " -Verteilung bezeichnet werden. Kurz gesagt, die enge additive Beziehung zwischen Freiheitsgraden und dem Parameter in Gammaverteilungen würde durch Entfernen von verloren gehen- 1 x ≤ 2 1 ( 0 ) x 1 - 1 = 0 ≤ 2 1 ( 2 ) - 1−1xχ21(0)x1−1=0χ21(2)−1 aus der Formel und absorbiert es in den Parameter.
In ähnlicher Weise ist die Wahrscheinlichkeitsfunktion einer Verhältnis-Verteilung eng mit Beta-Verteilungen verwandt. In der Tat hat, wenn eine Verhältnisverteilung hat, die Verteilung von eine Beta- Verteilung . Seine Dichtefunktion ist proportional zuF Y F Z = ν 1 Y / ( ν 1 Y + ν 2 ) ( ν 1 / 2 , ν 2 / 2 )FYFZ=ν1Y/(ν1Y+ν2)(ν1/2,ν2/2)
f Z ( z ) α z ν 1 / 2 - 1 ( 1 - z ) ν 2 / 2 - 1 .
fZ(z)∝zν1/2−1(1−z)ν2/2−1.
Außerdem hat das Quadrat einer Student- Verteilung mit df eine Verhältnisverteilung mit Parametern . Einmal mehr zeigt sich, dass die Beibehaltung der konventionellen Parametrisierung eine klare Beziehung zu den zugrunde liegenden Zählwerten aufrechterhält , die zu den Freiheitsgraden beitragen.t ν F ( 1 , ν )tνF(1,ν)
Aus statistischer Sicht wäre es daher am natürlichsten und einfachsten, eine Variation der herkömmlichen mathematischen Parametrisierungen von und Beta - Verteilungen zu verwenden: Wir sollten es vorziehen, eine Verteilung als -Verteilung "und die Beta -Verteilung sollten als" Beta -Verteilung "bezeichnet werden. Tatsächlich haben wir das bereits getan: Genau deshalb verwenden wir weiterhin die Bezeichnungen "Chi-Quadrat" und " Verhältnis" anstelle von "Gamma" und "Beta". Unabhängig davon möchten wir auf keinen Fall das " " entfernenΓ Γ ( α ) Γ ( 2 α ) ( α , β ) ( 2 α , 2 β ) F - 1ΓΓ(α)Γ(2α)(α,β)(2α,2β)F−1"Ausdrücke, die in den mathematischen Formeln für ihre Dichten erscheinen. Wenn wir das tun, würden wir die direkte Verbindung zwischen den Parametern in den Dichten und den Datenzahlen, mit denen sie verknüpft sind , verlieren : Wir wären immer um eins versetzt.