Wie kann man Freiheitsgrade verstehen?


257

Aus Wikipedia gibt es drei Interpretationen der Freiheitsgrade einer Statistik:

In der Statistik ist die Anzahl der Freiheitsgrade die Anzahl der Werte in der endgültigen Berechnung einer Statistik, die frei variieren können .

Schätzungen statistischer Parameter können auf unterschiedlichen Mengen von Informationen oder Daten basieren. Die Anzahl unabhängiger Informationen , die in die Schätzung eines Parameters eingehen, wird als Freiheitsgrade (df) bezeichnet. Im Allgemeinen sind die Freiheitsgrade einer Schätzung eines Parameters gleich der Anzahl der unabhängigen Bewertungen, die in die Schätzung eingehen , abzüglich der Anzahl der Parameter, die als Zwischenschritte bei der Schätzung des Parameters selbst verwendet werden (was bei Stichprobenvarianz gleich ist) eins, da der Mittelwert der Stichprobe der einzige Zwischenschritt ist).

Mathematisch gesehen sind Freiheitsgrade die Dimension der Domäne eines Zufallsvektors oder im Wesentlichen die Anzahl der "freien" Komponenten: Wie viele Komponenten müssen bekannt sein, bevor der Vektor vollständig bestimmt werden kann .

Die kühnen Worte sind das, was ich nicht ganz verstehe. Wenn möglich, helfen einige mathematische Formulierungen, das Konzept zu verdeutlichen.

Stimmen auch die drei Interpretationen überein?


Schauen Sie sich diese Erklärung an
George Dontas

3
Siehe auch diese Frage "Was sind Freiheitsgrade?"
Jeromy Anglim

Antworten:


242

Dies ist eine subtile Frage. Es braucht einen nachdenklichen Menschen , um diese Zitate nicht zu verstehen! Obwohl sie andeutend sind, stellt sich heraus, dass keine von ihnen genau oder allgemein korrekt ist. Ich habe nicht die Zeit (und hier ist kein Platz), um eine vollständige Darstellung zu geben, aber ich möchte einen Ansatz und eine darin enthaltene Einsicht mitteilen.

Wo entsteht das Konzept der Freiheitsgrade (DF)? Die Zusammenhänge, in denen es in elementaren Behandlungen zu finden ist, sind:

  • Der Student-T-Test und seine Varianten wie der Welch- oder Satterthwaite -Test lösen das Behrens-Fisher-Problem (bei dem zwei Populationen unterschiedliche Varianzen aufweisen).

  • Die Chi-Quadrat-Verteilung (definiert als die Summe der Quadrate unabhängiger Standardnormalen), die in die Stichprobenverteilung der Varianz einbezogen wird .

  • Der F-Test (der Verhältnisse der geschätzten Varianzen).

  • Der Chi-Quadrat-Test umfasst seine Verwendungen in (a) Testen der Unabhängigkeit in Kontingenztabellen und (b) Testen der Anpassungsgüte von Verteilungsschätzungen.

Im Geiste reichen diese Tests von der Genauigkeit (Student-T-Test und F-Test für Normalvariablen) bis hin zu guten Annäherungen (Student-T-Test und Welch / Satterthwaite-Test für nicht allzu verzerrte Daten) ) auf asymptotischen Näherungen beruhen (Chi-Quadrat-Test). Ein interessanter Aspekt von einigen von diesen ist das Auftreten von nichtintegralen "Freiheitsgraden" (der Welch / Satterthwaite-Test und, wie wir sehen werden, der Chi-Quadrat-Test). Dies ist von besonderem Interesse , weil es der erste Hinweis ist , dass DF ist nicht eine der Dinge behaupten.

Wir können über einige der Ansprüche in der Frage sofort verfügen. Da die "endgültige Berechnung einer Statistik" nicht genau definiert ist (es hängt anscheinend davon ab, welchen Algorithmus man für die Berechnung verwendet), kann es sich nur um einen vagen Vorschlag handeln und verdient keine weitere Kritik. In ähnlicher Weise sind weder "Anzahl unabhängiger Bewertungen, die in die Schätzung einfließen" noch "Anzahl der als Zwischenschritte verwendeten Parameter" genau definiert.

"Unabhängige Informationen, die in eine Schätzung einfließen", sind schwierig zu behandeln, da es zwei verschiedene, aber eng miteinander verbundene Sinne von "unabhängig" gibt, die hier relevant sein können. Eines ist die Unabhängigkeit von Zufallsvariablen; der andere ist funktionale Unabhängigkeit. Als Beispiel für Letzteres nehmen wir an, dass wir morphometrische Messungen von Subjekten sammeln - beispielsweise der Einfachheit halber die drei Seitenlängen , , , Oberflächen und Volumina von eine Reihe von Holzklötzen. Die drei Seitenlängen können als unabhängige Zufallsvariablen betrachtet werden, aber alle fünf Variablen sind abhängige RVs. Die fünf sind auch abhängig, weil dieY Z ω R 5 f ω g ω f ω ( X ( ψ ) , ... , V ( ψ ) ) = 0 g ω ( X ( ψ ) , ... , V ( ψ ) ) = 0 ψ ω f g ω ( X , S , V )XYZV = X Y Z ( X , Y , Z , S , V ) R 5S=2(XY+YZ+ZX)V=XYZ funktional Codomäne ( nicht die "Domäne"!) der vektorwertigen Zufallsvariablen eine dreidimensionale Mannigfaltigkeit in nachzeichnet . (Somit gibt es lokal an jedem Punkt zwei Funktionen und für die und für Punkte "nahe" und die Ableitungen von und werden mit bewertet(X,Y,Z,S,V)R5ωR5fωgωfω(X(ψ),,V(ψ))=0gω(X(ψ),,V(ψ))=0ψωfgωlinear unabhängig sind) jedoch -. Hier ist der Kicker - für viele Wahrscheinlichkeitsmaße auf den Blöcken, Teilmengen der Variablen wie sind abhängig als Zufallsvariablen aber funktionell unabhängig.(X,S,V)

Nachdem wir über diese potenziellen Unklarheiten informiert wurden, halten wir den Chi-Quadrat-Fit-Test für die Prüfung zurück , weil (a) es einfach ist, (b) es eine der häufigsten Situationen ist, in denen die Leute wirklich etwas über DF wissen müssen, um das zu bekommen p-Wert richtig und (c) es wird oft falsch verwendet. Hier ist eine kurze Zusammenfassung der am wenigsten kontroversen Anwendung dieses Tests:

  • Sie haben eine Sammlung von Datenwerten , die als Stichprobe einer Grundgesamtheit betrachtet werden.(x1,,xn)

  • Sie haben einige Parameter einer Verteilung geschätzt . Zum Beispiel schätzte man den Mittelwert und Standardabweichung einer Normalverteilung hypothesizing, dass die Population normalverteilt ist aber nicht zu wissen (im Vorfeld der Daten zu erhalten) , was oder sein könnte.θ 1 θ 2 = θ p θ 1 θ 2θ1,,θpθ1θ2=θpθ1θ2

  • Im Voraus haben Sie einen Satz von "Fächern" für die Daten erstellt. (Es kann problematisch sein, wenn die Klassen anhand der Daten bestimmt werden, obwohl dies häufig der Fall ist.) Bei Verwendung dieser Klassen werden die Daten auf die Anzahl der Zählungen in jeder Klasse reduziert. Vorweggenommen, was die wahren Werte von könnten, haben Sie es so angeordnet, dass (hoffentlich) jeder Behälter ungefähr die gleiche Zählung erhält. (Binning mit gleicher Wahrscheinlichkeit stellt sicher, dass die Chi-Quadrat-Verteilung wirklich eine gute Annäherung an die wahre Verteilung der Chi-Quadrat-Statistik ist, die beschrieben werden soll.)( θ )k(θ)

  • Sie haben viele Daten - genug, um sicherzustellen, dass fast alle Fächer eine Anzahl von 5 oder mehr haben sollten. (Wir hoffen, dass dadurch die Stichprobenverteilung der Statistik durch eine gewisse Verteilung angemessen approximiert werden kann.)χ 2χ2χ2

Mithilfe der Parameterschätzungen können Sie die erwartete Anzahl in jedem Bin berechnen. Die Chi-Quadrat-Statistik ist die Summe der Verhältnisse

(observedexpected)2expected.

Viele Behörden sagen, dass dies (in sehr enger Annäherung) eine Chi-Quadrat-Verteilung haben sollte. Aber es gibt eine ganze Familie solcher Verteilungen. Sie werden durch einen Parameter oft als "Freiheitsgrade" bezeichnet wird. Die Standardüberlegung zur Bestimmung von sieht so ausννν

Ich habe zählt. Das sind Daten. Aber es gibt ( funktionale ) Beziehungen zwischen ihnen. Zunächst weiß ich im Voraus, dass die Summe der Zählungen gleich muss . Das ist eine Beziehung. Ich habe zwei (oder , allgemein) Parameter aus den Daten geschätzt . Das sind zwei (oder ) zusätzliche Beziehungen, was Gesamtbeziehungen ergibt . Vorausgesetzt, sie (die Parameter) sind alle ( funktional ) unabhängig, so dass nur ( funktional ) unabhängige "Freiheitsgrade" verbleiben : das ist der Wert, der für .k n p p p + 1 k - p - 1 vkknppp+1kp1ν

Das Problem mit dieser Argumentation (die Art der Berechnung, auf die die Zitate in der Frage hinweisen) ist, dass sie falsch ist, es sei denn, es gelten einige spezielle zusätzliche Bedingungen. Darüber hinaus haben diese Bedingungen nichts mit der Unabhängigkeit (funktional oder statistisch), mit der Anzahl der "Komponenten" der Daten, mit der Anzahl der Parameter oder mit irgendetwas anderem zu tun, worauf in der ursprünglichen Frage Bezug genommen wurde.

Lassen Sie mich Ihnen ein Beispiel zeigen. (Um es so klar wie möglich zu machen, verwende ich eine kleine Anzahl von Behältern, aber das ist nicht wesentlich.) Generieren wir 20 unabhängige und identisch verteilte (iid) Standardnormalvariablen und schätzen ihren Mittelwert und ihre Standardabweichung mit den üblichen Formeln ( Mittelwert = Summe / Anzahl usw. ) Um die Passgenauigkeit zu testen, erstellen Sie vier Bins mit Schnittpunkten in den Quartilen einer Standardnormalen: -0,675, 0, +0,657. Verwenden Sie die Bin-Zählwerte, um eine Chi-Quadrat-Statistik zu erstellen. Wiederholen, wenn es die Geduld erlaubt; Ich hatte Zeit für 10.000 Wiederholungen.

Die Standard-Weisheit über DF besagt, dass wir 4 Klassen und 1 + 2 = 3 Bedingungen haben, was bedeutet, dass die Verteilung dieser 10.000 Chi-Quadrat-Statistiken einer Chi-Quadrat-Verteilung mit 1 DF folgen sollte. Hier ist das Histogramm:

Abbildung 1

Die dunkelblaue Linie zeigt die PDF-Datei einer -Verteilung - die, von der wir dachten, dass sie funktionieren würde -, während die dunkelrote Linie die einer -Verteilung darstellt (was gut wäre rate mal, wenn dir jemand sagen würde, dass falsch ist). Weder passt die Daten.2 ( 2 ) ν = 1χ2(1)χ2(2)ν=1

Möglicherweise liegt das Problem an der geringen Größe der Datensätze ( = 20) oder möglicherweise an der geringen Größe der Anzahl der Fächer. Das Problem besteht jedoch auch bei sehr großen Datenmengen und einer größeren Anzahl von Behältern fort: Es ist nicht nur ein Misserfolg, eine asymptotische Annäherung zu erreichen.n

Die Sache lief schief, weil ich zwei Anforderungen des Chi-Quadrat-Tests verletzt habe:

  1. Sie müssen die Maximum-Likelihood- Schätzung der Parameter verwenden. (Diese Anforderung kann in der Praxis leicht verletzt werden.)

  2. Sie müssen diese Schätzung auf die Zählungen stützen , nicht auf die tatsächlichen Daten! (Dies ist entscheidend .)

Figur 2

Das rote Histogramm zeigt die Chi-Quadrat-Statistik für 10.000 separate Iterationen gemäß diesen Anforderungen. Sicher genug, es folgt sichtbar der -Kurve (mit einer akzeptablen Menge an Stichprobenfehlern), wie wir es uns ursprünglich erhofft hatten.χ2(1)

Der Punkt dieses Vergleichs - den Sie hoffentlich schon gesehen haben - ist, dass der richtige DF für die Berechnung der p-Werte von vielen anderen Faktoren abhängt als den Dimensionen der Mannigfaltigkeiten, der Anzahl der funktionalen Beziehungen oder der Geometrie der Normalvariablen . Es gibt eine subtile, heikle Wechselwirkung zwischen bestimmten funktionalen Abhängigkeiten, wie sie in mathematischen Beziehungen zwischen Größen und Verteilungen der Daten, ihrer Statistiken und der daraus gebildeten Schätzer zu finden sind. Dementsprechend kann es nicht der Fall sein, dass DF in Bezug auf die Geometrie multivariater Normalverteilungen oder in Bezug auf funktionale Unabhängigkeit oder als Anzahl von Parametern oder irgendetwas anderem dieser Art angemessen erklärbar ist.

Wir werden also zu dem Schluss gebracht, dass "Freiheitsgrade" lediglich eine Heuristik sind , die vorschlägt, wie die Stichprobenverteilung einer (t-, Chi-Quadrat- oder F-) Statistik sein sollte, aber nicht dispositiv ist. Der Glaube, dass es dispositiv ist, führt zu ungeheuren Fehlern. (Der Top-Hit bei Google bei der Suche nach "Chi-Quadrat-Anpassungsgüte" ist beispielsweise eine Webseite von einer Ivy League-Universität , die das meiste davon völlig falsch macht! Insbesondere eine Simulation auf der Grundlage ihrer Anweisungen zeigt, dass das Chi-Quadrat Wert, den es empfiehlt, da 7 DF tatsächlich 9 DF haben.)

Angesichts dieses differenzierten Verständnisses lohnt es sich, den betreffenden Wikipedia-Artikel erneut zu lesen: In seinen Details macht es die Dinge richtig und zeigt auf, wo die DF-Heuristik tendenziell funktioniert und wo sie entweder eine Annäherung darstellt oder überhaupt nicht zutrifft.


Eine gute Darstellung des hier dargestellten Phänomens (unerwartet hohe DF in Chi-Quadrat-GOF-Tests) findet sich in Band II von Kendall & Stuart, 5. Auflage . Ich bin dankbar für die Gelegenheit, die diese Frage bietet, um mich auf diesen wunderbaren Text zurückzuführen, der voller nützlicher Analysen steckt.


Bearbeiten (Jan 2017)

Hier ist RCode, um die folgende Abbildung zu erstellen: "Die Standard-Weisheit über DF ..."

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
Das ist eine erstaunliche Antwort. Sie gewinnen im Internet dafür.
Adam

6
@caracal: Wie Sie wissen, sind ML-Methoden für die Originaldaten Routine und weit verbreitet: Für die Normalverteilung ist beispielsweise der MLE von der Stichprobenmittelwert und der MLE von die Quadratwurzel der Stichprobenstandardabweichung ( ohne die übliche Bias-Korrektur). Um Schätzungen zu erhalten, die auf Zählungen basieren, habe ich die Wahrscheinlichkeitsfunktion für die Zählungen berechnet. Dazu müssen die Werte der CDF an den Schnittpunkten berechnet, ihre Protokolle erstellt, mit den Zählungen multipliziert und addiert und mithilfe einer generischen Optimierungssoftware optimiert werden. σμσ
whuber

4
@caracal Sie brauchen es wahrscheinlich nicht mehr, aber ein Beispiel für einen RCode für die ML-Anpassung von Binned-Daten wird jetzt in einer verwandten Frage angezeigt : stats.stackexchange.com/a/34894 .
Whuber

1
"Das Problem mit dieser Argumentation (die Art der Berechnung, auf die die Zitate in der Frage hinweisen) ist, dass sie falsch ist, es sei denn, es gelten einige spezielle zusätzliche Bedingungen." Ich bin jetzt (fast) durch zwei Semester einer linearen Modellsequenz und verstehe Freiheitsgrade als den Rang der Matrix in der "Mitte" der quadratischen Form. Was sind diese "zusätzlichen Bedingungen"?
Klarinettist

4
@Clarinetist Der Hauptpunkt meiner Antwort besteht darin, darauf hinzuweisen, dass das, was Ihnen beigebracht wurde, auf einer Verwechslung von zwei Konzepten von DF basiert. Obwohl diese Verwirrung keine Probleme für Standardmodelle der kleinsten Quadrate der Normaltheorie verursacht, führt sie selbst unter einfachen, üblichen Umständen wie der Analyse von Kontingenztabellen zu Fehlern. Dieser Matrixrang gibt den funktionalen DF an. In einem Least-Squares - linearen Modell es passiert den korrekten DF für bestimmte Arten von Tests, wie Tests F zu geben. Für den Chi-Quadrat-Test werden die besonderen Bedingungen später in der Antwort als Punkte (1) und (2) aufgeführt.
Whuber

74

Oder einfach: Die Anzahl der Elemente in einem numerischen Array, die Sie ändern dürfen, damit der Wert der Statistik unverändert bleibt.

# for instance if:
x + y + z = 10

ändern Sie können zum Beispiel x und y zufällig, aber man kann es nicht ändern z (Sie können, aber nicht zufällig, deshalb bist du nicht frei , es zu ändern - siehe Harvey Kommentar), weil Sie den Wert ändern werden der Statistik (Σ = 10). Also, in diesem Fall ist df = 2.


19
Es ist nicht ganz richtig zu sagen "Sie können z nicht ändern". Tatsächlich müssen Sie z ändern, um die Summe gleich 10 zu machen. Sie haben jedoch keine Wahl (keine Freiheit) darüber, in was es sich ändert. Sie können zwei beliebige Werte ändern, jedoch nicht den dritten.
Harvey Motulsky

53

Das Konzept ist mit ein wenig Allgemeinwissen über dimensionale euklidische Geometrie, Teilräume und orthogonale Projektionen überhaupt nicht schwer mathematisch zu präzisieren .n

Wenn eine orthogonale Projektion von zu einem dimensionalen Unterraum und ein beliebiger ist , dann ist in , und sind orthogonal und ist in dem orthogonalen Komplement von . Die Dimension dieses orthogonalen Komplements ist . Wenn frei ist, in einem dimensionalen Raum zu variieren, dann ist frei, in einem zu variierenR n p L x n P x L x - P x P x x - P x L L L n - p x n x - P x n - P x - P x n - pPRnpLxnPxLxPxPxxPxLLLnpxnxPxnp dimensionaler Raum. Aus diesem Grund sagen wir , dass hat Freiheitsgrade .xPxnp

Diese Überlegungen sind für die Statistik wichtig , da wir, wenn ein n- dimensionaler Zufallsvektor und L ein Modell seines Mittelwerts ist, dh der Mittelwertvektor E ( X ) in L ist , X - P X den Vektor der Residuen nennen , und wir verwenden die Residuen, um die Varianz zu schätzen. Der Vektor der Residuen hat n - p Freiheitsgrade, dh er ist auf einen Unterraum der Dimension n - p beschränkt .XnLE(X)LXPXnpnp

Sind die Koordinaten von unabhängig und normalverteilt mit der gleichen Varianz σ 2 dannXσ2

  • Die Vektoren und X - P X sind unabhängig.PXXPX
  • Wenn die Verteilung der Quadratnorm des Vektors der Residuen | | X - P X | | 2 ist eine χ 2 -Verteilung mit dem Skalenparameter σ 2 und einem anderen Parameter, der zufällig die Freiheitsgrade n - p sind .E(X)L||XPX||2χ2σ2np

Die Beweisskizze für diese Tatsachen ist unten angegeben. Die beiden Ergebnisse sind von zentraler Bedeutung für die Weiterentwicklung der statistischen Theorie auf der Grundlage der Normalverteilung. Beachten Sie auch, dass die -Verteilung aus diesem Grund die entsprechende Parametrisierung hat. Es ist auch eine Γ- Verteilung mit Skalenparameter 2 σ 2 und Formparameter ( n - p ) / 2 , aber im obigen Kontext ist es natürlich, hinsichtlich der Freiheitsgrade zu parametrisieren.χ2Γ2σ2(np)/2

Ich muss zugeben, dass ich keinen der aus dem Wikipedia-Artikel zitierten Abschnitte als besonders aufschlussreich empfinde, aber sie sind auch nicht wirklich falsch oder widersprüchlich. Sie sagen ungenau und im Allgemeinen locker, dass wir, wenn wir die Schätzung des Varianzparameters auf der Grundlage von Residuen berechnen, die Berechnung auf einen Vektor stützen, der sich nur in einem Raum der Dimension frei ändern kann - p .np

Über die Theorie der linearen Normalmodelle hinaus kann die Verwendung des Konzepts der Freiheitsgrade verwirrend sein. Beispielsweise wird bei der Parametrisierung der -Verteilung verwendet, ob ein Verweis auf irgendetwas vorliegt, das Freiheitsgrade haben könnte oder nicht. Wenn wir statistische Analysen von kategorialen Daten betrachten, kann es zu Verwirrung darüber kommen, ob die "unabhängigen Teile" vor oder nach einer Tabellierung gezählt werden sollen. Darüber hinaus ist es für Nebenbedingungen, selbst für normale Modelle, die keine Nebenraum-Nebenbedingungen sind, nicht offensichtlich, wie das Konzept der Freiheitsgrade erweitert werden kann. Typischerweise gibt es unter dem Namen effektive Freiheitsgrade verschiedene Vorschläge .χ2

Bevor andere Verwendungen und Bedeutungen von Freiheitsgraden in Betracht gezogen werden, empfehle ich dringend, sich im Kontext linearer Normalmodelle damit vertraut zu machen. Eine Referenz, die sich mit dieser Modellklasse befasst, ist Ein erster Kurs in linearer Modelltheorie , und im Vorwort des Buches finden sich zusätzliche Referenzen zu anderen klassischen Büchern über lineare Modelle.

Beweis der obigen Ergebnisse: Sei , beachte, dass die Varianzmatrix σ 2 I ist und wähle eine orthonormale Basis z 1 , , z p von L und eine orthonormale Basis z p + 1 , , z n von L . Dann ist z 1 , ... , z n eine orthonormale Basis von R n . Sei ˜ Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRnX~bezeichnen die -vector der Koeffizienten von X in dieser Basis, also ~ X i = Z T i X . Dies kann auch als ˜ X = Z T X geschrieben werden, wobei Z die orthogonale Matrix mit den z i in den Spalten ist. Dann müssen wir verwenden, dass ˜ X eine Normalverteilung mit dem Mittelwert Z T ξ und, da Z orthogonal ist, die Varianzmatrix σ 2 I hatnX

X~i=ziTX.
X~=ZTXZziX~ZTξZσ2I. Dies folgt aus allgemeinen linearen Transformationsergebnissen der Normalverteilung. Die Basis wurde so gewählt, daß die Koeffizienten von sind ~ X i für i = 1 , ... , p , und die Koeffizienten von X - P X sind ~ X i für i = p + 1 , ... , n . Da die Koeffizienten unkorreliert und gemeinsam normal sind, sind sie unabhängig, und dies bedeutet , dass P X = p Σ iPXX~ii=1,,pXPXX~ii=p+1,,n und X-PX= n i = p + 1 X izi sind unabhängig. Außerdem | | X-PX| | 2= n i = p + 1 X 2 i . Wenn& xgr;egrLdannE( ~ X i
PX=i=1pX~izi
XPX=i=p+1nX~izi
||XPX||2=i=p+1nX~i2.
ξL für i = p + 1 , , n, weil dann z iL und damit z iξ . In diesem Fall | | X - P X | | 2 ist die Summe von n - p unabhängigen N ( 0 , σ 2 )E(X~i)=ziTξ=0i=p+1,,nziLziξ||XPX||2npN(0,σ2)-verteilte Zufallsvariablen, deren Verteilung per Definition eine -Verteilung mit den Skalenparametern σ 2 und n - p Freiheitsgraden ist.χ2σ2np

NRH, danke! (1) Warum muss innerhalb von L sein ? (2) Warum sind P X und X - P X unabhängig? (3) Wird der dof im zufälligen Variablenkontext aus dem dof in seinem deterministischen Fall definiert? Ist zum Beispiel der Grund für | | X - P X | | 2 hat dof n - p, weil es wahr ist, wenn X eine deterministische Variable anstelle einer Zufallsvariablen ist? (4) Gibt es Verweise (Bücher, Veröffentlichungen oder Links), die Ihrer / Ihrer Meinung entsprechen?E(X)LPXXPX||XPX||2npX
Tim

@Tim, und X - P X sind unabhängig, da sie normal und nicht korreliert sind. PXXPX
mpiktas

@ Tim, ich habe die Antwort ein wenig umformuliert und einen Beweis für die angegebenen Ergebnisse gegeben. Der Mittelwert muss in sein, um das Ergebnis über die χ 2 -Verteilung zu belegen . Es ist eine Modellannahme. In der Literatur sollte man nach linearen Normalmodellen oder nach allgemeinen linearen Modellen suchen, aber im Moment kann ich mich nur an einige alte, unveröffentlichte Vorlesungsunterlagen erinnern. Ich werde sehen, ob ich eine passende Referenz finden kann. Lχ2
NRH

Wunderbare Antwort. Danke für den Einblick. Eine Frage: Ich habe verloren, was Sie mit der Phrase "der mittlere Vektor ist in L " gemeint haben . Können Sie erklären? Versuchen Sie, E zu definieren ? definieren l ? etwas anderes? Vielleicht versucht dieser Satz zu viel oder zu knapp für mich zu sein. Können Sie die Definition von E in dem von Ihnen erwähnten Kontext erläutern : Ist es nur E ( x 1 , x 2 , , x n ) = ( x 1 + x 2 + + x ?EXLELE ? Können Sie erläutern, was L in diesem Zusammenhang ist (von normalen iid-Koordinaten)? Ist es nur L = R ? E(x1,x2,,xn)=(x1+x2++xn)/nLL=R
DW

@DW Das ist der Erwartungsoperator. So E ( X ) ist der Vektor der koordinaten Erwartungen von X . Der Unterraum L ist ein beliebiger p- dimensionaler Unterraum von R n . Es ist ein Raum von n- Vektoren und sicherlich nicht R , aber es kann sehr gut eindimensional sein. Das einfachste Beispiel ist vielleicht, wenn es vom 1- Vektor mit einer 1 bei allen n- Koordinaten aufgespannt wird. Dies ist das Modell aller Koordinaten von X mit dem gleichen Mittelwert, aber es sind viel kompliziertere Modelle möglich. EE(X)XLpRnnR1nX
NRH

30

Es unterscheidet sich wirklich nicht von der Art und Weise, wie der Begriff "Freiheitsgrade" in einem anderen Bereich verwendet wird. Angenommen, Sie haben vier Variablen: die Länge, die Breite, die Fläche und den Umfang eines Rechtecks. Weißt du wirklich vier Dinge? Nein, denn es gibt nur zwei Freiheitsgrade. Wenn Sie die Länge und die Breite kennen, können Sie die Fläche und den Umfang ableiten. Wenn Sie die Länge und die Fläche kennen, können Sie die Breite und den Umfang ableiten. Wenn Sie die Fläche und den Umfang kennen, können Sie die Länge und die Breite (bis zur Drehung) ableiten. Wenn Sie alle vier haben, können Sie entweder sagen, dass das System konsistent ist (alle Variablen stimmen überein) oder inkonsistent (kein Rechteck könnte tatsächlich alle Bedingungen erfüllen). Ein Quadrat ist ein Rechteck ohne Freiheitsgrad.

In der Statistik wird es unscharfer, aber die Idee ist immer noch dieselbe. Wenn alle Daten, die Sie als Eingabe für eine Funktion verwenden, unabhängige Variablen sind, haben Sie so viele Freiheitsgrade wie Eingaben. Aber wenn sie in irgendeiner Weise abhängig sind, so dass Sie, wenn Sie n - k Eingänge hätten, die verbleibenden k herausfinden könnten, dann haben Sie tatsächlich nur n - k Freiheitsgrade. Und manchmal müssen Sie dies berücksichtigen, damit Sie sich nicht davon überzeugen können, dass die Daten zuverlässiger oder prädiktiver sind als sie wirklich sind, indem Sie mehr Datenpunkte zählen, als Sie wirklich unabhängige Datenbits haben.

(Aus einem Beitrag unter http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3 .)

Darüber hinaus versuchen alle drei Definitionen fast, dieselbe Botschaft zu vermitteln.


1
Grundsätzlich richtig, aber ich bin besorgt, dass der mittlere Absatz so gelesen werden könnte, dass Korrelation, Unabhängigkeit (von Zufallsvariablen) und funktionale Unabhängigkeit (von einer Vielzahl von Parametern) verwechselt werden. Die Unterscheidung zwischen Korrelation und Unabhängigkeit ist besonders wichtig.
whuber

@whuber: ist es jetzt gut?
Biostat

3
Es ist richtig, aber die Art und Weise, wie Begriffe verwendet werden, würde wahrscheinlich einige Leute verwirren. Es wird immer noch nicht explizit zwischen der Abhängigkeit von Zufallsvariablen und der funktionalen Abhängigkeit unterschieden. Zum Beispiel sind die beiden Variablen in einer (nicht entarteten) bivariaten Normalverteilung mit einer Korrelation ungleich Null abhängig (als Zufallsvariablen), bieten aber immer noch zwei Freiheitsgrade.
whuber

5
Dies wurde von einem reddit Post, den ich 2009 gemacht habe, kopiert und eingefügt .
Hobbs

2
In unserer Hilfe finden Sie klare Anleitungen zum Nachschlagen von Material, das von anderen verfasst wurde. Ich hoffe, dass das OP auf diesen Beitrag zurückkommt, um geeignete Maßnahmen zu ergreifen und konstruktive Interaktionen zu führen (wir haben ihn jedoch schon eine Weile nicht mehr gesehen).
Chl

19

Ich mag den ersten Satz von The Little Handbook of Statistical Practice wirklich . Kapitel Freiheitsgrade

Eine der Fragen, die ein Lehrer vor einem mathematisch nicht anspruchsvollen Publikum am meisten fürchtet, lautet: "Was genau sind Freiheitsgrade?"

Ich denke, Sie können sich beim Lesen dieses Kapitels ein gutes Bild über Freiheitsgrade machen.


6
Es wäre schön, eine Erklärung dafür zu haben, warum Freiheitsgrade wichtig sind und nicht nur, was sie sind. Wenn Sie zum Beispiel zeigen, dass die Varianzschätzung mit 1 / n verzerrt ist, aber 1 / (n-1) verwendet, erhalten Sie einen unverzerrten Schätzer.
Tristan,

9

Wikipedia behauptet, dass Freiheitsgrade eines zufälligen Vektors als die Dimensionen des Vektor-Unterraums interpretiert werden können. Ich möchte Schritt für Schritt vorgehen, ganz grundsätzlich als Teilantwort und Ausarbeitung des Wikipedia-Eintrags.

[abc]T[111]Tx¯=1/3(a+b+c)[x¯x¯x¯]T1[111]T1degree of freedom(n1)n1degrees of freedomn3R3[x¯x¯x¯]T[abc]T[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0

[x¯x¯x¯]T1σ2((X1X¯)2++(XnX¯)2)χn12

[355080]T55[555555]T55x+55y+55z=DD=9075

55[111]T55R22degrees of freedomR3[555555]T

[555555]T[355080]T[80805][901560]2df55[111]T1df[555555]T


9

In meinem Unterricht benutze ich eine "einfache" Situation, die Ihnen dabei helfen könnte, sich zu wundern und vielleicht ein Bauchgefühl dafür zu entwickeln, was ein Freiheitsgrad bedeuten kann.

Es ist eine Art "Forrest Gump" -Ansatz für das Thema, aber es ist den Versuch wert.

X1,X2,,X10N(μ,σ2)μσ2

μσ2μμμX¯

σ2σ2X1X10

μσ2μμσ2

μX¯μX¯σ2S2σ

μσ2X¯μS2σ2

Aber Sie könnten auf verschiedenen Ebenen falsch liegen, von ein bisschen falsch bis wirklich, wirklich, wirklich miserabel falsch (auch bekannt als "Bye-bye, Gehaltsscheck; bis nächste Woche!").

X¯μS2=2S2=20,000,000σ2σ2X¯ zu variieren.

μσ2μσ2

Wie kannst du es bemerken?

μσ

Und hier ist die lästige Handlung dieser lysergischen Geschichte: Er erzählt es Ihnen, nachdem Sie Ihre Wette platziert haben. Vielleicht, um dich aufzuklären, vielleicht, um dich vorzubereiten, vielleicht, um dich zu verspotten. Wie kannst du das wissen?

μσ2X¯S2μσ2

μX¯(X¯μ)

XiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10)

X¯μσ/10N(0,1)
μσ2

μ(Xiμ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi

(Xiμ)/σN(0,1)μσ2

μσ2

[Ich denke lieber, dass Sie an Letzteres denken.]

Ja da ist!

μXiσ

(Xiμ)2σ2=(Xiμσ)2χ2
Z2ZN(0,1)μσ2

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
X1,,X10). Jede dieser einzelnen Chi-Quadrat-Verteilungen ist ein Beitrag zur Höhe der zufälligen Variabilität, mit der Sie rechnen müssen, bei ungefähr der gleichen Höhe des Beitrags zur Summe.

Der Wert jedes Beitrags ist mathematisch nicht mit den anderen neun identisch, aber alle haben dasselbe erwartete Verteilungsverhalten. In diesem Sinne sind sie irgendwie symmetrisch.

Jedes dieser Chi-Quadrate ist ein Beitrag zur Menge der reinen, zufälligen Variabilität, die Sie in dieser Summe erwarten sollten.

Wenn Sie 100 Beobachtungen hätten, wäre die obige Summe wahrscheinlich größer, nur weil es mehr Quellen für Beiträge gibt .

Jede dieser "Beitragsquellen" mit demselben Verhalten kann als Freiheitsgrad bezeichnet werden .

Machen Sie jetzt einen oder zwei Schritte zurück und lesen Sie die vorherigen Absätze erneut, falls erforderlich, um dem plötzlichen Eintreffen des gewünschten Freiheitsgrades Rechnung zu tragen .

μσ2

Die Sache ist, Sie fangen an, sich auf das Verhalten dieser 10 äquivalenten Variabilitätsquellen zu verlassen. Wenn Sie 100 Beobachtungen hätten, hätten Sie 100 unabhängige Quellen für streng zufällige Schwankungen in Bezug auf diese Summe.

χ102χ12

μσ2

μσ2

Die Dinge werden merkwürdig (Hahahaha; erst jetzt!), Wenn Sie sich gegen Gott auflehnen und versuchen, alleine zurechtzukommen, ohne zu erwarten, dass er Sie bevormunden wird.

X¯S2μσ2

X¯S2μσ2

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,

μ(Xiμ)>0i=110(Xiμ)>0i=110(XiX¯)=0i=110Xi10X¯=10X¯10X¯=0

i=110(XiX¯)2i=110(Xiμ)2

XiX¯S/10
(XiX¯)2S2/10
i=110(XiX¯)2S2/10
X¯μS/10

"War es alles für nichts?"

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.

Der erste Term hat eine Chi-Quadrat-Verteilung mit 10 Freiheitsgraden und der letzte Term eine Chi-Quadrat-Verteilung mit einem Freiheitsgrad (!).

Wir teilen einfach ein Chi-Quadrat mit 10 unabhängigen, sich gleich verhaltenden Variabilitätsquellen in zwei Teile auf, die beide positiv sind: Ein Teil ist ein Chi-Quadrat mit einer Variabilitätsquelle und der andere kann bewiesen werden (Glaubenssprung? Win by WO? ) auch ein Chi-Quadrat mit 9 (= 10-1) unabhängigen, sich gleich verhaltenden Variabilitätsquellen sein, wobei beide Teile voneinander unabhängig sind.

Dies ist bereits eine gute Nachricht, da wir jetzt die Distribution haben.

σ2

S2=1101i=110(XiX¯)2,
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
(101)

t

[^ 1]: @whuber sagte in den Kommentaren unten, dass Gosset nicht rechnete, sondern vermutete ! Ich weiß wirklich nicht, welches Kunststück für diese Zeit überraschender ist.

t(101)X¯μS2X¯

Es geht los. Mit einer Menge technischer Details, die grob hinter den Teppich gekehrt wurden, aber nicht nur von Gottes Eingreifen abhängen, um Ihren gesamten Gehaltsscheck gefährlich zu setzen.


1
1010

Vielen Dank für Ihre Bewertung, @whuber! Es ist erstaunlich, wie viele Tippfehler auftauchen, wenn Sie vergessen haben, was Sie geschrieben haben. Über Ihre Bewertung wollte ich nur eine andere Denkweise veranschaulichen - ein bisschen weniger mathematisch in gewissem Sinne. Außerdem verstehe ich nicht ganz, womit Sie es gemeint haben. Wenn Sie stattdessen 10 unabhängige Normalvariablen und nicht 10 unabhängige Chi-Quadrat-Variablen summiert hätten, hätten Sie am Ende - eine normale Variante - das, was ich für Ihren Schlüsselpunkt gehalten habe . Ich werde versuchen, darauf näher einzugehen, in der Hoffnung, den Beitrag zu verbessern.
Marcelo Ventura

2

Eine intuitive Erklärung für Freiheitsgrade ist, dass sie die Anzahl unabhängiger Informationen darstellen, die in den Daten zur Schätzung eines interessierenden Parameters (dh einer unbekannten Größe) verfügbar sind .

Als Beispiel in einem einfachen linearen Regressionsmodell der Form:

Yi=β0+β1Xi+ϵi,i=1,,n

ϵiσβ0β1nn2n2σ


Vielen Dank für Ihre Bearbeitung meiner Antwort, @COOLSerdash!
Isabella Ghement

2

nX1,,Xni=1n(XiX¯n)2Xn12X¯n=1ni=1nXin1(X¯n=1ni=1nXi)

Weitere Informationen finden Sie hier


0

Für mich war die erste Erklärung, die ich verstand:

Wenn Sie einen statistischen Wert wie Mittelwert oder Variation kennen, wie viele Datenvariablen müssen Sie kennen, bevor Sie den Wert jeder Variablen kennen können?

Dies ist das Gleiche wie bei aL3xa, jedoch ohne dass einem Datenpunkt eine besondere Rolle zukommt und in der Nähe des in der Antwort angegebenen dritten Falls. Auf diese Weise wäre das gleiche Beispiel:

Wenn Sie den Mittelwert von Daten kennen, müssen Sie die Werte für alle außer einem Datenpunkt kennen, um den Wert für alle Datenpunkte zu kennen.


Variablen -> Beobachtungen
Richard Hardy

0

xyVx,y=Vx+VyVx=SDx2Vx,ySDx,y=SDx2+SDy2SDx=i=1n(xix¯)2n1n=1x1x¯=0i=1n(xix¯)2n100xn=2x1x2x¯=x1+x22x¯x1x2nx¯nn1

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.