Bedeutet die Bestimmung des Mittelwerts und der SD den Verlust von einem oder zwei Freiheitsgraden?


7

Ich habe einige Zweifel daran, wie Freiheitsgrade in Verteilungen berücksichtigt werden.

Insbesondere beziehen wir uns auf die Variable Studentt

(1)t=xx¯s^=xx¯(xix¯)2N1

Wo eine Gaußsche Variable ist, ist der Mittelwert, ist , die Standardabweichung von den Daten.xx¯s^=(xix¯)2N1

Die Schülerwahrscheinlichkeitsdichtefunktion ist

(2)f(t)=C(1+t2ν)ν+12

Und in meinem Lehrbuch finde ich ν=N1 "weil in (1) der aus Daten berechnete Mittelwert x¯ erscheint, der den Verlust eines Freiheitsgrades impliziert".

Frage: Sollte es nicht ν=N2 ? In (1) ich sowohl s^ als auch x¯ so dass zwei Parameter aus Daten bestimmt werden.

Andererseits erscheint in der zweiten Form, die ich in (1) , s^ nicht, so dass möglicherweise nur x¯ als Einschränkung für Daten betrachtet werden sollte. Das macht aber nicht viel Sinn.

In diesen Fällen, in denen sowohl der Mittelwert als auch die Standardabweichung aus den Daten bestimmt werden, gehen dann die Freiheitsgrade 2 oder nur 1 verloren?

Dies ist eine Art allgemeinerer Zweifel: Wenn mehr als ein Parameter aus Daten bestimmt wird, diese Parameter jedoch in gewisser Weise zusammenhängen (wie bei x¯ und s^ ), wie viele Freiheitsgrade gehen verloren, wenn alle diese Parameter berücksichtigt werden?

ich bestimme Parameter aus demselben Datensatz. Alle Parameter können als Funktionen von Daten und ausgedrückt werden . Jetzt betrachte ich alle Parameter zusammen: Wie viele Freiheitsgrade habe ich verloren? oder nur ?qp1,p2,...,pqp2,...,pqp1q1


Wenn Sie geschätzt haben, dass Sie bereits einen df verloren haben, ist dieser möglicherweise darin eingebettet, und wenn Sie s ^ verwenden, müssen Sie ihn nicht erneut berücksichtigen?
EBH

Sie haben Recht: Das macht nicht viel Sinn. Deshalb wird ein solcher Ausdruck für niemals verwendet! In der Praxis vergleichen wir den Mittelwert der Daten mit einer anderen Statistik oder einer Zahl, aber wir verwenden , um die einzelnen mit ihrem Mittelwert zu vergleichen . Ich bin zuversichtlich, dass sich der Ausdruck in Ihrem Lehrbuch von dem unterscheidet, was Sie hier zitieren. tx¯x1,,xntxi
whuber

Antworten:


1

Die T-Verteilung ist definiert als die Verteilung des Verhältnisses einer normalen Standard-Zufallsvariablen und einer unabhängigen skalierten Chi-Zufallsvariablen. Sein Freiheitsgradparameter entspricht dem Freiheitsgradparameter für die Chi-Zufallsvariable in ihrem Nenner . Mit dem DF-Parameter müssen also die Freiheitsgrade des von Ihnen verwendeten Varianzschätzers bestimmt werden.

Denken Sie daran: Die T-Verteilung entsteht nur, wenn Sie das Verhältnis einer normalen Zufallsvariablen und eines Nenners nehmen, der eine Art Standardabweichungsschätzer ist (Quadratwurzel eines Varianzschätzers). Dies setzt voraus, dass das Bild bereits einen Varianzschätzer enthält. Der Verlust von Freiheitsgraden ergibt sich dann aus der mittleren Schätzung (oder im Kontext der Regression aus Schätzungen mehrerer Koeffizienten).


Es ist möglich, Mengen zu bilden, die der von Ihnen gezeigten ähnlich sind, und ihre Verteilungen zu finden. Angenommen, wir haben und bilden einen standardisierten Wert. Wenn wir annehmen, dass ist, aber unbekannt ist, würden wir standardisieren, indem wir die T-Statistik definieren:X1,...,XnIID N(μ,σ2)μσ

TμXiμSμ=Xiμσ/SμσT(n),

wobei der Stichprobenvarianzschätzer mit bekanntem . Die Größe ist eine skalierte Chi-Zufallsvariable mit Freiheitsgraden, daher hat die Statistik eine T-Verteilung mit Freiheitsgraden. Dies ist ein Basisfall, in dem keine Freiheitsgrade verloren gegangen sind, obwohl wir die Varianz geschätzt haben.Sμ21ni=1n(Xiμ)2μSμ/σnTμn

In dem Fall, in dem ebenfalls unbekannt ist, würden wir den bekannten Mittelwert im Varianzschätzer durch den Stichprobenmittelwert ersetzen, den wir haben:μμx¯

TXiμS=Xiμσ/SσT(n1),

wobei der Stichprobenvarianzschätzer mit unbekanntem . Die Größe ist eine skalierte Chi-Zufallsvariable mit Freiheitsgraden, daher hat die Statistik eine T-Verteilung mit Freiheitsgraden. Wir haben einen Freiheitsgrad verloren, weil wir den Mittelwert innerhalb des Varianzschätzers geschätzt haben .S21n1i=1n(Xix¯)2μS/σn1Tn1


Hoffentlich hilft Ihnen dies beim Verständnis dieses Problems. Das Konzept der Freiheitsgrade im Kontext der Diskussion über die T-Verteilung setzt voraus, dass bereits ein Varianzschätzer für die Studentisierung verwendet wird. Das Schätzen des mittleren Parameters (oder der Koeffizientenparameter in einer Regression) ändert diesen Varianzschätzer, indem er weniger variabel gemacht wird, und dies führt zu einem Verlust an Freiheitsgraden.


0

Betrachten wir ein Beispiel, um Freiheitsgrade zu verstehen:

Stellen Sie sich vor, wir haben 5 Beobachtungen . Wenn ich Ihnen den Mittelwert dieses Datensatzes ( ), aber nicht die Werte der Beobachtungen selbst sage , können Sie vier Werte bilden, ohne den Mittelwert zu ändern. Wenn Sie als Ihre ersten vier Beobachtungen auswählen, muss die letzte zu wählende Zahl wenn der Mittelwert auf . Wenn wir uns nur um den Mittelwert kümmern, dann haben wir eine Gleichung und eine unbekannte.(1,2,1,3,5)2.4(3,4,3,5)32.4

Wenn Sie Beobachtungen mit einem festen Mittelwert haben, haben Sie die Freiheit, beliebige Zahlen auszuwählen, ohne den Mittelwert zu ändern - aber die Beobachtung wird bestimmt. Beachten Sie jedoch, dass ich den Wert von im obigen Absatz willkürlich gewählt habe, damit ich etwas anderes hätte wählen können. Daher habe ich Freiheitsgrade von den Daten und Freiheitsgrad, weil ich den Mittelwert ausgewählt habe, also habe ich Freiheitsgrade, wenn ich 1 Parameter schätze.nn1nth2.4n11n

Angenommen, ich sage Ihnen den Mittelwert und die Standardabweichung: Für dieselbe Stichprobe von beträgt der Mittelwert und die Standardabweichung . Jetzt kann ich drei der fünf Zahlen auswählen und die letzten beiden werden bestimmt (zwei Gleichungen, zwei Unbekannte). Die Parameter unterscheiden sich jedoch geringfügig, da die Standardabweichung der Stichprobe eine Funktion des Stichprobenmittelwerts ist - sie sind nicht unabhängig voneinander. Dies bedeutet, dass ich Freiheitsgrade von den Daten habe, aber immer noch nur Freiheitsgrad von den Parametern, für insgesamt Freiheitsgrade.(1,2,1,3,5)2.41.673n21n1

Weitere Informationen finden Sie in dieser Stapelaustauschfrage .


1
Sie waren auf dem richtigen Weg, aber die Kommentare am Ende sind falsch. Die Proben-SD ist keine Funktion des Probenmittelwerts (außer bei Proben von 1). Die Bemerkungen zu Parametern scheinen aus dem Nichts zu kommen, verwechseln implizit zwei Konzepte von "unabhängig" (statistisch und funktional) und haben keinen klaren Einfluss auf die Frage nach den Stichprobenverteilungen von Statistiken. Die Antworten auf die Frage auf der Mathe-Website sind eingeschränkt und einfallslos. Die Wahrheit ist weitaus komplexer und interessanter: Siehe unseren Thread zu diesem Thema unter stats.stackexchange.com/questions/16921 .
whuber

1
Normalerweise verwende ich dieses Beispiel, um meine Erstsemester zu unterrichten, aber es scheitert offensichtlich unter strengen Kontrollen. Ich dachte, es wäre angesichts des Niveaus der Frage angemessen, aber es scheint, dass ich falsch lag. Ich weiß nicht, wie ich Freiheitsgrade technisch diskutieren soll, ohne über den Rang der Hat-Matrix zu sprechen. Vielen Dank für den Link und das Feedback. Ich werde das überprüfen.
Gabriel J. Odom

@whuber, danke für diesen Thread. Ich habe einen Doktortitel in Statistik und wusste nicht die Hälfte von dem, was Sie erwähnt haben. Ich fühle mich jetzt wie ein Vollidiot.
Gabriel J. Odom

Sie müssen sich nicht so fühlen! Der Grund, warum viele von uns hier rumhängen, ist, dass wir oft Beiträge lesen, die zeigen, wie wenig wir wissen (oder noch besser, wie das, was wir zu wissen glaubten, nicht so ist), weil wir so viel von ihnen lernen. Die mutigeren (oder dümmeren) wie ich lernen noch mehr, indem sie es wagen, häufig zu antworten und zu kommentieren, wo unsere Fehler für alle sichtbar werden. (Ich habe meinen letzten wirklich dummen Kommentar erst vor fünf Minuten gemacht ...)
whuber

Vielen Dank für die Ermutigung Professor @whuber. Ich weiß es wirklich zu schätzen :)
Gabriel J. Odom
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.