Was ist der Unterschied zwischen Standardisierung und Studentisierung?

21

Ist es so, dass die Varianz in der Standardisierung bekannt ist, während sie in der Studentisierung nicht bekannt ist und daher geschätzt wird? Vielen Dank.

standardization

— 58485362
quelle

2

Möglicherweise möchten Sie den Kontext Ihrer Frage klären. Welche Art von Standardisierung, welche Art von Studentisierung? Wofür werden diese Werte verwendet?

— russellpierce

3

Wenn Sie nach Residuen fragen , ist die Terminologie nicht (ahem) standardisiert . Verschiedene Autoren verwenden unterschiedliche Namen für dasselbe und gelegentlich - und leider am verwirrendsten - denselben Namen für unterschiedliche Dinge. Es gibt, was ich (i) skalierte Residuen nenne ( , von einigen Autoren standardisierte Residuen genannt); (ii) intern studentisierte Residuen ( von einigen Autoren / Paketen als standardisiert , von anderen als studentisiert bezeichnet ); (iii) extern studentisierte / studentisierte gelöschte Residuen

(y - {\hat{y}}_{i}) / s

$(y-\hat{y}_i)/s$

— Glen_b -Reinstate Monica

20

Eine kurze Zusammenfassung. Bei einem Modell , wobei ist , und , wobei die " " ist. Residuen sind Die Populationsvarianz ist unbekannt und kann durch , den mittleren quadratischen Fehler , geschätzt werden . $y=X\beta+\varepsilon$ $X$ $n\times p$ $\hat\beta=(X'X)^{-1}X'y$ $\hat y=X\hat\beta=X(X'X)^{-1}X'y=Hy$ $H=X(X'X)^{-1}X'$

e = y - \hat{y} = y - H y = (I - H) y

$e=y-\hat y=y-Hy=(I-H)y$

σ^{2}

$\sigma^2$

M S E

$MSE$

Semistudentisierte Residuen sind definiert als aber da die Varianz der Residuen sowohl von als auch von abhängt , ist ihre geschätzte Varianz: wobei das te diagonale Element der ist .

e_{i}^{*} = \frac{e_{i}}{\sqrt{M S E}}

$e_i^*=\frac{e_i}{\sqrt{MSE}}$

σ^{2}

$\sigma^2$

X

$X$

\hat{V} (e_{i}) = M S E (1 - h_{i i})

$\widehat V(e_i)=MSE(1-h_{ii})$

h_{i i}

$h_{ii}$

i

$i$

Standardisierte Residuen, auch intern studentisierte Residuen genannt , sind:

r_{i} = \frac{e_{i}}{\sqrt{M S E (1 - h_{i i})}}

$r_i=\frac{e_i}{\sqrt{MSE(1-h_{ii})}}$

Die einzelnen und sind jedoch nicht unabhängig, sodass keine Verteilung haben kann. Die Prozedur besteht dann darin, die te Beobachtung zu löschen , die Regressionsfunktion an die verbleibenden Beobachtungen anzupassen und neue , die mit . Der Unterschied: heißt gelöschtes Residuum . Ein äquivalenter Ausdruck, der keine Neuberechnung erfordert, lautet: Bezeichnet das neue und mit und $e_i$ $MSE$ $r_i$ $t$ $i$ $n-1$ $\hat y$ $\hat y_{i(i)}$

d_{i} = y_{i} - {\hat{y}}_{i (i)}

$d_i=y_i-\hat y_{i(i)}$

d_{i} = \frac{e_{i}}{1 - h_{i i}}

$d_i=\frac{e_i}{1-h_{ii}}$

X

$X$

M S E

$MSE$

X_{(i)}

$X_{(i)}$

M S E_{(i)}

$MSE_{(i)}$ , da sie nicht von der ten Beobachtung abhängen , erhalten wir: Die werden studentisierte (gelöschte) Residuen oder extern genannt studentisierte Residuen .

i

$i$

t_{i} = \frac{d_{i}}{\sqrt{\frac{M S E_{(i)}}{1 - h_{i i}}}} = \frac{e_{i}}{\sqrt{M S E_{(i)} (1 - h_{i i})}} \sim t_{n - p - 1}

$t_i=\frac{d_i}{\sqrt{\frac{MSE_{(i)}}{1-h_{ii}}}} =\frac{e_i}{\sqrt{MSE_{(i)}(1-h_{ii})}}\sim t_{n-p-1}$

t_{i}

$t_i$

Siehe Kutner et al., Angewandte lineare statistische Modelle , Kapitel 10.

Edit: Ich muss sagen, dass die Antwort von rpierce perfekt ist. Ich dachte, dass es beim OP um standardisierte und studentisierte Residuen ging (und die Division durch die Populationsstandardabweichung, um standardisierte Residuen zu erhalten, erschien mir natürlich seltsam), aber ich lag falsch. Ich hoffe, dass meine Antwort jemandem helfen kann, auch wenn OT.

— Sergio
quelle

2

... und diese Antwort ist richtig, wenn studentisierte Residuen aus einer Regressionsgleichung definiert werden. Es gibt keine Definition eines entsprechenden standardisierten Residuums. Der Regressionsrahmen scheint auf die gestellte Frage nicht zuzutreffen. Dies ist jedoch immer noch ein wertvoller Beitrag. +1

— russellpierce

2

@rpierce, du hast recht: sobald ich "studentization" lese, lese ich auch "residuals", aber sie waren nur in meinem Kopf ;-) Entschuldigung. Ich habe mein Versehen erst nach dem letzten Klick bemerkt.

— Sergio

9

In den Sozialwissenschaften wird typischerweise gesagt, dass studentisierte Scores die Student / Gosset-Berechnung zur Schätzung der Populationsvarianz / Standardabweichung von der Stichprobenvarianz / Standardabweichung ( ) verwenden. Im Gegensatz dazu wird für standardisierte Scores (ein Substantiv, ein bestimmter Statistiktyp, der Z-Score) die Populationsstandardabweichung ( ) verwendet. $s$ $\sigma$

Es scheint jedoch, dass es einige terminologische Unterschiede zwischen den Feldern gibt (siehe die Kommentare zu dieser Antwort). Daher sollte man bei diesen Unterscheidungen mit Vorsicht vorgehen. Darüber hinaus werden studentisierte Scores selten als solche bezeichnet, und im Kontext der Regression sieht man typischerweise studentisierte Werte. @Sergio gibt in seiner Antwort Einzelheiten zu diesen Arten von studentisierten gelöschten Residuen an.

— russellpierce
quelle

2

Wikipedia fügt hinzu: "Der Begriff wird auch für die Standardisierung einer Statistik höheren Grades durch eine andere Statistik gleichen Grades verwendet: Beispielsweise würde eine Schätzung des dritten zentralen Moments durch Division durch den Würfel der Standardabweichung der Stichprobe standardisiert. "

— Nick Stauner

2

Ich denke, es wäre sicherer zu sagen, dass Studentisierung die Form der Standardisierung ist, die verfügbar ist, wenn die Populationsvarianz unbekannt ist. Dies erfolgt eher in Form einer technischen, terminologischen Unterscheidung als in Form einer irreführenden Aussage über den allgemeineren, weit verbreiteten Begriff.

— Nick Stauner

2

@whuber: Der Kontext der Frage war grundlegend, also gab ich eine grundlegende Antwort. Standardwerte (Z) werden in einleitenden Statistiken berechnet und mit . Manchmal haben Sie tatsächlich die Populationsstandardabweichung (z. B. eine nicht fehlende Datenerhebung von 10 Personen).

σ

$\sigma$

— Russellpierce

2

@Nick Das klingt nach einer guten Lösung, da verschiedene Behörden "Standardisierung" allgemein verwenden, aber keine (AFAIK) jemals "studentize" in einem so weiten Sinne verwendet.

— whuber

2

@rpierce Das zweite Buch (Freedman, Pisani und Purves) ist seit ungefähr 40 Jahren in fünf (weitgehend unveränderten) Ausgaben erschienen und wurde als Text für den Intro-Statistik-Kurs von UC Berkeley eingeführt. Es deckt nahezu alle denkbaren Bereiche ab, nicht nur die öffentliche Gesundheit. Andererseits besteht eine seiner Stärken darin, kleine, bedeutungslose oder übermäßig technische Unterschiede nicht hervorzuheben. Obwohl dies ein guter Leitfaden für die Statistik im Allgemeinen ist, kann man sich nicht auf ihn verlassen, um arkane Angelegenheiten zu regeln.

— whuber

3

Ich beantworte diese Frage sehr spät !! Aber konnte die Antwort nicht in sehr einfacher Sprache finden, so bescheidener Versuch, dies zu beantworten.

Warum machen wir Standardisierung? Stellen Sie sich vor, Sie haben zwei Modelle - eines prognostiziert Verrücktheit anhand des Zeitaufwands für das Studium von Statistiken, während das andere Protokoll (Verrücktheit) anhand des Zeitaufwands für Statistiken prognostiziert.

Es ist schwer zu verstehen, dass die Residuen beide in unterschiedlichen Einheiten vorliegen. Also standardisieren wir sie. (Ähnliche Theorie wie Z-Score)

Standardisierte Residuen: - Wenn Residuen durch eine Schätzung der Standardabweichung geteilt werden. Wenn der absolute Wert> 3 ist, besteht im Allgemeinen Grund zur Sorge.

Wir verwenden dies, um Ausreißer im Modell zu untersuchen.

Studentized Residual: Wir verwenden dies, um die Stabilität des Modells zu untersuchen.

Der Prozess ist einfach. Wir entfernen einzelne Testfälle aus dem Modell und ermitteln den neuen vorhergesagten Wert. Die Differenz zwischen dem neuen Wert und dem ursprünglich beobachteten Wert kann durch Teilen des Standardfehlers standardisiert werden. Dieser Wert ist Studentized Residual

Weitere Informationen zum Erkennen der Statik mit R - http://www.statisticshell.com/html/dsur.html

— NBhoyar
quelle

1

Wikipedia hat einen guten Überblick unter https://en.wikipedia.org/wiki/Normalization_(statistics) :

Standard Score : Normalisierungsfehler, wenn Populationsparameter bekannt sind. Funktioniert gut für Populationen, die normalerweise verteilt sind $\frac{X - \mu}{\sigma}$

T-Statistik des Schülers : Normalisierung von Residuen, wenn Populationsparameter unbekannt sind (geschätzt). $\frac{X - \overline{X}}{s}$

— asmaier
quelle