Ist es so, dass die Varianz in der Standardisierung bekannt ist, während sie in der Studentisierung nicht bekannt ist und daher geschätzt wird? Vielen Dank.
Ist es so, dass die Varianz in der Standardisierung bekannt ist, während sie in der Studentisierung nicht bekannt ist und daher geschätzt wird? Vielen Dank.
Antworten:
Eine kurze Zusammenfassung. Bei einem Modell , wobei ist , und , wobei die " " ist. Residuen sind Die Populationsvarianz ist unbekannt und kann durch , den mittleren quadratischen Fehler , geschätzt werden .X n × p β = ( X ' X ) - 1 X ' y y = X β = X ( X ' X ) - 1 X ' Y = H y H = X ( X ' X ) - 1 X ' e = y -σ2MSE
Semistudentisierte Residuen sind definiert als aber da die Varianz der Residuen sowohl von als auch von abhängt , ist ihre geschätzte Varianz: wobei das te diagonale Element der ist . σ2XV(ei)=MSE(1-hii)hiii
Standardisierte Residuen, auch intern studentisierte Residuen genannt , sind:
Die einzelnen und sind jedoch nicht unabhängig, sodass keine Verteilung haben kann. Die Prozedur besteht dann darin, die te Beobachtung zu löschen , die Regressionsfunktion an die verbleibenden Beobachtungen anzupassen und neue , die mit . Der Unterschied: heißt gelöschtes Residuum . Ein äquivalenter Ausdruck, der keine Neuberechnung erfordert, lautet: Bezeichnet das neue und mit und
Siehe Kutner et al., Angewandte lineare statistische Modelle , Kapitel 10.
Edit: Ich muss sagen, dass die Antwort von rpierce perfekt ist. Ich dachte, dass es beim OP um standardisierte und studentisierte Residuen ging (und die Division durch die Populationsstandardabweichung, um standardisierte Residuen zu erhalten, erschien mir natürlich seltsam), aber ich lag falsch. Ich hoffe, dass meine Antwort jemandem helfen kann, auch wenn OT.
In den Sozialwissenschaften wird typischerweise gesagt, dass studentisierte Scores die Student / Gosset-Berechnung zur Schätzung der Populationsvarianz / Standardabweichung von der Stichprobenvarianz / Standardabweichung ( ) verwenden. Im Gegensatz dazu wird für standardisierte Scores (ein Substantiv, ein bestimmter Statistiktyp, der Z-Score) die Populationsstandardabweichung ( ) verwendet.σ
Es scheint jedoch, dass es einige terminologische Unterschiede zwischen den Feldern gibt (siehe die Kommentare zu dieser Antwort). Daher sollte man bei diesen Unterscheidungen mit Vorsicht vorgehen. Darüber hinaus werden studentisierte Scores selten als solche bezeichnet, und im Kontext der Regression sieht man typischerweise studentisierte Werte. @Sergio gibt in seiner Antwort Einzelheiten zu diesen Arten von studentisierten gelöschten Residuen an.
Ich beantworte diese Frage sehr spät !! Aber konnte die Antwort nicht in sehr einfacher Sprache finden, so bescheidener Versuch, dies zu beantworten.
Warum machen wir Standardisierung? Stellen Sie sich vor, Sie haben zwei Modelle - eines prognostiziert Verrücktheit anhand des Zeitaufwands für das Studium von Statistiken, während das andere Protokoll (Verrücktheit) anhand des Zeitaufwands für Statistiken prognostiziert.
Es ist schwer zu verstehen, dass die Residuen beide in unterschiedlichen Einheiten vorliegen. Also standardisieren wir sie. (Ähnliche Theorie wie Z-Score)
Standardisierte Residuen: - Wenn Residuen durch eine Schätzung der Standardabweichung geteilt werden. Wenn der absolute Wert> 3 ist, besteht im Allgemeinen Grund zur Sorge.
Wir verwenden dies, um Ausreißer im Modell zu untersuchen.
Studentized Residual: Wir verwenden dies, um die Stabilität des Modells zu untersuchen.
Der Prozess ist einfach. Wir entfernen einzelne Testfälle aus dem Modell und ermitteln den neuen vorhergesagten Wert. Die Differenz zwischen dem neuen Wert und dem ursprünglich beobachteten Wert kann durch Teilen des Standardfehlers standardisiert werden. Dieser Wert ist Studentized Residual
Weitere Informationen zum Erkennen der Statik mit R - http://www.statisticshell.com/html/dsur.html
Wikipedia hat einen guten Überblick unter https://en.wikipedia.org/wiki/Normalization_(statistics) :
Standard Score : Normalisierungsfehler, wenn Populationsparameter bekannt sind. Funktioniert gut für Populationen, die normalerweise verteilt sind
T-Statistik des Schülers : Normalisierung von Residuen, wenn Populationsparameter unbekannt sind (geschätzt).