Abweichung und GLM
Formal kann man Abweichung als eine Art Distanz zwischen zwei Wahrscheinlichkeitsmodellen betrachten; Im GLM-Kontext entspricht dies dem zweifachen Log-Verhältnis der Wahrscheinlichkeiten zwischen zwei verschachtelten Modellen wobei das "kleinere" Modell ist. das heißt, eine lineare Einschränkung der Modellparameter (vgl. das Neyman-Pearson-Lemma ), wie @suncoolsu sagte. Als solches kann es verwendet werden, um einen Modellvergleich durchzuführen . Es kann auch als Verallgemeinerung des in der OLS-Schätzung verwendeten RSS (ANOVA, Regression) angesehen werden, da es ein Maß für die Anpassungsgüte des zu bewertenden Modells im Vergleich zum Nullmodell liefert (nur Achsenabschnitt). Es funktioniert auch mit LM:ℓ1/ ℓ0ℓ0
> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)
Die Residuen SS (RSS) werden berechnet als , was leicht erhalten wird als:ε^tε^
> t(residuals(lm.res))%*%residuals(lm.res)
[,1]
[1,] 98.66754
oder aus dem (unangepassten)R2
> summary(lm.res)
Call:
lm(formula = y ~ x)
(...)
Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175
F-statistic: 71.97 on 1 and 98 DF, p-value: 2.334e-13
da wobei die Gesamtvarianz ist. Beachten Sie, dass es direkt in einer ANOVA-Tabelle wie verfügbar istR2= 1 - RSS / TSSTSS
> summary.aov(lm.res)
Df Sum Sq Mean Sq F value Pr(>F)
x 1 72.459 72.459 71.969 2.334e-13 ***
Residuals 98 98.668 1.007
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Nun schauen Sie sich die Abweichung an:
> deviance(lm.res)
[1] 98.66754
Tatsächlich entspricht die Abweichung für lineare Modelle dem RSS (Sie können sich daran erinnern, dass die Schätzungen von OLS und ML in einem solchen Fall übereinstimmen).
Abweichung und WARENKORB
Wir können CART als einen Weg sehen, um bereits markierte Personen in willkürliche Klassen (in einem Klassifizierungskontext) einzuteilen. Bäume können als Wahrscheinlichkeitsmodell für die Zugehörigkeit einzelner Klassen angesehen werden. Wir haben also an jedem Knoten eine Wahrscheinlichkeitsverteilung über die Klassen. Wichtig ist hierbei, dass die Blätter des Baumes eine Zufallsstichprobe aus einer durch angegebenen multinomialen Verteilung ergeben . Wir können also die Abweichung eines Baumes als die Summe über alle Blätter von definierennipiknikpikD
Di=−2∑kniklog(pik),
nach den Notationen von Venables und Ripley ( MASS , Springer 2002, 4. Aufl.). Wenn Sie Zugriff auf diese wichtige Referenz für R-Benutzer (IMHO) haben, können Sie selbst überprüfen, wie ein solcher Ansatz zum Aufteilen von Knoten und Anpassen eines Baums an beobachtete Daten verwendet wird (S. 257 ff.). Grundsätzlich besteht die Idee darin, durch Beschneiden des Baums zu minimieren, wobei die Anzahl der Knoten im Baum . Hier erkennen wir den Kompromiss zwischen Kosten und Komplexität . Hier entspricht dem Konzept der Knotenverunreinigung (dh der Heterogenität der Verteilung an einem gegebenen Knoten), die auf einem Maß der Entropie oder des Informationsgewinns oder dem bekannten Gini-Index , der alsD+α#(T)#(T)TD1−∑kp2ik (Die unbekannten Anteile werden aus den Knotenanteilen geschätzt.)
Mit einer Regressionsbaum, ist die Idee , ganz ähnlich, und wir können die Devianz als Summe der Quadrate für den Einzelnen definiert conceptualize durchj
Di=∑j(yj−μi)2,
summiert über alle Blätter. Hier ist das Wahrscheinlichkeitsmodell, das in jedem Blatt berücksichtigt wird, ein Gaußscher . In Anführungszeichen von Venables und Ripley (S. 259) ist " die übliche skalierte Abweichung für eine Gaußsche GLM. Die Verteilung an internen Knoten des Baums ist dann jedoch eine Mischung aus Normalverteilungen, und daher ist nur an den Blättern angemessen. Der Baumkonstruktionsprozess ist als hierarchische Verfeinerung von Wahrscheinlichkeitsmodellen zu verstehen, die der Vorwärtsvariablenauswahl in der Regression sehr ähnlich sind . " Weitere detaillierte Informationen zur Implementierung finden Sie in Abschnitt 9.2. Sie können sich jedoch bereits die Funktion ansehenN(μi,σ2)DDirpart
residuals()
rpart
Objekt, bei dem "Abweichungsreste" als Quadratwurzel von minus dem doppelten Logarithmus des angepassten Modells berechnet werden.
Eine Einführung in die rekursive Partitionierung mit den rpart-Routinen von Atkinson und Therneau ist ebenfalls ein guter Anfang. Für eine allgemeinere Überprüfung (einschließlich Absacken) würde ich empfehlen