Ich würde vorschlagen, dass Sie sich Bücher zur kategorialen Datenanalyse ansehen (vgl. Alan Agrestis Categorical Data Analysis, 2002), um die geordnete logistische Regression besser zu erklären und zu verstehen . Alle Fragen, die Sie stellen, werden im Grunde durch ein paar Kapitel in solchen Büchern beantwortet. Wenn Sie nur an R
verwandten Beispielen interessiert sind , ist die Erweiterung linearer Modelle in R von Julian Faraway (CRC Press, 2008) eine hervorragende Referenz.
Bevor ich Ihre Fragen beantworte, ist die geordnete logistische Regression ein Fall von multinomialen Logit-Modellen, in denen die Kategorien geordnet sind. Angenommen , wir haben geordnete Kategorien und dass für einzelne , mit Ordnungs Antwort ,
für . Bei einer geordneten Antwort ist es oft einfacher, mit den kumulativen Wahrscheinlichkeiten . Die kumulativen Wahrscheinlichkeiten nehmen zu und sind für die Kombination benachbarter Kategorien unveränderlich. Außerdem ist , daher benötigen wir nur Modell- Wahrscheinlichkeiten.i Y i p i j = P ( Y i = j ) , j = 1 , . . . , J γ i j = P ( Y i ≤ j ) γ i J = 1JichY.ichpich j= P( Yi = j )j = 1 , . . . , Jγich j= P( Yich≤ j )γich J= 1J- 1
Jetzt wollen wir s mit Kovariaten verknüpfen . In Ihrem Fall hat 3 bestellt Ebene: , , . Es ist sinnvoller, sie als bestellt und nicht als ungeordnet zu behandeln. Die restlichen Variablen sind Ihre Kovariaten. Das spezifische Modell, das Sie in Betracht ziehen, ist das Proportional-Odds-Modell und ist mathematisch äquivalent zu: xγich jxSat
low
medium
high
wobei γ j ( x i ) = P ( Y i ≤ j | x i )
logit γj( xich) = θj- βTxich, j = 1 ... J- 1
wo γj( xich) = P( Yich≤ j | xich)
Es wird so genannt, weil die relativen Quoten für , das und sind:x 1 x 2Y.≤ jx1x2
( γj( x1)1 - γj( x1)) / ( γj( x2)1 - γj( x2)) =exp( - βT( x1- x2) )
Beachten Sie, dass der obige Ausdruck nicht von abhängt . Natürlich muss die Annahme proportionaler Quoten für einen bestimmten Datensatz überprüft werden.j
Nun beantworte ich einige (1, 2, 4) Fragen.
Wie kann man verstehen, ob das Modell gut passt? Zusammenfassung (house.plr) zeigt Residual Deviance 3479.149 und AIC (Akaike Information Criterion?) von 3495.149. Ist das gut? Was ist ein gutes absolutes Maß für den Fall, dass diese nur als relative Maße (dh zum Vergleich mit einer anderen Modellanpassung) nützlich sind? Ist die Restabweichung ungefähr im Chi-Quadrat verteilt? Kann man "% korrekt vorhergesagt" für die Originaldaten oder eine Kreuzvalidierung verwenden? Was ist der einfachste Weg das zu tun?
Ein passendes Modell polr
ist ein besonderes glm
, also alle Annahmen, die für ein traditionelles glm
hier gelten. Wenn Sie sich richtig um die Parameter kümmern, können Sie die Verteilung herausfinden. Um zu testen, ob das Modell gut ist oder nicht , möchten Sie möglicherweise einen Anpassungstest durchführen , bei dem die folgende Null überprüft wird (beachten Sie, dass dies subtil ist. Meistens möchten Sie die Null ablehnen, aber dies ist hier nicht der Fall lehne es ab, um eine gute Anpassung zu erhalten):
HO: aktuelles Modell ist gut genug
Sie würden dafür den Chi-Quadrat-Test verwenden . Der p-Wert wird erhalten als:
1-pchisq(deviance(house.plr),df.residual(house.plr))
In den meisten Fällen möchten Sie einen p-Wert von mehr als 0,05 erhalten, damit Sie die Null nicht ablehnen, um zu dem Schluss zu gelangen, dass das Modell gut passt (philosophische Korrektheit wird hier ignoriert).
Der AIC sollte für eine gute Anpassung hoch sein, während Sie keine große Anzahl von Parametern haben möchten. stepAIC
ist ein guter Weg, um dies zu überprüfen.
Ja, Sie können definitiv Kreuzvalidierung verwenden, um festzustellen, ob die Vorhersagen zutreffen. Siehe predict
Funktion (Option:) type = "probs"
in ?polr
. Sie müssen sich nur um die Kovariaten kümmern.
Welche Informationen enthält pr? Die Hilfeseite zum Profil ist allgemein gehalten und enthält keine Anleitung für polr
Enthält, wie von @chl und anderen angegeben, pr
alle Informationen, die zum Abrufen von CIs und anderer wahrscheinlichkeitsbezogener Informationen des polr fit
. Alle glm
s werden unter Verwendung einer iterativ gewichteten Methode zur Schätzung der kleinsten Quadrate für die logarithmische Wahrscheinlichkeit angepasst. Bei dieser Optimierung erhalten Sie eine Vielzahl von Informationen (siehe Referenzen), die für die Berechnung der Varianz-Kovarianz-Matrix, des CI, des t-Werts usw. benötigt werden. Dies beinhaltet alles.
Wie interpretiert man die t-Werte für jeden Koeffizienten? Im Gegensatz zu einigen Modellanpassungen gibt es hier keine P-Werte.
Im Gegensatz zu einem normalen linearen Modell (speziell glm
) haben andere glm
s nicht die schöne t-Verteilung für die Regressionskoeffizienten. Daher können Sie nur die Parameterschätzungen und ihre asymptotische Varianz-Kovarianz-Matrix unter Verwendung der Max-Likelihood-Theorie erhalten. Deshalb:
Varianz ( β^) = ( XTWX)- 1ϕ^
Die Schätzung geteilt durch den Standardfehler ist das, was BDR und WV als t-Wert bezeichnen (ich gehe MASS
hier von einer Konvention aus). Es entspricht dem t-Wert aus der normalen linearen Regression, folgt jedoch keiner t-Verteilung. Mit CLT wird es asymptotisch normal verteilt. Aber sie bevorzugen es, diese ungefähre Zahl nicht zu verwenden (ich vermute), daher keine p-Werte. (Ich hoffe, dass ich mich nicht irre, und wenn, dann hoffe ich, dass der BDR nicht in diesem Forum ist. Ich hoffe außerdem, dass mich jemand korrigiert, wenn ich mich irre.)
methods("profile")
Sie erhalten die (in diesem Fall S3) Methoden, die einem R-profile
Objekt zugeordnet sind, dann sehen Siepolr
, dass es eine dedizierte Methode für Ergebnisse gibt, die Sie durchsuchen können Online durch EingabegetAnywhere("profile.polr")
an der R-Eingabeaufforderung.