Ich möchte ein Gesundheitsproblem vorhersagen. Ich habe 3 Ergebniskategorien, die sortiert sind: "normal", "mild" und "schwer". Ich möchte dies aus zwei Prädiktorvariablen vorhersagen, einem Testergebnis (eine kontinuierliche Intervall-Kovariate) und einer Familiengeschichte mit diesem Problem (ja oder nein). In meiner Stichprobe liegen die Wahrscheinlichkeiten bei 55% (normal), 35% (mild) und 10% (schwer). In diesem Sinne konnte ich immer nur "normal" voraussagen und in 55% der Fälle Recht behalten, obwohl dies mir keine Informationen über einzelne Patienten geben würde. Ich passe das folgende Modell:
Angenommen, es gibt keine Interaktion und alles ist in Ordnung mit dem Modell. Die Konkordanz c beträgt 60,5%, was meines Erachtens die maximale Vorhersagegenauigkeit ist, die das Modell bietet.
Ich stoße auf zwei neue Patienten mit folgenden Daten: 1. Test = 3,26, Familie = 0; 2. test = 2.85, family = 1. Ich möchte ihre Prognose vorhersagen. Verwenden Sie die Formel: (und dann die Unterschiede zwischen den kumulativen Wahrscheinlichkeiten nehmen), kann ich die Wahrscheinlichkeitsverteilung über die Antwortkategorien auf dem Modell bedingten berechnen. R-Code (nb, aufgrund von Rundungsproblemen stimmt die Ausgabe nicht perfekt überein):
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X <- rbind(c(3.26, 0), c(2.85, 1))
pred_cat1 <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3 <- 1-pred_cat2.temp
pred_cat2 <- pred_cat2.temp-pred_cat1
predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)
Das heißt: 1,0 = 55,1%, 1 = 35,8%, 2 = 9,1%; und 2,0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Meine Frage ist, wie gehe ich von der Wahrscheinlichkeitsverteilung zu einer vorhergesagten Antwortkategorie über?
Ich habe anhand der Beispieldaten verschiedene Möglichkeiten ausprobiert, deren Ergebnis bekannt ist. Wenn ich nur Max (Wahrscheinlichkeiten) wähle, ist die Genauigkeit 57%, eine leichte Verbesserung gegenüber der Null, aber unterhalb der Konkordanz. Darüber hinaus wird bei diesem Ansatz in der Stichprobe nie "schwer" ausgewählt, was ich wirklich wissen möchte. Ich versuchte es mit einem Bayes'schen Ansatz, indem ich Null- und Modellwahrscheinlichkeiten in Quoten umwandelte und dann das Maximum (Odds Ratio) auswählte. Dies wählt gelegentlich "schwerwiegend" aus, ergibt jedoch eine schlechtere Genauigkeit von 49,5%. Ich habe auch versucht, eine Summe der Kategorien nach Wahrscheinlichkeiten und Rundungen zu berechnen. Dies wählt wiederum nie "schwerwiegend" aus und hat eine geringe Genauigkeit von 51,5%.
Wie lautet die Gleichung, die die obigen Informationen aufnimmt und eine optimale Genauigkeit ergibt (60,5%)?