Ja, Sie können logistische Regressionsmodelle überarbeiten. Aber zuerst möchte ich den Punkt über die AUC (Bereich unter der Betriebskennlinie des Empfängers) ansprechen: Es gibt keine universellen Faustregeln für die AUC, niemals jemals.
Was die AUC ist, ist die Wahrscheinlichkeit, dass ein zufällig abgetastetes Positiv (oder Fall) einen höheren Markerwert als ein Negativ (oder eine Kontrolle) hat, da die AUC der U-Statistik mathematisch äquivalent ist.
Was die AUC nicht ist, ist ein standardisiertes Maß für die Vorhersagegenauigkeit. Hochdeterministische Ereignisse können AUCs mit einem einzelnen Prädiktor von 95% oder mehr aufweisen (wie in der kontrollierten Mechatronik, Robotik oder Optik). Einige komplexe Modelle zur multivariablen logistischen Risikoprognose haben AUCs von 64% oder weniger, wie die Brustkrebsrisikoprognose respektabel hohe Vorhersagegenauigkeit.
Ein vernünftiger AUC-Wert wird wie bei einer Leistungsanalyse festgelegt, indem Kenntnisse über den Hintergrund und die Ziele einer Apriori- Studie gesammelt werden . Der Arzt / Ingenieur beschreibt, was sie wollen, und Sie als Statistiker legen einen AUC-Zielwert für Ihr Vorhersagemodell fest. Dann beginnt die Untersuchung.
Es ist in der Tat möglich, ein logistisches Regressionsmodell überzurüsten. Abgesehen von der linearen Abhängigkeit (wenn die Modellmatrix einen mangelhaften Rang hat) können Sie auch eine perfekte Konkordanz haben, oder das ist die Darstellung angepasster Werte gegen Y, die Fälle und Kontrollen perfekt unterscheidet. In diesem Fall sind Ihre Parameter nicht konvergiert, sondern befinden sich einfach irgendwo im Grenzbereich, der eine Wahrscheinlichkeit von ergibt . Manchmal ist die AUC jedoch nur zufällig 1.∞
Es gibt eine andere Art von Verzerrung, die dadurch entsteht, dass dem Modell zu viele Prädiktoren hinzugefügt werden, und das ist eine kleine Stichprobenverzerrung. Im Allgemeinen tendieren die logarithmischen Quotenverhältnisse eines logistischen Regressionsmodells aufgrund der Nichtkollabierbarkeit des Quotenverhältnisses und der Anzahl der Zellen von Null zu einem voreingenommenen Faktor von . In der Folgerung wird dies unter Verwendung einer bedingten logistischen Regression behandelt, um Verwechslungs- und Präzisionsvariablen in geschichteten Analysen zu kontrollieren. In der Vorhersage sind Sie jedoch SooL. Es gibt keine verallgemeinerbare Vorhersage, wenn Sie p ≫ n π ( 1 - π ) haben ( π = Prob ( Y = 1 )2βp≫nπ(1−π)π=Prob(Y=1)), weil Sie zu diesem Zeitpunkt garantiert die "Daten" und nicht den "Trend" modelliert haben. Hochdimensional (großVorhersage p ) von binären Ergebnissen ist mit maschinellen Lernmethoden besser möglich. Das Verständnis der linearen Diskriminanzanalyse, der partiellen kleinsten Quadrate, der Vorhersage des nächsten Nachbarn, des Boosting und der Zufallswälder wäre ein sehr guter Ausgangspunkt.p