Leute, die mit logistischer Regression arbeiten, sind mit dem Problem der perfekten Trennung vertraut: Wenn Sie eine Variable haben, deren spezifische Werte nur einem der beiden Ergebnisse zugeordnet sind (sagen wir ein binäres so dass alle Beobachtungen mit Ergebnis = 1 haben ), die Wahrscheinlichkeit explodiert und die Schätzungen der maximalen Wahrscheinlichkeit gehen bis ins Unendliche. in R kann dies schrecklich gut handhaben oder auch nicht, da die Fehlermeldung für die perfekte Vorhersage aus anderen Gründen als der perfekten Vorhersage / Trennung angezeigt werden kann. in Stata identifiziert solche Variablen und problematischen Werte und verwirft sie aus der Analyse.x = 1glm
logit
Meine Frage unterscheidet sich von der Frage, was zu tun ist, wenn Sie eine perfekte Trennung haben. Das kann ich tun, indem ich meine Variablen neu codiere (sie sind alle kategorisch, sodass ich einfach Kategorien kombinieren kann) oder mit der Firth-Version der logistischen Regression, wenn ich Lust habe.
Stattdessen frage ich mich, wie dies üblicherweise beschrieben wird. Ich habe einen Datensatz mit ca. 100 Patienten mit einem Anteil von etwa 50% "positiv", und einige Kategorien der demografischen Variablen liefern diese perfekte Vorhersage. Sagen wir einfach, dass alle 7 grünäugigen Menschen ein "positives" Ergebnis haben. Dies mag eine kleine Stichproben-Besonderheit sein, die verschwinden würde, wenn ich eine Stichprobengröße von 1000 und 70 grünäugigen Personen hätte, aber es könnte klinisch bedeutsam sein, da ich in dieser größeren Stichprobe 60 von 70 grünäugigen Personen haben könnte, die dies hätten ein "positives" Ergebnis mit hohen Quotenverhältnissen.
Es ist also schön zu sagen, dass ich eine Bayes'sche oder eine andere Schrumpfungsmethode verwendet habe, aber wenn ich beschreibe, wie ich dorthin gekommen bin, muss ich zugeben, dass ich eine perfekte Vorhersage / Trennung hatte und eine ausgefeiltere Technik finden musste, um Ergebnisse zu erzielen alle. Was wäre eine gute Sprache, um hier zu verwenden?