Als «separation» getaggte Fragen

Eine Trennung tritt auf, wenn einige Klassen eines kategorialen Ergebnisses durch eine lineare Kombination anderer Variablen perfekt unterschieden werden können.


1
Die logistische Regression in R führte zu einer perfekten Trennung (Hauck-Donner-Phänomen). Was jetzt?
Ich versuche, ein binäres Ergebnis unter Verwendung von 50 kontinuierlichen erklärenden Variablen vorherzusagen (der Bereich der meisten Variablen ist bis ). Mein Datensatz enthält fast 24.000 Zeilen. Wenn ich in R renne, bekomme ich:−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 …

2
Das logistische Regressionsmodell konvergiert nicht
Ich habe einige Daten zu Fluglinienflügen (in einem Datenrahmen mit dem Namen flights) und möchte prüfen, ob die Flugzeit einen Einfluss auf die Wahrscheinlichkeit einer erheblich verspäteten Ankunft hat (dh 10 oder mehr Minuten). Ich nahm an, dass ich logistische Regression verwenden würde, mit der Flugzeit als Prädiktor und ob …
39 r  logistic  separation 




1
Gibt es eine intuitive Erklärung dafür, warum logistische Regression für einen perfekten Trennungsfall nicht funktioniert? Und warum wird es durch das Hinzufügen von Regularisierung behoben?
Wir haben viele gute Diskussionen über die perfekte Trennung in der logistischen Regression. So führte die logistische Regression in R zu einer perfekten Trennung (Hauck-Donner-Phänomen). Was jetzt? Das logistische Regressionsmodell konvergiert nicht . Ich persönlich glaube immer noch, dass es nicht intuitiv ist, warum es ein Problem sein wird und …

3
Intuition für Support Vector Machines und die Hyperebene
In meinem Projekt möchte ich ein logistisches Regressionsmodell zur Vorhersage der binären Klassifikation (1 oder 0) erstellen. Ich habe 15 Variablen, von denen 2 kategorisch sind, während der Rest eine Mischung aus kontinuierlichen und diskreten Variablen ist. Um ein logistisches Regressionsmodell anzupassen, wurde mir geraten, die lineare Trennbarkeit entweder mit …

1
Suche nach einem theoretischen Verständnis der Firth Logistic Regression
Ich versuche, die logistische Regression von Firth zu verstehen (Methode zum Behandeln einer perfekten / vollständigen oder quasi vollständigen Trennung in der logistischen Regression), damit ich sie anderen in vereinfachten Begriffen erklären kann. Hat jemand eine abgedrehte Erklärung, welche Änderung Firth-Schätzung an MLE vornimmt? Ich habe nach bestem Wissen Firth …

1
GBM-Paket vs. Caret mit GBM
Ich habe das Modell mit optimiert caret, aber dann das Modell mit dem gbmPaket erneut ausgeführt. Nach meinem Verständnis sollten das verwendete caretPaket gbmund die Ausgabe identisch sein. Nur ein kurzer Testlauf mit data(iris)zeigt jedoch eine Diskrepanz im Modell von etwa 5% unter Verwendung von RMSE und R ^ 2 …

1
Binomial glmm mit einer kategorialen Variablen mit vollem Erfolg
Ich führe ein glmm mit einer binomialen Antwortvariablen und einem kategorialen Prädiktor aus. Der zufällige Effekt ergibt sich aus dem verschachtelten Design, das für die Datenerfassung verwendet wird. Die Daten sehen folgendermaßen aus: m.gen1$treatment [1] sucrose control protein control no_injection ..... Levels: no_injection control sucrose protein m.gen1$emergence [1] 1 0 …

1
R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?
Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
Enorme Koeffizienten in der logistischen Regression - was bedeutet das und was ist zu tun?
Während der logistischen Regression erhalte ich enorme Koeffizienten, siehe Koeffizienten mit krajULKV: > summary(m5) Call: glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + rok:obdobi:kraj, family = "quasibinomial") Deviance Residuals: Min 1Q Median 3Q Max -2.7796 -1.0958 -0.3101 …


2
Ist es möglich, eine logistische Regression ohne Zufälligkeit zu simulieren?
Wir können eine lineare Regression ohne Zufälligkeit simulieren, was bedeutet, dass wir y=Xβy=Xβy=X\beta anstelle von y=Xβ+ϵy=Xβ+ϵy=X\beta+\epsilon . Wenn wir dann ein lineares Modell anpassen, sind die Koeffizienten identisch mit der "Grundwahrheit". Hier ist ein Beispiel. set.seed(0) n <- 1e5 p <- 3 X <- matrix(rnorm(n*p), ncol=p) beta <- runif(p) # …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.