Als «generalized-linear-model» getaggte Fragen

Eine Verallgemeinerung der linearen Regression, die nichtlineare Beziehungen über eine "Verknüpfungsfunktion" ermöglicht und die Varianz der Antwort vom vorhergesagten Wert abhängt. (Nicht zu verwechseln mit dem "allgemeinen linearen Modell", das das gewöhnliche lineare Modell auf die allgemeine Kovarianzstruktur und die multivariate Antwort erweitert.)

2
Berechnung des Risikoverhältnisses anhand des Odds Ratio aus dem logistischen Regressionskoeffizienten
Ich habe eine binäre logistische Regression mit nur einem binären Prädiktor für feste Faktoren. Der Grund, warum ich es nicht als Chi-Quadrat oder als exakten Fisher-Test mache, ist, dass ich auch eine Reihe von Zufallsfaktoren habe (es gibt mehrere Datenpunkte pro Person und Einzelpersonen sind in Gruppen, obwohl mir Koeffizienten …

3
Warum sagen GLMs den Mittelwert und nicht den Modus voraus?
Warum sagt ein GLM den Mittelwert und nicht den Modus eines Signals voraus? Widerspricht dies nicht der Grundlage des GLM, dh der maximalen Wahrscheinlichkeit? Die zu lösenden Gleichungen für die Modellparameter in einem GLM basieren auf der Maximierung der Wahrscheinlichkeit, wie durch die Wahrscheinlichkeitsverteilung des modellierten Signals beschrieben. Diese Wahrscheinlichkeitsverteilung …

2
Log vs Quadratwurzel Link für Poisson-Daten in R.
Ich arbeite derzeit daran, Todesfälle durch AIDS im Laufe der Zeit mithilfe eines GLM in R zu modellieren. Ich weiß, dass es zwei mögliche Optionen für die Verknüpfungsfunktion für Poisson-Daten gibt, log und Quadratwurzel. Ich weiß, dass die Quadratwurzel Variabilitätsprobleme ausgleichen würde, während logarithmisch die Kurve begradigen muss. Aber wie …



3
Finden Sie die Verteilung und transformieren Sie sie in die Normalverteilung
Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
Was sind einige Gründe, warum iterativ neu gewichtete kleinste Quadrate nicht konvergieren würden, wenn sie für die logistische Regression verwendet werden?
Ich habe die Funktion glm.fit in R verwendet, um Parameter an ein logistisches Regressionsmodell anzupassen. Standardmäßig verwendet glm.fit iterativ neu gewichtete kleinste Quadrate, um die Parameter anzupassen. Was sind einige Gründe, warum dieser Algorithmus bei Verwendung für die logistische Regression nicht konvergieren würde?

2
Gibt es eine Möglichkeit, eine Beziehung zwischen Koeffizienten in der logistischen Regression zu erzwingen?
Ich möchte ein logistisches Regressionsmodell angeben, bei dem ich die folgende Beziehung habe: E.[ Y.ich| X.ich] = f( βxi 1+ β2xi 2)E[Yi|Xi]=f(βxi1+β2xi2)E[Y_i|X_i] = f(\beta x_{i1} + \beta^2x_{i2}) wobei die inverse Logit-Funktion ist.fff Gibt es eine "schnelle" Möglichkeit, dies mit bereits vorhandenen R-Funktionen zu tun, oder gibt es einen Namen für …


1
Geringe Stichprobengröße: LR vs F - Test
Einige von Ihnen haben vielleicht dieses schöne Papier gelesen: O'Hara RB, Kotze DJ (2010) Zählen Sie keine Zähldaten. Methoden in Ökologie und Evolution 1: 118–122. klick . Derzeit vergleiche ich negative Binomialmodelle mit Gaußschen Modellen für transformierte Daten. Im Gegensatz zu O'Hara RB, Kotze DJ (2010) betrachte ich den Sonderfall …

1
Wahrscheinlichkeit und Schätzungen für gemischte Effekte Logistische Regression
Lassen Sie uns zunächst einige Daten für eine logistische Regression mit festen und zufälligen Teilen simulieren: set.seed(1) n <- 100 x <- runif(n) z <- sample(c(0,1), n, replace=TRUE) b <- rnorm(2) beta <- c(0.4, 0.8) X <- model.matrix(~x) Z <- cbind(z, 1-z) eta <- X%*%beta + Z%*%b pr <- 1/(1+exp(-eta)) …

1
Wie genau wird die Summen- (oder Mittelwert-) Zentrierungsbeschränkung für Splines (auch für Gam von mgcv) durchgeführt?
Der Datenerzeugungsprozess ist:y=sin(x+I(d=0))+sin(x+4∗I(d=1))+I(d=0)z2+3I(d=1)z2+N(0,1)y=sin(x+I(d=0))+sin(x+4∗I(d=1))+I(d=0)z2+3I(d=1)z2+N(0,1)y = \text{sin}\Big(x+I(d=0)\Big) + \text{sin}\Big(x+4*I(d=1)\Big) + I(d=0)z^2 + 3I(d=1)z^2 + \mathbb{N}\left(0,1\right) Sei eine Folge von bis der Länge 100 und d der entsprechende Faktor d \ in \ {0,1 \} . Nehmen Sie alle möglichen Kombinationen von x, z, d , um y zu berechnen : - 4 …

2
Was ist die Rechtfertigung für eine unbeaufsichtigte Diskretisierung kontinuierlicher Variablen?
Eine Reihe von Quellen deuten darauf hin, dass die Diskretisierung (Kategorisierung) kontinuierlicher Variablen vor der statistischen Analyse viele negative Folgen hat (Referenzbeispiel [1] - [4] unten). Umgekehrt [5] wird vermutet, dass einige Techniken des maschinellen Lernens bekanntermaßen bessere Ergebnisse liefern, wenn kontinuierliche Variablen diskretisiert werden (wobei auch zu beachten ist, …

2
Warum gibt es keine Datenmodelle mit einer aufgeblasenen Anzahl?
Ich arbeite mit dem psclPaket an Datenmodellen mit Null-Inflation . Ich frage mich nur, warum es keine Entwicklung von Modellen für Datenmodelle mit einer aufgeblasenen Anzahl gibt! Auch, warum es keine Entwicklung von bimodalen, sagen wir null und zwei aufgeblasenen Zähldatenmodellen gibt! Einmal habe ich einmal aufgeblasene Poisson-Daten generiert und …

2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.