Als «residuals» getaggte Fragen

Die Residuen eines Modells sind die tatsächlichen Werte abzüglich der vorhergesagten Werte. Viele statistische Modelle treffen Annahmen über den Fehler, der durch die Residuen geschätzt wird.

2
Bewertung logistischer Regressionsmodelle
Diese Frage ergibt sich aus meiner tatsächlichen Verwirrung darüber, wie ich entscheiden soll, ob ein Logistikmodell gut genug ist. Ich habe Modelle, die den Zustand von Paaren zwei Jahre nach ihrer Bildung als abhängige Variable als Einzelprojekt verwenden. Das Ergebnis ist erfolgreich (1) oder nicht (0). Ich habe unabhängige Variablen …



1
GBM-Paket vs. Caret mit GBM
Ich habe das Modell mit optimiert caret, aber dann das Modell mit dem gbmPaket erneut ausgeführt. Nach meinem Verständnis sollten das verwendete caretPaket gbmund die Ausgabe identisch sein. Nur ein kurzer Testlauf mit data(iris)zeigt jedoch eine Diskrepanz im Modell von etwa 5% unter Verwendung von RMSE und R ^ 2 …


5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Annahmen zur verbleibenden Regressionsverteilung
Warum ist es notwendig, die Verteilungsannahme auf die Fehler zu setzen, dh yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} mitϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) . Warum nicht schreiben yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} mityi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) , wobei in jedem Fall ϵi=yi−y^ϵi=yi−y^\epsilon_i = y_i - \hat{y} . Ich habe gesehen, wie betont wurde, dass …

2
Warum testen manche Leute regressionsähnliche Modellannahmen an ihren Rohdaten und andere Leute testen sie an den Residuen?
Ich bin ein Doktorand in experimenteller Psychologie und ich bemühe mich sehr, meine Fähigkeiten und Kenntnisse im Analysieren meiner Daten zu verbessern. Bis zu meinem 5. Jahr in Psychologie dachte ich, dass die regressionsähnlichen Modelle (zB ANOVA) die folgenden Dinge annehmen: Normalität der Daten Varianzhomogenität für die Daten und so …


2
Restanalyse der logistischen Regression
Diese Frage ist allgemein und langwierig, aber bitte nehmen Sie Kontakt mit mir auf. In meiner Anwendung habe ich viele Datensätze, die jeweils aus ~ 20.000 Datenpunkten mit ~ 50 Features und einer einzelnen abhängigen Binärvariablen bestehen. Ich versuche, die Datensätze mithilfe einer regulierten logistischen Regression (R-Paket glmnet ) zu …




1
Fisher's Exact Test und hypergeometrische Verteilung
Ich wollte den genauen Test des Fischers besser verstehen, deshalb habe ich das folgende Spielzeugbeispiel entwickelt, bei dem f und m männlich und weiblich und n und y dem "Sodakonsum" wie folgt entsprechen: > soda_gender f m n 0 5 y 5 0 Dies ist natürlich eine drastische Vereinfachung, aber …

1
Warum basiert die Diagnose auf Residuen?
Bei einer einfachen linearen Regression möchte man oft überprüfen, ob bestimmte Annahmen erfüllt sind, um Rückschlüsse ziehen zu können (z. B. sind Residuen normalverteilt). Ist es sinnvoll, die Annahmen zu überprüfen, indem überprüft wird, ob die angepassten Werte normal verteilt sind?

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.