Als «r-squared» getaggte Fragen

Der Bestimmungskoeffizient, normalerweise symbolisiert durch R.2ist der Anteil der gesamten Antwortvarianz, der durch ein Regressionsmodell erklärt wird. Kann auch für verschiedene vorgeschlagene Pseudo-R-Quadrate verwendet werden, beispielsweise für die logistische Regression (und andere Modelle).

6
Ist nützlich oder gefährlich?
Ich habe einige Vorlesungsnotizen von Cosma Shalizi durchgesehen (insbesondere Abschnitt 2.1.1 der zweiten Vorlesung ) und wurde daran erinnert, dass Sie einen sehr niedrigen Wert erhalten können, selbst wenn Sie ein vollständig lineares Modell haben.R2R2R^2 Um Shalizis Beispiel zu paraphrasieren: Angenommen, Sie haben ein Modell , wobei bekannt ist. Dann …


2
Die Entfernung des statistisch signifikanten Intercept-Terms erhöht im linearen Modell
In einem einfachen linearen Modell mit einer einzelnen erklärenden Variablen αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Ich finde, dass das Entfernen des Intercept-Terms die Anpassung stark verbessert (der Wert von geht von 0,3 auf 0,9). Der Intercept-Term scheint jedoch statistisch signifikant zu sein.R2R2R^2 Mit abfangen: Call: lm(formula = …

3
Wann ist R im Quadrat negativ?
Ich verstehe, dass nicht negativ sein kann, da es das Quadrat von R ist. Ich habe jedoch in SPSS eine einfache lineare Regression mit einer einzelnen unabhängigen Variablen und einer abhängigen Variablen durchgeführt. Meine SPSS-Ausgabe gibt mir einen negativen Wert für . Wenn ich dies von Hand aus R berechnen …

7
Welche Pseudo-
Ich habe SPSSfür ein logistisches Regressionsmodell ausgegeben. Die Ausgabe meldet zwei Maßnahmen für das Modell fit, Cox & Snellund Nagelkerke. Welche dieser Kennzahlen würden Sie als Faustregel als passend melden?R2R²R^² Oder welcher dieser Anpassungsindizes ist derjenige, über den normalerweise in Fachzeitschriften berichtet wird? Hintergrund: Bei der Regression wird versucht, das …

3
Interpretation des log transformierten Prädiktors und / oder der Antwort
Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden. Betrachten Sie den Fall von log(DV) = Intercept + B1*IV + Error Ich kann die IV als prozentuale Erhöhung interpretieren, …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
Beziehung zwischen und Korrelationskoeffizient
Angenommen, ich habe zwei eindimensionale Arrays, und . Jedes enthält 100 Datenpunkte. sind die tatsächlichen Daten und ist die Modellvorhersage. In diesem Fall wäre der Wert: In der Zwischenzeit wäre dies gleich dem Quadratwert des Korrelationskoeffizienten Wenn ich nun die beiden vertausche: sind die tatsächlichen Daten und ist die Modellvorhersage. …

1
Manuell berechnetes stimmt nicht mit randomForest () überein, um neue Daten zu testen
Ich weiß, dass dies eine ziemlich spezifische RFrage ist, aber ich denke möglicherweise falsch über die erklärte Proportionsvarianz . Hier geht.R2R2R^2 Ich versuche das RPaket zu benutzen randomForest. Ich habe einige Trainingsdaten und Testdaten. Wenn ich ein zufälliges Gesamtstrukturmodell anpasse, randomForestkönnen Sie mit dieser Funktion neue Testdaten zum Testen eingeben. …

2
Was ist die angepasste R-Quadrat-Formel in lm in R und wie ist sie zu interpretieren?
Was ist die genaue Formel, die in R lm() für das angepasste R-Quadrat verwendet wird? Wie kann ich das interpretieren? Angepasste R-Quadrat-Formeln Es scheinen verschiedene Formeln zur Berechnung des bereinigten R-Quadrats zu existieren. Wherry-Formel: 1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} McNemars Formel:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} Gottes Formel:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} Steins Formel:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) Lehrbuchbeschreibungen Laut Field's Lehrbuch, Discovering Statistics Using R (2012, …

1
Was ist der Unterschied zwischen "Bestimmungskoeffizient" und "mittlerer quadratischer Fehler"?
Bei Regressionsproblemen habe ich gesehen, dass Leute "Bestimmungskoeffizienten" (alias R-Quadrat) verwenden, um die Modellauswahl durchzuführen, z. B. um den geeigneten Strafkoeffizienten für die Regularisierung zu finden. Es ist jedoch auch üblich, "mittlere Fehlerquadrat" oder "mittlere Fehlerquadratwurzel" als Maß für die Regressionsgenauigkeit zu verwenden. Was ist der Hauptunterschied zwischen diesen beiden? …

5
Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen
Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
Pseudo-R-Quadrat-Formel für GLMs
Eine Formel für Pseudo fand ich in dem Buch Extending the Linear Model with R., Julian J. Faraway (S. 59).R2R2R^2 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}} . Ist dies eine gebräuchliche Formel für Pseudo für GLMs?R2R2R^2

2
Wie ist die Verteilung von in linearer Regression unter der Nullhypothese? Warum ist sein Modus nicht bei Null, wenn ?
Wie ist die Verteilung des Bestimmtheitsmaßes oder des quadratischen bei linearer univariater multipler Regression unter der Nullhypothese ?R2R2R^2H0:β=0H0:β=0H_0:\beta=0 Wie hängt es von der Anzahl der Prädiktoren kkk und der Anzahl der Stichproben n>kn>kn>k ? Gibt es einen Ausdruck in geschlossener Form für den Modus dieser Distribution? Insbesondere habe ich das …

9
Messgenauigkeit eines logistischen Regressionsmodells
Ich habe ein trainiertes logistisches Regressionsmodell, das ich auf einen Testdatensatz anwende. Die abhängige Variable ist binär (boolesch). Für jede Stichprobe im Testdatensatz wende ich das logistische Regressionsmodell an, um eine prozentuale Wahrscheinlichkeit zu generieren, dass die abhängige Variable wahr ist. Dann zeichne ich auf, ob der aktuelle Wert wahr …

1
Geometrische Interpretation des multiplen Korrelationskoeffizienten
Ich interessiere mich für die geometrische Bedeutung der Mehrfachkorrelation RRR und des Bestimmungskoeffizienten R2R2R^2 in der Regression yi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i oder für die Vektorschreibweise , y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} Hier ist die Designmatrix XX\mathbf{X} hat nnn Zeilen und …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.