Als «multiple-regression» getaggte Fragen

Regression, die zwei oder mehr nicht konstante unabhängige Variablen enthält.


2
Warum unterscheiden sich einige Regressionsschätzungen durch einen Vorzeichenwechsel, andere jedoch nicht, wenn ich den Referenzwert ändere?
Angenommen, ich habe ein kontinuierliches Ergebnis yund zwei faktorielle Prädiktoren mit jeweils zwei Ebenen. Einer meiner kategorialen Prädiktoren drugkann zwei Ebenen haben ("A" oder "B"), der andere ist smokeYes. Wenn ich ein Regressionsmodell ausführe, kann ich die Basislinie oder den Referenzpegel drugentweder als "A" auswählen , wie in model1: set.seed(123) …

3
Finden Sie die Verteilung und transformieren Sie sie in die Normalverteilung
Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 


2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

4
Regression von Daten, die ein Datum enthalten
Ich habe einen Datensatz, der einige hundert Transaktionen von drei Lieferanten enthält, die über einen Zeitraum von drei Jahren in über 100 Ländern tätig sind. Wir haben festgestellt, dass das Verkaufsland kein wesentlicher Faktor für die erzielten Preise ist (die Produkte sind mehr oder weniger globale Waren). Alle Preise sind …

1
Wenn Sie eine OLS-Regression für Querschnittsdaten ausführen, sollten Sie die Autokorrelation in Residuen testen?
Ich habe eine Reihe von Beobachtungen, unabhängig von der Zeit. Ich frage mich, ob ich Autokorrelationstests durchführen soll. Es scheint mir, dass es keinen Sinn macht, da meine Daten keine Zeitkomponente enthalten. Ich habe jedoch tatsächlich einen seriellen Korrelations-LM-Test versucht, der auf eine starke Autokorrelation der Residuen hinweist. Macht es …

1
Dummy-Codierung für Kontraste: 0,1 vs. 1, -1
Ich bitte Sie um Ihre Hilfe, um den Unterschied zwischen zwei verschiedenen Kontrasten für dichotome Variablen zu verstehen. Auf dieser Seite: http://www.psychstat.missouristate.edu/multibook/mlt08.htm unter "Dichotome Prädiktorvariablen" gibt es zwei Möglichkeiten, dichotome Prädiktoren zu codieren: Verwenden des Kontrasts 0,1 oder des Kontrasts 1, -1 . Ich verstehe die Unterscheidung hier irgendwie (0,1 …

3
Post-hoc-Test in einer 2x3-ANOVA mit gemischtem Design unter Verwendung von SPSS?
Ich habe zwei Gruppen von 10 Teilnehmern, die während eines Experiments dreimal bewertet wurden. Um die Unterschiede zwischen den Gruppen und zwischen den drei Bewertungen zu testen, führte ich eine 2 × 3-ANOVA mit gemischtem Design mit group(Kontrolle, experimentell), time(erste, zweite, drei) und group x time. Beides timeund groupErgebnis signifikant, …
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 


1
Konfidenzintervalle bei Verwendung des Bayes-Theorems
Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …


3
Interpretation des Koeffizienten in einem linearen Regressionsmodell mit kategorialen Variablen
Ich werde meine Beispiele mit R-Aufrufen geben. Zunächst ein einfaches Beispiel einer linearen Regression mit einer abhängigen Variablen 'Lebensdauer' und zwei kontinuierlichen erklärenden Variablen. data.frame(height=runif(4000,160,200))->human.life human.life$weight=runif(4000,50,120) human.life$lifespan=sample(45:90,4000,replace=TRUE) summary(lm(lifespan~1+height+weight,data=human.life)) Call: lm(formula = lifespan ~ 1 + height + weight, data = human.life) Residuals: Min 1Q Median 3Q Max -23.0257 -11.9124 -0.0565 …

4
Was muss ich beachten, wenn ich multiple Regression verwende, um „kausale“ Zusammenhänge in meinen Daten zu finden?
Zunächst stelle ich fest, dass multiple Regression nicht wirklich "kausale" Rückschlüsse auf die Daten liefert. Lassen Sie mich meinen aktuellen Fall erklären: Ich habe vier unabhängige Variablen, von denen ich hoffe (aber nicht sicher bin), dass sie das messen, was ich messe. Ich wollte die multiple Regression verwenden, um zu …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.