Als «variance» getaggte Fragen

Die erwartete quadratische Abweichung einer Zufallsvariablen von ihrem Mittelwert; oder die durchschnittliche quadratische Abweichung der Daten über ihren Mittelwert.



7
Bias und Varianz in der Leave-One-Out- vs. K-Fold-Kreuzvalidierung
Wie vergleichen sich verschiedene Kreuzvalidierungsmethoden in Bezug auf Modellvarianz und Verzerrung? Meine Frage ist zum Teil durch diesen Thread motiviert: Optimale Anzahl von Falten bei der fachen Kreuzvalidierung: Ist ein ausschließlicher Lebenslauf immer die beste Wahl? KKK. Die dortige Antwort legt nahe, dass Modelle, die mit einer einmaligen Kreuzvalidierung erlernt …


3
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

8
Generieren Sie eine Zufallsvariable mit einer definierten Korrelation zu einer oder mehreren vorhandenen Variablen.
Für eine Simulationsstudie muss ich Zufallsvariablen generieren, die eine vorab festgelegte (Populations-) Korrelation zu einer vorhandenen Variablen .Y.YY Ich sah in die RPakete copulaund CDVineder Zufall multivariate Verteilungen mit einer bestimmten Abhängigkeitsstruktur erzeugen kann. Es ist jedoch nicht möglich, eine der resultierenden Variablen an eine vorhandene Variable zu binden. Anregungen …

5
Wie genau stimmten Statistiker darin überein, (n-1) als unverzerrten Schätzer für die Populationsvarianz ohne Simulation zu verwenden?
Die Formel zur Berechnung der Varianz hat im Nenner :(n−1)(n−1)(n-1) s2=∑Ni=1(xi−x¯)2n−1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} Ich habe mich immer gefragt, warum. Das Lesen und Anschauen einiger guter Videos über das "Warum" von scheint jedoch ein guter unverzerrter Schätzer der Populationsvarianz zu sein. Während die Populationsvarianz unterschätzt und überschätzt.n ( …





3
Interpretation des log transformierten Prädiktors und / oder der Antwort
Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden. Betrachten Sie den Fall von log(DV) = Intercept + B1*IV + Error Ich kann die IV als prozentuale Erhöhung interpretieren, …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 




3
Varianz der
TL, DR: Es sieht so aus, als ob entgegen häufig wiederholter Ratschläge die einmalige Kreuzvalidierung (LOO-CV) - das heißt, derKKK fache CV mitKKK (die Anzahl der Falten) ist gleichNNN (die Anzahl) der Trainingsbeobachtungen) - liefert Schätzungen des Generalisierungsfehlers, diefür jedes K am wenigsten variabel sind, und nicht die variabelsten, wobei …

3
Leiten Sie die Varianz des Regressionskoeffizienten in der einfachen linearen Regression ab
Bei der einfachen linearen Regression ist , wobei . Ich habe den Schätzer abgeleitet: wobei und die Beispielmittel für und .y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy Jetzt möchte ich die …

6
Warum sollte der Nenner des Kovarianzschätzers nicht n-2 statt n-1 sein?
Der Nenner des (unverzerrten) Varianzschätzers ist n−1n−1n-1 da nnn Beobachtungen vorliegen und nur ein Parameter geschätzt wird. V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Aus dem gleichen Grund frage ich mich, warum der Nenner der Kovarianz nicht n−2n−2n-2 wenn zwei Parameter geschätzt werden. Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

4
Wie kann eine Verteilung einen unendlichen Mittelwert und eine unendliche Varianz haben?
Es wäre wünschenswert, wenn die folgenden Beispiele gegeben werden könnten: Eine Verteilung mit unendlichem Mittelwert und unendlicher Varianz. Eine Verteilung mit unendlicher mittlerer und endlicher Varianz. Eine Verteilung mit endlichem Mittelwert und unendlicher Varianz. Eine Verteilung mit endlichem Mittelwert und endlicher Varianz. Es kommt von mir, dass ich diese ungewohnten …

5
Warum verringert das Erhöhen der Stichprobengröße die (Stichproben-) Varianz?
Großes Bild: Ich versuche zu verstehen, wie das Erhöhen der Stichprobengröße die Leistung eines Experiments erhöht. Die Folien meines Dozenten erläutern dies mit einem Bild von 2 Normalverteilungen, eine für die Nullhypothese und eine für die Alternativhypothese und einer Entscheidungsschwelle c dazwischen. Sie argumentieren, dass eine zunehmende Stichprobengröße die Varianz …

3
Warum gibt es einen Unterschied zwischen der manuellen Berechnung eines Konfidenzintervalls für eine logistische Regression von 95% und der Verwendung der Funktion confint () in R?
Sehr geehrte Damen und Herren, mir ist etwas Merkwürdiges aufgefallen, das ich Ihnen nicht erklären kann. Zusammenfassend lässt sich sagen, dass der manuelle Ansatz zur Berechnung eines Konfidenzintervalls in einem logistischen Regressionsmodell und die R-Funktion confint()unterschiedliche Ergebnisse liefern. Ich habe die angewandte logistische Regression von Hosmer & Lemeshow (2. Auflage) …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 



2
Varianz einer Funktion einer Zufallsvariablen
Nehmen wir an, wir haben die Zufallsvariable mit bekannter Varianz und Mittelwert. Die Frage ist: Was ist die Varianz von für eine gegebene Funktion f. Die einzige allgemeine Methode, die mir bekannt ist, ist die Delta-Methode, die jedoch nur eine Annäherung darstellt. Jetzt interessiere ich mich für , aber es …

3
Wie berechnet man die gepoolte Varianz von zwei oder mehr Gruppen bei bekannten Gruppenvarianzen, Mittelwerten und Stichprobengrößen?
Angenommen, es gibt Elemente, die in zwei Gruppen aufgeteilt sind ( und ). Die Varianz der ersten Gruppe ist und die Varianz der zweiten Gruppe ist . Es wird angenommen, dass die Elemente selbst unbekannt sind, aber ich kenne die und .m+nm+nm+nmmmnnnσ2mσm2\sigma_m^2σ2nσn2\sigma^2_nμmμm\mu_mμnμn\mu_n Gibt es eine Möglichkeit, die kombinierte Varianz zu …
32 variance  pooling 

1
Varianz der Summe der vorhergesagten Werte aus einem gemischten Effektmodell auf einer Zeitreihe
Ich habe ein gemischtes Effektmodell (in der Tat ein verallgemeinertes additives gemischtes Modell), das mir Vorhersagen für eine Zeitreihe gibt. Um der Autokorrelation entgegenzuwirken, verwende ich ein corCAR1-Modell, da mir Daten fehlen. Die Daten sollen mir eine Gesamtlast geben, daher muss ich über das gesamte Vorhersageintervall summieren. Aber ich sollte …

2
Varianz des Produkts abhängiger Variablen
Wie lautet die Formel für die Varianz des Produkts abhängiger Variablen? Bei unabhängigen Variablen ist die Formel einfach: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 Aber wie lautet die Formel für korrelierte Variablen? Wie finde ich übrigens die Korrelation anhand …

5
Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen
Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

6
Test auf finite Varianz?
Ist es möglich, die Endlichkeit (oder Existenz) der Varianz einer Zufallsvariablen anhand einer Stichprobe zu testen? Als Null wäre entweder {die Varianz existiert und ist endlich} oder {die Varianz existiert nicht / ist unendlich} akzeptabel. Philosophisch (und rechnerisch) scheint dies sehr seltsam zu sein, da es keinen Unterschied zwischen einer …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.