Als «sample» getaggte Fragen

Eine Stichprobe ist eine Teilmenge einer Population. Die Statistik befasst sich im Allgemeinen mit der Verwendung von Stichproben, um Rückschlüsse auf die Parameter einer größeren (möglicherweise unendlichen) Population zu ziehen.

25
Auffinden frei verfügbarer Datenproben
Ich habe an einer neuen Methode zum Analysieren und Analysieren von Datensätzen gearbeitet, um Untergruppen einer Population zu identifizieren und zu isolieren, ohne vorher die Merkmale einer Untergruppe zu kennen. Während die Methode mit Stichproben künstlicher Daten (dh Datensätzen, die speziell zum Identifizieren und Trennen von Teilmengen der Bevölkerung erstellt …


3
R: Zufällige Gesamtstruktur, die NaN / Inf im Fehler "fremder Funktionsaufruf" trotz fehlender NaNs im Datensatz auslöst [geschlossen]
Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …


1
Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell
Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Können Freiheitsgrade eine nicht ganzzahlige Zahl sein?
Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
Wie finde ich heraus, welche Art von Verteilung diese Daten zu Ping-Antwortzeiten darstellt?
Ich habe einen realen Prozess abgetastet, Netzwerk-Ping-Zeiten. Die "Umlaufzeit" wird in Millisekunden gemessen. Die Ergebnisse werden in einem Histogramm aufgezeichnet: Ping-Zeiten haben einen Mindestwert, aber einen langen oberen Schwanz. Ich möchte wissen, um welche statistische Verteilung es sich handelt und wie man die Parameter abschätzt. Auch wenn es sich bei …

3
Bootstrap: das Problem der Überanpassung
Angenommen, man führt den sogenannten nichtparametrischen Bootstrap durch, indem man aus den ursprünglichen Beobachtungen jeweils Stichproben der Größe mit Ersetzung zieht . Ich glaube, dieses Verfahren entspricht der Schätzung der kumulativen Verteilungsfunktion durch das empirische cdf:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function und dann Erhalten der Bootstrap-Abtastwerte durch Simulieren von Beobachtungen aus den geschätzten cdf …





1
LARS gegen Koordinatenabstieg für das Lasso
Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind jedoch auch andere Erkenntnisse erwünscht. edit: Seitdem ich die Frage …

2
Sind Kaggle-Wettbewerbe nur zufällig gewonnen?
Kaggle-Wettbewerbe bestimmen die endgültigen Platzierungen auf der Grundlage eines durchgehaltenen Testsatzes. Ein durchgehaltener Testsatz ist eine Stichprobe; Es kann sein, dass es nicht repräsentativ für die zu modellierende Population ist. Da jede Einsendung wie eine Hypothese ist, hat der Algorithmus, der den Wettbewerb gewonnen hat, möglicherweise den Testsatz besser als …

2
Was ist der Unterschied zwischen Zufallsvariable und Zufallsstichprobe?
Diese beiden Ausdrücke verwirrten mich sehr, als ich Statistik lernte. Es scheint mir, dass es völlig andere Dinge sind. Eine Zufallsstichprobe besteht darin, eine Stichprobe zufällig aus einer Population zu entnehmen, während eine Zufallsvariable einer Funktion gleicht, die die Menge aller möglichen Ergebnisse eines Experiments einer reellen Zahl zuordnet. Sagen …



5
Wenn nicht ein Poisson, welche Verteilung ist das dann?
Ich habe einen Datensatz, der die Anzahl der Aktionen enthält, die von Einzelpersonen innerhalb von 7 Tagen ausgeführt wurden. Die spezifische Aktion sollte für diese Frage nicht relevant sein. Hier einige beschreibende Statistiken für den Datensatz: AngebotBedeutenVarianzAnzahl der Beobachtungen0 - 77218.22791696Angebot0- -772Bedeuten18.2Varianz2791Anzahl der Beobachtungen696 \begin{array}{|c|c|} \hline \text{Range} & 0 - …

1
Ignoriert SurveyMonkey die Tatsache, dass Sie eine nicht zufällige Stichprobe erhalten?
SurveyMonkey verfügt über Schritte und ein Diagramm, mit denen Sie anhand Ihrer Bevölkerungsgröße herausfinden können, welche Stichprobengröße Sie für eine bestimmte Fehlerquote oder ein bestimmtes Konfidenzintervall benötigen. SurveyMonkey-Stichprobengröße Ignoriert diese Tabelle einfach die Tatsache, dass Sie keine Zufallsstichprobe erhalten, da Sie nur die Personen erhalten, die sich die Mühe machen, …

1
Warum hat ein Stichprobenanteil nicht auch eine Binomialverteilung?
In einer Binomialeinstellung ist die Zufallsvariable X, die die Anzahl der Erfolge angibt, binomial verteilt. Der Stichprobenanteil kann dann als X berechnet werden wobeinIhre Stichprobengröße ist. Mein Lehrbuch besagt dasX.nXn\frac{X}{n}nnn Dieser Anteil hat keine Binomialverteilung jedoch seit ist einfach eine skalierte Version einer binomial verteilten ZufallsvariablenX, sollte sie nicht auch …


1
R lineare Regression kategoriale Variable "versteckter" Wert
Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene Ausgabe …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


1
Wie definiere ich, was eine „Probe“ ist?
Wenn ich Ihnen drei Zahlen gebe, die unabhängig und identisch aus einer Standardnormalverteilung stammen, habe ich Ihnen dann drei oder eine Stichprobe gegeben? Wenn die Antwort ein Beispiel ist, gibt es dann einen kurzen Namen für das, wovon ich Ihnen drei gegeben habe?

2
Berechnen Sie die ROC-Kurve für Daten
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

4
Berechnung des Verhältnisses der für die Modellanpassung / Schulung und Validierung verwendeten Probendaten
Bereitstellung einer Stichprobengröße "N", die ich zur Vorhersage von Daten verwenden möchte. Wie kann ich die Daten so unterteilen, dass ich einige davon zum Erstellen eines Modells und die restlichen Daten zum Validieren des Modells verwende? Ich weiß, dass es keine Schwarz-Weiß-Antwort darauf gibt, aber es wäre interessant, einige "Faustregeln" …

1
Folgen einer Überschreitung der Probengröße nach Bestimmung der Probe in der Leistungsanalyse
Herausforderung In unserem Büro war ich an einer Diskussion über die Stichprobengröße und ihren Einfluss auf die Effektgröße beteiligt. Können Sie mir weiterhelfen und erklären? Base Bei der Durchführung einer Leistungsanalyse kann die Stichprobengröße für eine bestimmte Effektgröße in einem bestimmten Design bestimmt werden. Problem / Diskussion Was passiert, wenn …

1
Konfidenzintervalle bei Verwendung des Bayes-Theorems
Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …

2
Teilstichprobe einer Zufallsstichprobe: Zufallsstichprobe?
Nehmen wir an, Sie haben eine große Zufallsstichprobe von Fußballspielern in Europa, aber Sie interessieren sich nur für das, was in Spanien passiert. Könnten Sie Ihre Stichprobe auf Spieler in Spanien reduzieren und sie dennoch als Zufallsstichprobe (aber einer anderen Bevölkerung) bezeichnen? Wenn nicht, wie würden Sie diese Teilstichprobe nennen …

3
Vergrößerung einer Zufallsstichprobe
In unserem Projekt haben wir eine Bevölkerung von mehr als 1000 Personen. Wir haben eine Zufallsstichprobe von 107 Personen ausgewählt, aber dann haben wir festgestellt, dass wir mehr Präzision benötigen. Deshalb möchten wir jetzt eine größere Stichprobe haben. Das Problem ist, dass die Stichprobe in unserem Fall teuer ist. Daher …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.