Als «theory» getaggte Fragen

Bei Fragen zur statistischen Theorie. Fügen Sie immer auch ein spezifischeres Tag hinzu.





8
Welche Theorien sollte jeder Statistiker kennen?
Ich denke darüber aus einer sehr einfachen Perspektive mit minimalen Anforderungen nach. Was sind die wichtigsten Theorien, die ein (nicht akademischer) Statistiker in der Branche regelmäßig kennen, verstehen und anwenden sollte? Ein großer Gedanke ist das Gesetz der großen Zahlen . Was ist für die Anwendung der statistischen Theorie auf …

4
Wie interpretieren Sie RMSLE (Root Mean Squared Logarithmic Error)?
Ich habe einen maschinellen Lernwettbewerb durchgeführt, bei dem RMSLE (Root Mean Squared Logarithmic Error) verwendet wird, um die Leistung zu bewerten und den Verkaufspreis einer Gerätekategorie vorherzusagen. Das Problem ist, dass ich nicht sicher bin, wie ich den Erfolg meines Endergebnisses interpretieren soll. Wenn ich zum Beispiel einen Effektivwert von …

3
Warum sind die Lernenden beim Boosten „schwach“?
Siehe auch eine ähnliche Frage zu stats.SE . Bei Boosting- Algorithmen wie AdaBoost und LPBoost ist bekannt, dass die zu kombinierenden "schwachen" Lernenden nur bessere Leistungen erbringen müssen als der Zufall, um nützlich zu sein. Die verwendeten Klassifizierer können schwach sein (dh eine erhebliche Fehlerrate aufweisen), aber solange ihre Leistung …

1
Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell
Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 


8
Warum ist es so wichtig, prinzipielle und mathematische Theorien für maschinelles Lernen zu haben?
Ich habe mich gefragt, warum es so wichtig ist, prinzipielles / theoretisches maschinelles Lernen zu haben. Aus einer persönlichen Perspektive als Mensch kann ich verstehen, warum prinzipielles maschinelles Lernen wichtig wäre: Menschen mögen es zu verstehen, was sie tun, wir finden Schönheit und Befriedigung zu verstehen. Aus theoretischer Sicht macht …

1
Auswahl unter den richtigen Bewertungsregeln
In den meisten Ressourcen zu den Regeln für die richtige Bewertung werden verschiedene Bewertungsregeln wie Protokollverlust, Brier-Punktzahl oder sphärische Bewertung erwähnt. Häufig geben sie jedoch keine Orientierungshilfe zu den Unterschieden zwischen ihnen. (Anlage A: Wikipedia .) Die Auswahl des Modells, das die logarithmische Bewertung maximiert, entspricht der Auswahl des Maximum-Likelihood-Modells, …

4
Was bedeutet "Unparteilichkeit"?
Was bedeutet es zu sagen, dass "die Varianz ein verzerrter Schätzer ist"? Was bedeutet es, eine voreingenommene Schätzung durch eine einfache Formel in eine unvoreingenommene Schätzung umzuwandeln? Was genau macht diese Konvertierung? Was ist der praktische Nutzen dieser Konvertierung? Konvertieren Sie diese Werte, wenn Sie bestimmte Arten von Statistiken verwenden?

4
Was ist der Fluch der Dimensionalität?
Konkret suche ich Referenzen (Papiere, Bücher), die den Fluch der Dimensionalität konsequent aufzeigen und erklären. Diese Frage stellte sich, nachdem ich dieses Whitepaper von Lafferty und Wasserman gelesen hatte . Im dritten Absatz erwähnen sie eine "bekannte" Gleichung, die impliziert, dass die beste Konvergenzrate ; Wenn jemand darauf eingehen kann …
21 theory 

5
Einführung in die Maßtheorie
Ich möchte mehr über nichtparametrische Bayesianische (und verwandte) Techniken erfahren. Mein Hintergrund liegt in der Informatik, und obwohl ich noch nie einen Kurs in Maß- oder Wahrscheinlichkeitstheorie belegt habe, habe ich nur ein begrenztes Maß an formaler Ausbildung in Wahrscheinlichkeits- und Statistikwissenschaften erhalten. Kann mir jemand eine lesbare Einführung in …





1
Welche Kausaltheorien sollte ich kennen?
Welche theoretischen Herangehensweisen an die Kausalität sollte ich als angewandter Statistiker / Ökonometriker kennen? Ich kenne die (ein bisschen) Neyman-Rubin-Kausalmodell (und Roy , Haavelmo usw.) Pearl's Arbeit über Kausalität Granger-Kausalität (wenn auch weniger behandlungsorientiert) Welche Konzepte vermisse ich oder sollte ich darauf achten? Verwandte: Welche Theorien sind Grundlagen für Kausalität …

2
Was sind Alternativen zur VC-Dimension zur Messung der Komplexität neuronaler Netze?
Ich habe einige grundlegende Methoden gefunden, um die Komplexität neuronaler Netze zu messen: Naiv und informell: Zählen Sie die Anzahl der Neuronen, verborgenen Neuronen, Schichten oder verborgenen Schichten VC-Dimension (Eduardo D. Sontag [1998] "VC-Dimension neuronaler Netze" [ pdf ].) Ein körniger und asymptotischer Rechenaufwand wird durch Äquivalenz zu gemessenTC0dTCd0TC^0_d . …

5
Wahrscheinlichkeitstheorie Bücher zum Selbststudium
Gibt es gute Bücher, die wichtige Konzepte der Wahrscheinlichkeitstheorie wie Wahrscheinlichkeitsverteilungsfunktionen und kumulative Verteilungsfunktionen erklären? Vermeiden Sie es, auf Bücher wie "Mathematical Statistics and Data Analysis" von John Rice zu verweisen, die mit einfachen Permutationskonzepten beginnen und dann plötzlich (im 2. Kapitel) einen Sprung machen, indem Sie Kenntnisse in reeller …

1
Was ist die Intuition hinter austauschbaren Proben unter der Nullhypothese?
Permutationstests (auch Randomisierungstest, Re-Randomisierungstest oder exakter Test genannt) sind sehr nützlich und nützlich, wenn die zum Beispiel erforderliche Annahme einer Normalverteilung t-testnicht erfüllt ist und wenn die Transformation der Werte durch Rangfolge der Werte erfolgt Ein nicht parametrischer Test Mann-Whitney-U-testwürde dazu führen, dass mehr Informationen verloren gehen. Eine einzige Annahme, …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
Gilt das Prinzip der Gleichgültigkeit für das Borel-Kolmogorov-Paradoxon?
Betrachten Sie Jaynes 'Lösung des Bertrand-Paradoxons nach dem Prinzip der Gleichgültigkeit . Warum trifft ein ähnliches Argument auf das Borel-Kolmogorov-Paradoxon nicht zu ? Ist etwas falsch daran zu argumentieren, dass das Drehen der Kugel die resultierende Verteilung, die durch den gewählten Begrenzungsprozess erreicht wird, nicht beeinflussen sollte, da das Problem …
15 theory  paradox 

1
GAM vs LOESS vs Splines
Kontext : Ich möchte eine Linie in einem Streudiagramm zeichnen, die nicht parametrisch erscheint, daher verwende ich geom_smooth()in ggplotin R. Es gibt automatisch geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the …


3
Forscher 1 führt 1000 Regressionen aus, Forscher 2 führt nur 1 aus, beide führen zu denselben Ergebnissen - sollten sie unterschiedliche Schlussfolgerungen ziehen?
Stellen Sie sich vor, ein Forscher untersucht einen Datensatz und führt 1000 verschiedene Regressionen durch und findet eine interessante Beziehung zwischen ihnen. Stellen Sie sich nun vor, ein anderer Forscher mit denselben Daten führt nur eine Regression aus, und es stellt sich heraus, dass der andere Forscher 1000 Regressionen durchgeführt …

1
Was sind einige gute Rahmenbedingungen für die Methodenauswahl?
Ich habe mich mit theoretischen Rahmenbedingungen für die Methodenauswahl befasst (Anmerkung: nicht Modellauswahl) und nur sehr wenig systematische, mathematisch motivierte Arbeit gefunden. Mit "Methodenauswahl" meine ich einen Rahmen zur Unterscheidung der geeigneten (oder besser, optimalen) Methode in Bezug auf ein Problem oder einen Problemtyp. Was ich gefunden habe, ist substanziell, …


1
Probleme mit einer Simulationsstudie der wiederholten Experimente Erklärung eines 95% -Konfidenzintervalls - wo mache ich Fehler?
Ich versuche, ein R-Skript zu schreiben, um die wiederholte Interpretation eines 95% -Konfidenzintervalls zu simulieren. Ich habe festgestellt, dass es den Anteil der Zeiten überschätzt, in denen der wahre Populationswert eines Anteils im 95% -KI der Stichprobe enthalten ist. Kein großer Unterschied - ungefähr 96% gegenüber 95%, aber das hat …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.