Als «modeling» getaggte Fragen

Dieses Tag beschreibt den Prozess der Erstellung eines statistischen oder maschinellen Lernmodells. Fügen Sie immer ein spezifischeres Tag hinzu.

2
Modellieren von Cricket-Bowlern, die Schlagmänner herausholen
Ich habe einen Datensatz mit einer großen Anzahl von Cricket-Spielen (einige Tausend). Beim Cricket werfen "Bowler" wiederholt einen Ball auf eine Abfolge von "Schlagmännern". Der Bowler versucht, den Schlagmann "raus" zu bringen. In dieser Hinsicht ist es Krügen und Schlägern im Baseball ziemlich ähnlich. Wenn ich den gesamten Datensatz nehmen …

5
Was ist eine gute Möglichkeit, eine sehr große Anzahl gepaarter Datenpunkte grafisch darzustellen?
In meinem Bereich besteht die übliche Methode zum Zeichnen gepaarter Daten aus einer Reihe von dünn abfallenden Liniensegmenten, die mit dem Median und dem CI des Medians für die beiden Gruppen überlagert werden: Diese Art von Plot wird jedoch viel schwieriger zu lesen, da die Anzahl der Datenpunkte sehr groß …

2
Backtesting oder Kreuzvalidierung, wenn der Modellbildungsprozess interaktiv war
Ich habe einige Vorhersagemodelle, deren Leistung ich zurücktesten möchte (dh ich nehme meinen Datensatz, spule ihn zu einem früheren Zeitpunkt zurück und sehe, wie sich das Modell prospektiv entwickelt hätte). Das Problem ist, dass einige meiner Modelle über einen interaktiven Prozess erstellt wurden. Zum Beispiel habe ich gemäß den Ratschlägen …

5
Logistische Regression bei Big Data
Ich habe einen Datensatz von rund 5000 Funktionen. Für diese Daten habe ich zuerst den Chi-Quadrat-Test zur Merkmalsauswahl verwendet. Danach erhielt ich ungefähr 1500 Variablen, die eine signifikante Beziehung zur Antwortvariablen zeigten. Jetzt muss ich die logistische Regression darauf abstimmen. Ich verwende das glmulti-Paket für R (das glmulti-Paket bietet eine …

4
Modellierung für Fußballergebnisse
In Dixon, Coles ( 1997 ) haben sie die Maximum-Likelihood-Schätzung für die beiden modifizierten unabhängigen Poisson-Modelle in (4.3) verwendet, um die Ergebnisse im Fußball zu modellieren. Ich versuche, R zu verwenden, um die Alpha- und Beta-Parameter sowie die Home-Effekt-Parameter (S. 274, Tabelle 4) ohne Verwendung von Paketen zu "reproduzieren" (die …


2
Wie modelliere ich die Summe der Bernoulli-Zufallsvariablen für abhängige Daten?
Ich habe fast die gleichen Fragen wie diese: Wie kann ich die Summe der Bernoulli-Zufallsvariablen effizient modellieren? Aber die Einstellung ist ganz anders: S=∑i=1,NXiS=∑i=1,NXiS=\sum_{i=1,N}{X_i} , , ~ 20, ~ 0,1P(Xi=1)=piP(Xi=1)=piP(X_{i}=1)=p_iNNNpipip_i Wir haben die Daten für die Ergebnisse von Bernoulli-Zufallsvariablen: ,Xi,jXi,jX_{i,j}Sj=∑i=1,NXi,jSj=∑i=1,NXi,jS_j=\sum_{i=1,N}{X_{i,j}} Wenn wir mit maximaler Wahrscheinlichkeitsschätzung schätzen (und ), stellt sich …


2
Berechnen Sie die ROC-Kurve für Daten
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

10
Wie zeichnet man Strukturgleichungs- / MPLUS-Modelle?
Ich suche ein Software-Tool (vorzugsweise Open Source), um Strukturgleichungs- / Mischungsmodelle effizient und hübsch zu zeichnen. Nachdem ich mir xfig und graphviz angesehen habe, halte ich mich jetzt an das allgemeine Vektorgrafikpaket inkscape, da es am flexibelsten erscheint. Ich möchte die stat.stackexchange-Community befragen: Wie zeichnen Sie Ihre Strukturgleichungs- / Mischungsmodelle? …

2
Messung der Anpassungsgüte in einem Modell, das zwei Verteilungen kombiniert
Ich habe Daten mit einem Doppelpeak, die ich zu modellieren versuche, und es gibt genügend Überlappungen zwischen den Peaks, sodass ich sie nicht unabhängig behandeln kann. Ein Histogramm der Daten könnte ungefähr so ​​aussehen: Ich habe dafür zwei Modelle erstellt: eines verwendet zwei Poisson-Verteilungen und das andere verwendet zwei negative …

3
Berechnung der besten Teilmenge von Prädiktoren für die lineare Regression
Welche Methoden stehen für die Auswahl von Prädiktoren in multivariater linearer Regression mit geeigneten Prädiktoren zur Verfügung, um eine "optimale" Teilmenge der Prädiktoren zu finden, ohne alle 2 p Teilmengen explizit zu testen ? In 'Applied Survival Analysis' beziehen sich Hosmer & Lemeshow auf Kuks Methode, aber ich kann das …

4
Berechnung des Verhältnisses der für die Modellanpassung / Schulung und Validierung verwendeten Probendaten
Bereitstellung einer Stichprobengröße "N", die ich zur Vorhersage von Daten verwenden möchte. Wie kann ich die Daten so unterteilen, dass ich einige davon zum Erstellen eines Modells und die restlichen Daten zum Validieren des Modells verwende? Ich weiß, dass es keine Schwarz-Weiß-Antwort darauf gibt, aber es wäre interessant, einige "Faustregeln" …

4
Kann eine baumbasierte Regression schlechter abschneiden als eine einfache lineare Regression?
Hallo, ich studiere Regressionstechniken. Meine Daten haben 15 Funktionen und 60 Millionen Beispiele (Regressionsaufgabe). Als ich viele bekannte Regressionstechniken ausprobierte (gradientenverstärkter Baum, Entscheidungsbaumregression, AdaBoostRegressor usw.), lief die lineare Regression hervorragend. Unter diesen Algorithmen fast am besten bewertet. Was kann der Grund dafür sein? Da meine Daten so viele Beispiele enthalten, …

4
Wie werden Daten im Bayes'schen Framework generiert und wie sieht der Parameter aus, der die Daten generiert?
Ich habe versucht, die Bayes'schen Statistiken neu zu lernen (jedes Mal, wenn ich dachte, ich hätte sie endlich bekommen, taucht etwas anderes auf, das ich vorher nicht in Betracht gezogen habe ...), aber es war (für mich) nicht klar, wie der Datengenerierungsprozess ablief im Bayesianischen Rahmen ist eigentlich. Der frequentistische …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.