Statistiken und Big Data modeling

2

Modellieren von Cricket-Bowlern, die Schlagmänner herausholen

Ich habe einen Datensatz mit einer großen Anzahl von Cricket-Spielen (einige Tausend). Beim Cricket werfen "Bowler" wiederholt einen Ball auf eine Abfolge von "Schlagmännern". Der Bowler versucht, den Schlagmann "raus" zu bringen. In dieser Hinsicht ist es Krügen und Schlägern im Baseball ziemlich ähnlich. Wenn ich den gesamten Datensatz nehmen …

9 probability modeling games

5

Was ist eine gute Möglichkeit, eine sehr große Anzahl gepaarter Datenpunkte grafisch darzustellen?

In meinem Bereich besteht die übliche Methode zum Zeichnen gepaarter Daten aus einer Reihe von dünn abfallenden Liniensegmenten, die mit dem Median und dem CI des Medians für die beiden Gruppen überlagert werden: Diese Art von Plot wird jedoch viel schwieriger zu lesen, da die Anzahl der Datenpunkte sehr groß …

9 generalized-linear-model data-visualization modeling interpretation paired-data

2

Backtesting oder Kreuzvalidierung, wenn der Modellbildungsprozess interaktiv war

Ich habe einige Vorhersagemodelle, deren Leistung ich zurücktesten möchte (dh ich nehme meinen Datensatz, spule ihn zu einem früheren Zeitpunkt zurück und sehe, wie sich das Modell prospektiv entwickelt hätte). Das Problem ist, dass einige meiner Modelle über einen interaktiven Prozess erstellt wurden. Zum Beispiel habe ich gemäß den Ratschlägen …

9 cross-validation modeling outliers splines overfitting

5

Logistische Regression bei Big Data

Ich habe einen Datensatz von rund 5000 Funktionen. Für diese Daten habe ich zuerst den Chi-Quadrat-Test zur Merkmalsauswahl verwendet. Danach erhielt ich ungefähr 1500 Variablen, die eine signifikante Beziehung zur Antwortvariablen zeigten. Jetzt muss ich die logistische Regression darauf abstimmen. Ich verwende das glmulti-Paket für R (das glmulti-Paket bietet eine …

9 r logistic generalized-linear-model modeling regression-strategies

4

Modellierung für Fußballergebnisse

In Dixon, Coles ( 1997 ) haben sie die Maximum-Likelihood-Schätzung für die beiden modifizierten unabhängigen Poisson-Modelle in (4.3) verwendet, um die Ergebnisse im Fußball zu modellieren. Ich versuche, R zu verwenden, um die Alpha- und Beta-Parameter sowie die Home-Effekt-Parameter (S. 274, Tabelle 4) ohne Verwendung von Paketen zu "reproduzieren" (die …

9 r modeling maximum-likelihood games

3

Welches Modell kann verwendet werden, wenn die Annahme einer konstanten Varianz verletzt wird?

Welches Modell kann zur Anpassung univariater Zeitreihen verwendet werden, da das ARIMA-Modell nicht angepasst werden kann, wenn die Annahme einer konstanten Varianz verletzt wird?

9 time-series modeling forecasting arima

2

Wie modelliere ich die Summe der Bernoulli-Zufallsvariablen für abhängige Daten?

Ich habe fast die gleichen Fragen wie diese: Wie kann ich die Summe der Bernoulli-Zufallsvariablen effizient modellieren? Aber die Einstellung ist ganz anders: S=∑i=1,NXiS=∑i=1,NXiS=\sum_{i=1,N}{X_i} , , ~ 20, ~ 0,1P(Xi=1)=piP(Xi=1)=piP(X_{i}=1)=p_iNNNpipip_i Wir haben die Daten für die Ergebnisse von Bernoulli-Zufallsvariablen: ,Xi,jXi,jX_{i,j}Sj=∑i=1,NXi,jSj=∑i=1,NXi,jS_j=\sum_{i=1,N}{X_{i,j}} Wenn wir mit maximaler Wahrscheinlichkeitsschätzung schätzen (und ), stellt sich …

9 distributions modeling binomial random-variable non-independent

1

Soll ich meine Daten neu mischen?

Wir haben eine Reihe von biologischen Proben, deren Beschaffung ziemlich teuer war. Wir haben diese Beispiele einer Reihe von Tests unterzogen, um Daten zu generieren, die zum Erstellen eines Vorhersagemodells verwendet werden. Zu diesem Zweck haben wir die Stichproben in Trainings- (70%) und Testsätze (30%) unterteilt. Wir haben erfolgreich ein …

9 classification modeling experiment-design cross-validation bootstrap

2

Berechnen Sie die ROC-Kurve für Daten

Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

10

Wie zeichnet man Strukturgleichungs- / MPLUS-Modelle?

Ich suche ein Software-Tool (vorzugsweise Open Source), um Strukturgleichungs- / Mischungsmodelle effizient und hübsch zu zeichnen. Nachdem ich mir xfig und graphviz angesehen habe, halte ich mich jetzt an das allgemeine Vektorgrafikpaket inkscape, da es am flexibelsten erscheint. Ich möchte die stat.stackexchange-Community befragen: Wie zeichnen Sie Ihre Strukturgleichungs- / Mischungsmodelle? …

9 data-visualization modeling sem software

2

Messung der Anpassungsgüte in einem Modell, das zwei Verteilungen kombiniert

Ich habe Daten mit einem Doppelpeak, die ich zu modellieren versuche, und es gibt genügend Überlappungen zwischen den Peaks, sodass ich sie nicht unabhängig behandeln kann. Ein Histogramm der Daten könnte ungefähr so aussehen: Ich habe dafür zwei Modelle erstellt: eines verwendet zwei Poisson-Verteilungen und das andere verwendet zwei negative …

9 modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio

3

Berechnung der besten Teilmenge von Prädiktoren für die lineare Regression

Welche Methoden stehen für die Auswahl von Prädiktoren in multivariater linearer Regression mit geeigneten Prädiktoren zur Verfügung, um eine "optimale" Teilmenge der Prädiktoren zu finden, ohne alle 2 p Teilmengen explizit zu testen ? In 'Applied Survival Analysis' beziehen sich Hosmer & Lemeshow auf Kuks Methode, aber ich kann das …

9 modeling regression multivariable model-selection feature-selection

4

Berechnung des Verhältnisses der für die Modellanpassung / Schulung und Validierung verwendeten Probendaten

Bereitstellung einer Stichprobengröße "N", die ich zur Vorhersage von Daten verwenden möchte. Wie kann ich die Daten so unterteilen, dass ich einige davon zum Erstellen eines Modells und die restlichen Daten zum Validieren des Modells verwende? Ich weiß, dass es keine Schwarz-Weiß-Antwort darauf gibt, aber es wäre interessant, einige "Faustregeln" …

9 machine-learning modeling sample validation

4

Kann eine baumbasierte Regression schlechter abschneiden als eine einfache lineare Regression?

Hallo, ich studiere Regressionstechniken. Meine Daten haben 15 Funktionen und 60 Millionen Beispiele (Regressionsaufgabe). Als ich viele bekannte Regressionstechniken ausprobierte (gradientenverstärkter Baum, Entscheidungsbaumregression, AdaBoostRegressor usw.), lief die lineare Regression hervorragend. Unter diesen Algorithmen fast am besten bewertet. Was kann der Grund dafür sein? Da meine Daten so viele Beispiele enthalten, …

9 regression modeling deep-learning model cart

4

Wie werden Daten im Bayes'schen Framework generiert und wie sieht der Parameter aus, der die Daten generiert?

Ich habe versucht, die Bayes'schen Statistiken neu zu lernen (jedes Mal, wenn ich dachte, ich hätte sie endlich bekommen, taucht etwas anderes auf, das ich vorher nicht in Betracht gezogen habe ...), aber es war (für mich) nicht klar, wie der Datengenerierungsprozess ablief im Bayesianischen Rahmen ist eigentlich. Der frequentistische …

9 bayesian modeling prior frequentist randomness

Als «modeling» getaggte Fragen