Statistiken und Big Data modeling

3

Die Formulierung eines mathematischen Modells für ein Problem ist einer der subjektivsten Aspekte der Statistik, aber auch einer der wichtigsten. Was sind die besten Referenzen, die sich mit diesem entscheidenden, aber oft übersehenen Thema befassen? Und welcher berühmte Statistiker sagte etwas in der Art: "Lassen Sie die Daten das Modell …

9 modeling references

2

Wie kann ich Modelle ohne Anpassung vergleichen?

Regression und maschinelles Lernen werden in den Naturwissenschaften verwendet, um Hypothesen zu testen, Parameter zu schätzen und Vorhersagen zu treffen, indem Modelle an Daten angepasst werden. Wenn ich jedoch ein A-priori- Modell habe, möchte ich keine Anpassung vornehmen - zum Beispiel ein Modell eines deterministischen physikalischen Systems, das aus ersten …

8 modeling simulation goodness-of-fit model-comparison

2

Können Gewichte und Versatz zu ähnlichen Ergebnissen bei der Poisson-Regression führen?

In "A Practioner's Guide to Generalized Linear Models" in Absatz 1.83 heißt es: "Im speziellen Fall eines multiplikativen Poisson-GLM kann gezeigt werden, dass die Modellierungsanspruchszahlen mit einem Versatzterm gleich dem Logarithmus der Exposition zu identischen Ergebnissen führen wie die Modellierungsanspruchshäufigkeiten mit vorherigen Gewichten, die gleich der Exposition jeder Beobachtung eingestellt …

8 generalized-linear-model modeling poisson-regression weights offset

3

Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen

Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

3

Statistische Unabhängigkeit in der realen Welt

Ich habe den folgenden Artikel über statistische Unabhängigkeit gelesen . Zusammenfassend argumentiert der Artikel, dass "es Zeit für die Wissenschaft ist, die Fiktion der statistischen Unabhängigkeit zurückzuziehen", und erklärt anschließend verschiedene Gründe dafür. Nachdem ich den Artikel gelesen habe, stimme ich eher zu. Ich wollte folgendes wissen: Was denken andere …

8 modeling independence

1

Mehrere ARIMA-Modelle passen gut zu Daten. Wie bestimme ich die Reihenfolge? Richtiger Ansatz?

Ich habe zwei Zeitreihen (Parameter eines Modells für Männer und Frauen) und möchte ein geeignetes ARIMA-Modell identifizieren, um Prognosen zu erstellen. Meine Zeitreihe sieht aus wie: Die Darstellung und der ACF sind instationär (die Spitzen des ACF schneiden sehr langsam ab). Daher verwende ich Differenzierung und erhalte: Dieses Diagramm zeigt, …

8 r time-series modeling arima autocorrelation

3

Finden Sie die Verteilung und transformieren Sie sie in die Normalverteilung

Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

2

Eine Person wählt wiederholt die zwei ähnlichsten Elemente aus drei aus. Wie modelliere / schätze ich einen Wahrnehmungsabstand zwischen den Elementen?

Eine Person erhält drei Gegenstände, beispielsweise Bilder von Gesichtern, und wird gebeten, herauszufinden, welche der drei Gesichter am ähnlichsten sind. Dies wird sehr oft mit verschiedenen Kombinationen von Gesichtern wiederholt, wobei jedes Gesicht in vielen Kombinationen auftreten kann. Angesichts dieser Art von Daten möchte ich den Unterschied / die Ähnlichkeit …

8 modeling dimensionality-reduction psychometrics similarities

1

Versteckte Zustandsmodelle vs. staatenlose Modelle für die Zeitreihenregression

Dies ist eine recht allgemeine Frage: Angenommen, ich möchte ein Modell erstellen, um die nächste Beobachtung basierend auf den vorherigen Beobachtungen vorherzusagen ( kann ein Parameter zur experimentellen Optimierung sein). Wir haben also im Grunde ein Schiebefenster mit Eingabemerkmalen, um die nächste Beobachtung vorherzusagen.N.NNNNNN Ich kann einen Hidden-Markov-Modell-Ansatz verwenden, dh …

8 regression time-series modeling prediction hidden-markov-model

2

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

3

Post-hoc-Test in einer 2x3-ANOVA mit gemischtem Design unter Verwendung von SPSS?

Ich habe zwei Gruppen von 10 Teilnehmern, die während eines Experiments dreimal bewertet wurden. Um die Unterschiede zwischen den Gruppen und zwischen den drei Bewertungen zu testen, führte ich eine 2 × 3-ANOVA mit gemischtem Design mit group(Kontrolle, experimentell), time(erste, zweite, drei) und group x time. Beides timeund groupErgebnis signifikant, …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

Was sagen Lift and Gain Charts im Kontext eines Mitarbeiterfluktuationsmodells?

Daher versuche ich, die Lift and Gain-Diagramme für mein Mitarbeiterfluktuationsmodell (dh CHAID in SPSS Modeler) besser zu verstehen. Für meine Daten bedeutet dies, die Anzahl der Personen vorherzusagen, die das Unternehmen freiwillig verlassen. Ich habe die folgenden Referenzen überprüft und die Grundlagen bezüglich der Interpretation festgelegt: Was ist auf der …

8 modeling predictive-models

1

Sprachmodellierung: Warum ist das Addieren von 1 so wichtig?

In vielen Anwendungen zur Verarbeitung natürlicher Sprache wie Rechtschreibkorrektur, maschinelle Übersetzung und Spracherkennung verwenden wir Sprachmodelle. Sprachmodelle werden normalerweise erstellt, indem gezählt wird, wie oft Wortfolgen (n-Gramm) in einem großen Korpus vorkommen, und die Anzahl normalisiert wird, um eine Wahrscheinlichkeit zu erstellen. Um unsichtbare n-Gramm zu berücksichtigen, verwenden wir Glättungsmethoden …

8 distributions modeling natural-language language-models

4

Flexible Version der logistischen Regression

Ich versuche, eine logistische Regression anzupassen, bei der es einen großen Unterschied in der Anzahl der Datenpunkte in beiden Gruppen gibt (70 gegenüber 10.000). Ein statistischer Freund von mir hat mir gesagt, dass dies ein bekanntes Problem mit der logistischen Regression ist und dass es für diese Art von Zahlen …

8 modeling logistic binary-data

1

Was bedeutet diese Unschärfe um die Linie in diesem Diagramm?

Ich habe mit ggplot2 mit den folgenden Befehlen herumgespielt, um eine Zeile an meine Daten anzupassen: ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") Die roten Punkte sind Medianwerte, blau sind die Mittelwerte und die …

8 r modeling dataset data-mining ggplot2

Als «modeling» getaggte Fragen