Statistiken und Big Data modeling

9

Übertreiben wir die Bedeutung der Modellannahme und -bewertung in einer Zeit, in der Analysen häufig von Laien durchgeführt werden?

Fazit : Je mehr ich über Statistik lerne, desto weniger vertraue ich veröffentlichten Artikeln in meinem Bereich. Ich glaube einfach, dass Forscher ihre Statistiken nicht gut genug machen. Ich bin sozusagen ein Laie. Ich bin in Biologie ausgebildet, aber ich habe keine formale Ausbildung in Statistik oder Mathematik. Ich mag …

54 mathematical-statistics multiple-regression modeling

5

Regressionen verstehen - die Rolle des Modells

Wie kann ein Regressionsmodell von Nutzen sein, wenn Sie die Funktion nicht kennen, für die Sie die Parameter abrufen möchten? Ich habe eine Studie gesehen, aus der hervorgeht, dass Mütter, die ihre Kinder gestillt haben, im späteren Leben mit geringerer Wahrscheinlichkeit an Diabetes leiden. Die Untersuchung wurde aus einer Umfrage …

46 regression modeling epidemiology log-linear

8

Sind alle Modelle unbrauchbar? Ist ein genaues Modell möglich - oder sinnvoll?

Diese Frage beschäftigt mich seit über einem Monat. In der Ausgabe der Amstat News vom Februar 2015 ist ein Artikel von Berkeley-Professor Mark van der Laan zu lesen, in dem die Leute wegen der Verwendung ungenauer Modelle beschimpft werden. Er stellt fest, dass Statistik durch die Verwendung von Modellen eher …

45 machine-learning maximum-likelihood modeling nonparametric parametric

4

Statistische Modelle Spickzettel

Ich habe mich gefragt, ob es ein statistisches Modell für "Spickzettel" gibt, das eine oder mehrere Informationen enthält: Wann ist das Modell anzuwenden? wenn Sie das Modell nicht benutzen Erforderliche und optionale Eingaben erwartete Ergebnisse Wurde das Modell in verschiedenen Bereichen (Politik, Bio, Technik, Fertigung usw.) getestet? Wird es in …

44 references modeling

2

Verständnis der Parameter in der negativen Binomialverteilung

Ich habe versucht, meine Daten in verschiedene Modelle einzufügen, und dabei herausgefunden, dass die fitdistrFunktion aus der Bibliothek MASSvon Rmir Negative Binomialdie beste Anpassung ergibt . Auf der Wiki- Seite lautet die Definition nun: Die NegBin (r, p) -Verteilung beschreibt die Wahrscheinlichkeit von k Fehlern und r Erfolgen in k …

37 r distributions modeling negative-binomial

7

Auswählen von Variablen, die in ein Modell mit mehreren linearen Regressionen aufgenommen werden sollen

Ich arbeite derzeit daran, ein Modell mit einer multiplen linearen Regression zu erstellen. Nachdem ich mit meinem Modell herumgespielt habe, bin ich mir nicht sicher, wie ich am besten bestimmen kann, welche Variablen aufbewahrt und welche entfernt werden sollen. Mein Modell startete mit 10 Prädiktoren für den DV. Bei Verwendung …

35 regression multiple-regression feature-selection modeling model-selection

5

Was sind bewährte Methoden zum Ermitteln von Interaktionseffekten?

Abgesehen vom buchstäblichen Testen jeder möglichen Kombination von Variablen in einem Modell ( x1:x2oder x1*x2 ... xn-1 * xn). Wie erkennen Sie, ob eine Interaktion zwischen Ihren unabhängigen (hoffentlich) Variablen bestehen SOLLTE oder KÖNNTE? Was sind Best Practices für den Versuch, Interaktionen zu identifizieren? Gibt es eine grafische Technik, die …

35 regression modeling interaction

3

Wie rüste ich ein ARIMAX-Modell mit R aus?

Ich habe vier verschiedene Zeitreihen von Stundenmessungen: Der Wärmeverbrauch in einem Haus Die Temperatur außerhalb des Hauses Die Sonnenstrahlung Die Windgeschwindigkeit Ich möchte den Wärmeverbrauch im Haus vorhersagen können. Es gibt einen klaren saisonalen Trend, sowohl auf jährlicher Basis als auch auf täglicher Basis. Da es eine eindeutige Korrelation zwischen …

33 time-series modeling arima

1

Negative binomische Regressionsfrage - ist es ein schlechtes Modell?

Ich lese einen sehr interessanten Artikel von Sellers und Shmueli über Regressionsmodelle für Zähldaten. Am Anfang (S. 944) wird auf McCullaugh und Nelder (1989) verwiesen , wonach eine negative binomische Regression unpopulär ist und einen problematischen kanonischen Zusammenhang aufweist. Ich habe die betreffende Passage gefunden und sie lautet (S. 374 …

31 regression modeling negative-binomial

3

Warum ist eine Variablenauswahl notwendig?

Gängige datenbasierte Variablenauswahlverfahren (z. B. vorwärts, rückwärts, schrittweise, alle Teilmengen) führen tendenziell zu Modellen mit unerwünschten Eigenschaften, darunter: Koeffizienten von Null weg vorgespannt. Zu kleine Standardfehler und zu enge Konfidenzintervalle. Teststatistiken und p-Werte, die nicht die angegebene Bedeutung haben. Schätzungen der Modellanpassung sind zu optimistisch. Eingeschlossene Begriffe, die bedeutungslos sein …

31 modeling feature-selection

2

Was ist das statistische Modell hinter dem SVM-Algorithmus?

Ich habe gelernt, dass der erste Schritt beim Umgang mit Daten mithilfe eines modellbasierten Ansatzes die Modellierung von Datenprozeduren als statistisches Modell ist. Der nächste Schritt ist die Entwicklung eines effizienten / schnellen Inferenz- / Lernalgorithmus basierend auf diesem statistischen Modell. Ich möchte also fragen, welches statistische Modell hinter dem …

28 machine-learning svm modeling

5

Unterschied zwischen Bayes'schen Netzwerken und Markov-Prozess?

Was ist der Unterschied zwischen einem Bayes'schen Netzwerk und einem Markov-Prozess? Ich glaubte, die Prinzipien von beiden verstanden zu haben, aber jetzt, wo ich die beiden vergleichen muss, fühle ich mich verloren. Sie bedeuten mir fast dasselbe. Sicher sind sie nicht. Links zu anderen Ressourcen sind ebenfalls willkommen.

28 bayesian references modeling markov-process bayesian-network

1

Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell

Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Ist eine Interaktion zwischen zwei stetigen Variablen möglich?

Alle meine Variablen sind stetig. Es gibt keine Levels. Ist es möglich, überhaupt eine Interaktion zwischen den Variablen zu haben?

27 regression modeling interaction

6

Wie wählt man zwischen ROC AUC und F1 Score?

Ich habe kürzlich einen Kaggle-Wettbewerb abgeschlossen, bei dem der ROC AUC-Score gemäß den Wettbewerbsanforderungen verwendet wurde. Vor diesem Projekt habe ich normalerweise den Wert f1 als Metrik zur Messung der Modellleistung verwendet. In Zukunft frage ich mich, wie ich zwischen diesen beiden Metriken wählen soll. Wann welche verwenden und welche …

26 machine-learning modeling roc scoring-rules

Als «modeling» getaggte Fragen