Statistiken und Big Data modeling

2

Was sind einige Standardverfahren zum Erstellen synthetischer Datensätze?

Als Kontext: Wenn ich mit einem sehr großen Datensatz arbeite, werde ich manchmal gefragt, ob wir einen synthetischen Datensatz erstellen können, in dem wir die Beziehung zwischen Prädiktoren und der Antwortvariablen oder die Beziehungen zwischen Prädiktoren "kennen". Im Laufe der Jahre scheinen mir entweder einmalige synthetische Datensätze zu begegnen, die …

26 modeling reproducible-research synthetic-data

5

Wie verwendet die lineare Regression die Normalverteilung?

Bei der linearen Regression wird angenommen, dass jeder vorhergesagte Wert aus einer Normalverteilung möglicher Werte ausgewählt wurde. Siehe unten. Aber warum wird angenommen, dass jeder vorhergesagte Wert aus einer Normalverteilung stammt? Wie verwendet die lineare Regression diese Annahme? Was ist, wenn mögliche Werte nicht normalverteilt sind?

26 regression probability distributions normal-distribution modeling

2

Allgemeines lineares Modell vs. verallgemeinertes lineares Modell (mit einer Identitätsverknüpfungsfunktion?)

Dies ist mein erster Beitrag, also mach es mir leicht, wenn ich nicht den Standards folge! Ich habe nach meiner Frage gesucht und es ist nichts aufgetaucht. Meine Frage bezieht sich hauptsächlich auf die praktischen Unterschiede zwischen der allgemeinen linearen Modellierung (GLM) und der verallgemeinerten linearen Modellierung (GZLM). In meinem …

25 modeling linear-model

4

Haben Sie eine globale Vision für diese Analysetechniken?

Ich bin derzeit in einem Projekt, in dem ich wie wir alle im Grunde genommen verstehen muss, wie Output mit Input . Die Besonderheit hierbei ist, dass die Daten einzeln an mich übergeben werden. Ich möchte meine Analyse daher jedes Mal aktualisieren, wenn ich eine neue erhalte . Ich glaube, …

24 modeling model-selection

6

Einführung in die Strukturgleichungsmodellierung

Ich werde von Kollegen um Hilfe in diesem Bereich gebeten, die ich nicht wirklich kenne. Sie stellten in einer Studie Hypothesen zur Rolle einiger latenter Variablen auf, und ein Schiedsrichter bat sie, dies in SEM zu formalisieren. Da das, was sie brauchen, nicht allzu schwierig zu sein scheint, denke ich, …

24 references modeling sem psychometrics

10

Haben Sie Empfehlungen für Bücher zum Autodidakt in Angewandter Statistik für Hochschulabsolventen?

Ich habe mehrere Statistikkurse am College besucht, aber meine Ausbildung war sehr theoretisch. Ich habe mich gefragt, ob einer von Ihnen einen Text in Angewandter Statistik (mit Abschluss) hat, den Sie empfehlen oder mit dem Sie gute Erfahrungen gemacht haben.

23 regression references modeling experiment-design application

2

Modelle für räumliche Statistiken: CAR vs SAR

Wann würde man es vorziehen, ein bedingtes autoregressives Modell gegenüber einem simultanen autoregressiven Modell zu verwenden, wenn autokorrelierte georeferenzierte Luftdaten modelliert werden?

23 modeling spatial

4

Schwach informative Vorverteilungen für Skalenparameter

Ich habe Log-Normalverteilungen als frühere Verteilungen für Skalenparameter verwendet (für Normalverteilungen, t-Verteilungen usw.), wenn ich eine ungefähre Vorstellung davon habe, wie die Skala aussehen soll, mich aber irren möchte, wenn ich sage, dass ich es nicht weiß viel darüber. Ich benutze es, weil die Verwendung für mich intuitiv sinnvoll ist, …

21 distributions bayesian modeling prior maximum-entropy

4

Wie projiziert man einen neuen Vektor auf den PCA-Raum?

Nach der Durchführung der Hauptkomponentenanalyse (PCA) möchte ich einen neuen Vektor auf den PCA-Raum projizieren (dh seine Koordinaten im PCA-Koordinatensystem finden). Ich habe PCA in R-Sprache mit berechnet prcomp. Jetzt sollte ich meinen Vektor mit der PCA-Rotationsmatrix multiplizieren können. Sollen die Hauptkomponenten in dieser Matrix in Zeilen oder Spalten angeordnet …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

3

Kombinieren von Konfidenzintervallen für eine Varianzkomponente eines Mixed-Effects-Modells bei Verwendung mehrerer Imputationen

Die Logik der Multiplen Imputation (MI) besteht darin, die fehlenden Werte nicht nur einmal, sondern mehrmals (typischerweise M = 5) zu unterstellen, was zu M vollständigen Datensätzen führt. Die M vervollständigten Datensätze werden dann mit Verfahren für vollständige Daten analysiert, bei denen die M Schätzungen und ihre Standardfehler unter Verwendung …

20 modeling confidence-interval mixed-model data-imputation

2

Angeben eines Unterschiedsmodells mit mehreren Zeiträumen

Wenn ich ein Differenzmodell mit zwei Zeiträumen schätze, wäre das äquivalente Regressionsmodell ein. Y.ich s t= α + γs∗ Tr e a t m e n t + λ dt+ δ∗ ( TR e ein t m e n t * dt) + ϵich s tY.ichst=α+γs∗Treeintment+λdt+δ∗(Treeintment∗dt)+ϵichstY_{ist} = \alpha +\gamma_s*Treatment + …

20 regression modeling econometrics panel-data difference-in-difference

2

VAR-Prognosemethode

Ich erstelle ein VAR-Modell, um den Preis eines Vermögenswerts zu prognostizieren, und möchte wissen, ob meine Methode statistisch fundiert ist, ob die von mir eingeschlossenen Tests relevant sind und ob weitere erforderlich sind, um eine zuverlässige Prognose auf Grundlage meiner Eingabevariablen zu gewährleisten. Nachstehend ist mein aktueller Prozess zur Überprüfung …

19 r forecasting modeling var

2

Wie kann man basierend auf früheren Ereignissen vorhersagen, wann das nächste Ereignis eintritt?

Ich bin ein Gymnasiast und arbeite an einem Computerprogrammierungsprojekt, aber ich habe nicht viel Erfahrung mit Statistik und Modellierung von Daten außerhalb eines High School Statistikkurses, daher bin ich ein bisschen verwirrt. Grundsätzlich habe ich eine ziemlich große Liste (vorausgesetzt, sie ist groß genug, um die Annahmen für statistische Tests …

19 probability modeling data-mining predictive-models

1

Wie sieht die Community den vierten Quadranten?

Nassim Taleb von Black Swan (oder Schande) hat das Konzept ausgearbeitet und das entwickelt, was er "eine Karte der Grenzen der Statistik" nennt . Sein grundlegendes Argument ist, dass es eine Art Entscheidungsproblem gibt, bei dem die Verwendung eines statistischen Modells schädlich ist. Dies wären Entscheidungsprobleme, bei denen die Konsequenz …

19 distributions modeling random-variable

4

Kann ich einfach eine von zwei Prädiktorvariablen entfernen, die stark linear korreliert sind?

Unter Verwendung des Pearson-Korrelationskoeffizienten habe ich mehrere Variablen, die stark korreliert sind ( und für 2 Variablenpaare in meinem Modell).ρ = 0,978ρ=0,978\rho = 0.978ρ = 0,989ρ=0,989\rho = 0.989 Der Grund, warum einige der Variablen stark korreliert sind, liegt darin, dass eine Variable bei der Berechnung für eine andere Variable verwendet …

18 regression correlation modeling

Als «modeling» getaggte Fragen