Statistiken und Big Data distributions

1

Ich arbeite an einer Kapazitätsplanungsaufgabe und habe einige Bücher gelesen. Hier geht es speziell um Distributionen. Ich benutze R. Was ist der empfohlene Ansatz, um meine Datenverteilung zu ermitteln? Gibt es statistische Methoden, um dies zu identifizieren? Ich habe dieses Diagramm. Welche Simulationsansätze stehen mit R zur Verfügung? Hier möchte …

9 distributions simulation

1

Gibt es eine Methode zur Schätzung von Verteilungsparametern, die nur aus Quantilen bestehen?

Gibt es eine Möglichkeit, eine bestimmte Verteilung anzupassen, wenn Sie nur wenige Quantile erhalten? Wenn ich Ihnen zum Beispiel sage, dass ich einen Gamma-verteilten Datensatz habe und die empirischen 20%, 30%, 50% und 90% -Quantile sind: 20% 30% 50% 90% 0.3936833 0.4890963 0.6751703 1.3404074 Wie würde ich die Parameter schätzen? …

9 distributions quantiles fitting

2

Parametrisches, semiparametrisches und nichtparametrisches Bootstrapping für gemischte Modelle

Die folgenden Transplantate stammen aus diesem Artikel . Ich bin ein Neuling im Bootstrap und versuche, das parametrische, semiparametrische und nichtparametrische Bootstrapping-Bootstrapping für ein lineares gemischtes Modell mit R bootPaket zu implementieren. R-Code Hier ist mein RCode: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

1

Wie kann ich nachweisen, dass die Versuchsdaten der Verteilung mit schwerem Schwanz folgen?

Ich habe mehrere Testergebnisse der Serverantwortverzögerung. Nach unserer theoretischen Analyse sollte die Verzögerungsverteilung (die Wahrscheinlichkeitsverteilungsfunktion der Antwortverzögerung) ein schweres Verhalten aufweisen. Aber wie könnte ich beweisen, dass das Testergebnis einer Verteilung mit schwerem Schwanz folgt?

9 regression distributions probability normal-distribution mathematical-statistics

4

Test auf signifikante Unterschiede in den Verhältnissen normalverteilter Zufallsvariablen

Bezogen auf das Analysieren von Verhältnissen von Variablen und Wie wird das Verhältnis von zwei normalverteilten Variablen oder die Umkehrung von einer parametrisiert? . Angenommen, ich habe eine Reihe von Stichproben aus vier verschiedenen kontinuierlichen Zufallsverteilungen, von denen wir alle annehmen können, dass sie ungefähr normal sind. In meinem Fall …

9 distributions hypothesis-testing statistical-significance

7

Suche nach künstlichen 2D-Daten zur Demonstration der Eigenschaften von Clustering-Algorithmen

Ich suche nach Datensätzen von zweidimensionalen Datenpunkten (jeder Datenpunkt ist ein Vektor mit zwei Werten (x, y)), die unterschiedlichen Verteilungen und Formen folgen. Code zum Generieren solcher Daten wäre ebenfalls hilfreich. Ich möchte sie verwenden, um die Leistung einiger Clustering-Algorithmen zu zeichnen / zu visualisieren. Hier sind einige Beispiele: sternförmige …

9 distributions data-visualization clustering dataset

1

Verteilung des Kehrwerts des Regressionskoeffizienten

Angenommen, wir haben ein lineares Modell , das alle Standardannahmen für die Regression (Gauss-Markov) erfüllt. Wir interessieren uns für .yi=β0+β1xi+ϵiyi=β0+β1xi+ϵiy_i = \beta_0 + \beta_1 x_i + \epsilon_iθ=1/β1θ=1/β1\theta = 1/\beta_1 Frage 1: Welche Annahmen sind notwendig, damit die Verteilung von genau definiert ist? wäre wichtig --- irgendwelche anderen?θ^θ^\hat{\theta}β1≠0β1≠0\beta_1 \neq 0 Frage …

9 regression distributions maximum-likelihood bootstrap

3

Wie kann ich Volkszählungsmikrodaten für kleine Gebiete mithilfe einer 1% igen Mikrodatenstichprobe im großen Maßstab simulieren und Statistiken im kleinen Gebiet aggregieren?

Ich möchte eine multivariate Analyse auf Einzelebene auf kleinen Ebenen der geografischen Aggregation (australische Volkszählungssammlungsbezirke) durchführen. Es ist klar, dass die Volkszählung auf diesen kleinen Aggregationsebenen aus Datenschutzgründen nicht verfügbar ist, daher untersuche ich andere Alternativen. Fast alle interessierenden Variablen sind kategorisch. Ich habe zwei Datensätze zur Verfügung: Die 1% …

9 distributions sampling simulation spatial census

2

Hat diese Distribution einen Namen? Oder was ist ein stochastischer Prozess, der ihn erzeugen könnte?

Eine diskrete Verteilung mit Massenfunktion p(x;k)=k(x+k)(x+k−1),x=1,2,…p(x;k)=k(x+k)(x+k−1),x=1,2,…p(x;k) = \frac{k}{(x+k)(x+k-1)},\quad x = 1,2,\ldots erscheint auf Seite 9 dieses Papiers . Für es eine Yule-Simon-Verteilung mit , aber ich habe keine anderen Beispiele gefunden.k=1k=1k=1ρ=1ρ=1\rho=1 Hat es einen Namen? Erscheint es in anderen Kontexten? Gibt es einen einfachen stochastischen Prozess, der ihn erzeugen könnte?

9 distributions

1

Wie summiere ich zwei Variablen auf verschiedenen Skalen?

Wenn ich zwei Variablen habe, die zwei unterschiedlichen Verteilungen folgen und unterschiedliche Standardabweichungen haben ... Wie muss ich zwei Variablen transformieren, damit die beiden Ergebnisse, wenn ich sie summiere, nicht von einer volatileren "getrieben" werden? Zum Beispiel ... Variable A ist weniger flüchtig als Variable B (reicht von 0 bis …

9 distributions

2

Wie modelliere ich die Summe der Bernoulli-Zufallsvariablen für abhängige Daten?

Ich habe fast die gleichen Fragen wie diese: Wie kann ich die Summe der Bernoulli-Zufallsvariablen effizient modellieren? Aber die Einstellung ist ganz anders: S=∑i=1,NXiS=∑i=1,NXiS=\sum_{i=1,N}{X_i} , , ~ 20, ~ 0,1P(Xi=1)=piP(Xi=1)=piP(X_{i}=1)=p_iNNNpipip_i Wir haben die Daten für die Ergebnisse von Bernoulli-Zufallsvariablen: ,Xi,jXi,jX_{i,j}Sj=∑i=1,NXi,jSj=∑i=1,NXi,jS_j=\sum_{i=1,N}{X_{i,j}} Wenn wir mit maximaler Wahrscheinlichkeitsschätzung schätzen (und ), stellt sich …

9 distributions modeling binomial random-variable non-independent

2

Verteilung von "ungemischten" Teilen basierend auf der Reihenfolge der Mischung

Angenommen, ich habe Beobachtungen gepaart, die als für . Let und bezeichne der - ten größten beobachteten Wert von . Was ist die (bedingte) Verteilung von ? (oder gleichwertig das von )i = 1 , 2 , ... , n Z i = X i + Y i , Z …

9 distributions order-statistics shrinkage

2

Berechnen Sie die ROC-Kurve für Daten

Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Berechnung der kumulativen Verteilung des maximalen Drawdowns des Random Walk mit Drift

Ich interessiere mich für die Verteilung des maximalen Drawdowns eines zufälligen Spaziergangs: Sei wobei . Der maximale Drawdown nach Perioden beträgt . Ein Artikel von Magdon-Ismail et. al. gibt die Verteilung für die maximale Absenkung einer Brownschen Bewegung mit Drift an. Der Ausdruck beinhaltet eine unendliche Summe, die einige Begriffe …

9 distributions cdf finance random-walk

2

Ist der Wert einer Wahrscheinlichkeitsdichtefunktion für eine bestimmte Eingabe ein Punkt, ein Bereich oder beides?

Dieser Beitrag sagt Ein PDF wird verwendet, um die Wahrscheinlichkeit anzugeben, dass die Zufallsvariable in einen bestimmten Wertebereich fällt, anstatt einen Wert anzunehmen. Ist es wahr? Dies ist das PDF der Standardnormalverteilung. φ(x)=12π−−√e−x2/2φ(x)=12πe−x2/2\varphi(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2} Stecke x = 0 in die obige Formel, ich kann die Wahrscheinlichkeit bekommen, einen …

9 distributions terminology

Als «distributions» getaggte Fragen