Statistiken und Big Data descriptive-statistics

5

Was ist der Unterschied zwischen Normalisierung und Standardisierung?

Bei der Arbeit haben wir darüber gesprochen, da mein Chef noch nie von Normalisierung gehört hat. In der linearen Algebra scheint sich Normalisierung auf die Teilung eines Vektors durch seine Länge zu beziehen. Und in der Statistik scheint sich Standardisierung auf die Subtraktion eines Mittels zu beziehen, das dann durch …

118 descriptive-statistics normalization standardization

5

Perzentil gegen Quantil gegen Quartil

Was ist der Unterschied zwischen den drei Begriffen unten? Perzentil Quantil Quartil

83 descriptive-statistics quantiles median percentage

3

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

4

Wie wird eine Standardabweichung "summiert"?

Ich habe einen monatlichen Durchschnitt für einen Wert und eine Standardabweichung, die diesem Durchschnitt entspricht. Ich berechne jetzt den Jahresdurchschnitt als Summe der Monatsdurchschnitte. Wie kann ich die Standardabweichung für den summierten Durchschnitt darstellen? Ein Beispiel für die Leistung eines Windparks: Month MWh StdDev January 927 333 February 1234 250 …

68 standard-deviation descriptive-statistics

8

Was sind gute Basisstatistiken für Ordnungsdaten?

Ich habe einige ordinale Daten aus Umfragefragen erhalten. In meinem Fall handelt es sich um Likert- Antworten (stimme überhaupt nicht zu, stimme überhaupt nicht zu, sei neutral, stimme voll und ganz zu). In meinen Daten sind sie als 1-5 codiert. Ich glaube nicht, dass Mittel hier viel bedeuten würden. Welche …

67 descriptive-statistics likert ordinal-data

11

Was bedeutet orthogonal im Kontext der Statistik?

In anderen Zusammenhängen bedeutet orthogonal "im rechten Winkel" oder "senkrecht". Was bedeutet Orthogonal im statistischen Kontext? Vielen Dank für eventuelle Klarstellungen.

60 descriptive-statistics

8

Moderner Nachfolger der exploratorischen Datenanalyse von Tukey?

Ich habe Tukeys Buch "Exploratory Data Analysis" gelesen. Das Buch wurde 1977 geschrieben und konzentriert sich auf Papier / Bleistift-Methoden. Gibt es einen "moderneren" Nachfolger, der berücksichtigt, dass wir jetzt große Datenmengen sofort zeichnen können?

52 data-visualization references descriptive-statistics eda

5

Korrelationen zwischen kontinuierlichen und kategorialen (nominalen) Variablen

Ich möchte die Korrelation zwischen einer kontinuierlichen (abhängigen Variablen) und einer kategorialen (nominal: Geschlecht, unabhängige Variable) Variablen finden. Fortlaufende Daten werden normalerweise nicht verteilt. Vorher hatte ich es mit dem Spearman's berechnet . Mir wurde jedoch gesagt, dass es nicht richtig ist.ρρ\rho Bei der Suche im Internet habe ich festgestellt, …

42 correlation categorical-data descriptive-statistics biostatistics spearman-rho

3

Empirische Beziehung zwischen Mittelwert, Median und Modus

Für eine unimodale Verteilung, die mäßig verzerrt ist, haben wir die folgende empirische Beziehung zwischen Mittelwert, Median und Modus: Wie war diese Beziehung? abgeleitet?(Mean - Mode)∼3(Mean - Median)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Hat Karl Pearson Tausende dieser Beziehungen geplant, bevor er diese Schlussfolgerung gezogen …

40 distributions mathematical-statistics descriptive-statistics history

8

Grafische Datenübersicht (Zusammenfassung) in R

Ich bin mir sicher, dass ich zuvor in einem R-Paket auf eine Funktion wie diese gestoßen bin, aber nach ausgiebigem Googeln kann ich sie anscheinend nirgendwo finden. Die Funktion, an die ich denke, hat eine grafische Zusammenfassung für eine gegebene Variable erstellt, die eine Ausgabe mit einigen Grafiken (einem Histogramm …

39 r data-visualization descriptive-statistics eda

6

Warum sollte der Nenner des Kovarianzschätzers nicht n-2 statt n-1 sein?

Der Nenner des (unverzerrten) Varianzschätzers ist n−1n−1n-1 da nnn Beobachtungen vorliegen und nur ein Parameter geschätzt wird. V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Aus dem gleichen Grund frage ich mich, warum der Nenner der Kovarianz nicht n−2n−2n-2 wenn zwei Parameter geschätzt werden. Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

36 self-study variance covariance descriptive-statistics unbiased-estimator

3

Warum gibt es einen Unterschied zwischen der manuellen Berechnung eines Konfidenzintervalls für eine logistische Regression von 95% und der Verwendung der Funktion confint () in R?

Sehr geehrte Damen und Herren, mir ist etwas Merkwürdiges aufgefallen, das ich Ihnen nicht erklären kann. Zusammenfassend lässt sich sagen, dass der manuelle Ansatz zur Berechnung eines Konfidenzintervalls in einem logistischen Regressionsmodell und die R-Funktion confint()unterschiedliche Ergebnisse liefern. Ich habe die angewandte logistische Regression von Hosmer & Lemeshow (2. Auflage) …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

7

Wie ist der Variationskoeffizient zu interpretieren?

Ich versuche den Variationskoeffizienten zu verstehen . Wenn ich versuche, es auf die folgenden zwei Datenbeispiele anzuwenden, kann ich die Interpretation der Ergebnisse nicht verstehen. Angenommen, Beispiel 1 ist und Beispiel 2 ist . Hier Beispiel 2 Beispiel 1 wie Sie sehen können.0 , 5 , 7 , 12 , …

33 descriptive-statistics coefficient-of-variation

5

Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen

Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

2

Ist Variation gleich Varianz?

Dies ist meine erste Frage zu Cross Validated, also helfen Sie mir bitte, auch wenn sie trivial erscheint :-) Als erstes könnte die Frage auf Sprachunterschiede zurückzuführen sein, oder vielleicht habe ich echte Mängel in der Statistik. Trotzdem ist es hier: Sind Variation und Varianz in der Bevölkerungsstatistik die gleichen …

27 variance descriptive-statistics definition

Als «descriptive-statistics» getaggte Fragen