Statistiken und Big Data categorical-data

1

Durchführung von Hauptkomponentenanalysen oder Faktoranalysen für binäre Daten

Ich habe einen Datensatz mit einer großen Anzahl von Ja / Nein-Antworten. Kann ich für diese Art von Daten Hauptkomponenten (PCA) oder andere Datenreduktionsanalysen (z. B. Faktoranalyse) verwenden? Bitte teilen Sie mir mit, wie ich dies mit SPSS mache.

29 spss categorical-data pca factor-analysis binary-data

1

Können Freiheitsgrade eine nicht ganzzahlige Zahl sein?

Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

Vorhersage mit kontinuierlichen und kategorialen Funktionen

Einige Vorhersagemodelltechniken sind eher für den Umgang mit kontinuierlichen Prädiktoren ausgelegt, während andere für den Umgang mit kategorialen oder diskreten Variablen besser geeignet sind. Natürlich gibt es Techniken, um einen Typ in einen anderen umzuwandeln (Diskretisierung, Dummy-Variablen usw.). Gibt es jedoch Vorhersagemodelltechniken, mit denen beide Eingabetypen gleichzeitig verarbeitet werden können, …

26 classification predictive-models categorical-data continuous-data discrete-data

3

Interpretieren von Interaktionsbegriffen in der Logit-Regression mit kategorialen Variablen

Ich habe Daten aus einem Umfrageexperiment, bei dem die Befragten zufällig einer von vier Gruppen zugeordnet wurden: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 Während sich die drei Behandlungsgruppen in Bezug auf den angewendeten Stimulus geringfügig unterscheiden, ist der Hauptunterschied, den ich interessiere, zwischen der Kontroll- und …

25 r logistic categorical-data interaction interpretation

1

Regression nur mit kategorialen Variablen

Ist es möglich, eine Regression durchzuführen, wenn alle abhängigen und unabhängigen Variablen kategorische Variablen sind?

24 regression logistic categorical-data

1

Wie kann man sich eine riesige, spärliche Kontingenztabelle vorstellen?

Ich habe zwei Variablen: Drogenname (DN) und entsprechende unerwünschte Ereignisse (AE), die in einer Beziehung von vielen zu vielen stehen. Es gibt 33.556 Medikamentennamen und 9.516 unerwünschte Ereignisse. Die Stichprobengröße beträgt etwa 5,8 Millionen Beobachtungen. Ich möchte die Assoziation / Beziehung zwischen DN und AE studieren und verstehen. Ich denke …

24 r categorical-data data-visualization large-data association-measure

3

Ist die Tageszeit eine kategoriale Variable?

Ist "Stunde des Tages", in der der Wert 0, 1, 2, ..., 23 sein kann, eine kategoriale Variable? Ich wäre versucht, nein zu sagen, da beispielsweise 5 näher an 4 oder 6 liegt als an 3 oder 7. Andererseits gibt es die Diskontinuität zwischen 23 und 0. Wird es allgemein …

24 categorical-data circular-statistics

3

Negative Binomialverteilung vs. Binomialverteilung

Was ist der Unterschied zwischen der negativen Binomialverteilung und der Binomialverteilung? Ich habe versucht, online zu lesen, und festgestellt, dass die negative Binomialverteilung verwendet wird, wenn Datenpunkte diskret sind, aber ich denke, dass sogar die Binomialverteilung für diskrete Datenpunkte verwendet werden kann.

22 categorical-data data-mining binomial negative-binomial

3

Warum müssen wir kategoriale Variablen blind codieren?

Ich bin nicht sicher, warum wir kategoriale Variablen Dummy-Code benötigen. Wenn ich zum Beispiel eine kategoriale Variable mit vier möglichen Werten 0,1,2,3 habe, kann ich sie durch zwei Dimensionen ersetzen. Wenn die Variable den Wert 0 hätte, hätte sie 0,0 in zwei Dimensionen, wenn sie 3 hätte, hätte sie 1,1 …

22 categorical-data categorical-encoding

8

Wie können Sie die Beziehung zwischen 3 kategorialen Variablen visualisieren?

Ich habe einen Datensatz mit drei kategorialen Variablen und möchte die Beziehung zwischen allen drei Variablen in einem Diagramm visualisieren. Irgendwelche Ideen? Derzeit verwende ich die folgenden drei Grafiken: Jedes Diagramm ist für eine Grundlinien-Depression (Mild, Moderat, Schwerwiegend). Dann betrachte ich in jedem Diagramm die Beziehung zwischen Behandlung (0,1) und …

21 r data-visualization categorical-data

4

Wie projiziert man einen neuen Vektor auf den PCA-Raum?

Nach der Durchführung der Hauptkomponentenanalyse (PCA) möchte ich einen neuen Vektor auf den PCA-Raum projizieren (dh seine Koordinaten im PCA-Koordinatensystem finden). Ich habe PCA in R-Sprache mit berechnet prcomp. Jetzt sollte ich meinen Vektor mit der PCA-Rotationsmatrix multiplizieren können. Sollen die Hauptkomponenten in dieser Matrix in Zeilen oder Spalten angeordnet …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

1

Löschen Sie eine der Spalten, wenn Sie One-Hot-Codierung verwenden

Ich verstehe, dass maschinelles Lernen ein Problem darstellen kann, wenn Ihr Dataset stark korrelierte Features aufweist, da diese dieselben Informationen effektiv codieren. Kürzlich hat jemand darauf hingewiesen, dass Sie beim einmaligen Codieren einer kategorialen Variablen korrelierte Features erhalten, sodass Sie eine davon als "Referenz" ablegen sollten. Wenn Sie beispielsweise das …

21 regression machine-learning categorical-data discrete-data categorical-encoding

1

Regression für kategorial unabhängige Variablen und eine stetig abhängige

Ich habe gerade festgestellt, dass ich immer ein Regressionsproblem bearbeitet habe, bei dem die unabhängigen Variablen immer numerisch waren. Kann ich die lineare Regression verwenden, wenn alle unabhängigen Variablen kategorisch sind?

20 regression categorical-data

4

Was sind die korrekten Werte für Präzision und Rückruf in Randfällen?

Präzision ist definiert als: p = true positives / (true positives + false positives) Ist es richtig, dass sich die Genauigkeit 1 nähert true positivesund false positivessich 0 nähert? Gleiche Frage zum Rückruf: r = true positives / (true positives + false negatives) Ich führe derzeit einen statistischen Test durch, …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

Bedeutung des kategorialen Prädiktors in der logistischen Regression

Ich habe Probleme bei der Interpretation der z-Werte für kategoriale Variablen in der logistischen Regression. Im folgenden Beispiel habe ich eine kategoriale Variable mit 3 Klassen und gemäß dem z-Wert ist CLASS2 möglicherweise relevant, während die anderen nicht relevant sind. Aber was heißt das jetzt? Dass ich die anderen Klassen …

19 r logistic categorical-data feature-selection categorical-encoding

Als «categorical-data» getaggte Fragen