Als «categorical-data» getaggte Fragen

Kategoriale (auch nominelle) Daten können eine begrenzte Anzahl möglicher Werte annehmen, die als Kategorien bezeichnet werden. Kategoriale Werte "Label", sie "messen" nicht. Bitte verwenden Sie das Tag [Ordnungsdaten] für diskrete, aber geordnete Datentypen.

3
Probleme mit der One-Hot-Codierung im Vergleich zur Dummy-Codierung
Mir ist bewusst, dass kategoriale Variablen mit k Ebenen mit k-1 Variablen in Dummy-Codierung codiert werden sollten (ähnlich für mehrwertige kategoriale Variablen). Ich habe mich gefragt, wie problematisch eine One-Hot-Codierung (dh die Verwendung von k Variablen) gegenüber einer Dummy-Codierung für verschiedene Regressionsmethoden ist, hauptsächlich lineare Regression, bestrafte lineare Regression (Lasso, …


5
Warum sollte Binning um jeden Preis vermieden werden?
Deshalb habe ich ein paar Beiträge darüber gelesen, warum Binning immer vermieden werden sollte. Eine beliebte Referenz für diese Behauptung ist dieser Link . Das Hauptproblem besteht darin, dass die Binning-Punkte (oder Cutpoints) sowie der daraus resultierende Informationsverlust eher willkürlich sind und dass Splines bevorzugt werden sollten. Derzeit arbeite ich …

1
Was sind die Gefahren bei der Berechnung von Pearson-Korrelationen (anstelle von tetrachorischen) für binäre Variablen in der Faktoranalyse?
Ich recherchiere über Lernspiele und einige meiner aktuellen Projekte beinhalten die Verwendung von Daten aus BoardGameGeek (BGG) und VideoGameGeek (VGG), um die Beziehungen zwischen Designelementen von Spielen zu untersuchen (dh "im Zweiten Weltkrieg spielen", "Würfeln"). ) und Spielerbewertungen dieser Spiele (dh Punktzahlen von 10). Jedes dieser Designelemente entspricht einem Tag …

3
Warum sollte man eine WOE-Transformation von kategorialen Prädiktoren in der logistischen Regression durchführen?
Wann ist die WOE-Transformation (Weight of Evidence) von kategorialen Variablen sinnvoll? Das Beispiel ist in der WOE-Transformation zu sehen (Für eine Antwort und einen kategorialen Prädiktor mit k Kategorien und y j Erfolgen aus n j Versuchen innerhalb der j- ten Kategorie dieses Prädiktors ist die WOE für die j- …


2
Sollten Datentypen (nominal / ordinal / Intervall / Verhältnis) wirklich als Variablentypen betrachtet werden?
Hier sind zum Beispiel die Definitionen, die ich aus Standardlehrbüchern bekomme Variable - charakteristisch für Population oder Stichprobe. Ex. Preis einer Aktie oder Sorte bei einem Test Daten - tatsächlich beobachtete Werte Also für einen zweispaltigen Bericht [Name | Einkommen] Die Spaltennamen wären die Variablen und die tatsächlich beobachteten Werte …


1
Wie baue ich einen innovativen Ausreißer bei Beobachtung 48 in mein ARIMA-Modell ein?
Ich arbeite an einem Datensatz. Nachdem ich einige Modellidentifikationstechniken angewendet hatte, kam ich mit einem ARIMA (0,2,1) -Modell heraus. Ich habe die detectIOFunktion im Paket TSAin R verwendet, um bei der 48. Beobachtung meines ursprünglichen Datensatzes einen innovativen Ausreißer (IO) zu erkennen . Wie kann ich diesen Ausreißer in mein …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
Multinomial-Dirichlet-Modell mit Hyperprior-Verteilung auf die Konzentrationsparameter
Ich werde versuchen, das vorliegende Problem so allgemein wie möglich zu beschreiben. Ich modelliere Beobachtungen als kategoriale Verteilung mit einem Parameterwahrscheinlichkeitsvektor Theta. Dann nehme ich an, dass der Parametervektor Theta einer Dirichlet-Vorverteilung mit den Parametern folgt .α1,α2,…,αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k Ist es dann möglich, auch eine Hyperpriorverteilung über die Parameter aufzuerlegen ? Muss …

2
Ist Multikollinearität in kategorialen Variablen enthalten?
Beim Basteln mit einem multivariaten Regressionsmodell stellte ich fest, dass innerhalb der Kategorien einer kategorialen Variablen (natürlich nach Ausschluss der Referenzkategorie) ein kleiner, aber wahrnehmbarer Multikollinearitätseffekt auftrat, gemessen anhand von Varianzinflationsfaktoren . Nehmen wir zum Beispiel an, wir haben einen Datensatz mit der stetigen Variablen y und einer nominalen kategorialen …

2
Korrelation zwischen dichotomer und kontinuierlicher Variable
Ich versuche die Korrelation zwischen einer dichotomen und einer kontinuierlichen Variablen zu finden. Bei meinen Grundlagenarbeiten habe ich festgestellt, dass ich einen unabhängigen t-Test verwenden muss und die Voraussetzung dafür ist, dass die Verteilung der Variablen normal sein muss. Ich führte einen Kolmogorov-Smirnov-Test zum Testen der Normalität durch und stellte …

3
Umgang mit nicht-binären kategorialen Variablen in der logistischen Regression (SPSS)
Ich muss eine binäre logistische Regression mit vielen unabhängigen Variablen durchführen. Die meisten von ihnen sind binär, aber einige der kategorialen Variablen haben mehr als zwei Ebenen. Was ist der beste Weg, um mit solchen Variablen umzugehen? Für eine Variable mit drei möglichen Werten müssen beispielsweise zwei Dummy-Variablen erstellt werden. …


4
So beweisen Sie statistisch, ob eine Spalte kategoriale Daten enthält oder Python nicht verwendet
Ich habe einen Datenrahmen in Python, in dem ich alle kategorialen Variablen finden muss. Das Überprüfen des Spaltentyps funktioniert nicht immer, da der intTyp auch kategorisch sein kann. Daher suche ich Hilfe bei der Suche nach der richtigen Hypothesentestmethode, um festzustellen, ob eine Spalte kategorisch ist oder nicht. Ich habe …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.