Als «categorical-data» getaggte Fragen

Kategoriale (auch nominelle) Daten können eine begrenzte Anzahl möglicher Werte annehmen, die als Kategorien bezeichnet werden. Kategoriale Werte "Label", sie "messen" nicht. Bitte verwenden Sie das Tag [Ordnungsdaten] für diskrete, aber geordnete Datentypen.

3
Zentrieren und Skalieren von Dummy-Variablen
Ich habe einen Datensatz, der sowohl kategoriale als auch kontinuierliche Variablen enthält. Mir wurde geraten, die kategorialen Variablen als Binärvariablen für jede Ebene zu transformieren (dh A_level1: {0,1}, A_level2: {0,1}) - ich denke, einige haben dies "Dummy-Variablen" genannt. Wäre es dann irreführend, den gesamten Datensatz mit den neuen Variablen zu …




3
Ersetzen von Variablen durch WoE (Weight of Evidence) in der logistischen Regression
Dies ist eine Frage zu einer Praxis oder Methode, die von einigen meiner Kollegen befolgt wird. Bei der Erstellung eines logistischen Regressionsmodells habe ich gesehen, dass Personen kategoriale Variablen (oder fortlaufende Variablen, die in Gruppen zusammengefasst sind) durch ihre jeweilige Beweiskraft (Weight of Evidence, WoE) ersetzen. Dies soll eine monotone …


2
Grundlegendes zur Erstellung von Dummy-Variablen (manuell oder automatisiert) in GLM
Wenn in der glm-Formel eine Faktorvariable (z. B. Geschlecht mit den Ebenen M und F) verwendet wird, werden Dummy-Variablen erstellt, die zusammen mit den zugehörigen Koeffizienten (z. B. genderM) in der glm-Modellzusammenfassung aufgeführt sind. Wenn Sie sich nicht auf R verlassen, um den Faktor auf diese Weise aufzuteilen, wird der …

2
Best Practices für die Codierung kategorialer Funktionen für Entscheidungsbäume?
Bei der Codierung kategorialer Merkmale für die lineare Regression gilt die Regel: Die Anzahl der Dummies sollte eins weniger sein als die Gesamtzahl der Ebenen (um Kollinearität zu vermeiden). Gibt es eine ähnliche Regel für Entscheidungsbäume (eingesackt, verstärkt)? Ich frage dies, weil eine Standardpraxis in Python darin zu bestehen scheint, …

1
Ordinale logistische Regression in Python
Ich möchte eine ordinale logistische Regression in Python ausführen - für eine Antwortvariable mit drei Ebenen und einigen erklärenden Faktoren. Das statsmodelsPaket unterstützt Modelle mit binärer und multinomialer Protokollierung (MNLogit), jedoch keine geordnete Protokollierung. Da die zugrunde liegende Mathematik nicht so unterschiedlich ist, frage ich mich, ob sie mit diesen …

3
Maximum-Likelihood-Schätzer der gemeinsamen Verteilung bei nur marginalen Zählungen
Sei px,ypx,yp_{x,y} eine gemeinsame Verteilung zweier kategorialer Variablen X,YX,YX,Y mit x,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\} . Angenommen, es wurden nnn Stichproben aus dieser Verteilung gezogen, aber wir erhalten nur die Grenzwerte, nämlich für j=1,…,Kj=1,…,Kj=1,\ldots,K : Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, Was ist der Maximum-Likelihood-Schätzer für px,ypx,yp_{x,y} bei Sj,TjSj,TjS_j,T_j ? Ist das bekannt? …

5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Beeren-Inversion
Ich verfüge über umfangreiche Marktdaten zu Weinverkäufen in den USA und möchte die Nachfrage nach bestimmten Qualitätsweinen schätzen. Diese Marktanteile wurden grundsätzlich abgeleitet aus einem statistischen Gebrauchsmuster der Form , wo X umfasst beobachtet Produkteigenschaften, p bezeichnet Produktpreise,Uijt=X′jtβ−αpjt+ξjt+ϵijt≡δjt+ϵjtUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} = X’_{jt}\beta - \alpha p_{jt} + \xi_{jt} + \epsilon_{ijt} \equiv \delta_{jt} + …

3
Ist das Mundlak-Verfahren für feste Effekte für die logistische Regression mit Dummies anwendbar?
Ich habe einen Datensatz mit 8000 Clustern und 4 Millionen Beobachtungen. Leider läuft meine Statistiksoftware Stata ziemlich langsam, wenn sie ihre Paneldatenfunktion für die logistische Regression verwendet: xtlogitSelbst bei einer Teilstichprobe von 10%. Bei Verwendung der Nonpanel- logitFunktion erscheinen die Ergebnisse jedoch viel früher. Daher kann ich möglicherweise von der …

1
Unterschiede zwischen PROC Mixed und lme / lmer in R - Freiheitsgraden
Hinweis: Diese Frage ist ein Repost, da meine vorherige Frage aus rechtlichen Gründen gelöscht werden musste. Beim Vergleich von PROC MIXED von SAS mit der Funktion lmeaus dem nlmePaket in R bin ich auf einige verwirrende Unterschiede gestoßen. Insbesondere unterscheiden sich die Freiheitsgrade in den verschiedenen Tests zwischen PROC MIXEDund …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

3
Geeigneter Umgang mit einer dreistufigen Notfalltabelle
Ich habe eine dreistufige Kontingenztabelle mit Zähldaten für mehrere Arten, der Wirtspflanze, von der sie gesammelt wurden, und ob diese Sammlung an einem regnerischen Tag stattgefunden hat (das ist tatsächlich wichtig!). Mit R könnten gefälschte Daten ungefähr so ​​aussehen: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) host <- …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.