Als «many-categories» getaggte Fragen

Kategoriale Variablen mit einer großen Anzahl von Ebenen und statistische Methoden für die Arbeit mit solchen Variablen (Beispiel: fusioniertes Lasso).

6
Prinzipieller Weg, kategoriale Variablen mit vielen Ebenen zu kollabieren?
Welche Techniken stehen zur Verfügung, um viele Kategorien zu einigen zu reduzieren (oder zu bündeln), um sie als Eingabe (Prädiktor) in einem statistischen Modell zu verwenden? Stellen Sie sich eine Variable wie den Hauptfachstudenten vor (Fachbereich, den ein Student im Grundstudium auswählt). Es ist ungeordnet und kategorisch, kann aber möglicherweise …

6
Verbessere die Klassifizierung mit vielen kategorialen Variablen
Ich arbeite an einem Datensatz mit mehr als 200.000 Stichproben und ungefähr 50 Merkmalen pro Stichprobe: 10 kontinuierliche Variablen und die anderen ~ 40 sind kategoriale Variablen (Länder, Sprachen, wissenschaftliche Gebiete usw.). Für diese kategorialen Variablen haben Sie beispielsweise 150 verschiedene Länder, 50 Sprachen, 50 wissenschaftliche Bereiche usw. Bisher ist …

6
Probleme mit Kreisdiagrammen
Es scheint eine zunehmende Diskussion über Kreisdiagramme zu geben. Die Hauptargumente dagegen scheinen zu sein: Fläche wird mit weniger Kraft als Länge wahrgenommen. Kreisdiagramme haben ein sehr geringes Datenpunkt-zu-Pixel-Verhältnis Ich denke jedoch, dass sie irgendwie nützlich sein können, wenn Proportionen dargestellt werden. Ich bin damit einverstanden, in den meisten Fällen …

7
Wie kann man Geografie oder Postleitzahl im Modell des maschinellen Lernens oder im Empfehlungssystem darstellen?
Ich baue ein Modell auf und denke, dass der geografische Standort meine Zielvariable wahrscheinlich sehr gut vorhersagen kann. Ich habe die Postleitzahl von jedem meiner Benutzer. Ich bin mir nicht ganz sicher, wie ich Postleitzahl als Vorhersagefunktion in mein Modell integrieren kann. Obwohl die Postleitzahl eine Zahl ist, hat sie …


4
Die Maschinengenauigkeit zur Steigerung des Gradienten nimmt mit zunehmender Anzahl von Iterationen ab
Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Behobener Effekt gegen zufälligen Effekt, wenn alle Möglichkeiten in einem gemischten Effektmodell enthalten sind
In einem Modell mit gemischten Effekten wird empfohlen, einen Parameter anhand eines festen Effekts zu schätzen, wenn alle möglichen Werte enthalten sind (z. B. sowohl Männer als auch Frauen). Es wird weiterhin empfohlen, einen Zufallseffekt zu verwenden, um eine Variable zu berücksichtigen, wenn die enthaltenen Werte nur eine Zufallsstichprobe aus …


2
Methoden zum Zusammenführen / Reduzieren von Kategorien in Ordnungs- oder Nominaldaten?
Ich habe Mühe, eine Methode zu finden, um die Anzahl der Kategorien in nominalen oder ordinalen Daten zu reduzieren. Angenommen, ich möchte ein Regressionsmodell für ein Dataset erstellen, das eine Reihe von nominalen und ordinalen Faktoren enthält. Während ich mit diesem Schritt keine Probleme habe, stoße ich häufig auf Situationen, …

1
Unterschiede zwischen PROC Mixed und lme / lmer in R - Freiheitsgraden
Hinweis: Diese Frage ist ein Repost, da meine vorherige Frage aus rechtlichen Gründen gelöscht werden musste. Beim Vergleich von PROC MIXED von SAS mit der Funktion lmeaus dem nlmePaket in R bin ich auf einige verwirrende Unterschiede gestoßen. Insbesondere unterscheiden sich die Freiheitsgrade in den verschiedenen Tests zwischen PROC MIXEDund …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 


3
Probleme mit der One-Hot-Codierung im Vergleich zur Dummy-Codierung
Mir ist bewusst, dass kategoriale Variablen mit k Ebenen mit k-1 Variablen in Dummy-Codierung codiert werden sollten (ähnlich für mehrwertige kategoriale Variablen). Ich habe mich gefragt, wie problematisch eine One-Hot-Codierung (dh die Verwendung von k Variablen) gegenüber einer Dummy-Codierung für verschiedene Regressionsmethoden ist, hauptsächlich lineare Regression, bestrafte lineare Regression (Lasso, …

3
R-Paket zum Kombinieren von Faktorstufen für die Datenerfassung?
Sie fragen sich, ob jemand in R auf ein Paket / eine Funktion gestoßen ist, die Ebenen eines Faktors kombiniert, dessen Anteil an allen Ebenen in einem Faktor unter einem bestimmten Schwellenwert liegt? Insbesondere besteht einer der ersten Schritte bei der Datenaufbereitung darin, spärliche Ebenen von Faktoren zusammenzufassen (z. B. …

1
Bestrafte Methoden für kategoriale Daten: Kombinieren von Ebenen in einem Faktor
Bestrafte Modelle können verwendet werden, um Modelle zu schätzen, bei denen die Anzahl der Parameter gleich oder sogar größer als die Stichprobengröße ist. Diese Situation kann in logarithmisch linearen Modellen großer, spärlicher Tabellen mit kategorialen oder Zähldaten auftreten. In diesen Einstellungen ist es häufig auch wünschenswert oder hilfreich, Tabellen zu …

2
Führen Entscheidungsbäume eine Aufteilung von Knoten durch, indem sie in der Praxis kategoriale Werte in numerische Werte konvertieren?
Verwenden wir in Entscheidungsbäumen bei der Klassifizierung oder Regression nur numerische Werte? Angenommen, ich habe eine kategoriale Spalte Windals Feature. Angenommen , ich habe am 5 Zeilen (Beobachtungen) und die Werte für Windsind [ high, low, high, medium, medium]. Kann ich diese kategorialen Daten in einen Entscheidungsbaumklassifikator (wie scikit-learn) einspeisen, …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.