Kategoriale Variablen mit einer großen Anzahl von Ebenen und statistische Methoden für die Arbeit mit solchen Variablen (Beispiel: fusioniertes Lasso).
Welche Techniken stehen zur Verfügung, um viele Kategorien zu einigen zu reduzieren (oder zu bündeln), um sie als Eingabe (Prädiktor) in einem statistischen Modell zu verwenden? Stellen Sie sich eine Variable wie den Hauptfachstudenten vor (Fachbereich, den ein Student im Grundstudium auswählt). Es ist ungeordnet und kategorisch, kann aber möglicherweise …
Ich arbeite an einem Datensatz mit mehr als 200.000 Stichproben und ungefähr 50 Merkmalen pro Stichprobe: 10 kontinuierliche Variablen und die anderen ~ 40 sind kategoriale Variablen (Länder, Sprachen, wissenschaftliche Gebiete usw.). Für diese kategorialen Variablen haben Sie beispielsweise 150 verschiedene Länder, 50 Sprachen, 50 wissenschaftliche Bereiche usw. Bisher ist …
Es scheint eine zunehmende Diskussion über Kreisdiagramme zu geben. Die Hauptargumente dagegen scheinen zu sein: Fläche wird mit weniger Kraft als Länge wahrgenommen. Kreisdiagramme haben ein sehr geringes Datenpunkt-zu-Pixel-Verhältnis Ich denke jedoch, dass sie irgendwie nützlich sein können, wenn Proportionen dargestellt werden. Ich bin damit einverstanden, in den meisten Fällen …
Ich baue ein Modell auf und denke, dass der geografische Standort meine Zielvariable wahrscheinlich sehr gut vorhersagen kann. Ich habe die Postleitzahl von jedem meiner Benutzer. Ich bin mir nicht ganz sicher, wie ich Postleitzahl als Vorhersagefunktion in mein Modell integrieren kann. Obwohl die Postleitzahl eine Zahl ist, hat sie …
Das randomForest-Paket von R kann nicht mit Faktoren mit mehr als 32 Ebenen umgehen. Bei mehr als 32 Ebenen wird eine Fehlermeldung ausgegeben: Kann keine kategorialen Prädiktoren mit mehr als 32 Kategorien verarbeiten. Aber die Daten, die ich habe, haben mehrere Faktoren. Einige von ihnen haben 1000+ Levels und einige …
Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting …
In einem Modell mit gemischten Effekten wird empfohlen, einen Parameter anhand eines festen Effekts zu schätzen, wenn alle möglichen Werte enthalten sind (z. B. sowohl Männer als auch Frauen). Es wird weiterhin empfohlen, einen Zufallseffekt zu verwenden, um eine Variable zu berücksichtigen, wenn die enthaltenen Werte nur eine Zufallsstichprobe aus …
Viele Algorithmen für maschinelles Lernen, zum Beispiel neuronale Netze, gehen davon aus, dass sie sich mit Zahlen befassen. Wenn Sie also kategoriale Daten haben, müssen Sie diese konvertieren. Mit kategorisch meine ich zum Beispiel: Automarken: Audi, BMW, Chevrolet ... Benutzer-IDs: 1, 25, 26, 28 ... Obwohl es sich bei den …
Ich habe Mühe, eine Methode zu finden, um die Anzahl der Kategorien in nominalen oder ordinalen Daten zu reduzieren. Angenommen, ich möchte ein Regressionsmodell für ein Dataset erstellen, das eine Reihe von nominalen und ordinalen Faktoren enthält. Während ich mit diesem Schritt keine Probleme habe, stoße ich häufig auf Situationen, …
Hinweis: Diese Frage ist ein Repost, da meine vorherige Frage aus rechtlichen Gründen gelöscht werden musste. Beim Vergleich von PROC MIXED von SAS mit der Funktion lmeaus dem nlmePaket in R bin ich auf einige verwirrende Unterschiede gestoßen. Insbesondere unterscheiden sich die Freiheitsgrade in den verschiedenen Tests zwischen PROC MIXEDund …
Ich möchte einen Klassifikator, z. B. SVM, eine zufällige Gesamtstruktur oder einen anderen Klassifikator trainieren. Eine der Funktionen im Datensatz ist eine kategoriale Variable mit 1000 Ebenen. Was ist der beste Weg, um die Anzahl der Ebenen in dieser Variablen zu reduzieren. In R gibt es eine Funktion combine.levels()im Hmisc- …
Mir ist bewusst, dass kategoriale Variablen mit k Ebenen mit k-1 Variablen in Dummy-Codierung codiert werden sollten (ähnlich für mehrwertige kategoriale Variablen). Ich habe mich gefragt, wie problematisch eine One-Hot-Codierung (dh die Verwendung von k Variablen) gegenüber einer Dummy-Codierung für verschiedene Regressionsmethoden ist, hauptsächlich lineare Regression, bestrafte lineare Regression (Lasso, …
Sie fragen sich, ob jemand in R auf ein Paket / eine Funktion gestoßen ist, die Ebenen eines Faktors kombiniert, dessen Anteil an allen Ebenen in einem Faktor unter einem bestimmten Schwellenwert liegt? Insbesondere besteht einer der ersten Schritte bei der Datenaufbereitung darin, spärliche Ebenen von Faktoren zusammenzufassen (z. B. …
Bestrafte Modelle können verwendet werden, um Modelle zu schätzen, bei denen die Anzahl der Parameter gleich oder sogar größer als die Stichprobengröße ist. Diese Situation kann in logarithmisch linearen Modellen großer, spärlicher Tabellen mit kategorialen oder Zähldaten auftreten. In diesen Einstellungen ist es häufig auch wünschenswert oder hilfreich, Tabellen zu …
Verwenden wir in Entscheidungsbäumen bei der Klassifizierung oder Regression nur numerische Werte? Angenommen, ich habe eine kategoriale Spalte Windals Feature. Angenommen , ich habe am 5 Zeilen (Beobachtungen) und die Werte für Windsind [ high, low, high, medium, medium]. Kann ich diese kategorialen Daten in einen Entscheidungsbaumklassifikator (wie scikit-learn) einspeisen, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.