Als «categorical-encoding» getaggte Fragen

Darstellung kategorialer Variablen als Sätze numerischer Variablen. In vielen Arten von Analysen erforderlich, damit sie kategoriale Daten verarbeiten können. Ein häufiges Beispiel ist die Verwendung eines kategorialen Prädiktors in Regression / ANOVA über Dummy-Codierung, Effektcodierung, Helmert-Codierung, benutzerdefinierte Kontraste usw.




1
Löschen Sie eine der Spalten, wenn Sie One-Hot-Codierung verwenden
Ich verstehe, dass maschinelles Lernen ein Problem darstellen kann, wenn Ihr Dataset stark korrelierte Features aufweist, da diese dieselben Informationen effektiv codieren. Kürzlich hat jemand darauf hingewiesen, dass Sie beim einmaligen Codieren einer kategorialen Variablen korrelierte Features erhalten, sodass Sie eine davon als "Referenz" ablegen sollten. Wenn Sie beispielsweise das …

3
Wann sollte man multiple Regression mit Dummy-Codierung gegen ANCOVA verwenden?
Ich habe kürzlich ein Experiment analysiert, das mit ANCOVA 2 kategoriale Variablen und eine kontinuierliche Variable manipuliert hat. Ein Gutachter schlug jedoch vor, dass die multiple Regression mit der als Dummy-Variablen codierten kategorialen Variablen ein geeigneterer Test für Experimente mit sowohl kategorialen als auch kontinuierlichen Variablen ist. Wann ist es …


5
Neucodieren von kategorialen Variablen in numerische Variablen bei Verwendung von SVM oder Neural Network
Um SVM oder Neural Network zu verwenden, müssen kategoriale Variablen in numerische Variablen umgewandelt (kodiert) werden. In diesem Fall werden normalerweise 0-1 Binärwerte verwendet, wobei der k-te kategoriale Wert in (0,0, .. ., 1,0, ... 0) (1 ist auf der k-ten Position). Gibt es andere Methoden, um dies zu tun, …

1
Wie behandelt man kategoriale Prädiktoren in LASSO?
Ich führe ein LASSO mit einigen kategorialen und einigen kontinuierlichen Variablenprädiktoren. Ich habe eine Frage zu den kategorialen Variablen. Der erste Schritt, den ich verstehe, besteht darin, jeden von ihnen in Dummies zu zerlegen, sie für eine faire Bestrafung zu standardisieren und dann zurückzugehen. Für die Behandlung der Dummy-Variablen ergeben …

2
Qualitative Variablencodierung in der Regression führt zu „Singularitäten“
Ich habe eine unabhängige Variable namens "Qualität"; Diese Variable hat 3 Antwortmodalitäten (schlechte Qualität; mittlere Qualität; hohe Qualität). Ich möchte diese unabhängige Variable in meine multiple lineare Regression einführen. Wenn ich eine binäre unabhängige Variable habe (Dummy-Variable, ich kann 0/ codieren 1), ist es einfach, sie in ein Modell mit …

2
"Blindvariable" versus "Indikatorvariable" für nominale / kategoriale Daten
"Dummy-Variable" und "Indikatorvariable" sind häufig verwendete Bezeichnungen zur Beschreibung der Zugehörigkeit zu einer Kategorie mit 0/1 Kodierung. in der Regel 0: kein Mitglied der Kategorie, 1: Mitglied der Kategorie. Am 26.11.2014 ergab eine schnelle Suche auf scholar.google.com (mit Anführungszeichen), dass in ungefähr 318.000 Artikeln "Dummy-Variable" und in ungefähr 112.000 Artikeln …

2
Wie mache ich eine Regression mit Effektcodierung anstelle von Dummy-Codierung in R?
Ich arbeite derzeit an einem Regressionsmodell, bei dem ich nur kategoriale / Faktor-Variablen als unabhängige Variablen habe. Meine abhängige Variable ist ein logit transformiertes Verhältnis. Es ist ziemlich einfach, eine normale Regression in R auszuführen, da R automatisch weiß, wie Dummies codiert werden, sobald sie vom Typ "Faktor" sind. Diese …

1
Welche Arten von Codierungen sind für kategoriale Variablen (in R) verfügbar und wann würden Sie sie verwenden?
Wenn Sie ein lineares Modell oder ein gemischtes Modell anpassen, stehen verschiedene Codierungstypen zur Verfügung, um eine kategoriale oder nominelle Varibale in eine Reihe von Variablen zu transformieren, für die Parameter geschätzt werden, z. B. Dummy-Conding (Standardeinstellung R) und Effektcodierung. Ich habe gehört, dass die Effektcodierung (manchmal auch als Abweichungs- …

2
Grundlegendes zur Erstellung von Dummy-Variablen (manuell oder automatisiert) in GLM
Wenn in der glm-Formel eine Faktorvariable (z. B. Geschlecht mit den Ebenen M und F) verwendet wird, werden Dummy-Variablen erstellt, die zusammen mit den zugehörigen Koeffizienten (z. B. genderM) in der glm-Modellzusammenfassung aufgeführt sind. Wenn Sie sich nicht auf R verlassen, um den Faktor auf diese Weise aufzuteilen, wird der …

3
Welche Algorithmen erfordern eine One-Hot-Codierung?
Ich bin mir nie sicher, wann ich eine One-Hot-Codierung für nicht geordnete kategoriale Variablen verwenden soll und wann nicht. Ich benutze es immer dann, wenn der Algorithmus eine Distanzmetrik verwendet, um Ähnlichkeit zu berechnen. Kann jemand eine allgemeine Faustregel geben, welche Arten von Algorithmen erfordern würden, dass nicht geordnete kategoriale …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.