Angenommen, Ihre vier Kategorien sind Augenfarben (Code): braun (1), blau (2), grün (3), haselnussbraun (4) - momentan werden Heterochromie, Violett, Rot, Grau usw. angezeigt.
In keiner Weise (das kann ich mir derzeit vorstellen) meinen wir Grün Braun oder Hasel Blau, wie unsere Codes implizieren, obwohl und .= 2 × 3 = 3 × 1 4 = 2 × 2= 3 ×= 2 ×3 = 3 × 14 = 2 × 2
Daher müssen wir (es sei denn, wir möchten aus irgendeinem Grund , dass diese Bedeutung in unsere Analysen einfließt) eine Art Codierung verwenden. Dummy-Codierung ist ein Beispiel, bei dem solche Beziehungen aus den statistischen Berichten über die Augenfarbe gestrichen werden. Effektcodierung und Heckman-Codierung sind weitere Beispiele.
Update: Ihr Beispiel für zwei Variablen für vier Kategorien entspricht meines Erachtens nicht dem Begriff "Dummy-Code", bei dem normalerweise Kategorien (z. B. 4) durch Dummy-Variablen ersetzt werden (Sortieren der Beobachtungen nach Kategorien):k - 1kk - 1
id category dummy1 dummy2 dummy3
1 1 1 0 0
2 1 1 0 0
3 2 0 1 0
4 2 0 1 0
5 3 0 0 1
6 3 0 0 1
7 4 0 0 0
8 4 0 0 0
Hier ist Kategorie 4 die Referenzkategorie, sofern in Ihrem Modell eine Konstante vorhanden ist, z.
y= β0+ β1d1 + β2d2 + β3d3 + ε
Dabei ist der Mittelwert von wenn Kategorie = 4, und die mit jedem Dummy verknüpften Terme geben an, um wie viel sich von für diese Kategorie ändert . y β y β 0β0yβyβ0
Wenn Sie im Modell keinen konstanten ( ) Term haben, benötigen Sie einen weiteren "Dummy" -Prädiktor (möglicherweise weniger häufig als "Indikatorvariablen" bezeichnet). In der Tat verhalten sich die Dummies dann jeweils als Modellkonstante für jede Kategorie:β0
y= β1d1 + β2d2 + β3d3 + β4d4 + ε
Dies würde sich also mit der Frage befassen, wie man unsinnige quantitative Beziehungen zwischen den zuerst erwähnten Kategoriencodes herstellt. Aber warum nicht die von Ihnen vorgeschlagene user12331-Codierung verwenden ? user12331-Kodierungskandidat A:
id category code1 code2
1 1 0 ?
2 1 0 ?
3 2 1 ?
4 2 1 ?
5 3 ? 0
6 3 ? 0
7 4 ? 1
8 4 ? 1
Sie können zu Recht darauf hinweisen, dass man mit 2 binären Variablen (dh zwei Bits) 4 Werte darstellen kann . Leider hinterlässt ein Ansatz (Code1 für die Kategorien 1 und 2 und Code2 für die Kategorien 3 und 4) die Unklarheit, die durch die Fragezeichen angezeigt wird: Welche Werte würden dahin gelangen ?!
Wie wäre es mit einem zweiten Ansatz? Nennen Sie ihn User12331-Kodierungskandidat B:
id category code1 code2
1 1 0 0
2 1 0 0
3 2 0 1
4 2 0 1
5 3 1 0
6 3 1 0
7 4 1 1
8 4 1 1
Dort! Keine Mehrdeutigkeit, oder? Recht! Leider stellt diese Codierung nur die numerischen Größen 1–4 (oder 0–3) in binärer Notation dar , was das Problem der Zuordnung dieser unerwünschten quantitativen Beziehungen zu den Kategorien unberührt lässt.
Daher die Notwendigkeit eines anderen Kodierungsschemas.
Ich werde schließen mit dem Vorbehalt , dass die verschiedenen Kodierungsschemata sind mehr oder weniger eine Sache oder Art (zB was macht man ein bestimmtes will bedeuten ) , es sei denn man auch Interaktionsbedingungen mit den Kategorien im Modell enthält. Dann führt die Dummy-Codierung zu einer künstlichen Heteroskedastizität und verzerrt die Standardfehler. In diesem Fall sollten Sie die Effektcodierung beibehalten (es kann auch andere Codierungssysteme geben, die unter diesen Umständen eine sichere Codierung gewährleisten, mit denen ich jedoch nicht vertraut bin).β