Dies geschieht auf natürliche Weise, ohne dass Sie eingreifen müssen.
Betrachten Sie zum Beispiel die Dummy-Codierung . Dieses System verwendet Vektoren von Nullen und Einsen, um die kategorialen Variablen so anzuzeigen, dass eine einfache Interpretation der Koeffizienten möglich ist. Eine Variable mitk Kategorien wird dargestellt durch k−1Begriffe (zusammen mit einem "Achsenabschnitt"). Eine Standardvektornotation zur Beschreibung verwendet die Vektornotation.
Der "Basis" -Beitrag zur Antwort ist der Achsenabschnitt β0. Der entsprechende Vektor ist( 1 , 0 , … , 0 ) mit k Komponenten.
Der Beitrag der zweiten Kategorie zur ersten istβ1, woher der Beitrag der zweiten Kategorie ist β0+β1. Der entsprechende Vektor ist( 1 , 1 , 0 , … , 0 ).
⋯
Der Beitrag der Kategorie k relativ zum ersten ist βk - 1, woher der Beitrag der Kategorie k ist β0+βk - 1. Der entsprechende Vektor ist( 1 , 0 , … , 0 , 1 ).
Somit hat jeder Vektor eine Initiale 1(für den Abschnitt). Die Vektoren für alle Kategorien außer der Basis haben eine einzige zusätzliche1. Jede Beobachtung, wie durch ihren Vektor gegebenxträgt bei
x ⋅(β0,β1, … ,βk - 1)
auf die Antwort. Diese Punktprodukte geben die Werte anβ0,β0+β1, … ,β0+βk - 1 in der Liste mit Aufzählungszeichen oben erwähnt.
Das gleiche System wird verwendet, wenn mehr als eine kategoriale Variable unter den Regressoren enthalten ist, aber alle denselben Achsenabschnitt teilen. Mit anderen Worten, der "Basis" -Fall ist derjenige, bei dem alle kategorialen Variablen ihre Basiswerte haben.
Der Hauptvorteil dieses Codierungssystems - abgesehen davon, dass es in nahezu jeder statistischen Rechenplattform automatisch ist - besteht darin, dass die Koeffizienten einfache natürliche Interpretationen haben. Um beispielsweise zu bewerten, ob das Vorhandensein von Kommunikation von Bedeutung ist, würden Sie den damit verbundenen Koeffizienten untersuchenx2 (β3in diesem Beispiel) und testen Sie, ob es sich signifikant von Null unterscheidet. Dieser Test wird normalerweise automatisch von der Software durchgeführt und in der zusammenfassenden Ausgabe angezeigt.
Die Frage liefert ein gutes Beispiel. Die folgende Tabelle (automatisch erstellt von R
) zeigt alle sechs möglichen Kombinationen eines Regressors mit drei Kategorienx1mit den Werten "1", "2" und "3+" und einem Regressor mit zwei Kategorien x2 mit den Werten "Nein" und "Ja".
x1 x2 Intercept x1=2 x1=3+ x2=Yes Coefficient
1 No 1 0 0 0 b0
2 No 1 1 0 0 b0 + b1
3+ No 1 0 1 0 b0 + b2
1 Yes 1 0 0 1 b0 + b3 -- there won't be any rows like this
2 Yes 1 1 0 1 b0 + b1 + b3
3+ Yes 1 0 1 1 b0 + b2 + b3
Die beiden linken Spalten zeigen die kombinierten Werte von x1 und x2. Die nächsten verbleibenden vier Spalten entsprechen (a) einem Abschnitt, der beiden Variablen gemeinsam ist, (b)3 - 1 = 2 Komponenten für die Auswirkungen von x1 relativ zur Basis und (c) 2 - 1 = 1 Komponenten für die Auswirkungen von x2relativ zur Basis (dh der Unterschied zwischen Kommunikation und nicht). Wir können ihre Koeffizienten nennenβ0,β1,β2,β3in der Reihenfolge von links nach rechts. Das Punktprodukt, das den Beitrag jeder Zeile zur Antwort zeigt, ist in der Spalte ganz rechts zusammengefasst (in der b0
für stehtβ0, Etc ).
Wenn bestimmte Kombinationen nicht möglich sind, wie z. B. x1=1
und x2=Yes
(in der vierten Zeile dargestellt), werden sie einfach nicht im Datensatz angezeigt. Aus diesem Grund könnten einige argumentieren, dass die Interpretation vonβ3sollte sich subtil ändern. Während es früher als Unterschied zwischen Kommunikation und ohne Kommunikation verstanden worden wäre, wird es jetzt als dieser Unterschied für die Fälle verstanden, in denen Kommunikation sinnvoll ist.
Hier ist ein Beispiel für die Software-Ausgabe (für eine logistische Regression) unter Verwendung dieser Codierung:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.65625 0.07841 8.369 3.09e-14 ***
x1.2 -0.33594 0.10373 -3.238 0.00147 **
x1.3+ -0.50781 0.10373 -4.895 2.43e-06 ***
x2Yes 0.04687 0.07841 0.598 0.55085
Die vier Zeilen entsprechen den vier ähnlich beschrifteten Spalten in der Tabelle. In diesem Fall hat die Software einen T-Test für durchgeführt x2Yes
, d. H.β3und erhielt einen p-Wert von 0,55085. Dies würde von niemandem als signifikant angesehen werden. Die Schlussfolgerung wäre, dass, obwohl es einige Hinweise darauf gibt, dass Kommunikation die Wahrscheinlichkeit einer Antwort erhöht (wie aus der positiven Schätzung hervorgeht)β^3= 0,04687) ist es in diesem Datensatz nicht signifikant.