Eine kategoriale Variable ist praktisch nur eine Menge von Indikatorvariablen. Es ist eine Grundidee der Messtheorie, dass eine solche Variable für die Neuetikettierung der Kategorien nicht relevant ist. Daher ist es nicht sinnvoll, die numerische Kennzeichnung der Kategorien in einem Maß für die Beziehung zwischen einer anderen Variablen zu verwenden (z. B. „Korrelation“). . Aus diesem Grund sollte ein Maß für die Beziehung zwischen einer kontinuierlichen Variablen und einer kategorialen Variablen vollständig auf den Indikatorvariablen basieren, die von letzteren abgeleitet sind.
Da Sie ein Maß für die 'Korrelation' zwischen den beiden Variablen wünschen, ist es sinnvoll, die Korrelation zwischen einer stetigen Zufallsvariablen und einer Indikator-Zufallsvariablen I zu betrachten, die von einer kategorialen Variablen abgeleitet wurde. Wenn wir ϕ ≡ P ( I = 1 ) lassen , haben wir:XIϕ≡P(I=1)
Cov(I,X)=E(IX)−E(I)E(X)=ϕ[E(X|I=1)−E(X)],
was gibt:
Corr(I,X)=ϕ1−ϕ−−−−−√⋅E(X|I=1)−E(X)S(X).
Die Korrelation zwischen einer stetigen Zufallsvariablen und einer Indikator-Zufallsvariablen I ist also eine relativ einfache Funktion der Indikatorwahrscheinlichkeit ϕ und der normierten Zunahme des Erwartungswerts von X aus der Konditionierung auf I = 1 . Es ist zu beachten, dass diese Korrelation keine Diskretisierung der kontinuierlichen Zufallsvariablen erfordert.XIϕXI=1
C1,...,mC=kIk≡I(C=k)
Corr(Ik,X)=ϕk1−ϕk−−−−−−√⋅E(X|C=k)−E(X)S(X).
Corr(C,X)≡(Corr(I1,X),...,Corr(Im,X))
∑kCov(Ik,X)=0Xm−1
(x1,c1),...,(xn,cn)
ϕ^k≡1n∑i=1nI(ci=k).
E^(X)≡x¯≡1n∑i=1nxi.
E^(X|C=k)≡x¯k≡1n∑i=1nxiI(ci=k)/ϕ^k.
S^(X)≡sX≡1n−1∑i=1n(xi−x¯)2−−−−−−−−−−−−−−−√.
X