Zusammenfassung
Jede Aussage in der Frage kann als Eigenschaft von Ellipsen verstanden werden. Die einzige Eigenschaft, die speziell für die bivariate Normalverteilung benötigt wird, ist die Tatsache, dass in einer bivariaten Standardnormalverteilung von für die und korreliert sind - die bedingte Varianz von nicht von abhängt . (Dies ist wiederum eine unmittelbare Folge der Tatsache, dass mangelnde Korrelation Unabhängigkeit für gemeinsam normale Variablen impliziert.)X Y Y XX,YXYYX
Die folgende Analyse zeigt genau, um welche Eigenschaft von Ellipsen es sich handelt, und leitet alle Gleichungen der Frage unter Verwendung elementarer Ideen und einer möglichst einfachen Arithmetik in einer Weise ab, die leicht zu merken ist.
Zirkelsymmetrische Verteilungen
Die Verteilung der Frage gehört zur Familie der bivariaten Normalverteilungen. Sie sind alle von einem Grundelement abgeleitet, der bivariaten Standardnormalverteilung , die zwei nicht korrelierte Standardnormalverteilungen beschreibt (die ihre beiden Koordinaten bilden).
Die linke Seite ist eine Reliefdarstellung der normalen bivariaten Normaldichte. Die rechte Seite zeigt dasselbe in Pseudo-3D, wobei der vordere Teil weggeschnitten ist.
Dies ist ein Beispiel für eine kreissymmetrische Verteilung: Die Dichte ändert sich mit der Entfernung von einem Mittelpunkt, jedoch nicht mit der Richtung von diesem Punkt weg. Somit sind die Konturen seines Diagramms (rechts) Kreise.
Die meisten anderen bivariaten Normalverteilungen sind jedoch nicht kreissymmetrisch: Ihre Querschnitte sind Ellipsen. Diese Ellipsen bilden die charakteristische Form vieler bivariater Punktwolken ab.
Dies sind Porträts der bivariaten Normalverteilung mit Kovarianzmatrix Es ist ein Modell für Daten mit einem Korrelationskoeffizienten von .-2/3Σ=(1−23−231).−2/3
Erstellen von Ellipsen
Eine Ellipse ist nach ihrer ältesten Definition ein Kegelschnitt, bei dem es sich um einen Kreis handelt, der durch eine Projektion auf eine andere Ebene verzerrt wird. Indem wir die Natur der Projektion betrachten, können wir sie genau wie visuelle Künstler in eine Folge von Verzerrungen zerlegen, die leicht zu verstehen und zu berechnen sind.
Dehnen Sie zunächst den Kreis entlang der Längsachse der Ellipse (oder drücken Sie ihn gegebenenfalls zusammen), bis die richtige Länge erreicht ist:
Als nächstes drücke (oder dehne) diese Ellipse entlang ihrer Nebenachse:
Drittens drehen Sie es um seine Mitte in seine endgültige Ausrichtung:
Verschieben Sie es schließlich an den gewünschten Ort:
Dies sind alles affine Transformationen. (Tatsächlich sind die ersten drei lineare Transformationen ; die endgültige Verschiebung macht sie affin.) Da eine Zusammensetzung affiner Transformationen (per Definition) immer noch affin ist, ist die Nettoverzerrung vom Kreis zur endgültigen Ellipse eine affine Transformation. Aber es kann etwas kompliziert sein:
Beachten Sie, was mit den (natürlichen) Achsen der Ellipse passiert ist: Nachdem sie durch Verschieben und Drücken erzeugt wurden, haben sie sich (natürlich) zusammen mit der Achse selbst gedreht und verschoben. Wir können diese Achsen leicht erkennen, auch wenn sie nicht gezeichnet sind, da sie Symmetrieachsen der Ellipse selbst sind.
Wir möchten unser Verständnis von Ellipsen auf das Verständnis verzerrter kreisförmiger symmetrischer Verteilungen anwenden, wie dies bei der bivariaten Normal-Familie der Fall ist. Leider gibt es ein Problem mit diesen Verzerrungen : Sie berücksichtigen nicht die Unterscheidung zwischen der und der Achse. Die Drehung in Schritt 3 ruiniert das. Schauen Sie sich die schwachen Koordinatengitter im Hintergrund an: Diese zeigen, was mit einem Gitter (mit Gitter passierty 1 / 2 xxy1/2in beide Richtungen), wenn es verzerrt ist. Im ersten Bild wird der Abstand zwischen den ursprünglichen vertikalen Linien (durchgezogen dargestellt) verdoppelt. Im zweiten Bild wird der Abstand zwischen den ursprünglichen horizontalen Linien (gestrichelt dargestellt) um ein Drittel verkleinert. Im dritten Bild werden die Rasterabstände nicht geändert, sondern alle Linien gedreht. Sie verschieben sich im vierten Bild nach rechts oben. Das endgültige Bild mit dem Nettoergebnis zeigt dieses gedehnte, zusammengedrückte, gedrehte und verschobene Gitter. Die ursprünglichen durchgezogenen Linien mit konstanter Koordinate sind nicht mehr vertikal.x
Die Schlüsselidee - man könnte wagen zu sagen, es ist der Kern der Regression - besteht darin, dass der Kreis auf eine Art und Weise in eine Ellipse verzerrt werden kann, ohne die vertikalen Linien zu drehen . Da die Drehung der Täter war, lassen Sie uns auf den Punkt kommen und zeigen, wie eine gedrehte Ellipse erstellt wird, ohne dass sich tatsächlich etwas dreht !
Dies ist eine Schrägwandlung. Tatsächlich werden zwei Dinge gleichzeitig ausgeführt:
Es drückt sich in Richtung zusammen (zum Beispiel um einen Betrag ). Dadurch bleibt die Achse in Ruhe.λ xyλx
Es hebt jeden resultierenden Punkt um einen Betrag an, der direkt proportional zu . Wenn Sie diese Proportionalitätskonstante als schreiben, sendet dies zu .x ρ ( x , y ) ( x , y + ρ x )(x,y)xρ(x,y)(x,y+ρx)
Der zweite Schritt hebt die Achse in die in der vorherigen Abbildung gezeigte Linie . Wie in dieser Abbildung gezeigt, möchte ich mit einer speziellen Schrägstellungstransformation arbeiten, bei der die Ellipse effektiv um 45 Grad gedreht und in das Einheitsquadrat eingeschrieben wird. Die Hauptachse dieser Ellipse ist die Linie . Es ist visuell ersichtlich, dass . (Negative Werte von neigen die Ellipse nach rechts und nicht nach oben.) Dies ist die geometrische Erklärung für "Regression zum Mittelwert".y = ρ x y = x | ρ | ≤ 1 ρxy=ρxy=x|ρ|≤1ρ
Bei einem Winkel von 45 Grad ist die Ellipse symmetrisch um die Diagonale des Quadrats (Teil der Linie ). Beachten Sie Folgendes, um die Parameter dieser Schräglaufumwandlung zu ermitteln:y=x
Das Heben um verschiebt den Punkt auf .ρx(1,0)(1,ρ)
Die Symmetrie um die Hauptdiagonale impliziert dann, dass der Punkt auch auf der Ellipse liegt.(ρ,1)
Wo hat dieser Punkt angefangen?
Der ursprüngliche (obere) Punkt auf dem Einheitskreis (mit der impliziten Gleichung ) mit der Koordinate war .x2+y2=1xρ(ρ,1−ρ2−−−−−√)
Jeder Punkt der Form zuerst auf gedrückt und dann auf angehoben .(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)
Die eindeutige Lösung für die Gleichung ist . Das ist der Betrag, um den alle Abstände in vertikaler Richtung zusammengedrückt werden müssen, um eine Ellipse in einem Winkel von 45 Grad zu erzeugen, wenn sie vertikal von .(ρ,λ1−ρ2−−−−−√+ρ2)=(ρ,1)λ=1−ρ2−−−−−√ρ
Um diese Vorstellungen zu festigen, ist hier ein Tableau zu sehen, wie eine kreissymmetrische Verteilung durch diese Versatztransformationen in Verteilungen mit elliptischen Konturen verzerrt wird. Die Felder zeigen von links nach rechts Werte von gleich und .ρ0, 3/10, 6/10,9/10,
Die Abbildung ganz links zeigt eine Reihe von Startpunkten um eine der kreisförmigen Konturen sowie einen Teil der horizontalen Achse. Nachfolgende Figuren verwenden Pfeile, um zu zeigen, wie diese Punkte verschoben werden. Das Bild der horizontalen Achse erscheint als schräges Liniensegment (mit Steigung ). (Die Farben repräsentieren unterschiedliche Mengen an Dichte in den verschiedenen Figuren.)ρ
Anwendung
Wir sind bereit, Rückschritte zu machen. Eine standardmäßige, elegante (und dennoch einfache) Methode zur Durchführung einer Regression besteht darin, die ursprünglichen Variablen zunächst in neuen Maßeinheiten auszudrücken: Wir zentrieren sie nach ihren Mitteln und verwenden ihre Standardabweichungen als Einheiten. Dadurch wird der Mittelpunkt der Verteilung zum Ursprung verschoben, und alle elliptischen Konturen werden um 45 Grad geneigt (nach oben oder unten).
Wenn diese standardisierten Daten eine kreisförmige Punktwolke bilden, ist die Regression einfach: Die von abhängigen sind alle und bilden eine Linie, die durch den Ursprung verläuft. (Kreisförmige Symmetrie impliziert Symmetrie in Bezug auf die Achse, was zeigt, dass alle bedingten Verteilungen symmetrisch sind, wenn sie Mittelwerte von haben .) Wie wir gesehen haben, können wir die standardisierte Verteilung als Ergebnis dieser einfachen Grundsituation in zwei Schritten betrachten: erstens werden alle (standardisierten) Werte mit für einen Wert von multipliziert ; Als nächstes werden alle Werte mit Koordinaten vertikal umx0x0y1−ρ2−−−−−√ρxρx. Was haben diese Verzerrungen mit der Regressionslinie (die die bedingten Mittelwerte gegen ) getan ?x
Das Schrumpfen der Koordinaten multiplizierte alle vertikalen Abweichungen mit einer Konstanten. Dies änderte lediglich die vertikale Skala und ließ alle bedingten Mittel unverändert bei .y0
Die vertikale Versatztransformation addierte zu allen bedingten Werten bei und addierte dadurch zu ihrem bedingten Mittelwert: Die Kurve ist die Regressionskurve, die sich als Linie herausstellt.ρxxρxy=ρx
In ähnlicher Weise können wir überprüfen, dass, da die Achse die kleinste zur zirkularsymmetrischen Verteilung passende Quadrate ist, die kleinste zur transformierten Verteilung passende Quadrate auch die Linie : Die Linie der kleinsten Quadrate fällt mit der Regressionslinie zusammen .xy=ρx
Diese schönen Ergebnisse sind eine Folge der Tatsache, dass die vertikale Schrägstellungstransformation keine Koordinaten ändert .x
Wir können leicht mehr sagen:
Die erste Kugel (etwa schrumpf) zeigt , daß , wenn hat jede zirkular symmetrische Verteilung, die bedingte Varianz von wurde , multipliziert mit .(X,Y)Y|X(1−ρ2−−−−−√)2=1−ρ2
Allgemeiner: Die vertikale Versatztransformation skaliert jede bedingte Verteilung um und fügt sie dann um .1−ρ2−−−−−√ρx
Für die bivariate Standardnormalverteilung ist die bedingte Varianz eine von unabhängige Konstante (gleich ) . Wir schließen sofort, dass die bedingte Varianz der vertikalen Abweichungen nach Anwendung dieser Schrägstellungstransformation immer noch konstant ist und gleich . Da die bedingten Verteilungen eines bivariaten Normalen selbst normal sind, haben wir jetzt, da wir ihre Mittelwerte und Varianzen kennen, vollständige Informationen über sie.1x1−ρ2
Schließlich müssen wir beziehen auf die ursprüngliche Kovarianzmatrix . ρΣ Dazu sei daran erinnert, dass die (schönste) Definition des Korrelationskoeffizienten zwischen zwei standardisierten Variablen und die Erwartung ihres Produkts . (Die Korrelation von und wird einfach als die Korrelation ihrer standardisierten Versionen deklariert.) Wenn daher einer kreissymmetrischen Verteilung folgt und wir die Versatztransformation auf die Variablen anwenden, können wir schreibenXYXYXY(X,Y)
ε=Y−ρX
für die vertikalen Abweichungen von der Regressionslinie und beachten Sie, dass eine symmetrische Verteilung um . Warum? Weil vor der Skew-Transformation eine symmetrische Verteilung um und wir es dann (a) zusammengedrückt und (b) durch angehoben haben . Ersteres änderte seine Symmetrie nicht, während letzteres es bei , QED erneut zentrierte . Die nächste Abbildung veranschaulicht dies.ε0Y0ρXρX
Die schwarzen Linien zeichnen Höhen proportional zu den bedingten Dichten bei verschiedenen Werten von in regelmäßigen Abständen auf . Die dicke weiße Linie ist die Regressionslinie, die durch das Symmetriezentrum jeder bedingten Kurve verläuft. Dieses Diagramm zeigt den Fall in standardisierten Koordinaten.xρ=−1/2
Folglich
E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.
Die endgültige Gleichheit beruht auf zwei Tatsachen: (1) Da standardisiert wurde, ist die Erwartung seines Quadrats seine standardisierte Varianz, die konstruktionsbedingt gleich ; und (2) die Erwartung von entspricht der Erwartung von aufgrund der Symmetrie von . Da letzteres das Negative des ersteren ist, müssen beide gleich : dieser Term fällt ab.X1XεX(−ε)ε0
Wir haben den Parameter der Verschiebungstransformation als Korrelationskoeffizienten von und identifiziert .ρXY
Schlussfolgerungen
Indem wir beobachten, dass eine Ellipse durch Verzerrung eines Kreises mit einer vertikalen Schrägstellungstransformation erzeugt werden kann, die die Koordinate beibehält, sind wir zu einem Verständnis der Konturen einer Verteilung von Zufallsvariablen gelangt , die aus einer kreisförmigen Symmetrie erhalten wird eine durch Strecken, Drücken, Drehen und Verschieben (dh jede affine Transformation). Durch erneutes Ausdrücken der Ergebnisse in Bezug auf die ursprünglichen Einheiten von und -, die die Addition ihrer und , nachdem sie mit ihren Standardabweichungen und multipliziert wurden - wir fest, dass:x(X,Y)xyμxμyσxσy
Die Linie der kleinsten Quadrate und die Regressionskurve verlaufen beide durch den Ursprung der standardisierten Variablen, der dem "Durchschnittspunkt" in Originalkoordinaten entspricht.(μx,μy)
Die Regressionskurve, die als Ort des bedingten Mittels fällt mit der Linie der kleinsten Quadrate zusammen.{(x,ρx)},
Die Steigung der Regressionsgeraden in standardisierten Koordinaten ist der Korrelationskoeffizient ; in den ursprünglichen Einheiten ist es also gleich .ρσyρ/σx
Folglich ist die Gleichung der Regressionsgeraden
y=σyρσx(x−μx)+μy.
- Die bedingte Varianz von ist mal die bedingte Varianz von wobei eine Standardverteilung hat (zirkular symmetrisch mit Einheitsvarianzen in beiden Koordinaten), und .Y|Xσ2y(1−ρ2)Y′|X′(X′,Y′)X′=(X−μX)/σxY′=(Y−μY)/σY
Keines dieser Ergebnisse ist eine besondere Eigenschaft von bivariaten Normalverteilungen! Für die bivariate Normal-Familie ist die bedingte Varianz von konstant (und gleich ): Diese Tatsache macht es besonders einfach, mit dieser Familie zu arbeiten. Speziell:Y′|X′1
- Weil in der Kovarianzmatrix die Koeffizienten und die bedingte Varianz von für eine bivariate NormalverteilungΣσ11=σ2x, σ12=σ21=ρσxσy,σ22=σ2y,Y|X
σ2y(1−ρ2)=σ22(1−(σ12σ11σ22−−−−−√)2)=σ22−σ212σ11.
Technische Hinweise
Die Schlüsselidee kann in Form von Matrizen angegeben werden, die die linearen Transformationen beschreiben. Es kommt darauf an, eine geeignete "Quadratwurzel" der Korrelationsmatrix zu finden, für die ein Eigenvektor ist. Somit:y
(1ρρ1)=AA′
wo
A=(1ρ01−ρ2−−−−−√).
Eine viel bekanntere Quadratwurzel ist die eingangs beschriebene (mit einer Drehung anstelle einer Schrägstellung); Es wird durch eine Singularwertzerlegung erzeugt und spielt eine herausragende Rolle in der Hauptkomponentenanalyse (PCA):
(1ρρ1)=BB′;
B=Q(ρ+1−−−−√001−ρ−−−−√)Q′
Dabei ist ist die Rotationsmatrix für eine Grad-Rotation.Q=⎛⎝12√12√−12√12√⎞⎠45
Die Unterscheidung zwischen PCA und Regression beruht also auf dem Unterschied zwischen zwei speziellen Quadratwurzeln der Korrelationsmatrix.