Was ist die Intuition hinter bedingten Gaußschen Verteilungen?


46

Angenommen, . Dann ist die bedingte Verteilung von unter der Voraussetzung , dass multivariate Normalverteilung mit dem Mittelwert:XN2(μ,Σ)X1X2=x2

E[P(X1|X2=x2)]=μ1+σ12σ22(x2μ2)

und Varianz:

Var[P(X1|X2=x2)]=σ11σ122σ22

Es ist sinnvoll, dass die Varianz abnimmt, da wir mehr Informationen haben. Aber was ist die Intuition hinter der Mittelwertformel? Wie geht die Kovarianz zwischen und in den bedingten Mittelwert ein?X1X2


2
Ist Ihre Frage einfach 'warum ist nicht der Mittelwert der bedingten Verteilung = '? μ1
gung - Wiedereinsetzung von Monica

@gung: Dies ist wahr, wenn . Aber warum sind und beteiligt? x2=μ2σ11σ22
Eroeijr

3
In natürlichen ("standardisierten") Einheiten schreiben wir wobei . In diesen Begriffen ist die bedingte Verteilung Normal mit undDie Tatsache, dass "Mean Reversion" oder "Regression to the Mean" genannt wird : Es gibt eine umfangreiche technische und populäre Literatur zu diesem Thema, die 130 Jahre zurückreicht. Xi=μ1+σiZiσi=σiiE(Z1|Z2)=ρZ2ρ=σ12/(σ1σ2).|ρ|1
whuber

2
Sag mal, eroeijr, ist das dein Beitrag ? (Abgesehen von dem "Gast" am Anfang gibt es eine deutliche Ähnlichkeit in den Namen.) Wenn es deins ist, sollten Sie darum bitten, die beiden Konten zusammenzuführen und den großen Bonus in Punkten einzubeziehen, den Sie hätten.
Glen_b

2
Wenn Sie über mehrere (nicht registrierte) Konten verfügen, füllen Sie bitte das Formular unter stats.stackexchange.com/contact aus und fordern Sie die Zusammenführung an.
CHL

Antworten:


57

Zusammenfassung

Jede Aussage in der Frage kann als Eigenschaft von Ellipsen verstanden werden. Die einzige Eigenschaft, die speziell für die bivariate Normalverteilung benötigt wird, ist die Tatsache, dass in einer bivariaten Standardnormalverteilung von für die und korreliert sind - die bedingte Varianz von nicht von abhängt . (Dies ist wiederum eine unmittelbare Folge der Tatsache, dass mangelnde Korrelation Unabhängigkeit für gemeinsam normale Variablen impliziert.)X Y Y XX,YXYYX

Die folgende Analyse zeigt genau, um welche Eigenschaft von Ellipsen es sich handelt, und leitet alle Gleichungen der Frage unter Verwendung elementarer Ideen und einer möglichst einfachen Arithmetik in einer Weise ab, die leicht zu merken ist.


Zirkelsymmetrische Verteilungen

Die Verteilung der Frage gehört zur Familie der bivariaten Normalverteilungen. Sie sind alle von einem Grundelement abgeleitet, der bivariaten Standardnormalverteilung , die zwei nicht korrelierte Standardnormalverteilungen beschreibt (die ihre beiden Koordinaten bilden).

Abbildung 1: Die bivariate Normalverteilung

Die linke Seite ist eine Reliefdarstellung der normalen bivariaten Normaldichte. Die rechte Seite zeigt dasselbe in Pseudo-3D, wobei der vordere Teil weggeschnitten ist.

Dies ist ein Beispiel für eine kreissymmetrische Verteilung: Die Dichte ändert sich mit der Entfernung von einem Mittelpunkt, jedoch nicht mit der Richtung von diesem Punkt weg. Somit sind die Konturen seines Diagramms (rechts) Kreise.

Die meisten anderen bivariaten Normalverteilungen sind jedoch nicht kreissymmetrisch: Ihre Querschnitte sind Ellipsen. Diese Ellipsen bilden die charakteristische Form vieler bivariater Punktwolken ab.

Abbildung 2: Eine weitere bivariate Normalverteilung

Dies sind Porträts der bivariaten Normalverteilung mit Kovarianzmatrix Es ist ein Modell für Daten mit einem Korrelationskoeffizienten von .-2/3Σ=(123231).2/3


Erstellen von Ellipsen

Eine Ellipse ist nach ihrer ältesten Definition ein Kegelschnitt, bei dem es sich um einen Kreis handelt, der durch eine Projektion auf eine andere Ebene verzerrt wird. Indem wir die Natur der Projektion betrachten, können wir sie genau wie visuelle Künstler in eine Folge von Verzerrungen zerlegen, die leicht zu verstehen und zu berechnen sind.

Dehnen Sie zunächst den Kreis entlang der Längsachse der Ellipse (oder drücken Sie ihn gegebenenfalls zusammen), bis die richtige Länge erreicht ist:

Schritt 1: Dehnen

Als nächstes drücke (oder dehne) diese Ellipse entlang ihrer Nebenachse:

Schritt 2: drücken

Drittens drehen Sie es um seine Mitte in seine endgültige Ausrichtung:

Schritt 3: drehen

Verschieben Sie es schließlich an den gewünschten Ort:

Schritt 4: Schicht

Dies sind alles affine Transformationen. (Tatsächlich sind die ersten drei lineare Transformationen ; die endgültige Verschiebung macht sie affin.) Da eine Zusammensetzung affiner Transformationen (per Definition) immer noch affin ist, ist die Nettoverzerrung vom Kreis zur endgültigen Ellipse eine affine Transformation. Aber es kann etwas kompliziert sein:

Zusammengesetzte Transformation

Beachten Sie, was mit den (natürlichen) Achsen der Ellipse passiert ist: Nachdem sie durch Verschieben und Drücken erzeugt wurden, haben sie sich (natürlich) zusammen mit der Achse selbst gedreht und verschoben. Wir können diese Achsen leicht erkennen, auch wenn sie nicht gezeichnet sind, da sie Symmetrieachsen der Ellipse selbst sind.

Wir möchten unser Verständnis von Ellipsen auf das Verständnis verzerrter kreisförmiger symmetrischer Verteilungen anwenden, wie dies bei der bivariaten Normal-Familie der Fall ist. Leider gibt es ein Problem mit diesen Verzerrungen : Sie berücksichtigen nicht die Unterscheidung zwischen der und der Achse. Die Drehung in Schritt 3 ruiniert das. Schauen Sie sich die schwachen Koordinatengitter im Hintergrund an: Diese zeigen, was mit einem Gitter (mit Gitter passierty 1 / 2 xxy1/2in beide Richtungen), wenn es verzerrt ist. Im ersten Bild wird der Abstand zwischen den ursprünglichen vertikalen Linien (durchgezogen dargestellt) verdoppelt. Im zweiten Bild wird der Abstand zwischen den ursprünglichen horizontalen Linien (gestrichelt dargestellt) um ein Drittel verkleinert. Im dritten Bild werden die Rasterabstände nicht geändert, sondern alle Linien gedreht. Sie verschieben sich im vierten Bild nach rechts oben. Das endgültige Bild mit dem Nettoergebnis zeigt dieses gedehnte, zusammengedrückte, gedrehte und verschobene Gitter. Die ursprünglichen durchgezogenen Linien mit konstanter Koordinate sind nicht mehr vertikal.x

Die Schlüsselidee - man könnte wagen zu sagen, es ist der Kern der Regression - besteht darin, dass der Kreis auf eine Art und Weise in eine Ellipse verzerrt werden kann, ohne die vertikalen Linien zu drehen . Da die Drehung der Täter war, lassen Sie uns auf den Punkt kommen und zeigen, wie eine gedrehte Ellipse erstellt wird, ohne dass sich tatsächlich etwas dreht !

Schräge Ellipse

Dies ist eine Schrägwandlung. Tatsächlich werden zwei Dinge gleichzeitig ausgeführt:

  • Es drückt sich in Richtung zusammen (zum Beispiel um einen Betrag ). Dadurch bleibt die Achse in Ruhe.λ xyλx

  • Es hebt jeden resultierenden Punkt um einen Betrag an, der direkt proportional zu . Wenn Sie diese Proportionalitätskonstante als schreiben, sendet dies zu .x ρ ( x , y ) ( x , y + ρ x )(x,y)xρ(x,y)(x,y+ρx)

Der zweite Schritt hebt die Achse in die in der vorherigen Abbildung gezeigte Linie . Wie in dieser Abbildung gezeigt, möchte ich mit einer speziellen Schrägstellungstransformation arbeiten, bei der die Ellipse effektiv um 45 Grad gedreht und in das Einheitsquadrat eingeschrieben wird. Die Hauptachse dieser Ellipse ist die Linie . Es ist visuell ersichtlich, dass . (Negative Werte von neigen die Ellipse nach rechts und nicht nach oben.) Dies ist die geometrische Erklärung für "Regression zum Mittelwert".y = ρ x y = x | ρ | 1 ρxy=ρxy=x|ρ|1ρ

Bei einem Winkel von 45 Grad ist die Ellipse symmetrisch um die Diagonale des Quadrats (Teil der Linie ). Beachten Sie Folgendes, um die Parameter dieser Schräglaufumwandlung zu ermitteln:y=x

  • Das Heben um verschiebt den Punkt auf .ρx(1,0)(1,ρ)

  • Die Symmetrie um die Hauptdiagonale impliziert dann, dass der Punkt auch auf der Ellipse liegt.(ρ,1)

Wo hat dieser Punkt angefangen?

  • Der ursprüngliche (obere) Punkt auf dem Einheitskreis (mit der impliziten Gleichung ) mit der Koordinate war .x2+y2=1xρ(ρ,1ρ2)

  • Jeder Punkt der Form zuerst auf gedrückt und dann auf angehoben .(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)

Die eindeutige Lösung für die Gleichung ist . Das ist der Betrag, um den alle Abstände in vertikaler Richtung zusammengedrückt werden müssen, um eine Ellipse in einem Winkel von 45 Grad zu erzeugen, wenn sie vertikal von .(ρ,λ1ρ2+ρ2)=(ρ,1)λ=1ρ2ρ

Um diese Vorstellungen zu festigen, ist hier ein Tableau zu sehen, wie eine kreissymmetrische Verteilung durch diese Versatztransformationen in Verteilungen mit elliptischen Konturen verzerrt wird. Die Felder zeigen von links nach rechts Werte von gleich und .ρ0, 3/10, 6/10,9/10,

Tableau

Die Abbildung ganz links zeigt eine Reihe von Startpunkten um eine der kreisförmigen Konturen sowie einen Teil der horizontalen Achse. Nachfolgende Figuren verwenden Pfeile, um zu zeigen, wie diese Punkte verschoben werden. Das Bild der horizontalen Achse erscheint als schräges Liniensegment (mit Steigung ). (Die Farben repräsentieren unterschiedliche Mengen an Dichte in den verschiedenen Figuren.)ρ


Anwendung

Wir sind bereit, Rückschritte zu machen. Eine standardmäßige, elegante (und dennoch einfache) Methode zur Durchführung einer Regression besteht darin, die ursprünglichen Variablen zunächst in neuen Maßeinheiten auszudrücken: Wir zentrieren sie nach ihren Mitteln und verwenden ihre Standardabweichungen als Einheiten. Dadurch wird der Mittelpunkt der Verteilung zum Ursprung verschoben, und alle elliptischen Konturen werden um 45 Grad geneigt (nach oben oder unten).

Wenn diese standardisierten Daten eine kreisförmige Punktwolke bilden, ist die Regression einfach: Die von abhängigen sind alle und bilden eine Linie, die durch den Ursprung verläuft. (Kreisförmige Symmetrie impliziert Symmetrie in Bezug auf die Achse, was zeigt, dass alle bedingten Verteilungen symmetrisch sind, wenn sie Mittelwerte von haben .) Wie wir gesehen haben, können wir die standardisierte Verteilung als Ergebnis dieser einfachen Grundsituation in zwei Schritten betrachten: erstens werden alle (standardisierten) Werte mit für einen Wert von multipliziert ; Als nächstes werden alle Werte mit Koordinaten vertikal umx0x0y1ρ2ρxρx. Was haben diese Verzerrungen mit der Regressionslinie (die die bedingten Mittelwerte gegen ) getan ?x

  • Das Schrumpfen der Koordinaten multiplizierte alle vertikalen Abweichungen mit einer Konstanten. Dies änderte lediglich die vertikale Skala und ließ alle bedingten Mittel unverändert bei .y0

  • Die vertikale Versatztransformation addierte zu allen bedingten Werten bei und addierte dadurch zu ihrem bedingten Mittelwert: Die Kurve ist die Regressionskurve, die sich als Linie herausstellt.ρxxρxy=ρx

In ähnlicher Weise können wir überprüfen, dass, da die Achse die kleinste zur zirkularsymmetrischen Verteilung passende Quadrate ist, die kleinste zur transformierten Verteilung passende Quadrate auch die Linie : Die Linie der kleinsten Quadrate fällt mit der Regressionslinie zusammen .xy=ρx

Diese schönen Ergebnisse sind eine Folge der Tatsache, dass die vertikale Schrägstellungstransformation keine Koordinaten ändert .x

Wir können leicht mehr sagen:

  • Die erste Kugel (etwa schrumpf) zeigt , daß , wenn hat jede zirkular symmetrische Verteilung, die bedingte Varianz von wurde , multipliziert mit .(X,Y)Y|X(1ρ2)2=1ρ2

  • Allgemeiner: Die vertikale Versatztransformation skaliert jede bedingte Verteilung um und fügt sie dann um .1ρ2ρx

Für die bivariate Standardnormalverteilung ist die bedingte Varianz eine von unabhängige Konstante (gleich ) . Wir schließen sofort, dass die bedingte Varianz der vertikalen Abweichungen nach Anwendung dieser Schrägstellungstransformation immer noch konstant ist und gleich . Da die bedingten Verteilungen eines bivariaten Normalen selbst normal sind, haben wir jetzt, da wir ihre Mittelwerte und Varianzen kennen, vollständige Informationen über sie.1x1ρ2

Schließlich müssen wir beziehen auf die ursprüngliche Kovarianzmatrix . ρΣ Dazu sei daran erinnert, dass die (schönste) Definition des Korrelationskoeffizienten zwischen zwei standardisierten Variablen und die Erwartung ihres Produkts . (Die Korrelation von und wird einfach als die Korrelation ihrer standardisierten Versionen deklariert.) Wenn daher einer kreissymmetrischen Verteilung folgt und wir die Versatztransformation auf die Variablen anwenden, können wir schreibenXYXYXY(X,Y)

ε=YρX

für die vertikalen Abweichungen von der Regressionslinie und beachten Sie, dass eine symmetrische Verteilung um . Warum? Weil vor der Skew-Transformation eine symmetrische Verteilung um und wir es dann (a) zusammengedrückt und (b) durch angehoben haben . Ersteres änderte seine Symmetrie nicht, während letzteres es bei , QED erneut zentrierte . Die nächste Abbildung veranschaulicht dies.ε0Y0ρXρX

3D-Plot mit bedingten Verteilungen und der Linie der kleinsten Quadrate

Die schwarzen Linien zeichnen Höhen proportional zu den bedingten Dichten bei verschiedenen Werten von in regelmäßigen Abständen auf . Die dicke weiße Linie ist die Regressionslinie, die durch das Symmetriezentrum jeder bedingten Kurve verläuft. Dieses Diagramm zeigt den Fall in standardisierten Koordinaten.xρ=1/2

Folglich

E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.

Die endgültige Gleichheit beruht auf zwei Tatsachen: (1) Da standardisiert wurde, ist die Erwartung seines Quadrats seine standardisierte Varianz, die konstruktionsbedingt gleich ; und (2) die Erwartung von entspricht der Erwartung von aufgrund der Symmetrie von . Da letzteres das Negative des ersteren ist, müssen beide gleich : dieser Term fällt ab.X1XεX(ε)ε0

Wir haben den Parameter der Verschiebungstransformation als Korrelationskoeffizienten von und identifiziert .ρXY


Schlussfolgerungen

Indem wir beobachten, dass eine Ellipse durch Verzerrung eines Kreises mit einer vertikalen Schrägstellungstransformation erzeugt werden kann, die die Koordinate beibehält, sind wir zu einem Verständnis der Konturen einer Verteilung von Zufallsvariablen gelangt , die aus einer kreisförmigen Symmetrie erhalten wird eine durch Strecken, Drücken, Drehen und Verschieben (dh jede affine Transformation). Durch erneutes Ausdrücken der Ergebnisse in Bezug auf die ursprünglichen Einheiten von und -, die die Addition ihrer und , nachdem sie mit ihren Standardabweichungen und multipliziert wurden - wir fest, dass:x(X,Y)xyμxμyσxσy

  • Die Linie der kleinsten Quadrate und die Regressionskurve verlaufen beide durch den Ursprung der standardisierten Variablen, der dem "Durchschnittspunkt" in Originalkoordinaten entspricht.(μx,μy)

  • Die Regressionskurve, die als Ort des bedingten Mittels fällt mit der Linie der kleinsten Quadrate zusammen.{(x,ρx)},

  • Die Steigung der Regressionsgeraden in standardisierten Koordinaten ist der Korrelationskoeffizient ; in den ursprünglichen Einheiten ist es also gleich .ρσyρ/σx

Folglich ist die Gleichung der Regressionsgeraden

y=σyρσx(xμx)+μy.
  • Die bedingte Varianz von ist mal die bedingte Varianz von wobei eine Standardverteilung hat (zirkular symmetrisch mit Einheitsvarianzen in beiden Koordinaten), und .Y|Xσy2(1ρ2)Y|X(X,Y)X=(XμX)/σxY=(YμY)/σY

Keines dieser Ergebnisse ist eine besondere Eigenschaft von bivariaten Normalverteilungen! Für die bivariate Normal-Familie ist die bedingte Varianz von konstant (und gleich ): Diese Tatsache macht es besonders einfach, mit dieser Familie zu arbeiten. Speziell:Y|X1

  • Weil in der Kovarianzmatrix die Koeffizienten und die bedingte Varianz von für eine bivariate NormalverteilungΣσ11=σx2, σ12=σ21=ρσxσy,σ22=σy2,Y|X

σy2(1ρ2)=σ22(1(σ12σ11σ22)2)=σ22σ122σ11.

Technische Hinweise

Die Schlüsselidee kann in Form von Matrizen angegeben werden, die die linearen Transformationen beschreiben. Es kommt darauf an, eine geeignete "Quadratwurzel" der Korrelationsmatrix zu finden, für die ein Eigenvektor ist. Somit:y

(1ρρ1)=AA

wo

A=(10ρ1ρ2).

Eine viel bekanntere Quadratwurzel ist die eingangs beschriebene (mit einer Drehung anstelle einer Schrägstellung); Es wird durch eine Singularwertzerlegung erzeugt und spielt eine herausragende Rolle in der Hauptkomponentenanalyse (PCA):

(1ρρ1)=BB;

B=Q(ρ+1001ρ)Q

Dabei ist ist die Rotationsmatrix für eine Grad-Rotation.Q=(12121212)45

Die Unterscheidung zwischen PCA und Regression beruht also auf dem Unterschied zwischen zwei speziellen Quadratwurzeln der Korrelationsmatrix.


1
Schöne Bilder und tolle Beschreibungen. Das Update enthielt einige unvollständige Sätze (als ob Sie im Grunde wüssten, was Sie sagen würden, sich aber nicht auf den endgültigen Wortlaut festgelegt hatten).
Kardinal

1
@ Kardinal Danke. Ich werde dies nochmals lesen und nach solchen Dingen suchen sowie nach den unvermeidlichen Tippfehlern. Sie sind zu freundlich, auf andere Dinge hinzuweisen, die Sie sicherlich bemerkt haben, wie z. B. einige Lücken in der Darstellung. Das Größte ist, dass ich nicht wirklich gezeigt habe, dass diese Ellipsen in einem Winkel von 45 Grad stehen (äquivalent, eingeschrieben im Einheitsquadrat); Das habe ich einfach angenommen. Ich suche noch eine einfache Demonstration. Die andere ist, dass man befürchten könnte, dass die Schrägstellung eine andere Verteilung als die ursprüngliche Streck-Quetsch-Dreh-Verschiebung erzeugen könnte - aber es ist einfach zu zeigen, dass dies nicht der Fall ist.
Whuber

3
Das ist wirklich interessant. Vielen Dank, dass Sie sich die Zeit genommen haben, es aufzuschreiben.
Bill

Im ersten Absatz der Anwendungen heißt es: "Wir zentrieren sie nach ihren Mitteln und verwenden ihre Standardabweichungen als Einheiten. Dadurch wird der Mittelpunkt der Verteilung auf den Ursprung verschoben und alle elliptischen Konturen werden um 45 Grad geneigt." Verstehen Sie nicht, wie die Zentrierung der Variablen an ihren Mitteln ihre Zentren zum Ursprung bewegt und sie auf 45 Grad ausrichtet?
Kaushal28

@whuber Wenn Sie mit dem Einheitskreis (standardisierter Stichprobensatz) beginnen, sagen Sie, dass die Korrelation 0 ist. Ich stelle mir also vor, wir erhalten einen Kreis wie . Aber wie 0 Korrelation bedeutet Unabhängigkeit? (weil durch wie wir sehen. Es ist normalerweise nicht richtig? Sogar abhängige Variablen könnten eine Korrelation von 0 erzeugen?f(X,Y)=e12(x2+y2)f(X,Y)f(X)f(Y)
Parthiban Rajendran

21

Dies ist im Wesentlichen eine lineare (OLS) Regression. In diesem Fall finden Sie die bedingte Verteilung von mit . (Genau genommen macht die OLS-Regression keine Annahmen über die Verteilung von , wohingegen Ihr Beispiel eine multivariate Norm ist, aber wir werden diese Dinge ignorieren.) Wenn die Kovarianz zwischen und nicht , dann ist der Mittelwert von Die bedingte Verteilung von muss verschoben werden, wenn Sie den Wert von ändern, in dem Sie die multivariate Verteilung aufteilen. Betrachten Sie die folgende Abbildung: YX=xiXX1X20X2x1

Bildbeschreibung hier eingeben

Hier sehen wir, dass die Randverteilungen beide normal sind, mit einer positiven Korrelation zwischen und . Wenn Sie sich die bedingte Verteilung von an einem beliebigen Punkt von ansehen , ist die Verteilung eine univariate Normalverteilung. Aufgrund der positiven Korrelation (dh der Nicht-Null-Kovarianz) verschiebt sich jedoch der Mittelwert dieser bedingten Verteilungen, wenn Sie sich von links nach rechts bewegen. Die Abbildung zeigt beispielsweise, dass . X1X2X2X1μX2|X1=25μX2|X1=45

( Für zukünftige Leser, die durch die Symbole verwirrt sein könnten, möchte ich festhalten, dass z. B. ein Element der Kovarianzmatrix . Somit ist es die Varianz von , auch wenn die Menschen dies normalerweise tun Stellen Sie sich eine Varianz als und als Standardabweichung vor.σ22ΣX2σ2σ )

Ihre Gleichung für den Mittelwert ist direkt mit der Gleichung für die Schätzung der Steigung in der OLS-Regression verbunden (und denken Sie daran, dass in der Regression der bedingte Mittelwert ist): In Ihrer Gleichung ist die Kovarianz über die Varianz; das heißt, es ist die Steigung , genau wie oben. Ihre Gleichung für den Mittelwert verschiebt also einfach Ihren bedingten Mittelwert von seinem unbedingten Mittelwert nach oben oder unten , je nachdem, wie weit er von ist und die Steigung der Beziehung zwischen und . y^i
σ 12 /σ 22 μX2| X1=xiμx2μx2x2iX1X2

β^1=Cov(x,y)Var(x)
σ12/σ22μX2|X1=xiμX2μX2 x2iX1X2

Was passiert, wenn Sie weitere Variablen bedingen? Sie würden einfach zusätzliche Terme zum Mittelwert und zur Varianz addieren und subtrahieren?

2
@kerkejnrke, wenn Sie die Verteilung von abhängig von einer bestimmten Ebene eines Satzes von Variablen modellieren , führen Sie eine multiple Regression durch . Das ist etwas komplizierter, aber letztendlich das Gleiche. Der Mittelwert wäre: , wobei . X Y i = X i βYXy^i=Xiβ^β^=(XTX)1XTY
gung - Wiedereinsetzung von Monica

Womit haben Sie das Diagramm erstellt? Mathematica?
mpiktas

@mpiktas, mein Graph oder Whubers? Ich glaube, er ist Mathematica, aber ich habe den obigen mit R gemacht. (Hässlicher Code ...)
gung - Reinstate Monica

1
@mpiktas, ich kann mir nicht vorstellen, dass mein Code jemals als "genial" beschrieben werden sollte ... Die normalen Kurven werden mit gezeichnet dnorm(y). Ich füge die Ausgabe einfach zu 25& 45, & hinzu x.
gung - Wiedereinsetzung von Monica

3

Gungs Antwort ist gut (+1). Es gibt jedoch eine andere Sichtweise. Stellen Sie sich vor, die Kovarianz zwischen und wäre positiv. Was bedeutet das für ? Nun, es bedeutet , dass , wenn oben ist ist gemein, neigt oben zu sein ist gemein, und vice versa .X1X2σ1,2>0X2X2X1X1

Angenommen, ich habe dir gesagt, dass . Angenommen, ich habe Ihnen gesagt, dass über dem Mittelwert liegt. Würden Sie nicht daraus schließen, dass wahrscheinlich über dem Mittelwert liegt (da Sie und wissen, was Kovarianz bedeutet)? So, jetzt nehmen Sie, wenn Sie den Mittelwert von , wohl wissend , dass oberhalb ist gemein, Sie gehen eine Reihe oben bekommen 's Mittelwert. Das sagt die Formel: Wenn die Kovarianz positiv ist undX2=x2>μ2X2X1σ1,2>0X1X2X2X1

E{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
X2liegt über dem Mittelwert, dann ist . E{X1|X2=x2}>μ1

Die bedingte Erwartung hat die oben angegebene Form für die Normalverteilung, nicht für alle Verteilungen. Dies scheint etwas seltsam zu sein, da die Argumentation im obigen Absatz ziemlich überzeugend erscheint. der Verteilung von und diese Formel jedoch (fast) richtig: Wobei den besten linearen Prädiktor bedeutet. Die Normalverteilung ist insofern besonders, als bedingte Erwartung und bester linearer Prädiktor dasselbe sind.X1X2

BLP{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
BLP

Es scheint kein Element dieses Arguments zu geben, das tatsächlich anzeigt, dass der Koeffizient von dem Verhältnis der covariances . Warum nicht der Würfel dieses Verhältnisses? Oder sein Sinus? Oder ein anderes Assoziationsmaß, wie die KL-Divergenz (die wenig mit Kovarianz zu tun hat)? Solche Formeln würden das von Ihnen beschriebene Verhalten qualitativ reproduzieren. Angesichts dieser Unbestimmtheit in der Begründung sollte es nicht überraschen, dass Ihre Formel nur für eine bestimmte Form der bivariaten Verteilung gilt und nicht für irgendeine Verteilung. σ 12 / σ 22x2μ2σ12/σ22
Whuber

1
@whuber Ja, und es ist noch schlimmer. Es ist nicht besonders schwer , ein Beispiel mit Nicht-Normalverteilungen zu kochen , wo, für einen Wert von , obwohl . Die "neigt dazu zu sein" und "wahrscheinlich zu sein" Teile meiner Diskussion sind matschig. Vielleicht könnte man mit der BLP-Formel führen (vielleicht ableiten?), Aber die Frage sollte eher nach Intuition als nach Beweis gestellt werden. E( X 1 | X 2 = x 2 )< μ 1 σ 1 , 2 >0x2>μ2E(X1|X2=x2)<μ1σ1,2>0
Bill

1
"Intuitiv" bedeutet nicht "nicht quantitativ": Die beiden können zusammen gehen. Es ist oft schwierig, ein intuitives Argument zu finden, das quantitative Ergebnisse liefert, aber häufig ist dies möglich und der Prozess, ein solches Argument zu finden, ist immer aufschlussreich.
Whuber

Zu letzterem Absatz: Ich habe herausgefunden, dass die Normalverteilung nicht so speziell ist: Familien, die durch affine Transformationen von kreissymmetrischen Verteilungen entstehen, sind die besonderen (von denen es sehr viele gibt).
Whuber

@whuber Das ist ziemlich interessant. Hast du einen Link oder ein Zitat?
Bill
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.