Wie würden Sie jemandem Kovarianz erklären, der nur den Mittelwert versteht?


207

... vorausgesetzt, ich kann ihr Wissen über die Varianz auf intuitive Weise erweitern ( "Varianz" intuitiv verstehen ) oder indem ich sage: Es ist der durchschnittliche Abstand der Datenwerte vom Mittelwert - und da die Varianz quadratisch ist Einheiten nehmen wir die Quadratwurzel, um die Einheiten gleich zu halten, und das nennt man Standardabweichung.

Nehmen wir an, so viel wird vom "Empfänger" artikuliert und (hoffentlich) verstanden. Was ist nun Kovarianz und wie würde man es in einfachem Englisch erklären, ohne irgendwelche mathematischen Ausdrücke / Formeln zu verwenden? (Dh intuitive Erklärung.;)

Bitte beachten Sie: Ich kenne die Formeln und die Mathematik hinter dem Konzept. Ich möchte in der Lage sein, dasselbe auf eine leicht verständliche Weise zu "erklären", ohne die Mathematik einzubeziehen. dh, was bedeutet "Kovarianz" überhaupt?


1
@ Xi'an - Wie genau würden Sie es durch einfache lineare Regression definieren ? Ich würde wirklich gerne wissen ...
PhD

3
Angenommen, Sie haben bereits ein Streudiagramm Ihrer beiden Variablen, x vs. y, mit dem Ursprung bei (0,0). Zeichnen Sie einfach zwei Linien bei x = Mittelwert (x) (vertikal) und y = Mittelwert (x) (horizontal): Verwenden Sie dieses neue Koordinatensystem (der Ursprung liegt bei (Mittelwert (x), Mittelwert (y)), und setzen Sie ein "+" - Zeichen in den oberen rechten und unteren linken Quadranten und ein "-" - Zeichen in den beiden anderen Quadranten. Sie haben das Vorzeichen der Kovarianz erhalten, was @Peter im Grunde gesagt hat . Die Skalierung der x- und y-Einheiten (durch SD) führt zu einer besser interpretierbaren Zusammenfassung, wie im folgenden Thread besprochen .
chl

1
@chl - könntest du das bitte als Antwort posten und vielleicht Grafiken verwenden, um es darzustellen!
PhD

Ich habe das Video auf dieser Website gefunden, um mir zu helfen, da ich Bilder gegenüber abstrakten Erklärungen bevorzuge. Website mit Video Speziell dieses Bild :! [Bildbeschreibung hier eingeben ] ( i.stack.imgur.com/xGZFv.png )
Karl Morrison

Antworten:


375

Manchmal können wir das Wissen mit einem ungewöhnlichen oder anderen Ansatz "erweitern". Ich möchte, dass diese Antwort für Kindergärtner zugänglich ist und auch Spaß macht, damit jeder seine Buntstifte herausholt!

Zeichnen Sie für gepaarte (x,y) Daten deren Streudiagramm. (Die jüngeren Schüler benötigen möglicherweise einen Lehrer, um dies für sie zu erstellen. :-) Jedes Punktepaar (xi,yi) , (xj,yj) in diesem Diagramm bestimmt ein Rechteck: Es ist das kleinste Rechteck, dessen Seiten sind parallel zu den Achsen, die diese Punkte enthalten. Somit befinden sich die Punkte entweder in der oberen rechten und unteren linken Ecke (eine "positive" Beziehung) oder in der oberen linken und unteren rechten Ecke (eine "negative" Beziehung).

Zeichne alle möglichen Rechtecke. Färben Sie sie transparent ein, sodass die positiven Rechtecke rot (z. B.) und die negativen Rechtecke "antirot" (blau) sind. Wo sich Rechtecke überlappen, werden auf diese Weise ihre Farben entweder verbessert, wenn sie gleich sind (blau und blau oder rot und rot) oder aufgehoben, wenn sie unterschiedlich sind.

Positive und negative Rechtecke

( In dieser Abbildung eines positiven (rot) und negativen (blau) Rechtecks ​​sollte die Überlappung weiß sein. Leider hat diese Software keine echte "antirote" Farbe. Die Überlappung ist grau, daher wird die Farbe dunkler Handlung, aber im Großen und Ganzen ist der Nettobetrag von Rot korrekt. )

Jetzt sind wir bereit für die Erklärung der Kovarianz.

Die Kovarianz ist der Nettobetrag von Rot im Diagramm (wobei Blau als negativer Wert behandelt wird).

Hier sind einige Beispiele mit 32 binormalen Punkten aus Verteilungen mit den angegebenen Kovarianzen, geordnet von den negativsten (blauesten) bis zu den positivsten (rotesten).

Covarianz-Diagramme, aktualisiert 2019

Sie sind auf gemeinsamen Achsen gezeichnet, um sie vergleichbar zu machen. Die Rechtecke sind leicht umrandet, damit Sie sie sehen können. Dies ist eine aktualisierte (2019) Version des Originals: Es wird eine Software verwendet, die die Farben Rot und Cyan in überlappenden Rechtecken ordnungsgemäß aufhebt.

Lassen Sie uns einige Eigenschaften der Kovarianz ableiten. Das Verständnis dieser Eigenschaften ist für jeden zugänglich, der tatsächlich einige der Rechtecke gezeichnet hat. :-)

  • Bilinearität. Da der Rotanteil von der Größe des Diagramms abhängt, ist die Kovarianz direkt proportional zur Skalierung auf der x-Achse und zur Skalierung auf der y-Achse.

  • Korrelation. Die Kovarianz nimmt zu, wenn sich die Punkte einer abfallenden Linie annähern, und ab, wenn sich die Punkte einer abfallenden Linie annähern. Dies liegt daran, dass im ersten Fall die meisten Rechtecke positiv und im zweiten Fall die meisten negativ sind.

  • Beziehung zu linearen Assoziationen. Da nichtlineare Assoziationen Mischungen aus positiven und negativen Rechtecken erzeugen können, führen sie zu unvorhersehbaren (und nicht sehr nützlichen) Kovarianzen. Lineare Assoziationen können mit Hilfe der beiden vorhergehenden Charakterisierungen vollständig interpretiert werden.

  • Empfindlichkeit gegenüber Ausreißern. Ein geometrischer Ausreißer (ein Punkt steht von der Masse entfernt) erzeugt in Verbindung mit allen anderen Punkten viele große Rechtecke. Es kann allein eine positive oder negative Nettorotmenge im Gesamtbild erzeugen.

Im Übrigen unterscheidet sich diese Definition der Kovarianz von der üblichen nur durch eine universelle Proportionalitätskonstante (unabhängig von der Datensatzgröße). Die mathematisch veranlagte Person wird keine Schwierigkeiten haben, die algebraische Demonstration durchzuführen, dass die hier angegebene Formel immer doppelt so groß ist wie die übliche Kovarianz.


92
+1 Wow. Dies erklärt sogar die Kovarianz denen, die bereits dachten, sie wüssten, was es war.
Aaron

7
+1 Ich lese sehr gerne Ihre Antwort. Ich werde ein paar Rechtecke zeichnen und sie von meinem Sohn malen lassen :)
chl

18
Nun, wenn nur alle einführenden statistischen Konzepte den Schülern auf diese
übersichtliche

4
Das ist schön. Und sehr sehr klar.
Benjamin Mako Hill

4
(x¯,y¯)

61

xy

Es ist nützlich, sich an die Grundformel zu erinnern (einfach zu erklären, keine Notwendigkeit, über mathematische Erwartungen für einen Einführungskurs zu sprechen):

cov(x,y)=1ni=1n(xix¯)(yiy¯)

(xi,yi)x¯y¯

y=1.2x+εy=0.1x+εεSD=2x[0,20]

Bildbeschreibung hier eingeben

xy(0,0)(x¯,y¯)

   +  -
+ 30  2
-  0 28

xiyiy¯xyb=Cov(x,y)/Var(x)

xi

   +  -
+ 18 14
- 12 16

xiyi

xy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)xy


28

Die Kovarianz ist ein Maß dafür, wie viel eine Variable steigt, wenn die andere steigt.


1
Geht es immer in die gleiche Richtung? Gilt es auch für inverse Relationen (dh wenn eines aufwärts geht, geht das andere abwärts)?
PhD

4
@nupul Nun, das Gegenteil von "auf" ist "ab" und das Gegenteil von "positiv" ist "negativ". Ich habe versucht, einen Satz zu beantworten. Ihr ist viel vollständiger. Sogar Ihr "wie sich zwei Variablen gemeinsam ändern" ist vollständiger, aber, denke ich, etwas schwieriger zu verstehen.
Peter Flom

1
+1 für das Einfügen in einen einfachen Satz, aber ist das nicht eine Korrelation? Ich meine, ich kenne größere cov => größere corr, aber mit diesem Satz würde ich als Antwort so etwas wie "80%" erwarten, was corr = 0,8 entspricht. Beschreibt cov nicht auch die Varianz innerhalb der Daten? dh "Die Kovarianz ist proportional dazu, wie viel eine Variable steigt, wenn die andere steigt, und auch proportional zur Verbreitung der Daten in beiden Variablen" oder so?
Naught101

4
Das ist richtig, Peter, weshalb @ naught101 diesen Kommentar gemacht hat: Ihre Beschreibung klingt wie eine Änderungsrate, deren Einheiten daher [Einheiten einer Variablen] / [Einheiten der anderen Variablen] sind (wenn wir sie wie eine Ableitung interpretieren) ) oder wird nur [Einheiten einer Variablen] sein (wenn wir als reine Differenz interpretieren). Dies sind weder Kovarianz (deren Maßeinheit das Produkt der Einheiten für die beiden Variablen ist) noch Korrelation (die nicht einheitlich ist).
whuber

1
XY1,YXY

12

Ich bin meine eigene Frage zu beantworten, aber ich dachte , es wäre toll für die Menschen in diesem Beitrag kommen einige der Erklärungen zu prüfen , auf dieser Seite .

Ich paraphrasiere eine der sehr gut artikulierten Antworten (von einem Benutzer 'Zhop'). Ich mache das für den Fall, dass diese Seite geschlossen wird oder die Seite heruntergefahren wird, wenn jemand von nun an auf diesen Beitrag zugreift;)

Die Kovarianz ist ein Maß dafür, wie viel sich zwei Variablen gemeinsam ändern. Vergleichen Sie dies mit der Varianz, die nur den Bereich darstellt, über den ein Maß (oder eine Variable) variiert.

Wenn Sie sich mit sozialen Mustern befassen, können Sie davon ausgehen, dass wohlhabendere Menschen wahrscheinlich besser ausgebildet sind. Sie sollten also herausfinden, wie eng Wohlstand und Bildung zusammenhalten. Sie würden ein Maß für die Kovarianz verwenden, um dies zu bestimmen.

...

Ich bin mir nicht sicher, was du meinst, wenn du fragst, wie es auf Statistiken zutrifft. Es ist eine Maßnahme, die in vielen Statistikklassen gelehrt wird. Meinten Sie, wann sollten Sie es verwenden?

Sie verwenden es, wenn Sie sehen möchten, wie viel sich zwei oder mehr Variablen im Verhältnis zueinander ändern.

Denken Sie an Leute in einem Team. Sehen Sie sich an, wie sich die geografischen Standorte voneinander unterscheiden. Wenn die Mannschaft spielt oder übt, ist der Abstand zwischen den einzelnen Mitgliedern sehr gering und wir würden sagen, dass sie sich am selben Ort befinden. Und wenn sich ihr Standort ändert, ändert sich dies für alle Personen zusammen (z. B. mit dem Bus zu einem Spiel). In dieser Situation würden wir sagen, dass sie ein hohes Maß an Kovarianz haben. Aber wenn sie nicht spielen, ist die Kovarianzrate wahrscheinlich ziemlich niedrig, weil sie alle mit unterschiedlicher Geschwindigkeit zu verschiedenen Orten fliegen.

So können Sie den Standort eines Teammitglieds basierend auf dem Standort eines anderen Teammitglieds vorhersagen, wenn diese ein Spiel mit einem hohen Maß an Genauigkeit üben oder spielen. Die Kovarianzmessung würde meiner Meinung nach nahe bei 1 liegen. Wenn sie jedoch nicht üben oder spielen, haben Sie eine viel geringere Chance, den Standort einer Person basierend auf dem Standort eines Teammitglieds vorherzusagen. Es wäre nahe Null, wahrscheinlich, wenn auch nicht gleich Null, da die Teammitglieder manchmal Freunde sind und in ihrer Freizeit zusammen gehen könnten.

Wenn Sie jedoch zufällig Personen in den Vereinigten Staaten auswählen und versuchen, eine davon zu verwenden, um die Standorte der anderen vorherzusagen, werden Sie wahrscheinlich feststellen, dass die Kovarianz Null ist. Mit anderen Worten, es gibt absolut keine Beziehung zwischen dem Standort einer zufällig ausgewählten Person in den USA und dem eines anderen.

Hinzufügen eines weiteren (von 'CatofGrey'), das die Intuition erweitert:

In der Wahrscheinlichkeitstheorie und -statistik ist die Kovarianz das Maß dafür, wie viel zwei Zufallsvariablen zusammen variieren (im Unterschied zur Varianz, die misst, wie viel eine einzelne Variable variiert).

Wenn zwei Variablen dazu neigen, zusammen zu variieren (dh wenn eine von ihnen über ihrem erwarteten Wert liegt, liegt die andere ebenfalls tendenziell über ihrem erwarteten Wert), ist die Kovarianz zwischen den beiden Variablen positiv. Wenn andererseits eine von ihnen über ihrem erwarteten Wert liegt und die andere Variable dazu neigt, unter ihrem erwarteten Wert zu liegen, ist die Kovarianz zwischen den beiden Variablen negativ.

Diese beiden zusammen haben mich Kovarianz verstehen lassen, wie ich es noch nie zuvor verstanden habe! Einfach erstaunlich!!


15
Obwohl diese Beschreibungen qualitativ aussagekräftig sind, sind sie leider unvollständig: Sie unterscheiden weder Kovarianz von Korrelation (die erste Beschreibung scheint die beiden tatsächlich zu verwechseln), noch bringen sie die grundlegende Annahme einer linearen Co-Variation zum Ausdruck. Auch geht keiner auf den wichtigen Aspekt ein, dass die Kovarianz (linear) von der Skalierung jeder Variablen abhängt.
Whuber

@whuber - einverstanden! Und deshalb habe ich meine nicht als Antwort markiert :) (noch nicht;)
PhD

12

Die Antwort von Whuber gefällt mir sehr gut, daher habe ich weitere Ressourcen gesammelt. Kovarianz beschreibt sowohl, wie weit die Variablen verteilt sind, als auch die Art ihrer Beziehung.

Die Kovarianz beschreibt anhand von Rechtecken, wie weit eine Beobachtung vom Mittelwert eines Streudiagramms entfernt ist:

  • Wenn ein Rechteck lange Seiten und eine große Breite oder kurze Seiten und eine kleine Breite hat, zeigt dies, dass sich die beiden Variablen zusammen bewegen.

  • Wenn ein Rechteck zwei Seiten hat, die für diese Variablen relativ lang sind, und zwei Seiten, die für die andere Variable relativ kurz sind, liefert diese Beobachtung den Beweis, dass sich die Variablen nicht sehr gut zusammen bewegen.

  • Befindet sich das Rechteck im 2. oder 4. Quadranten, ist eine Variable größer als der Mittelwert, die andere kleiner als der Mittelwert. Eine Zunahme einer Variablen ist mit einer Abnahme der anderen Variablen verbunden.

Ich fand eine coole Visualisierung davon unter http://sciguides.com/guides/covariance/ . Sie erklärt, was Kovarianz ist, wenn Sie nur den Mittelwert kennen.


7
+1 Gute Erklärung (insbesondere die einleitende Zusammenfassung mit einem Satz). Der Link ist interessant. Da es auf dem Wayback-Rechner kein Archiv gibt , ist es wahrscheinlich neu. Da es so eng mit meiner (dreijährigen) Antwort übereinstimmt, bis hin zur Wahl von Rot für positive und Blau für negative Beziehungen, vermute ich, dass es sich um eine (nicht zugeschriebene) Ableitung des Materials auf dieser Website handelt.
Whuber

4
Der Link "Cool Visualization" ist gestorben ....
whuber

1
@MSIS Das kann man nicht herausfinden, da es sehr viele mögliche Verteilungen im Kreis gibt. Wenn Sie sich jedoch auf die Gleichverteilung beziehen , gibt es nichts zu berechnen, da (wie ich in Ihrem Thread unter stats.stackexchange.com/q/414365/919 erwähne ) der Korrelationskoeffizient dem eigenen negativen QED entsprechen muss.
whuber

1
XX0XX2X1,XX2:11
whuber

1
α,a<αb((ba)mod2π)/(2π).

10

Hier ist ein weiterer Versuch, die Kovarianz mit einem Bild zu erklären. Jedes Panel im Bild unten enthält 50 Punkte, die aus einer bivariaten Verteilung mit einer Korrelation zwischen x und y von 0,8 und Abweichungen wie in den Zeilen- und Spaltenbeschriftungen dargestellt simuliert wurden. Die Kovarianz wird in der unteren rechten Ecke jedes Panels angezeigt.

Verschiedene Kovarianzen, alle mit Korrelation = 0,8

Alle, die daran interessiert sind, dies zu verbessern ... hier der R-Code:

library(mvtnorm)

rowvars <- colvars <- c(10,20,30,40,50)

all <- NULL
for(i in 1:length(colvars)){
  colvar <- colvars[i]
  for(j in 1:length(rowvars)){
    set.seed(303)  # Put seed here to show same data in each panel
    rowvar <- rowvars[j]
    # Simulate 50 points, corr=0.8
    sig <- matrix(c(rowvar, .8*sqrt(rowvar)*sqrt(colvar), .8*sqrt(rowvar)*sqrt(colvar), colvar), nrow=2)
    yy <- rmvnorm(50, mean=c(0,0), sig)
    dati <- data.frame(i=i, j=j, colvar=colvar, rowvar=rowvar, covar=.8*sqrt(rowvar)*sqrt(colvar), yy)
    all <- rbind(all, dati)
  }
}
names(all) <- c('i','j','colvar','rowvar','covar','x','y')
all <- transform(all, colvar=factor(colvar), rowvar=factor(rowvar))
library(latticeExtra)
useOuterStrips(xyplot(y~x|colvar*rowvar, all, cov=all$covar,
                      panel=function(x,y,subscripts, cov,...){
                        panel.xyplot(x,y,...)
                        print(cor(x,y))
                        ltext(14,-12, round(cov[subscripts][1],0))
                      }))

10

Ich habe die Antwort von @whuber geliebt - bevor ich nur eine vage Vorstellung davon hatte, wie Kovarianz visualisiert werden kann, aber diese rechteckigen Darstellungen sind genial.

Da die Kovarianzformel jedoch den Mittelwert enthält und die ursprüngliche Frage des OP besagte, dass der "Empfänger" das Konzept des Mittelwerts versteht, dachte ich, ich hätte einen Riss bei der Anpassung von @ whubers Rechteckdiagrammen, um jeden Datenpunkt mit dem zu vergleichen Mittel von x und y, da dies mehr repräsentiert, was in der Kovarianzformel vor sich geht. Ich dachte, es sieht tatsächlich ziemlich intuitiv aus: "Kovarianzgraphen für eine Variable mit unterschiedlichen Korrelationen"

Der blaue Punkt in der Mitte jedes Diagramms ist der Mittelwert von x (x_mean) und von y (y_mean).

Die Rechtecke vergleichen den Wert von x - x_mean und y - y_mean für jeden Datenpunkt.

Das Rechteck ist grün, wenn entweder:

  • Sowohl x als auch y sind größer als ihre jeweiligen Mittelwerte
  • Sowohl x als auch y sind kleiner als ihre jeweiligen Mittelwerte

Das Rechteck ist rot, wenn:

  • x ist größer als x_mean, aber y ist kleiner als y_mean
  • x ist kleiner als x_mean aber y ist größer als y_mean

Kovarianz (und Korrelation) können sowohl stark negativ als auch stark positiv sein. Wenn das Diagramm von einer Farbe mehr dominiert wird als von der anderen, bedeutet dies, dass die Daten größtenteils einem konsistenten Muster folgen.

  • Wenn der Graph viel mehr Grün als Rot hat, bedeutet dies, dass y im Allgemeinen zunimmt, wenn x zunimmt.
  • Wenn der Graph viel mehr Rot als Grün hat, bedeutet dies, dass y im Allgemeinen abnimmt, wenn x zunimmt.
  • Wenn die Grafik nicht von der einen oder anderen Farbe dominiert wird, bedeutet dies, dass die Beziehung zwischen x und y kaum ein Muster aufweist.

Der tatsächliche Wert der Kovarianz für zwei verschiedene Variablen x und y ist im Grunde die Summe aller grünen Bereiche minus aller roten Bereiche, dividiert durch die Gesamtzahl der Datenpunkte - effektiv die durchschnittliche Grün-gegen-Rötung des Graphen .

Wie hört sich das an?


3

Varianz ist der Grad, um den sich eine zufällige Variable in Bezug auf ihren erwarteten Wert ändert. Aufgrund der stochastischen Natur des zugrunde liegenden Prozesses repräsentiert die zufällige Variable.

Kovarianz ist der Grad, um den sich zwei verschiedene Zufallsvariablen relativ zueinander ändern. Dies kann passieren, wenn Zufallsvariablen durch denselben zugrunde liegenden Prozess oder Ableitungen davon gesteuert werden. Entweder beeinflussen sich die durch diese Zufallsvariablen dargestellten Prozesse gegenseitig, oder es handelt sich um denselben Prozess, aber eine der Zufallsvariablen wird von der anderen abgeleitet.


2

Ich würde einfach die Korrelation erklären, die ziemlich intuitiv ist. Ich würde sagen "Korrelation misst die Stärke der Beziehung zwischen zwei Variablen X und Y. Die Korrelation liegt zwischen -1 und 1 und liegt im absoluten Wert nahe bei 1, wenn die Beziehung stark ist. Kovarianz ist nur die Korrelation multipliziert mit den Standardabweichungen von Die Korrelation ist dimensionslos, die Kovarianz ergibt sich jedoch aus dem Produkt der Einheiten für Variable X und Variable Y.


10
Dies scheint unzureichend zu sein, da die Linearität nicht erwähnt wird. X und Y könnten eine starke quadratische Beziehung haben, aber eine Korrelation von Null.
mark999

0

Zwei Variablen, die eine hohe positive Kovarianz (Korrelation) aufweisen würden, wären die Anzahl der Personen in einem Raum und die Anzahl der Finger, die sich im Raum befinden. (Mit zunehmender Anzahl von Menschen erwarten wir auch eine Zunahme der Anzahl von Fingern.)

Etwas, das eine negative Kovarianz (Korrelation) haben könnte, wäre das Alter einer Person und die Anzahl der Haarfollikel auf ihrem Kopf. Oder die Anzahl der Zits im Gesicht einer Person (in einer bestimmten Altersgruppe) und wie viele Dates sie in einer Woche hat. Wir erwarten, dass Menschen mit mehr Jahren weniger Haare haben und Menschen mit mehr Akne weniger Datteln. Diese sind negativ korreliert.


2
Kovarianz ist nicht unbedingt austauschbar mit Korrelation - erstere ist sehr einheitenabhängig. Die Korrelation ist eine Zahl zwischen -1 und 1, ein Skalar ohne Einheiten, der die „Stärke“ der Kovarianz-IMO darstellt, und das geht aus Ihrer Antwort nicht hervor
PhD

Downvoted als Antwort impliziert, dass Kovarianz und Korrelation austauschbar verwendet werden können.
Sapo_cosmico
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.