Die Varianz eines Regressionsmodells erklären


12

Dies kann eine einfache Erklärung sein (ich hoffe es trotzdem).

Ich habe in Matlab mit der Regressions-Toolbox einige Regressionsanalysen durchgeführt. Ich bin jedoch auf eine Studie gestoßen, in der es heißt:

"Mit Hilfe der Regressionsanalyse war es möglich, ein Vorhersagemodell mit nur vier Schallmerkmalen zu erstellen, die 60% der Varianz erklären."

Der Link zum Artikel ist hier bei Bedarf: Artikel

Ich bin nicht 100% sicher, was das bedeutet, aber ich hoffe, es ist etwas Einfaches. Auch ist 60% eine gute Sache? Ich habe versucht, danach zu suchen, aber da vor dem Wort "Varianz" immer ein Prozentsatz steht, ist es schwierig, eine Antwort zu finden.

Antworten:


8

Ich werde versuchen, dies in einfachen Worten zu erklären.

Das Regressionsmodell konzentriert sich auf die Beziehung zwischen einer abhängigen Variablen und einer Menge unabhängiger Variablen. Die abhängige Variable ist das Ergebnis, das Sie anhand einer oder mehrerer unabhängiger Variablen vorhersagen möchten.

Angenommen, Sie haben ein Modell wie das folgende:

Weight_i = 3,0 + 35 * Height_i + & epsi ;.

Nun ist eine der offensichtlichen Fragen: Wie gut funktioniert dieses Modell? Mit anderen Worten, wie gut sagt die Größe einer Person das Gewicht dieser Person genau voraus - oder erklärt es ?

Bevor wir diese Frage beantworten, müssen wir zunächst verstehen, wie stark die Gewichte der Menschen schwanken . Dies ist wichtig, da wir hier versuchen, die Schwankung (Variation) der Gewichte zwischen verschiedenen Personen anhand ihrer Körpergröße zu erklären. Wenn die Größe der Menschen in der Lage ist, diese Gewichtsschwankung zu erklären, dann haben wir ein gutes Modell.

Die Varianz ist eine gute Metrik für diesen Zweck, da sie misst, wie weit ein Satz von Zahlen (von ihrem Mittelwert) verteilt ist.

Dies hilft uns, unsere ursprüngliche Frage zu formulieren: Wie viel Abweichung im Gewicht einer Person kann durch ihre Größe erklärt werden ?

Hier kommt die „% -Varianz erklärt“ her. Übrigens ist es für die Regressionsanalyse gleich dem Korrelationskoeffizienten R-Quadrat .

Für das obige Modell könnten wir eine Aussage treffen wie: Mithilfe der Regressionsanalyse war es möglich, ein Vorhersagemodell unter Verwendung der Größe einer Person zu erstellen , das 60% der Varianz im Gewicht erklärt.

Wie gut sind nun 60%? Es ist schwer, darüber ein objektives Urteil zu fällen. Wenn Sie jedoch andere konkurrierende Modelle haben - beispielsweise ein anderes Regressionsmodell, bei dem das Alter einer Person zur Vorhersage ihres Gewichts herangezogen wird -, können Sie verschiedene Modelle anhand der von ihnen erklärten Varianz vergleichen und entscheiden, welches Modell besser ist. (Es gibt einige Einschränkungen, siehe 'Interpretieren und Verwenden von Regression' - Christopher H. Achen http://www.sagepub.in/books/Book450/authors )


1
Das hat sicherlich einen großen Teil meiner Frage beantwortet. Ich weiß nicht, warum die Autoren dies als von großer Bedeutung bezeichnen. Wenn dies also der R-Quadrat-Wert ist und wir zu Ihrem Beispiel zurückkehren, nehmen wir an, wir hätten ein Modell für 'Alter' mit einer Varianz von 80% und dann ein Modell für 'Größe' mit einer Varianz von 85 verwendet %, um das Gewicht einer Person vorherzusagen, nehme ich an, dass das letztere Modell wichtiger wäre? Vielen Dank für den Buch-Link, den ich gestern Abend gekauft habe, da ich in den kommenden Monaten ziemlich viel Regression einsetzen werde.
user1574598

1
Ja, Sie können den Schluss ziehen, dass das letztgenannte Modell besser in der Lage ist, das Gewicht einer Person ceteris paribus vorherzusagen (oder zu erklären). Übrigens haben Sie dies als "Modell hatte eine Varianz von 80%" angegeben, aber es sollte "Modell erklärt 80% der Varianz" sein.
Vishal

4

R2

ich=1n(y^ich-y¯)2ich=1n(yich-y¯)2

yichy^ich Die kleinsten Quadrate passten zum Wert ichth Datenpunkt und y¯ist der Gesamtmittelwert. Wir denken manchmal anR2 als Variationsanteil, der durch das Modell aufgrund der Gesamtsumme der Quadratzerlegung erklärt wird

ich=1n(yich-y¯)2=ich=1n(y^ich-y¯)2+ich=1n(yich-y^ich)2,

Der letztere Ausdruck ist ein Restfehler, der vom Modell nicht berücksichtigt wird. DasR2 Im Grunde sagt uns dies, wie viel von der Gesamtvariation in die angepassten Werte "aufgenommen" wurde.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.