Warum wird die Ergebnisvariable für den / die Prädiktor (en) als "regressiv" eingestuft?


16

Gibt es eine intuitive Erklärung für diese Terminologie? Warum ist es so und nicht der / die Prädiktor (en) wird / werden in Bezug auf das Ergebnis zurückgebildet?

Im Idealfall hoffe ich, dass eine korrekte Erklärung, warum diese Terminologie existiert, den Schülern hilft, sich daran zu erinnern und sie daran zu hindern, es falsch herum auszudrücken.


1
Tun wir? Ich bin mir nicht sicher, ob ich das jemals gesagt habe - und ich habe viel über Regression gesprochen. Wenn Sie jemanden kennen, der es sagt, könnten Sie ihn vielleicht fragen. (Ich habe gelegentlich gesagt " rückläufig auf " - aber auf würde für mich etwas seltsam klingen)
Glen_b

Danke - ich meinte "auf" und nicht "auf". Ich habe das jetzt behoben.
user1205901

Antworten:


19

Ich weiß nicht, worauf sich die Etymologie von "zurückgebildet" bezieht, aber hier ist die Interpretation, die ich im Sinn habe, wenn ich diesen Ausdruck sage oder höre. Betrachten Sie die folgende Abbildung aus den Elementen des statistischen Lernens von Hastie et al .:

Regression ist Projektion

In ihrem Kern entspricht die lineare Regression der orthogonalen Projektion von auf (auf) , wobei der dimensionale Beobachtungsvektor der abhängigen Variablen und der von den Prädiktorvektoren aufgespannte Unterraum ist .yXynX

Dies ist eine sehr nützliche Interpretation der linearen Regression.

Da auf projiziert wird, denke ich, wenn ich das höreyXy auf "regressiv" ist . Unter diesem Gesichtspunkt wäre es weniger sinnvoll zu sagen, dass X auf y zurückgegangen ist oder dass y "gegen" oder "mit" X zurückgegangen ist .XXyyX

Im Idealfall hoffe ich, dass eine korrekte Erklärung, warum diese Terminologie existiert, den Schülern hilft, sich daran zu erinnern und sie daran zu hindern, es falsch herum auszudrücken.

Wie gesagt, ich bezweifle, dass dies eine Erklärung dafür ist, warum diese Terminologie existiert (vielleicht nur, warum sie fortbesteht?), Aber ich bin sicher, dass sie den Schülern helfen kann, sich daran zu erinnern.


2
+1. Kommt auf die Schüler an! Dies ist eindeutig eine gültige und fruchtbare Methode zum Sprechen und Denken auf mittlerem oder fortgeschrittenem Niveau. Ob es für die Terminologie "auf" verantwortlich ist, frage ich mich. Es ist noch nicht allzu lange her, dass Sie Regressionstexte ohne Diagramme finden konnten, geschweige denn mit einem stark visuellen oder geometrischen Ansatz, auch wenn dies mittlerweile Standard ist, obwohl ich denke, dass diese Terminologie einige Jahrzehnte zurückreicht.
Nick Cox

(+1) Der einzige Weg, auf dem ich das Konzept der Regression durch meinen Schädel bekommen habe, besteht darin, es als Projektion von auf den Spaltenraum C ( A ) der Modellmatrix zu betrachten. Ich denke, es ist die geometrische Interpretation, die Sie zeigen . yC(A)
Antoni Parellada

1
Dies ist ein sehr guter statistischer Grund für die Verwendung der Terminologie. Die sozialen oder sprachlichen Gründe, warum es beliebt ist, können unterschiedlich sein!
Nick Cox

Nur um es klar zu machen: Ich stimme voll und ganz dem zu, was @NickCox in den Kommentaren hier gesagt hat.
Amöbe sagt Reinstate Monica

6

Ich habe diese Art zu sprechen oft benutzt und gehört. Ich würde vermuten, dass die Sequenz, in der das Ergebnis oder die Reaktion vor den Prädiktoren erwähnt wird, aus Konventionen in schriftlicher Form, mit Worten oder mit Notation oder durch Mischen der beiden bis zum Ende folgt

Y=Xβ

Abgesehen von der ebenso interessanten (oder uninteressanten!) Frage, was wir verschiedene Arten von Variablen nennen.

Es scheint jedoch mathematisch und statistisch gleichermaßen gültig zu sein, die Prädiktoren zuerst zu erwähnen, ebenso wie viele Mathematiker Zuordnungen oder Funktionen zuerst mit Argumenten schreiben.

Was vielleicht häufig die Reihenfolge bestimmt, die wir in statistischen Diskussionen verwenden, ist, dass wir wissenschaftlich oder praktisch normalerweise eine klare Vorstellung davon haben, was wir vorhersagen wollen - es ist die Sterblichkeit oder das Einkommen oder der Weizenertrag oder die Stimmen bei einer Wahl oder was auch immer - während der Pool potenzieller oder tatsächlicher Prädiktoren möglicherweise nicht so klar ist. Auch wenn es klar ist, ist es sinnvoll, die wichtigen Dinge zuerst zu erwähnen. Was versuchst du zu machen? Was auch immer vorhersagen . Wie wirst du das machen? Verwenden Sie einige oder alle dieser Variablen .

Ich habe keine Geschichte für "on", anstatt ein anderes passendes Wort. Ich höre nicht "rückläufig gegen" oder "rückläufig mit". Möglicherweise gibt es hier keine Logik, nur Meme, die in Lehrbüchern, Lehren und Diskussionen weitergegeben werden.

yx


+1. Aber meine persönliche Interpretation von "rückläufig auf" ist über "projiziert auf", siehe meine Antwort. Ich frage mich, ob viele Leute über diesen Ausdruck so denken, oder ob er nur ich ist.
Amöbe sagt Reinstate Monica

3

1) Der Begriff Regression ergibt sich aus der Tatsache, dass im üblichen einfachen linearen Regressionsmodell:

y=α+βx+ϵ

yxy^y¯xx¯

|y^y¯|/sy<|xx¯|/sx

Wenn wir zum Beispiel den in R eingebauten BSB-Datenrahmen verwenden, dann:

fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE

Einen Beweis finden Sie unter: https://en.wikipedia.org/wiki/Regression_toward_the_mean

2) Der Ausdruck on stammt von der Tatsache, dass die angepassten Werte die Projektion der Ergebnisvariablen auf den von den Prädiktorvariablen (einschließlich des Achsenabschnittes) aufgespannten Unterraum sind, wie in vielen Quellen wie http: //people.eecs.ku näher erläutert .edu / ~ jhuan / EECS940_S12 / slide / linearRegression.pdf .


1
Ich bin mir ziemlich sicher, dass der Begriff Regression hier nicht vorkommt. In einer frühen Verwendung des Begriffs wurde die Größe des Sohnes auf die Größe des Vaters zurückgeführt; Aufgrund der mittleren Umkehrung zeigten die Befunde, dass Söhne großer Väter dazu neigten, sich zum Mittelwert zurückzuentwickeln.
PaulB

0

Persönlich, wenn es um die Erklärung von Terminologie geht, finde ich, dass die Definition des Begriffs selbst immer hilfreich ist, besonders wenn man es den Schülern erklärt. Die eigentliche Definition des Wortes Regression lautet:

"Rückkehr in einen früheren oder weniger entwickelten Zustand".

Eine Möglichkeit, dies zu erklären, ist vermutlich die folgende:

"Wenn wir das Ergebnis als den vollständig entwickelten Zustand betrachten, versuchen wir, das Ergebnis unter Verwendung weniger entwickelter Zustände, dh der unabhängigen Variablen, zu erklären. Auf diese Weise wird das Ergebnis auf die Prädiktoren zurückgebildet."

Ich hoffe, das hilft.


1
Es gibt mehr als eine "tatsächliche Definition". Ich würde vorschlagen, dass in der Statistikwissenschaft die technische Definition der Regression als Anpassung eines Modells (standardmäßig eines linearen Modells) jetzt Vorrang hat und der historische Sinn, der durch "Regression zum Mittelwert" erfasst wird, interessant und manchmal nützlich bleibt sekundär. Ich finde es nicht hilfreich zu glauben, dass Prädiktoren im Allgemeinen "weniger entwickelte Staaten" sind, z. Wie auch immer, ich verstehe nicht, wie dies den Ausdruck erklärt.
Nick Cox

Ich verstehe deinen Standpunkt vollkommen. Gibt es eine Möglichkeit, die Regression durch die von mir veröffentlichte Definition zu erklären? Denn die Art und Weise, wie ich von "weniger entwickelt" denke, bedeutet nicht, dass der Niederschlag weniger entwickelt ist als der Weizenertrag, sondern vielmehr, dass dies zum Teil den Weizenertrag erklären kann.
EhsanF

1
Wenn "weniger entwickelt" nicht weniger entwickelt bedeutet, kann ich nicht sehen, dass die Formulierung überhaupt hilft.
Nick Cox
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.