Sind Residuen "vorhergesagt minus tatsächlich" oder "tatsächlich minus vorhergesagt"?

46

Ich habe gesehen, dass "Residuen" unterschiedlich definiert sind als "vorhergesagte minus tatsächliche Werte" oder "tatsächliche minus vorausgesagte Werte". Um zu veranschaulichen, dass beide Formeln weit verbreitet sind, vergleichen Sie die folgenden Websuchen:

In der Praxis macht es fast keinen Unterschied, da das Vorzeichen der einzelnen Residuen normalerweise keine Rolle spielt (z. B. ob sie quadriert sind oder die absoluten Werte genommen werden). Meine Frage ist jedoch: Wird eine dieser beiden Versionen (Vorhersage zuerst gegen tatsächliche zuerst) als "Standard" betrachtet? Ich mag es, konsequent zu sein. Wenn es also einen gut etablierten konventionellen Standard gibt, würde ich ihn lieber befolgen. Wenn es jedoch keine Norm gibt, nehme ich das gerne als Antwort an, wenn sich überzeugend nachweisen lässt, dass es keine Normkonvention gibt.

residuals terminology error

— Dreiteilig
quelle

8

Da das Residuum mit dem Fehler des Modells verbunden ist, lässt es uns denken, dass

ein "fester Teil" plus ein "zufälliger Teil" ist , wenn wir

schreiben, so dass das Residuum das

minus das

.

y = a + b x + ϵ

$y = a + bx + \epsilon$

y

$y$

y

$y$

a + b x

$a + bx$

— AdamO

Das vorhergesagte minus tatsächliche oder tatsächliche minus vorhergesagte wäre ein Vorhersagefehler (oder das Negative davon), während das angepasste minus tatsächliche oder tatsächliche minus angepasste ein Residuum (oder das Negative davon) wäre. Stephen Kolassas Antwort erwähnt Prognosefehler aus einem bestimmten Grund.

— Richard Hardy

Ich finde (prognostiziert-tatsächlich) bequemer, damit zu arbeiten. Oft müssen Sie Ableitungen des Residuums in Bezug auf einige Parameter berechnen. Wenn Sie (tatsächlich vorhergesagt) verwenden, werden Minuszeichen angezeigt, die Sie während der restlichen Berechnungen berücksichtigen müssen. Dies erfordert die Verwendung weiterer Klammern und stellt sicher, dass doppelte Negative ausgeblendet werden, wenn sie auftreten, und so weiter. Nach meiner Erfahrung führt dies zu weiteren Fehlern

— Nick Alger

42

Die Residuen sind immer aktuell minus vorhergesagt. Die Modelle sind: , daher die Residuen , die Schätzungen von Fehlern sind :

y = f (x; β) + ε

$y=f(x;\beta)+\varepsilon$

\hat{ε}

$\hat\varepsilon$

ε

$\varepsilon$

\hat{ε} = y - \hat{y} \hat{y} = f (x; \hat{β})

$\hat\varepsilon=y-\hat y\\\hat y=f(x;\hat\beta)$

Ich stimme @whuber zu, dass das Vorzeichen mathematisch keine Rolle spielt. Es ist nur gut, eine Convention zu haben. Und die aktuelle Konvention ist wie in meiner Antwort.

Da OP meine Autorität in diesem Bereich in Frage gestellt hat, füge ich einige Referenzen hinzu:

" (2008) Residual. In: The Concise Encyclopedia of Statistics. Springer, New York, NY , die die gleiche Definition gibt.
Die gleiche Definition hat auch Fischers "Statistical Methods for Research Workers" von 1925, siehe Abschnitt 26 in dieser Fassung von 1934 . Trotz des bescheidenen Titels ist dies ein wichtiges Werk im historischen Kontext

— Aksakal
quelle

3

Ich habe meine Frage bearbeitet, um einige Beispiele für Websuchen hinzuzufügen, aus denen hervorgeht, dass Residuen NICHT IMMER aktuell minus vorhergesagt sind. Die Alternative ist auch ziemlich häufig - daher meine Verwirrung. Meine Frage ist, ob es eine maßgebliche Dokumentation der richtigen Konvention gibt, die Ihre Antwort leider nicht liefert.

— Tripartio

5

In meiner Lektüre beobachtet

vorausgesagt ist die Mehrheit der modernen Konventionen in der Statistik. Es ist jedoch bemerkenswert, dass Gauß die entgegengesetzte Konvention verwendete: Natürlich quadrierte Residuen sind im Kontext der kleinsten Quadrate, der Quadratsummen oder der mittleren Quadrate gleich. Obwohl es Präzedenzfälle des 19. Jahrhunderts und früher für die Betrachtung einzelner Residuen gibt, wurde die Pflege und insbesondere das Zeichnen von Residuen erst in den frühen 1960er Jahren zur Routine. Das heißt, nur wenn das Zeichen der Residuen in Sicht ist, muss sich jemand darum kümmern, was es ist.

-

$-$

— Nick Cox

18

+1. Das Konzept des Residuums ergibt sich aus "einem Rest; dem, der zurückgelassen wird", dh dem, was in den Daten verbleibt, nachdem die Vorhersage berücksichtigt wurde. Dies deutet darauf hin, dass derjenige, der diese Größen als "Residuum" bezeichnet hat, die Definition "Datenwert minus angepasster Wert" im Auge hatte.

— whuber

3

@ NickCox, könnten Sie bitte Ihre Kommentare als Antwort mit Zitaten formalisieren? Meine Frage bezieht sich weniger auf Statistiken als vielmehr auf wissenschaftliche Konventionen. Daher sind die in Ihrem Kommentar angegebenen historischen Erkenntnisse und Verwendungserkenntnisse die Antworten, nach denen ich suche.

— Tripartio

6

Das Wort Rest lang, lange vor Salsburg. Ich muss sagen, dass sein Buch, obwohl manchmal unterhaltsam, alles andere als maßgeblich ist. Wenn Sie interessiert sind, können Sie meine Rezension in Biometrics jstor.org/stable/3068274

— Nick Cox

22

Ich bin gerade auf einen zwingenden Grund gestoßen, dass eine Antwort die richtige ist.

$y$ $x$

Die blaue Kurve ist die gewöhnliche Anpassung der kleinsten Quadrate. Es zeichnet die angepassten Werte auf.

$y$ $\hat y$

Dies ist ein Standarddiagnoseplot, der zeigt, wie sich die verschobenen bedingten Verteilungen mit den vorhergesagten Werten ändern. Geometrisch ist es fast dasselbe wie das "Entkippen" des vorherigen Streudiagramms.

$\hat y - y,$

Dies zeigt die gleichen Größen wie die vorherige Abbildung, aber die Residuen wurden berechnet, indem die Daten von ihren Anpassungen subtrahiert wurden - was natürlich gleichbedeutend ist mit dem Negieren der vorherigen Residuen.

Obwohl beide vorhergehenden Figuren in jeder Hinsicht mathematisch äquivalent sind - eine wird durch einfaches Umdrehen der Punkte über den blauen Horizont in die andere umgewandelt -, weist eine von ihnen eine viel direktere visuelle Beziehung zur ursprünglichen Zeichnung auf.

Wenn unser Ziel darin besteht, die Verteilungseigenschaften der Residuen mit den Eigenschaften der Originaldaten in Beziehung zu setzen - und das ist fast immer der Fall -, ist es daher besser, die Antworten einfach zu verschieben, anstatt sie zu verschieben und umzukehren.

$y - \hat y.$

— whuber
quelle

1

Ich glaube nicht, dass ich folge, was das Besondere an Schräglage hier ist. Steht Ihre Argumentation, dass die Residuen dem ursprünglichen Plot entsprechen, nicht auf Anhieb für sich?

— MichaelChirico

2

@Michael Du bist ganz richtig. Die Schiefe ist jedoch nützlich, um den Punkt zu veranschaulichen, da sie die Form einer Verteilung deutlich von der Form ihres Negativs unterscheidet.

— Whuber

10

Green & Tashman (2008, Foresight ) berichten über eine kleine Umfrage zur analogen Frage nach Prognosefehlern. Ich werde die Argumente für beide Konventionen zusammenfassen, wie von ihnen berichtet:

Argumente für "aktuell vorausgesagt"

$y=\hat{y}+\epsilon$
Mindestens ein Befragter aus der Seismologie schrieb, dies sei auch die Konvention zur Modellierung der Laufzeit seismischer Wellen. "Wenn die tatsächliche seismische Welle vor der vom Modell vorhergesagten Zeit eintrifft, haben wir eine negative Restlaufzeit (Fehler)." ( sic )
$\hat{y}$
$+$ $-$

Argumente für "prognostiziert-aktuell"

$y=\hat{y}-\epsilon$

Wenn eine positive Verzerrung als positive erwartete Fehler definiert wird, würde dies bedeuten, dass die Prognosen mit dieser Konvention im Durchschnitt zu hoch sind.

Und dies ist so ziemlich das einzige Argument für diese Konvention. Andererseits ist es angesichts der Missverständnisse, zu denen die andere Konvention führen kann (positive Fehler = zu niedrige Prognose), eine starke.

Am Ende würde ich argumentieren, dass es darauf ankommt, wem Sie Ihre Residuen mitteilen müssen. Und da diese Diskussion sicherlich zwei Seiten hat, ist es sinnvoll, explizit anzugeben, welcher Konvention Sie folgen.

— S. Kolassa - Setzen Sie Monica wieder ein
quelle

7

x

$x$

3

@ NickCox: abstrakt hast du recht. Nehmen Sie jedoch eine große Anzahl von Personen und fragen Sie sie: "Die Wettervorhersage für die heutige Temperatur hatte einen großen positiven Fehler. Glauben Sie, dass die Vorhersage (A) zu hoch oder (B) zu niedrig war ?" Ich denke, ich kann vorhersagen, welche von (A) oder (B) eine überwältigende Mehrheit wählen wird.

— S. Kolassa - Wiedereinsetzung von Monica

6

Ja - und wenn Sie diese Frage wie folgt formulieren: "Glauben Sie, dass die Temperatur (A) höher oder (B) niedriger als die Prognose war ?", Erhalten Sie möglicherweise genau die entgegengesetzten Antworten! Die Bezugnahme auf einen "positiven Fehler" wirft nur die Frage auf, "was ist der Fehler", und das bringt uns - auf vollkommen kreisförmige Weise - zurück zur ursprünglichen Frage.

— whuber

2

@whuber das ist eine ziemlich unnatürliche Formulierung der Frage. Angesichts der Tatsache, dass das "Beobachtete" "fest" ist, erscheint die Beziehung des Modells zu ihm natürlicher als umgekehrt. Ich bekomme ein Strafzettel, weil ich zu schnell gefahren bin, anstatt "das Tempolimit lag unter meiner Geschwindigkeit". Natürliche Sprache Argumente haben definitiv eine begrenzte Anwendung auf technische Begriffe / Sprache obwohl /

— mbrig

2

@whuber Was ich sage, ist, dass eine Möglichkeit, die Frage zu formulieren, deutlich natürlicher ist (zumindest auf Englisch).

— mbrig

4

Unterschiedliche Terminologie schlägt unterschiedliche Konventionen vor. Der Begriff "Residuum" impliziert, dass es das ist, was übrig bleibt, nachdem alle erklärenden Variablen berücksichtigt wurden, dh tatsächlich vorhergesagt wurden. "Vorhersagefehler" impliziert, dass es darum geht, wie sehr die Vorhersage vom tatsächlichen Wert abweicht, dh von der tatsächlichen Vorhersage.

$X = x_1,x_2...$ $y$ $\hat y$

$y$ $\hat y$ $X$ $y$ $\hat y$ $\hat y$ $y$ $\hat y$ $\hat y$ $y$ $\hat y$ $y$ $e = \hat y -y$

$\hat y$ $X$ $X$ $x \rightarrow f(X)\rightarrow f(X)+error()$ $\hat y$ $X$ $y$ $\sqrt{\frac{2x}{g}}$

$\hat y = \sqrt{\frac{2x}{g}}$
$y = \hat y +error$

$\hat y$ $y$ $\hat y$ $X$

$\sqrt{\frac{2x}{g}}$ $y = \hat y +error$

$X$

$\hat y = f(X)$
$y = \hat y+g(?)$
$g = y-\hat y$

— Akkumulation
quelle

4

Die Antwort von @Aksakal ist völlig korrekt, aber ich füge nur ein zusätzliches Element hinzu, das mir (und meinen Schülern) hilft.

Das Motto: Statistik ist "perfekt". Wie in, kann ich immer die perfekte Vorhersage liefern (ich weiß, dass einige Augenbrauen gerade hochziehen ... also hör mir zu).

$y_i$ $\hat{y}_i$

y_{i} \neq {\hat{y}}_{i}

$y_i \ne \hat{y}_i$

ϵ_{i}

$\epsilon_i$

y_{i} = {\hat{y}}_{i} + ϵ_{i}

$y_i = \hat{y}_i + \epsilon_i$ Jetzt haben wir eine "perfekte" Vorhersage ... unser "endgültiger" Wert stimmt mit unserem beobachteten Wert überein.

$\epsilon_i$

— Gregg H
quelle

2

{\hat{y}}_{i} - y_{i}

$\hat{y}_i - y_i$

6

Warum "am besten zu unserem vorhergesagten Wert hinzufügen"? Warum nicht "sehen, wie viel das Datum angepasst werden muss, um mit unserer Vorhersage übereinzustimmen"? Kein Ansatz scheint den Anspruch zu haben, offensichtlicher, sinnvoller oder "intuitiver" zu sein als der andere.

— whuber

2

@wobei ein Gegenstand "real" ist (beobachtet, konkret), der andere ist ein (hypothetisches) Konstrukt; Wenn wir die Größe basierend auf dem Gewicht modellieren würden, wäre es vernünftig, jemanden um 3 Zoll zu "schrumpfen", nur um seine tatsächliche / beobachtete Größe an einen (imaginären) vorhergesagten Wert anzupassen?

— Gregg H

2

Ja - das ist eine gängige Art, über Daten nachzudenken. Ich versuche nur darauf hinzuweisen, dass Ihre Annahmen darüber, wie Menschen diese Frage wahrnehmen und die Bedeutung des "Besten" verstehen, spekulativ und subjektiv sein könnten.

— Whuber

fair point ... wird mit einem kurzen Kommentar aktualisiert

— Gregg H

2

$\newcommand{\e}{\varepsilon}$ Ich werde den speziellen Fall der linearen Regression der kleinsten Quadrate verwenden. Wenn wir unser Modell nehmen zu sein dann als @Aksakal Punkte heraus , dass wir natürlich am Ende mit so . Wenn stattdessen nehmen wir als unser Modell, das wir sicherlich frei zu tun, dann bekommen wir . An diesem Punkt gibt es wirklich keinen Grund, eins dem anderen vorzuziehen, abgesehen von einer vagen Präferenz für gegenüber . $Y = X\beta + \e$ $\e = Y - X\beta$ $\hat \e = Y - \hat Y$ $Y = X\beta - \e$ $\e = X\beta - Y \implies \hat \e = \hat Y - Y$ $1$ $-1$

Aber wenn dann erhalten wir unsere Residuen über , wobei eine idempotente Matrix ist, die in den Raum orthogonal zum Spaltenraum der Entwurfsmatrix projiziert . Wenn wir stattdessen verwendet dann enden wir mit bis . Aber ist selbst nicht idempotent als . Also ist wirklich das Negativ einer Projektionsmatrix, nämlich . Ich betrachte dies als Rückgängigmachen des mit eingeführten Negativs. Aus Sparsamkeitsgründen ist es also besser, nur zu verwenden $\hat \e = Y - \hat Y$ $(I - P_X)Y$ $I - P_X$ $X$ $Y = X\beta - \e$ $\hat \e = (P_X - I)Y$ $P_X - I$ $(P_X - I)^2 = P_X^2 - 2P_X + I = -(P_X - I)$ $P_X - I$ $I - P_X$ $Y = X\beta - \e$ $Y = X\beta + \e$ was wiederum als Residuen ergibt . $Y - \hat Y$

Wie an anderer Stelle erwähnt, ist es nicht so, als würde etwas kaputt gehen, wenn wir , aber es kommt zu dieser doppelten negativen Situation, die meiner Meinung nach ein guter Grund ist, einfach . $\hat Y - Y$ $Y - \hat Y$

— jld
quelle

Aber das Schreiben von irgendetwas hat nichts mit den Vorzeichen bestimmter Werte von zu tun , genauso wenig wie das Schreiben von eine Verpflichtung oder Annahme, dass oder in der Praxis positiv ist. Es könnte die gleiche Gleichung sein , aber mit in umgekehrtem Vorzeichen.

+ e

$+ e$

e

$e$

y = β_{0} + β_{1} x

$y = \beta_0 + \beta_1 x$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

e

$e$

— Nick Cox

@NickCox, danke für deinen Kommentar. Mir ist klar, dass ich meine Antwort auf der Annahme basiert hatte, dass wir unser Modell schreiben wollen . Ich habe es umgeschrieben, um dieses

Y = X β + ε

$Y = X\beta + \varepsilon$

— Problem zu beheben