Wie kann man Fehler in einem Regressionsmodell konzipieren?


11

Ich besuche einen Datenanalysekurs und einige meiner tief verwurzelten Ideen werden erschüttert. Die Idee, dass der Fehler (epsilon) sowie jede andere Art von Varianz nur für eine Gruppe (eine Stichprobe oder eine gesamte Population) gilt (so dachte ich). Jetzt wird uns beigebracht, dass eine der Regressionsannahmen darin besteht, dass die Varianz "für alle Individuen gleich" ist. Das ist irgendwie schockierend für mich. Ich dachte immer, dass es die Varianz in Y über alle Werte von X war, die als konstant angenommen wurde.

Ich habe mich mit dem Professor unterhalten, der mir sagte, dass wir bei einer Regression davon ausgehen, dass unser Modell wahr ist. Und ich denke, das ist der schwierige Teil. Für mich bedeutete der Fehlerbegriff (epsilon) immer so etwas wie "alle Elemente, die wir nicht kennen und die unsere Ergebnisvariable beeinflussen könnten, plus einige Messfehler". In der Art und Weise, wie die Klasse unterrichtet wird, gibt es kein "anderes Zeug"; Unser Modell wird als wahr und vollständig angenommen. Dies bedeutet, dass alle verbleibenden Abweichungen als Produkt eines Messfehlers betrachtet werden müssen (daher wird erwartet, dass eine 20-malige Messung einer Person dieselbe Varianz ergibt wie eine einmalige Messung von 20 Personen).

Ich habe das Gefühl, dass irgendwo etwas nicht stimmt. Ich hätte gerne eine Expertenmeinung dazu ... Gibt es konzeptionell einen Interpretationsspielraum für den Fehlerbegriff?


3
Vielleicht meinte er damit, dass selbst wenn das Modell wahr ist, die Antworten immer noch zufällig variieren - dies wird durch die Fehlervarianz erfasst -, was beispielsweise einem unvollständigen Messgerät zugeschrieben werden kann. Andere konzipieren die Fehlervarianz manchmal als das Fehlen fehlender Prädiktoren (nicht unbedingt Fehler in Form des Modells), was impliziert, dass bei Messung aller möglichen Prädiktoren die Fehlervarianz 0 wäre. Dies ist nicht unvereinbar mit dem ersten - den Fehlern in der Messung kann als "fehlender Prädiktor" betrachtet werden.
Makro

Ich denke, eine Sache, die zunächst immer schwer zu verstehen ist, ist, dass "Fehler" in diesem Fall verschiedene Dinge bedeuten kann. "Fehler" könnte sich auf die Differenz zwischen den angepassten Werten beziehen, die wir aus unserem Modell erhalten, und den beobachteten Werten (die Diskrepanz kann auf ein ziemlich sparsames Modell zurückzuführen sein, z. B.). "Fehler" kann auch die Differenz zwischen den beobachteten Werten und den wahren Werten bedeuten (die Diskrepanz kann beispielsweise auf das Gerät zurückzuführen sein, mit dem Sie die Werterunden auf die nächste Ganzzahl / zehnte Dezimalstelle / etc. Messen). [Der erste Typ ist, wo Sie Begriffe wie "Residuen / Residuenvarianz" hören würden.]

@ Macro Ja, das scheint mir eine natürliche Art zu sein, Fehler zu denken. Ich versuche jedoch zu verstehen, warum der Professor auf einer strengeren Definition bestand (wenn man bedenkt, dass dies für jeden Einzelnen gilt, obwohl wir in Wirklichkeit wissen, dass es nicht wahr ist).
Dominic Comtois

@ MikeWierzbicki Richtig. Und wenn ich das richtig verstehe, ist das alles unter dem "strengen" Gesichtspunkt zusammengefasst. Dies bedeutet, dass der gesamte Unterschied zwischen beobachteten und vorhergesagten Werten auf Messfehler zurückzuführen ist, da unser Modell "wahr sein muss".
Dominic Comtois

Antworten:


2

Wenn es Aspekte von Individuen gibt, die sich auf die resultierenden y-Werte auswirken, gibt es entweder eine Möglichkeit, diese Aspekte zu erreichen (in diesem Fall sollten sie Teil des Prädiktors x sein), oder es gibt keine Möglichkeit, dies jemals zu erreichen Information.

Wenn es keine Möglichkeit gibt, jemals an diese Informationen zu gelangen, und es keine Möglichkeit gibt, y-Werte für Einzelpersonen wiederholt zu messen, spielt dies wirklich keine Rolle. Wenn Sie y wiederholt messen können und Ihr Datensatz tatsächlich wiederholte Messungen für einige Personen enthält, haben Sie ein potenzielles Problem in den Händen, da die statistische Theorie die Unabhängigkeit von den Messfehlern / Residuen voraussetzt.

Angenommen, Sie versuchen, ein Modell des Formulars anzupassen

y=β0+β1x ,

und das für jeden Einzelnen,

yind=100+10x+z ,

wobei z vom Individuum abhängt und normalerweise mit dem Mittelwert 0 und der Standardabweichung 10 verteilt ist. Für jede wiederholte Messung eines Individuums

ymeas=100+10x+z+e ,

wo e normalerweise mit dem Mittelwert 0 und der Standardabweichung 0,1 verteilt ist.

Sie könnten versuchen, dies als zu modellieren

y=β0+β1x+ϵ ,

wobei normalerweise mit dem Mittelwert 0 und der Standardabweichung verteilt istϵ

. σ=102+0.12=100.01

Solange Sie nur eine Messung für jede Person haben, wäre das in Ordnung. Wenn Sie jedoch mehrere Messungen für dieselbe Person haben, sind Ihre Residuen nicht mehr unabhängig!

Wenn Sie beispielsweise eine Person mit z = 15 (1,5 Standardabweichungen, also nicht so unvernünftig) und hundert wiederholte Messungen dieser Person haben, verwenden Sie und β 1 = 10 (die genauen Werte!) Sie würden am Ende 100 Residuen von ungefähr +1,5 Standardabweichungen haben, was äußerst unwahrscheinlich erscheinen würde. Dies würde die χ 2- Statistik beeinflussen. β0=100β1=10χ2


Ich habe versucht, die Verwendung des beängstigenden Begriffs "Mehrebenenmodellierung" in meiner Antwort zu vermeiden, aber Sie sollten sich bewusst sein, dass dies in einigen Fällen eine Möglichkeit bietet, mit dieser Art von Situation umzugehen.
Brian Borchers

1

Ich denke, "Fehler" lässt sich am besten als "der Teil der Beobachtungen beschreiben, der angesichts unserer aktuellen Informationen nicht vorhersehbar ist". Der Versuch, in Bezug auf Bevölkerung und Stichprobe zu denken, führt zu konzeptionellen Problemen (und das tut es auch für mich), ebenso wie der Gedanke, dass die Fehler als "rein zufällig" aus einer bestimmten Verteilung stammen. Denken in Bezug auf Vorhersage und "Vorhersagbarkeit" ist für mich viel sinnvoller.

p((e1,,en)E(1ni=1nei2)=σ2σ2σ

n


σ2

p(e1,,en)1

Und mit nah meine ich, dass die Kl-Divergenz minimiert ist
Wahrscheinlichkeitslogik

Das Dilemma liegt nicht zwischen Stichprobe und Bevölkerung. Es geht darum, Fehler als auf Einzelpersonen und auf die Stichprobe / Population anwendbar zu betrachten.
Dominic Comtois


1

Ich bin mit der Formulierung des Professors nicht einverstanden. Wie Sie sagen, impliziert die Vorstellung, dass die Varianz für jedes Individuum gleich ist, dass der Fehlerterm nur einen Messfehler darstellt. Dies ist normalerweise nicht die Art und Weise, wie das grundlegende multiple Regressionsmodell aufgebaut ist. Wie Sie bereits sagten, wird die Varianz für eine Gruppe definiert (unabhängig davon, ob es sich um eine Gruppe einzelner Probanden oder eine Gruppe von Messungen handelt). Dies gilt nicht auf individueller Ebene, es sei denn, Sie haben Maßnahmen wiederholt.

Ein Modell muss vollständig sein, da der Fehlerterm keine Einflüsse von Variablen enthalten sollte, die mit Prädiktoren korrelieren. Die Annahme ist, dass der Fehlerterm unabhängig von Prädiktoren ist. Wenn eine korrelierte Variable weggelassen wird, erhalten Sie vorgespannte Koeffizienten (dies wird als ausgelassene Variablenvorspannung bezeichnet ).


Ich verstehe diese Antwort nicht ganz. es scheint den Unterschied zwischen Fehlern aufgrund mangelnder Anpassung und zufälligen Fehlern zu erkennen, aber die letzte rhetorische Frage scheint verwirrend. Aus rein formaler Sicht hängt im Wesentlichen jede Schlussfolgerung in Bezug auf ein Regressionsmodell von sehr expliziten Annahmen über die Rauschstruktur ab.
Kardinal

1
Mein Punkt ist, dass in vielen Fällen der Zweck der Regressionsmodellierung darin besteht, herauszufinden, was passiert, auch wenn wir nicht alle Ursachen eines bestimmten Ergebnisses kennen. Da dies jedoch unklar erscheint, werde ich diese Frage entfernen.
Anne Z.

Vielen Dank. Der Punkt in Ihrem Kommentar ist gut. Die vorherige Frage, die Sie gestellt haben, könnte so verstanden werden, dass sie die gesamte Grundlage der Regressionstheorie in Frage stellt. :)
Kardinal

Ich stimme Ihnen in Ihrer Meinungsverschiedenheit zu (daher meine Frage!), Und die ausgelassene variable Verzerrung ist für das Problem ziemlich relevant. Vielen Dank.
Dominic Comtois
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.