Methoden zur Anpassung eines „einfachen“ Messfehlermodells


13

Ich suche nach Methoden, mit denen sich das Messfehlermodell "OLS" abschätzen lässt.

yi=Yi+ey,i
xi=Xi+ex,i
Yi=α+βXi

Wobei die Fehler unabhängig normal sind mit unbekannten Varianzen und . "Standard" OLS funktioniert in diesem Fall nicht.σy2σx2

Wikipedia hat einige unattraktive Lösungen - die beiden genannten zwingen Sie anzunehmen, dass entweder das "Varianzverhältnis" oder das " Zuverlässigkeitsverhältnis " ist bekannt, wobei ist die Varianz des wahren Regressors . Ich bin damit nicht zufrieden, denn wie kann jemand, der die Abweichungen nicht kennt, sein Verhältnis kennen?δ=σy2σx2λ=σX2σx2+σX2σX2Xi

Wie auch immer, gibt es andere Lösungen als diese beiden, bei denen ich nichts über die Parameter "wissen" muss?

Lösungen nur für den Schnittpunkt und die Steigung sind in Ordnung.


Der Wikipedia-Artikel selbst gibt Ihnen die Antwort auf diese Frage. Wenn Sie die Normalität des "wahren" Regressors annehmen, benötigen Sie weitere Bedingungen für die Verteilung der Fehler. Wenn der wahre Regressor nicht Gauß ist, dann haben Sie einige Hoffnung. Siehe Reiersol (1950) .
Kardinal

auch, was meinst du mit "Lösungen nur für den Schnitt und die Neigung sind in Ordnung". Das sind deine beiden einzigen Parameter! Oder wollten Sie auch versuchen, den "wahren" Regressor zurückzudrängen?
Kardinal

@ cardinal - Ich meinte, dass mir die beiden Skalenparameter und, wie Sie sagen, der "wahre" Regressor nicht besonders wichtig waren . Xi
Wahrscheinlichkeitslogik

Aha. Das macht Sinn.
Kardinal

Antworten:


7

Es gibt eine Reihe von Möglichkeiten, die von JW Gillard in Ein historischer Überblick über die lineare Regression mit Fehlern in beiden Variablen beschrieben wurden

Wenn Sie sich nicht in Details oder Gründe für die Wahl eines Verfahrens über die andere interessiert sind, gehen Sie einfach mit dem einfachsten, die die Linie durch den Schwerpunkt zu ziehen ist mit der Steigung β = s y / s x , dh das Verhältnis der beobachteten Standardabweichungen (wobei das Vorzeichen der Steigung dem Vorzeichen der Kovarianz von x und y entspricht ); wie Sie wahrscheinlich arbeiten können, das gibt auf der einen Intercept - y - Achse von α = ˉ y - & bgr; ˉ x .(x¯,y¯)β^=sy/sxxyyα^=y¯β^x¯.

Die Vorzüge dieses speziellen Ansatzes sind

  1. es gibt die gleiche Linie, die gegen y mit y gegen x vergleicht ,xyyx
  2. Es ist skalierungsunabhängig, sodass Sie sich keine Gedanken über Einheiten machen müssen.
  3. es liegt zwischen den beiden gewöhnlichen linearen Regressionsgeraden
  4. es kreuzt sie dort, wo sie sich im Mittelpunkt der Beobachtungen kreuzen, und
  5. es ist sehr einfach zu berechnen.

Die Steigung ist das geometrische Mittel der Steigungen der beiden normalen linearen Regressionssteigungen. Es ist auch das, was Sie erhalten würden, wenn Sie die und y- Beobachtungen standardisieren , eine Linie bei 45 ° zeichnen (oder 135 °, wenn es eine negative Korrelation gibt) und dann die Linie de-standardisieren. Es könnte auch als äquivalent angesehen werden, eine implizite Annahme zu treffen, dass die Varianzen der beiden Fehlersätze proportional zu den Varianzen der beiden Beobachtungssätze sind; Soweit ich das beurteilen kann, behaupten Sie nicht zu wissen, in welcher Richtung dies falsch ist.xy

Hier ist ein R-Code zur Veranschaulichung: Die rote Linie im Diagramm ist die OLS-Regression von auf X , die blaue Linie ist die OLS-Regression von X auf Y und die grüne Linie ist diese einfache Methode. Beachten Sie, dass die Steigung ca. 5 betragen sollte.YXXY

X0 <- 1600:3600
Y0 <- 5*X0 + 700
X1 <- X0 + 400*rnorm(2001)
Y1 <- Y0 + 2000*rnorm(2001)
slopeOLSXY  <- lm(Y1 ~ X1)$coefficients[2]     #OLS slope of Y on X
slopeOLSYX  <- 1/lm(X1 ~ Y1)$coefficients[2]   #Inverse of OLS slope of X on Y
slopesimple <- sd(Y1)/sd(X1) *sign(cov(X1,Y1)) #Simple slope
c(slopeOLSXY, slopeOLSYX, slopesimple)         #Show the three slopes
plot(Y1~X1)
abline(mean(Y1) - slopeOLSXY  * mean(X1), slopeOLSXY,  col="red")
abline(mean(Y1) - slopeOLSYX  * mean(X1), slopeOLSYX,  col="blue")
abline(mean(Y1) - slopesimple * mean(X1), slopesimple, col="green")

@Henry, Ihre Definition von β macht keinen Sinn für mich. Fehlen einige "Hüte"? β^
Kardinal

Dies ist die beobachtete Standardabweichung von geteilt durch die beobachtete Standardabweichung von { x i } . Ich werde σ zu s ändern{yi}{xi}σs
Henry

@Henry, kannst du einige deiner Kommentare präzisieren? Etwas scheint mir auf der Grundlage Ihrer aktuellen Beschreibung nicht zu stimmen. Lassen β x y sein , vorausgesetzt , die Steigung y die Antwort ist , und x ist der Prädiktor. Lassen β y x sein , die Steigung der Annahme x die Antwort ist und y der Prädiktor. Dann β x y = ρ s y / s x und β y x = ρ s x / sβ^xyyxβ^yxxyβ^xy=ρ^sy/sx , wobei ρ die ProbeKorrelationzwischen x und y . Daraus ergibtdie geometrische Mittel dieser beiden Steigung Schätzungen nur ρ . β^yx=ρ^sx/syρ^xyρ^
Kardinal

@ cardinal: Nein - wenn ich sehe, meine ich, dass die Steigung 1 / b ist, da sie als y = x / b - c / b umgeschrieben werden kann . Wenn Sie versuchen, die beiden OLS-Linien zusammen mit den beobachteten Punkten (z. B. mit y auf der vertikalen Achse und x auf der horizontalen Achse) auf demselben Diagramm zu zeichnen , müssen Sie eine der Steigungen invertieren. So meinte ich , dass Sie das geometrische Mittel nehmen ρ s y / s x und s y /x=by+c1/by=x/bc/byxρ^sy/sx, was einfachsy/sx ist. Oder wenn Sie unkonventionell genug sind,yundxfür beide Linien und die beobachteten Punkte umgekehrtzu zeichnen, erhalten Sie die Umkehrung davon als Steigung. sy/ρ^sxsy/sxyx
Henry

@ Henry - das ist eine ziemlich interessante Antwort. Ich bezweifle nicht unbedingt seine Gültigkeit, aber eine Sache, die mich überrascht, ist, dass die Korrelation / Kovarianz zwischen und X in der Antwort vollständig fehlt. Sicherlich sollte dies für die Antwort relevant sein? YX
Wahrscheinlichkeitslogik
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.