Warum werden "Fehler in X" -Modellen nicht häufiger verwendet?

Wenn wir den Standardfehler eines Regressionskoeffizienten berechnen, erklärst wir nicht für die Zufälligkeit in der Design - Matrix $X$ . In OLS wir zum Beispiel berechnen $\text{var}(\hat{\beta})$ als $\text{var}((X^TX)^{-1}X^TY) = \sigma^2(X^TX)^{-1}$

Wenn die $X$ als zufällig betrachtet würde, würde das Gesetz der Gesamtvarianz in gewissem Sinne auch den zusätzlichen Beitrag der Varianz von $X$ verlangen. dh

var (\hat{β}) = var (E (\hat{β} | X)) + E (var (\hat{β} | X)) .

$\text{var}(\hat{\beta}) = \text{var}(E(\hat{\beta}|X)) + E(\text{var}(\hat{\beta}|X)).$

Wenn der OLS-Schätzer wirklich unvoreingenommen ist, verschwindet der erste Term, da die Erwartung eine Konstante ist. Der zweite Term wird tatsächlich: $\sigma^2 \text{cov}(X)^{-1}$ .

Wenn ein parametrisches Modell für $X$ bekannt ist, warum ersetzen wir $X^TX$ durch die tatsächliche Kovarianzschätzung? Wenn $X$ beispielsweise eine randomisierte Behandlungszuordnung ist, sollte die Binomialvarianz $E(X)(1-E(X))$ eine effizientere Schätzung sein?
Warum erwägen wir nicht, flexible nichtparametrische Modelle zu verwenden, um die möglichen Verzerrungsquellen in der OLS-Schätzung abzuschätzen und die Empfindlichkeit für das Design (dh die Verteilung von $X$ ) im ersten Gesetz des Gesamtvarianzterms $\text{var}(E(\hat{\beta}|X))$ ) richtig zu berücksichtigen ?

— AdamO
quelle

Warum "verlangt" ein mathematisches Gesetz etwas? Wir verwenden ein Modell, um mit Daten zu argumentieren, um bestimmte Ziele zu erreichen. Wenn diese die bedingte Reaktion auf der Grundlage eines beobachteten oder gemessenen Wertes

verstehen oder vorhersagen sollen

die Variation von

(wenn überhaupt) wenig mit der inhaltlichen Frage zu tun - tatsächlich scheint es, diese Variation in unsere Verfahren einzubeziehen völlig falsch, irreführend oder sogar unsinnig zu sein. Die Beantwortung Ihrer Frage scheint daher darauf hinauszugehen, die Häufigkeit zu bewerten, mit der verschiedene Arten statistischer Probleme auftreten.

X,

$X,$

X

$X$

— whuber

@whuber Mein Fokus liegt auf Inferenz. Das Gesetz der Gesamtvarianz scheint eher mit der häufigeren Interpretation der Studienergebnisse übereinzustimmen. Wir sprechen oft von "wenn die Studie repliziert würde" ... ohne die Tatsache zu berücksichtigen, dass die Verteilung von

unterschiedlich sein könnte, wenn die Studie repliziert würde. Das Gleichgewicht des Geschlechts könnte in einer Stichprobe 40% betragen, in einer anderen 60%, einfach als zufällige Folge der Art und Weise, wie die Studie erhalten wurde. Ironischerweise spiegelt die Bootstrap dies aber nicht nicht jede Variabilität in den Ergebnissen für eine bestimmte Kombination von Kovariaten erzeugen.

X

$X$

— AdamO

Zunächst einmal haben viele Studien

unter experimentelle Kontrolle gestellt, so dass es nicht einmal zufällig ist. Zweitens sind Beobachtungsstudien (bei denen

zufällig ist) oft nur an Rückschlüssen auf die bedingte Verteilung von

interessiert

Die Fokussierung auf Inferenz unterscheidet also nicht eine Situation von der anderen. Wenn die vollständige (gemeinsame) Verteilung von Interesse ist, werden Sie feststellen, dass viele Menschen auf Formen der Korrelationsanalyse oder verschiedene multivariate Verfahren zurückgreifen. Es gibt keinen "Boot" -Bootstrap, da in dieser Situation das Resampling von Ihren Zielen und Ihrem Modell abhängt.

X

$X$

X

$X$

Y .

$Y.$

— whuber

@whuber Die experimentelle Kontrolle wird zum Zeitpunkt des Studieneintritts zufällig zugewiesen. Wie ich bereits erwähnte, ist dies ein überzeugender Fall: Angenommen, die Randomisierung ist Bernoulli. Warum eine empirische Schätzung von

? Maximale Wahrscheinlichkeit verwenden:

? Sie haben Recht mit dem Bootstrap. Ich bezog mich auf den nicht parametrischen (bedingungslosen) Bootstrap, bei dem "Datenzeilen" mit Ersetzung abgetastet werden.

cov (X) = X^{T} X

$\text{cov}(X) = X^TX$

cov (X) = E (X) (1 - E (X))

$\text{cov}(X) = E(X)(1-E(X))$

— AdamO

Außerhalb bestimmter anomaler Fälle spielt es keine Rolle, ob

zufällig ist. Entscheidend ist, ob in

Messfehler vorliegt . In diesem Fall würden OLS-Methoden zu voreingenommenen und leistungsschwächeren Schätzungen von

. In diesem Fall sollten Fehler in Variablenmethoden verwendet werden.

X_{1}

$X_1$

X_{1}

$X_1$

β_{1}

$\beta_1$

— Gung - Reinstate Monica

Antworten:

Ihre Frage (plus weitere Kommentare in den Kommentaren) scheint hauptsächlich für den Fall von Interesse zu sein, dass wir eine randomisierte kontrollierte Studie haben, in der der Forscher eine oder mehrere der erklärenden Variablen basierend auf einem Randomisierungsdesign zufällig zuweist. In diesem Zusammenhang möchten Sie wissen, warum wir ein Modell verwenden, das die erklärenden Variablen als bekannte Konstanten behandelt, anstatt sie als Zufallsvariablen aus der durch die Randomisierung auferlegten Stichprobenverteilung zu behandeln. (Ihre Frage ist weiter gefasst, aber dies scheint der Hauptinteresse des Kommentars zu sein, daher werde ich mich mit dieser Frage befassen.)

Der Grund, warum wir in diesem Zusammenhang von den erklärenden Variablen abhängig sind, ist, dass wir bei einem Regressionsproblem für eine RCT immer noch an der bedingten Verteilung der Antwortvariablen angesichts der Prädiktoren interessiert sind . In der Tat sind wir in einer RCT daran interessiert, die kausalen Auswirkungen einer erklärenden Variablen $X$ auf die Antwortvariable $Y$ zu bestimmen, die wir durch Rückschluss auf die bedingte Verteilung bestimmen werden (vorbehaltlich einiger Protokolle, um Verwechslungen zu vermeiden). Die Randomisierung wird auferlegt, um die Abhängigkeit zwischen der erklärenden Variablen $X$ und möglichen Störgrößen zu lösen (dh Hintertürassoziationen zu verhindern). $^\dagger$ Das Inferenzobjekt des Problems ist jedoch immer noch die bedingte Verteilung der Antwortvariablen angesichts der erklärenden Variablen. Daher ist es immer noch sinnvoll, die Parameter in dieser bedingten Verteilung unter Verwendung von Schätzmethoden zu schätzen, die gute Eigenschaften zum Ableiten der bedingten Verteilung aufweisen .

Dies ist der Normalfall, der für eine RCT unter Verwendung von Regressionstechniken gilt. Natürlich gibt es einige Situationen, in denen wir andere Interessen haben, und wir möchten möglicherweise tatsächlich Unsicherheit über die erklärenden Variablen einbeziehen. Das Einbeziehen von Unsicherheit in die erklärenden Variablen tritt im Allgemeinen in zwei Fällen auf:

(1) Wenn wir über die Regressionsanalyse hinaus in die multivariate Analyse gehen, sind wir an der gemeinsamen Verteilung der Erklärungs- und Antwortvariablen interessiert und nicht nur an der bedingten Verteilung der letzteren angesichts der ersteren. Es kann Anwendungen geben, bei denen dies unser Interesse ist. Daher würden wir über die Regressionsanalyse hinausgehen und Informationen über die Verteilung der erklärenden Variablen einbeziehen.
(2) In einigen Regressionsanwendungen liegt unser Interesse an der bedingten Verteilung der Antwortvariablen, die von einer zugrunde liegenden nicht beobachteten erklärenden Variablen abhängig ist, wobei wir davon ausgehen, dass die beobachteten erklärenden Variablen fehlerbehaftet waren ("Fehler in Variablen"). In diesem Fall berücksichtigen wir die Unsicherheit über "Fehler in Variablen". Der Grund dafür ist, dass unser Interesse in diesen Fällen in der bedingten Verteilung liegt, die von einer nicht beobachteten zugrunde liegenden Variablen abhängig ist .

Beachten Sie, dass diese beiden Fälle mathematisch komplizierter sind als die Regressionsanalyse. Wenn wir also mit der Regressionsanalyse durchkommen können, ist dies im Allgemeinen vorzuziehen. In den meisten Anwendungen der Regressionsanalyse besteht das Ziel in jedem Fall darin, angesichts der beobachtbaren erklärenden Variablen einen Rückschluss auf die bedingte Verteilung der Antwort zu ziehen, sodass diese Verallgemeinerungen unnötig werden.

$^\dagger$ Beachten Sie, dass die Randomisierung kausale Effekte von verwirrenden Variablen in die randomisierte Variable trennt, kausale Effekte jedoch nicht von der randomisierten Variablen in die verwirrenden Variablen und dann in die Antwort trennt. Dies bedeutet, dass möglicherweise andere Protokolle (z. B. Placebos, Verblindung usw.) erforderlich sind, um alle Hintertürassoziationen in einer Ursachenanalyse vollständig zu trennen.

— Stellen Sie Monica wieder her
quelle

Gute Antwort. Ich würde hinzufügen, dass AFAIK, wenn Sie Gaußsche Fehler in Variablen und Gaußsche Fehler in der Antwort haben, als die normale Regressionsmethode funktioniert und es nur dann zu einem Problem wird, wenn Sie a) eine Antwort ohne Fehler beobachtet haben, b) eine andere Antwortverteilung haben

— Martin Modrák

Der Titel "Fehler in Variablen" und der Inhalt der Frage scheinen unterschiedlich zu sein, da er fragt, warum wir die Variation in nicht berücksichtigen $X$ bei der Modellierung der bedingten Antwort, dh der Inferenz für Regressionsparameter, nicht berücksichtigen. Diese beiden Themen scheinen mir orthogonal zu sein, deshalb antworte ich hier auf den Inhalt.

Ich habe zuvor eine ähnliche Frage beantwortet: Was ist der Unterschied zwischen der Konditionierung von Regressoren und der Behandlung als feststehend? , also werde ich hier einen Teil meiner Antwort dort kopieren:

Ich werde versuchen, ein Argument für die Konditionierung von Regressoren etwas formeller zu formulieren. Sei $(Y,X)$ ein Zufallsvektor, und das Interesse gilt der Regression $Y$ auf $X$ , wobei unter Regression die bedingte Erwartung von $Y$ auf $X$ zu verstehen ist . Unter multinormalen Annahmen ist dies eine lineare Funktion, aber unsere Argumente hängen nicht davon ab. Wir beginnen mit der üblichen Berücksichtigung der Gelenkdichte

f (y, x) = f (y ∣ x) f (x)

$f(y,x) = f(y\mid x) f(x)$

f (y, x; θ, ψ) = f_{θ} (y ∣ x) f_{ψ} (x)

$f(y,x; \theta, \psi)=f_\theta(y \mid x) f_\psi(x)$

θ

$\theta$

ψ

$\psi$

X

$X$

θ = (β, σ^{2})

$\theta=(\beta, \sigma^2)$

(θ, ψ)

$(\theta,\psi)$

Θ \times Ψ

$\Theta \times \Psi$ , a Cartesian product, and the two parameters have no part in common.

This can be interpreted as a factorization of the statistical experiment, (or of the data generation process, DGP), first $X$ is generated according to $f_\psi(x)$ , and as a second step, $Y$ is generated according to the conditional density $f_\theta(y \mid X=x)$ . Note that the first step does not use any knowledge about $\theta$ , that enters only in the second step. The statistic $X$ is ancillary for $\theta$ , see https://en.wikipedia.org/wiki/Ancillary_statistic.

But, depending on the results of the first step, the second step could be more or less informative about $\theta$ . If the distribution given by $f_\psi(x)$ have very low variance, say, the observed $x$ 's will be concentrated in a small region, so it will be more difficult to estimate $\theta$ . So, the first part of this two-step experiment determines the precision with which $\theta$ can be estimated. Therefore it is natural to condition on $X=x$ in inference about the regression parameters. That is the conditionality argument, and the outline above makes clear its assumptions.

In designed experiments its assumption will mostly hold, often with observational data not. Some examples of problems will be: regression with lagged responses as predictors. Conditioning on the predictors in this case will also condition on the response! (I will add more examples).

One book which discusses this problems in a lot of detail is Information and exponential families: In statistical theory by O. E Barndorff-Nielsen. See especially chapter 4. The author says the separation logic in this situation is however seldom explicated but gives the following references: R A Fisher (1956) Statistical Methods and Scientific Inference $\S 4.3$ and Sverdrup (1966) The present state of the decision theory and the Neyman-Pearson theory.

The factorization used here is somewhat similar in spirit to the factorization theorem of sufficient statistics. If focus is on the regression parameters $\theta$ , and the distribution of $X$ do not depend on $\theta$ , then how could the distribution of (or variation in) $X$ contain information about $\theta$ ?

This separation argument is helpful also because it points to the cases where it cannot be used, for instance regression with lagged responses as predictors.

— kjetil b halvorsen
quelle

I appreciate the question focused on OLS, but to make sure I've understood the implications of your answer I was wondering how would this play out in partial least squares regression? Since the data reduction of

X

$X$ is partially dependent on

Y

$Y$ would this mean that

θ

$\theta$ and

ψ

$\psi$ have common parameters?

— ReneBt

I don't know about PLS, but will try to think about it

— kjetil b halvorsen

Nice answer!...

— Richard Hardy