Inferenz im linearen Modell mit bedingter Heteroskedastizität

Angenommen, ich beobachte unabhängige Variablenvektoren und und die abhängige Variable . Ich möchte ein Modell der Form : wobei eine positiv differenzierte, doppelt differenzierbare Funktion ist, ein unbekannter Skalierungsparameter ist und eine Gaußsche Zufallsvariable mit einer mittleren Varianz von Null ist (von der angenommen wird, dass sie unabhängig von und ). Dies ist im Wesentlichen der Aufbau von Koenkers Test der Heteroskedastizität (zumindest soweit ich das verstehe). $\vec{x}$ $\vec{z}$ $y$

y = {\vec{x}}^{⊤} \vec{β_{1}} + σ g ({\vec{z}}^{⊤} \vec{β_{2}}) ϵ,

$y = \vec{x}^{\top}\vec{\beta_1} + \sigma g\left(\vec{z}^{\top} \vec{\beta_2}\right) \epsilon,$

g

$g$

σ

$\sigma$

ϵ

$\epsilon$

\vec{x}

$\vec{x}$

\vec{z}

$\vec{z}$

Ich habe Beobachtungen von und und möchte und schätzen . Ich habe jedoch einige Probleme: $n$ $\vec{x}, \vec{z}$ $y$ $\vec{\beta_1}$ $\vec{\beta_2}$

Ich bin mir nicht sicher, wie ich das Schätzproblem als so etwas wie kleinste Quadrate darstellen soll (ich gehe davon aus, dass es einen bekannten Trick gibt). Meine erste Vermutung wäre so etwas wie aber ich Ich bin mir nicht sicher, wie ich das numerisch lösen soll (vielleicht reicht eine iterative Quasi-Newton-Methode). $m i n_{\vec{β_{1}}, \vec{β_{2}}} (\sum_{i = 1}^{n} \frac{{(y_{i} - {\vec{x_{i}}}^{⊤} \vec{β_{1}})}^{2}}{g {({\vec{z_{i}}}^{⊤} \vec{β_{2}})}^{2}}) {(\sum_{i = 1}^{n} \frac{1}{g {({\vec{z_{i}}}^{⊤} \vec{β_{2}})}^{2}})}^{- 1},$ $min_{\vec{\beta_1}, \vec{\beta_2}} \left(\sum_{i=1}^n \frac{\left(y_i - \vec{x_i}^{\top}\vec{\beta_1}\right)^2}{g\left(\vec{z_i}^{\top}\vec{\beta_2}\right)^2}\right)\left(\sum_{i=1}^n \frac{1}{g\left(\vec{z_i}^{\top}\vec{\beta_2}\right)^2}\right)^{-1},$
Angenommen, ich kann das Problem auf vernünftige Weise darstellen und einige Schätzungen finden , möchte ich die Verteilung der Schätzungen kennen, damit ich z. B. Hypothesentests durchführen kann. Ich würde die beiden Koeffizientenvektoren problemlos separat testen, würde aber eine Möglichkeit zum Testen bevorzugen, z. B. für gegebene . $\hat{\beta}_1, \hat{\beta}_2$ $H_0: \vec{w_1}^{\top} \vec{\beta_1} + \vec{w_2}^{\top} \vec{\beta_2} \le c$ $\vec{w_1}, \vec{w_2}, c$

— shabbychef
quelle

Gute Frage. Hast du eine Vorstellung davon, wie aussieht? ist es glatt? es hat Sprünge? Anstelle des kleinsten Quadrats haben Sie versucht, maximale Wahrscheinlichkeit (kennen Sie dieses Papier projecteuclid.org/… ?)

g

$g$

— Robin Girard

@robin girard: MLE ist eine gute Idee für Frage 1. Ich vermute, dass MLE für Gaußsche Fehler identische Schätzungen wie meine Ad-hoc- Minimierung liefert. Wie ich bereits erwähnt habe, können wir für annehmen, dass es positiv bewertet und doppelt differenzierbar ist. Wir können wahrscheinlich annehmen, dass es auch konvex ist, und vielleicht können wir annehmen, dass es analytisch ist.

g

$g$

— Shabbychef

In einem etwas allgemeineren Kontext mit ein dimensionaler Vektor von Beobachtungen (die Antworten oder abhängigen Variablen), eine Matrix von Beobachtungen (Kovariaten oder abhängige Variablen) und die Parameter so, dass dann die Minus-Log-Wahrscheinlichkeit In der Frage des OP ist diagonal zu $Y$ $n$ $y$ $X$ $n \times p$ $x$ $\theta = (\beta_1, \beta_2, \sigma)$ $Y \sim N(X\beta_1, \Sigma(\beta_2, \sigma))$

l (β_{1}, β_{2}, σ) = \frac{1}{2} (Y - X β_{1})^{T} Σ (β_{2}, σ)^{- 1} (Y - X β_{1}) + \frac{1}{2} \log | Σ (β_{2}, σ) |

$l(\beta_1, \beta_2, \sigma) = \frac{1}{2}(Y-X\beta_1)^T \Sigma(\beta_2, \sigma)^{-1} (Y-X\beta_1) + \frac{1}{2}\log |\Sigma(\beta_2, \sigma)|$

Σ (β_{2}, σ)

$\Sigma(\beta_2, \sigma)$

Σ (β_{2}, σ)_{i i} = σ^{2} g (z_{i}^{T} β_{2})^{2}

$\Sigma(\beta_2, \sigma)_{ii} = \sigma^2 g(z_i^T \beta_2)^2$ so dass die Determinante zu und die resultierende Minus-Log-Wahrscheinlichkeit wird zu Es gibt verschiedene Möglichkeiten, um die Minimierung dieser Funktion zu erreichen (vorausgesetzt, die drei Parameter sind variationsunabhängig).

σ^{2 n} \prod_{i = 1}^{n} g (z_{i}^{T} β_{2})^{2}

$\sigma^{2n} \prod_{i=1}^n g(z_i^T \beta_2)^2$

\frac{1}{2 σ^{2}} \sum_{i = 1}^{n} \frac{(y_{i} - x_{i}^{T} β_{1})^{2}}{g (z_{i}^{T} β_{2})^{2}} + n \log σ + \sum_{i = 1}^{n} \log g (z_{i}^{T} β_{2})

$\frac{1}{2\sigma^2} \sum_{i=1}^n \frac{(y_i-x_i^T\beta_1)^2}{ g(z_i^T \beta_2)^2} + n \log \sigma + \sum_{i=1}^n \log g(z_i^T \beta_2)$

Sie können versuchen, die Funktion durch einen Standardoptimierungsalgorithmus zu minimieren, wobei die Einschränkung . $\sigma > 0$
Sie können die Profil-Minus-Log-Wahrscheinlichkeit von berechnen indem Sie over für fest minimieren und dann die resultierende Funktion in einen standardmäßigen uneingeschränkten Optimierungsalgorithmus einfügen. $(\beta_1, \beta_2)$ $\sigma$ $(\beta_1, \beta_2)$
Sie können zwischen der Optimierung für jeden der drei Parameter separat wechseln. Die Optimierung über kann analytisch erfolgen, die Optimierung über ist ein gewichtetes Regressionsproblem der kleinsten Quadrate, und die Optimierung über entspricht der Anpassung eines gamma-verallgemeinerten linearen Modells mit dem inversen Link. $\sigma$ $\beta_1$ $\beta_2$ $g^2$

Der letzte Vorschlag spricht mich an, weil er auf Lösungen aufbaut, die ich bereits gut kenne. Darüber hinaus würde ich die erste Iteration sowieso in Betracht ziehen. Das heißt, berechnen Sie zuerst eine anfängliche Schätzung von durch gewöhnliche kleinste Quadrate, wobei Sie die potenzielle Heteroskedastizität ignorieren, und passen Sie dann ein Gamma-Glm an die quadratischen Residuen an, um eine anfängliche Schätzung von nur um zu überprüfen, ob das kompliziertere Modell sinnvoll erscheint. Iterationen, bei denen die Heteroskedastizität in die Lösung der kleinsten Quadrate als Gewichte einbezogen wird, können sich dann gegenüber der Schätzung verbessern. $\beta_1$ $\beta_2$ $-$

In Bezug auf den zweiten Teil der Frage würde ich wahrscheinlich in Betracht ziehen, ein Konfidenzintervall für die lineare Kombination entweder unter Verwendung von Standard-MLE-Asymptotika (Überprüfung mit Simulationen, ob die Asymptotik funktioniert) oder durch Bootstrapping zu berechnen. $w_1^T\beta_1 + w_2^T\beta_2$

Edit: Mit Standard-MLE-Asymptotik meine ich unter Verwendung der multivariaten Normalnäherung an die Verteilung der MLE mit Kovarianzmatrix die inverse Fisher-Information. Die Fisher-Information ist per Definition die Kovarianzmatrix des Gradienten von . Dies hängt im Allgemeinen von den Parametern ab. Wenn Sie einen analytischen Ausdruck für diese Menge finden, können Sie versuchen, den MLE anzuschließen. Alternativ können Sie die Fisher-Informationen anhand der beobachteten Fisher-Informationen schätzen , die der Hessische Wert von in der MLE ist. Ihr interessierender Parameter ist eine lineare Kombination der Parameter in den beiden $l$ $l$ $\beta$ -vektoren, daher können Sie aus der approximierenden multivariaten Normalen des MLE eine normale Approximation der Schätzerverteilung finden, wie hier beschrieben . Dies gibt Ihnen einen ungefähren Standardfehler und Sie können Konfidenzintervalle berechnen. Es ist in vielen (mathematischen) Statistikbüchern gut beschrieben, aber eine einigermaßen zugängliche Präsentation, die ich empfehlen kann, ist In All Likelihood von Yudi Pawitan. Wie auch immer, die formale Ableitung der asymptotischen Theorie ist ziemlich kompliziert und beruht auf einer Reihe von Regelmäßigkeitsbedingungen, und sie liefert nur eine gültige asymptotischeVerteilungen. Im Zweifelsfall würde ich daher immer einige Simulationen mit einem neuen Modell durchführen, um zu überprüfen, ob ich den Ergebnissen für realistische Parameter und Stichprobengrößen vertrauen kann. Ein einfaches, nicht parametrisches Bootstrapping, bei dem Sie die Tripel aus dem beobachteten Datensatz mit Ersetzung kann eine nützliche Alternative sein, wenn das Anpassungsverfahren nicht zu zeitaufwändig ist. $(y_i,x_i,z_i)$

— NRH
quelle

Was sind die Standard-MLE-Asymptotika?

— Shabbychef

@ Shabbychef, es war spät. Ich habe eine detailliertere Erklärung gegeben. Beachten Sie, dass das Modell korrekt sein muss und der Schätzer der MLE sein muss, damit die Asymptotik wie erläutert theoretisch funktioniert. Allgemeinere Ergebnisse können im Rahmen allgemeiner Schätzfunktionen und Schätzgleichungen erhalten werden, siehe beispielsweise das Buch Quasi-Likelihood and ... von Heyde.

— NRH