Modellierung, wenn die abhängige Variable einen "Cut-Off" hat

Bitte entschuldigen Sie im Voraus, falls eine der von mir verwendeten Begriffe nicht korrekt ist. Ich würde jede Korrektur begrüßen. Wenn das, was ich als "Abschaltung" beschreibe, einen anderen Namen hat, lass es mich wissen und ich kann die Frage aktualisieren.

Die Situation, die mich interessiert, ist folgende: Sie haben unabhängige Variablen $\bf{x}$ und eine einzelne abhängige Variable $y$ . Ich lasse es vage, gehe aber davon aus, dass es relativ einfach wäre, ein gutes Regressionsmodell für diese Variablen zu erhalten.

$\bf{x}$ $w = \min(y,a)$ $a$ $y$ $y$ $w$

Ein (etwas unrealistisches) Beispiel dafür wäre, wenn Sie versuchen, zu modellieren, für wie viele Jahre Menschen ihre Rente beziehen werden. In diesem Fall könnte relevante Informationen wie Geschlecht, Gewicht, Stunden Training pro Woche usw. sein. Die zugrunde liegende Variable wäre die Lebenserwartung. Die Variable, auf die Sie Zugriff haben und die Sie in Ihrem Modell vorhersagen möchten, ist jedoch wobei r das Rentenalter ist (der Einfachheit halber vorausgesetzt, es ist fest). $\bf{x}$ $y$ $w = \min(0, y-r)$

Gibt es bei der Regressionsmodellierung einen guten Ansatz, um damit umzugehen?

— Ben Aaronson
quelle

Ich bin nicht sicher, aber das klingt so, als ob es durch eine Variation der Überlebensanalyse möglich wäre. 1) Es geht um Zensur 2) Zumindest in Ihrem Beispiel geht es um Zeit. Aber es wäre eher linkszensiert als rechtszensiert (was üblicher ist). Wenn Sie mir zustimmen, können Sie das Überlebens-Tag hinzufügen und sehen, ob jemand darauf springt.

— Peter Flom - Reinstate Monica

@Peter Es sieht für mich sicher richtig zensiert aus. Auf welcher Seite die Zensur stattfindet, spielt keine Rolle, denn durch Negieren der abhängigen Variablen wird zwischen Rechts- und Linkszensur umgeschaltet.

— whuber

@whuber ich denke du hast recht. Aber, wie Sie sagen, die Zensur kann leicht genug wechseln.

— Peter Flom - Reinstate Monica

Das Beispiel für den Ruhestand scheint ein Datenmodell für die Zählung zu fordern (wenn Sie bereit sind, auf ganze Jahre zu runden, und wenn zum Zeitpunkt der Analyse alle Personen tot sind). Der Ansatz der latenten Variablen scheint sich dabei zu dehnen, da die Zeit nicht negativ sein kann.

— Dimitriy V. Masterov

Diese Art von Modell hat je nach Disziplin und Themenbereich mehrere Namen. Gebräuchliche Bezeichnungen dafür sind Censored Dependent Variables (Zensierte abhängige Variablen), Truncated Dependent Variables (Abgeschnittene abhängige Variablen), Limited Dependent Variables (Begrenzte abhängige Variablen), Survival Analysis (Überlebensanalyse), Tobit (Tobit) und Censored Regression (Zensierte Regression). Ich lasse wahrscheinlich einige andere Namen aus.

Das Setup, das Sie vorschlagen, wo beobachtet wird, wird als "richtige Zensur" bezeichnet, da Werte von zu weit rechts auf der realen Linie zensiert werden - und stattdessen sehen wir nur den Zensurpunkt, . $\min\{y_i,a\}$ $y_i$ $a$

Eine Möglichkeit, mit solchen Daten umzugehen, ist die Verwendung latenter Variablen (und dies ist im Grunde das, was Sie vorschlagen). Hier ist eine Möglichkeit, um fortzufahren:

\begin{aligned} y_{i} & = x_{i}^{'} β + ε_{i} \\ w_{i} & = min {y_{i}, a} \\ ε_{i} & \sim N (0, σ^{2}) i i d \end{aligned}

$\begin{align} y_i &= x_i'\beta+\varepsilon_i\\ w_i &= \min\{y_i, a\}\\ \varepsilon_i &\sim N(0,\sigma^2)\; \ {\rm iid} \end{align}$

Dann können Sie dies mit maximaler Wahrscheinlichkeit analysieren. Die Beobachtungen, bei denen die Zensur stattfindet, tragen bei zur Wahrscheinlichkeitsfunktion und die Beobachtungen, bei denen keine Zensur stattfindet, tragen $P\{y_i>a\}=\Phi(\frac{1}{\sigma}x_i'\beta-a)$ auf die Wahrscheinlichkeitsfunktion. Die CDF der Standardnormalen istund die Dichte der Standardnormalen ist. Die Wahrscheinlichkeitsfunktion sieht also so aus: $\frac{1}{\sigma}\phi((y_i-x_i'\beta)/\sigma)$ $\Phi$ $\phi$

\begin{aligned} L (β, σ) & = \prod_{i \in censored} Φ (\frac{1}{σ} x_{i}^{'} β - a) \prod_{i \notin censored} \frac{1}{σ} ϕ ((y_{ich} - x_{ich}^{'} β) / σ) \end{aligned}

$\begin{align} L(\beta,\sigma) &= \prod_{i\ \in\ \text{censored}} \Phi\left(\frac{1}{\sigma}x_i'\beta-a\right) \prod_{i\ \not\in\ \text{censored}} \frac{1}{\sigma}\phi\big((y_i-x_i'\beta)/\sigma\big) \end{align}$

Sie schätzen und indem Sie dies maximieren. Sie erhalten Standardfehler als die üblichen Standardfehler mit maximaler Wahrscheinlichkeit. $\beta$ $\sigma$

Wie Sie sich vorstellen können, ist dies nur ein Ansatz unter vielen.

— Rechnung
quelle

+1 Ein funktionierendes Beispiel für die ML-Lösung finden Sie unter stats.stackexchange.com/questions/49443 .

— Whuber

@whuber Das ist eine schöne Ausstellung.

— Bill