25

Ich bin etwas verwirrt, wenn eine unabhängige Variable (auch Prädiktor oder Feature genannt) in einem statistischen Modell, z. B. das in linearer Regression , eine Zufallsvariable ist. $X$ $Y=\beta_0+\beta_1 X$

— l7ll7
quelle

12

Das lineare Modell ist an gebunden, daher sollte es keine Rolle spielen, ob es zufällig ist oder nicht.

X

$X$

— Xi'an

4

Überprüfen Sie dies . Gute Frage, übrigens.

— Antoni Parellada

@ Xi'an, im festen Design sind die linearen Modellannahmen nicht an , siehe meine Antwort. Es ist also sehr wichtig. Das ist der Grund, warum Experimente so viel einfacher zu interpretieren sind als Beobachtungsergebnisse

X

$X$

— Aksakal,

19

Es gibt zwei gebräuchliche Formulierungen der linearen Regression. Um mich auf die Konzepte zu konzentrieren, werde ich sie etwas abstrahieren. Die mathematische Beschreibung ist etwas komplizierter als die englische. Beginnen wir also mit letzterer:

Die lineare Regression ist ein Modell, bei dem angenommen wird, dass eine Antwort zufällig ist, wobei die Verteilung durch die Regressoren über eine lineare Abbildung und möglicherweise durch andere Parameter . $Y$ $X$ $\beta(X)$ $\theta$

In den meisten Fällen ist die Menge der möglichen Verteilungen eine Ortsfamilie mit den Parametern und und gibt den Parameter . Das archetypische Beispiel ist die gewöhnliche Regression, bei der die Menge der Verteilungen die Normalfamilie und eine lineare Funktion der Regressoren ist. $\alpha$ $\theta$ $\beta(X)$ $\alpha$ $\mathcal{N}(\mu, \sigma)$ $\mu=\beta(X)$

Da ich dies noch nicht mathematisch beschrieben habe, ist es immer noch eine offene Frage, auf welche Arten von mathematischen Objekten , , und beziehen - und ich glaube, das ist das Hauptproblem in diesem Thread. Obwohl man verschiedene (äquivalente) Entscheidungen treffen kann, entsprechen die meisten der folgenden Beschreibung oder Sonderfälle dieser Beschreibung. $X$ $Y$ $\beta$ $\theta$

Feste Regressoren. Die Regressoren werden als reelle Vektoren . Die Antwort ist eine Zufallsvariable (wobei mit einem Sigmafeld und einer Wahrscheinlichkeit ausgestattet ist). Das Modell ist eine Funktion (oder, wenn Sie möchten, eine Menge von Funktionen , die durch parametrisiert sind ). ist eine endlich dimensionale topologische (normalerweise zweite differenzierbare) Untervielfalt (oder Untervielfalt mit Grenze) der Dimension des Raums der Wahrscheinlichkeitsverteilungen. $X\in\mathbb{R}^p$ $Y:\Omega\to\mathbb{R}$ $\Omega$ $f:\mathbb{R}\times\Theta\to M^d$ $\mathbb{R}\to M^d$ $\Theta$ $M^d$ $d$ $f$ wird normalerweise als kontinuierlich (oder ausreichend differenzierbar) angesehen. sind die "Störparameter". Es wird angenommen , dass die Verteilung von ist aus einem unbekannten dual Vektor (die "Regressionskoeffizienten") und unbekannte . Wir können dieses schreiben $\Theta\subset\mathbb{R}^{d-1}$ $Y$ $f(\beta(X), \theta)$ $\beta\in\mathbb{R}^{p*}$ $\theta\in\Theta$
$Y \sim f (β (X), θ) .$ $Y \sim f(\beta(X), \theta).$
Zufällige Regressoren. Die Regressoren und die Antwort sind eine dimensionale vektorielle Zufallsvariable . Das Modell ist die gleiche Art von Objekt wie zuvor, aber jetzt gibt es die bedingte Wahrscheinlichkeit $p+1$ $Z = (X,Y): \Omega^\prime \to \mathbb{R}^p \times \mathbb{R}$ $f$
$Y | X \sim f (β (X), θ) .$ $Y|X \sim f(\beta(X), \theta).$

Die mathematische Beschreibung ist nutzlos, ohne dass ein Rezept angibt, wie sie auf Daten angewendet werden soll. Im Fall des festen Regressors stellen wir uns so vor, als ob es vom Experimentator spezifiziert wird. Daher kann es hilfreich sein, als Produkt mit einer Produktsigmaalgebra zu betrachten. Der Experimentator bestimmt und die Natur bestimmt (etwas Unbekanntes, Abstraktes) . Im Fall des bestimmt die Natur , die Komponente der Zufallsvariablen bestimmt $X$ $\Omega$ $\mathbb{R}^p\times \Omega^\prime$ $X$ $\omega\in\Omega^\prime$ $\omega\in\Omega^\prime$ $X$ $\pi_X(Z(\omega))$ $X$ (was "beobachtet" wird), und wir haben jetzt ein geordnetes Paar genau wie im Fall des festen Regressors. $(X(\omega), \omega)) \in \Omega$

Das archetypische Beispiel für die multiple lineare Regression (die ich mit der Standardnotation für die Objekte anstelle dieser allgemeineren ausdrücken werde) lautet: für eine Konstante . Da in variiert, zeichnet sein Bild eine eindimensionale Teilmenge - eine Kurve - in der zweidimensionalen Mannigfaltigkeit der Normalverteilungen auf.

f (β (X), σ) = N (β (x), σ)

$f(\beta(X), \sigma)=\mathcal{N}(\beta(x), \sigma)$

σ \in Θ = R^{+}

$\sigma \in \Theta = \mathbb{R}^{+}$

x

$x$

R^{p}

$\mathbb{R}^p$

Wenn - in welcher Weise auch immer - als und als geschätzt wird , ist der Wert von der vorhergesagte Wert von , der mit assoziiert ist - ob wird vom Experimentator kontrolliert (Fall 1) oder nur beobachtet (Fall 2). Wenn wir entweder einen Wert (Fall 1) setzen oder eine Realisierung (Fall 2) von , dann ist die Antwort die diesem ist, eine Zufallsvariable, deren Verteilung , was aber unbekannt ist $\beta$ $\hat\beta$ $\sigma$ $\hat\sigma$ $\hat\beta(x)$ $Y$ $x$ $x$ $x$ $X$ $Y$ $X$ $\mathcal{N}(\beta(x), \sigma)$ geschätzt wird . $\mathcal{N}(\hat\beta(x), \hat\sigma)$

— whuber
quelle

Lassen Sie mich nur erwähnen, dass dies eine fantastische Antwort ist (aber wahrscheinlich nicht für jedermann).

— 17. Juli,

2

PS Kennen Sie ein Buch, in dem diese grundlegenden Fragen genauso genau erklärt werden wie hier? Als Mathematiker spiegeln alle Bücher, die ich gefunden habe, die anderen Antworten wider, die aus mathematischer Sicht viel ungenauer sind. (Das macht sie natürlich nicht schlecht, es ist nur so, dass diese Bücher nichts für mich sind - ich würde ein Buch lieben, das präziser ist, wie diese Antwort.)

— 17.

Ist im ersten Satz des letzten Absatzes nicht der vorhergesagte Wert für (eine Realisierung der Zufallsvariablen ), nicht der vorhergesagte Wert für ? Oder habe ich Ihre Sprache falsch verstanden und "vorhergesagter Wert für " bedeutet "vorhergesagter Wert, wenn der festgelegte (beobachtete) Wert von ?"

\hat{β} (x)

$\hat{\beta}(x)$

y

$y$

Y

$Y$

x

$x$

x

$x$

x

$x$

X

$X$

— Tschad,

1

@Chad Vielen Dank, dass Sie auf die mehrdeutige Sprache hingewiesen haben. Ich habe diesen Satz überarbeitet, um die Bedeutung zu verdeutlichen, die Ihrem Verständnis entspricht.

— whuber

6

Zunächst gab @whuber eine hervorragende Antwort. Ich werde es anders nehmen, vielleicht einfacher, auch mit einem Verweis auf einen Text.

MOTIVATION

$X$ kann zufällig oder fest in der Regressionsformulierung sein. Dies hängt von Ihrem Problem ab. Für sogenannte Beobachtungsstudien muss es zufällig sein, und für Experimente ist es normalerweise festgelegt.

Beispiel eins. Ich untersuche den Einfluss der Bestrahlung mit Elektronen auf die Härte eines Metallteils. Also nehme ich ein paar Proben des Metallteils und setze es unterschiedlichen Strahlungspegeln aus. Mein Belichtungswert ist X und fest , weil ich die von mir gewählten Werte gewählt habe. Ich kontrolliere die Bedingungen des Experiments vollständig oder versuche es zumindest. Das gleiche kann ich mit anderen Parametern wie Temperatur und Luftfeuchtigkeit tun.

Beispiel zwei. Sie untersuchen die Auswirkungen der Wirtschaftlichkeit auf die Häufigkeit von Betrugsfällen bei Kreditkartenanträgen. Sie regressieren also die Betrugsereignisse, die vom BIP abhängen. Sie kontrollieren nicht das BIP, Sie können nicht auf ein gewünschtes Niveau einstellen. Darüber hinaus möchten Sie wahrscheinlich multivariate Regressionen untersuchen, haben also andere Variablen, wie z. B. Arbeitslosigkeit, und jetzt haben Sie eine Kombination von Werten in X, die Sie beobachten , aber nicht steuern. In diesem Fall ist X zufällig .

Beispiel drei. Sie untersuchen die Wirksamkeit neuer Pestizide im Feld, dh nicht unter Laborbedingungen, sondern auf dem tatsächlichen Versuchsfeld. In diesem Fall können Sie etwas steuern, z. B. die Menge des einzusetzenden Pestizids. Sie kontrollieren jedoch nicht alles, z. B. das Wetter oder die Bodenverhältnisse. Ok, Sie können den Boden bis zu einem gewissen Grad kontrollieren, aber nicht vollständig. Dies ist ein Zwischenfall, in dem einige Bedingungen beobachtet und einige Bedingungen kontrolliert werden . Es gibt dieses gesamte Forschungsgebiet namens experimentelles Design , das sich wirklich auf diesen dritten Fall konzentriert, in dem die Agrarforschung eine der größten Anwendungen davon ist.

MATHEMATIK

Hier kommt der mathematische Teil einer Antwort. Es gibt eine Reihe von Annahmen, die in der Regel bei der Untersuchung der linearen Regression als Gauß-Markov-Bedingungen dargestellt werden. Sie sind sehr theoretisch und es stört niemanden zu beweisen, dass sie in irgendeiner praktischen Situation bestehen. Sie sind jedoch sehr nützlich, um die Einschränkungen der gewöhnlichen Methode der kleinsten Quadrate (OLS) zu verstehen.

Der Satz von Annahmen ist also für zufälliges und festes X unterschiedlich, was in etwa Beobachtungs- und Versuchsstudien entspricht. Grob gesagt, denn wie ich im dritten Beispiel gezeigt habe, bewegen wir uns manchmal wirklich zwischen den Extremen. Ich fand, dass der Abschnitt "Gauß-Markov" in der Encyclopedia of Research Design von Salkind ein guter Anfang ist. Er ist in Google Books verfügbar .

Für das übliche Regressionsmodell gelten folgende abweichende Annahmen für das feste Design : $Y=X\beta+\varepsilon$

$E[\varepsilon]=0$
Homoskedastizität, $E[\varepsilon^2]=\sigma^2$
Keine serielle Korrelation, $E[\varepsilon_i,\varepsilon_j]=0$

gegen die gleichen Annahmen in der zufälligen Gestaltung:

$E[\varepsilon|X]=0$
Homoskedastizität, $E[\varepsilon^2|X]=\sigma^2$
Keine serielle Korrelation, $E[\varepsilon_i,\varepsilon_j|X]=0$

Wie Sie sehen, besteht der Unterschied in der Konditionierung der Annahmen auf der Entwurfsmatrix für den Zufallsentwurf. Konditionierung macht diese stärkeren Annahmen. Zum Beispiel sagen wir nicht nur, wie beim festen Entwurf, dass die Fehler den Mittelwert Null haben. in zufälliger Anordnung sagen wir auch, dass sie nicht von X, Kovariaten, abhängig sind.

— Aksakal
quelle

2

In der Statistik ist eine Zufallsvariable eine Größe, die in irgendeiner Weise zufällig variiert. Eine gute Diskussion finden Sie in diesem ausgezeichneten CV-Thread: Was ist mit einer „Zufallsvariablen“ gemeint?

In einem Regressionsmodell wird angenommen, dass die Prädiktorvariablen (X-Variablen, erklärende Variablen, Kovariaten usw.) fest und bekannt sind . Sie werden nicht als zufällig angenommen. Es wird angenommen, dass die gesamte Zufälligkeit im Modell im Fehlerterm liegt. Betrachten Sie ein einfaches lineares Regressionsmodell als standardformuliert:
Der Fehlerterm ist eine Zufallsvariable und die Quelle der Zufälligkeit im Modell. Aufgrund des Fehlerterms ist eine Zufallsvariable. Eswird jedoch nicht angenommen, dass eine Zufallsvariable ist. (Natürlich kann es sichin der Realitätum eine Zufallsvariable handeln, dies wird jedoch im Modell nicht angenommen oder reflektiert.)

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ^{2})

$Y = \beta_0 + \beta_1 X + \varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2)$

ε

$\varepsilon$

Y

$Y$

X

$X$

— gung - Wiedereinsetzung von Monica
quelle

Du meinst also,

ist eine Konstante? Weil dies der einzige andere Weg ist,

aus mathematischer Sicht zu verstehen , da

eine Zufallsvariable ist und die Addition nur zwischen zwei Zufallsvariablen und nicht "etwas anderes" + Zufallsvariable definiert wird. Obwohl eine der beiden Zufallsvariablen konstant sein könnte, ist dies der Fall, auf den ich mich beziehe.

X

$X$

X

$X$

ε

$\varepsilon$

— 17.

PS Ich habe mir alle Erklärungen aus besagtem Link angeschaut und keine sehr aufschlussreich: Warum? Weil keiner die Verbindung zwischen Zufallsvariablen herstellt, wie Probabilisten sie verstehen, und wie Statistiker sie verstehen. So wiederholen einige Antworten die Standarddefinition der präzisen Wahrscheinlichkeitstheorie, während andere die (für mich noch unklare) vage statistische Definition wiederholen. Aber keiner erklärt wirklich den Zusammenhang zwischen diesen beiden Konzepten. (Die einzige Ausnahme ist die lange Antwort auf das Ticket-in-a-Box-Modell, die zwar

— vielversprechend ist

Der Unterschied war nicht deutlich genug, um auffällig zu sein. Ich werde auf diese spezifische Antwort zu meditieren, um zu sehen , ob es ihm jeder beliebige Wert ist)

— l7ll7

@ user10324, wenn Sie möchten, können Sie sich

als eine Menge von Konstanten vorstellen . Sie können es sich auch als nicht zufällige Variable vorstellen.

X

$X$

— gung - Wiedereinsetzung von Monica

Nein, die nicht zufällige variable Denkweise funktioniert aus zwei Gründen nicht: Zum einen gibt es, wie ich in den obigen Kommentaren dargelegt habe, keine "Variable" in der Mathematik, und zum anderen, selbst wenn es so wäre , dann ist der Zusatz in diesem Fall nicht definiert, wie ich in den obigen Kommentaren dargelegt habe.

— 17.

1

Ich bin mir nicht sicher, ob ich die Frage verstehe, aber wenn Sie nur fragen: "Muss eine unabhängige Variable immer eine Zufallsvariable sein?", Lautet die Antwort "Nein".

Eine unabhängige Variable ist eine Variable, von der angenommen wird, dass sie mit der abhängigen Variablen korreliert. Ob dies der Fall ist, testen Sie anschließend durch Modellierung (vermutlich Regressionsanalyse).

Es gibt hier viele Komplikationen und "Wenn, Aber und Aber". Daher würde ich vorschlagen, eine Kopie eines grundlegenden Ökonometrie- oder Statistikbuchs zu erhalten, das die Regressionsanalyse behandelt und es gründlich liest, oder die Klassennotizen aus einer grundlegenden Statistik / Ökonometrie zu erhalten natürlich online wenn möglich.

— Statistiker
quelle

X

$X$

X

$X$

Y

$Y$

X

$X$

Y

$Y$

X

$X$

x \mapsto x

$x\mapsto x$

x

$x$

x

$x$

X

$X$

Es hört sich so an, als ob Sie Mathe viel besser verstehen als ich. Ich gebe Ihnen nur die Standard-Universitätsstudiengang Ökonometrie / Statistik Antwort. Ich frage mich, ob Sie vielleicht ein bisschen darüber nachdenken, zumindest aus der Sicht der praktischen Analyse. In Bezug auf das Zitat aus diesem Buch ist meine Interpretation davon, dass die spezifischen x und y, auf die er sich bezieht, zufällig sind - aber das bedeutet nicht, dass irgendein x oder irgendein y zufällig sind.

— Statsanalyst

Die abhängige Variable in einem Modell für die Stimmabgabetrends in der britischen Politik könnte beispielsweise die Anzahl der Stimmen sein, die der konservative Kandidat in jedem Wahlkreis erhalten hat (Riding to Canadians, District to Americans), und die unabhängige Variable könnte die durchschnittlichen Immobilienpreise sein (ein Stellvertreter für Vermögen / Einkommen in Großbritannien). Keines davon ist eine "zufällige" Variable, wie ich es verstehe, aber dies wäre eine absolut vernünftige Sache zu modellieren.

— Statsanalyst

Ok, das ist gut zu wissen, welche Art von Antworten ich erwarten kann / ist der Standard in den Abteilungen für Ökonometrie / Statistik und ich schätze dieses Feedback sehr (ich würde wieder positiv stimmen, kann es aber nicht, da ich es bereits getan habe). Das Problem mit der Mathematik ist „ wenn Sie schwarz gehen Sie gehen nie zurück“: Ganzjährige Ausbildung in mathematischer Präzision ein Gefühl von Unbehagen hervorrufen, wenn etwas nicht kristallklar prall ist, bis ein achieves claritiy [...]

— l7ll7

Unabhängige Variable = Zufällige Variable?

MOTIVATION

MATHEMATIK