Ist es gültig, eine Basisvariable als Kontrollvariable einzuschließen, wenn die Auswirkung einer unabhängigen Variablen auf die Änderungsergebnisse getestet wird?


38

Ich versuche eine OLS-Regression durchzuführen:

  • DV: Gewichtsänderung über ein Jahr (Anfangsgewicht - Endgewicht)

  • IV: Ob Sie trainieren oder nicht.

Es erscheint jedoch vernünftig, dass schwerere Menschen mehr Gewicht pro Trainingseinheit verlieren als dünnere. Daher wollte ich eine Kontrollvariable einfügen:

  • CV: Anfangsstartgewicht.

Das Anfangsgewicht wird jetzt jedoch BEIDE verwendet, um die abhängige Variable AND als Steuervariable zu berechnen.

Ist das okay? Verstößt dies gegen eine Annahme von OLS?


4
Wurde die Behandlung zufällig vergeben?
Andy W

1
Beachten Sie, dass kürzlich auch eine sehr ähnliche Frage gestellt wurde: stats.stackexchange.com/q/15104/1036 . Die Antwort auf diese Frage ist auf diese Frage anwendbar (tatsächlich würde ich sagen, dass es sich um doppelte Fragen handelt).
Andy W

3
@Andy Eigentlich sind die beiden Fragen so unterschiedlich, dass ich auf diese eine andere Antwort geben würde als auf die andere. Charlie hat hier schon eine nette Analyse gegeben.
whuber

3
Beachten Sie, dass die Verwendung von Differenzwerten in der Regel mit einer erheblichen Verringerung der Zuverlässigkeit verbunden ist, obwohl dies in gewisser Weise diskutiert wird
Behacad 29.07.13

Antworten:


25

Um Ihre wörtliche Frage zu beantworten: "Ist es gültig, ein Basismaß als Kontrollvariable einzuschließen, wenn die Auswirkung einer unabhängigen Variablen auf die Änderungsergebnisse getestet wird?", Lautet die Antwort " Nein" . Die Antwort lautet Nein, da die Basisbewertung konstruktionsbedingt mit dem Fehlerterm korreliert, wenn die Änderungsbewertung als abhängige Variable verwendet wird. Daher ist der geschätzte Effekt der Basisbewertung auf die Änderungsbewertung nicht interpretierbar.

Verwenden

  • Y1 als Anfangsgewicht
  • Y2 als Endgewicht
  • Δ Y = Y 2 - Y 1ΔY als Gewichtsänderung (dh )ΔY=Y2Y1
  • T als zufällig zugeordnete Behandlung und
  • X als andere exogene Faktoren, die das Gewicht beeinflussen (z. B. andere Kontrollvariablen, die mit dem Ergebnis zusammenhängen, aber aufgrund einer zufälligen Zuordnung nicht mit der Behandlung korreliert werden sollten)

Man hat dann ein Modell, das auf und ; T XΔYTX

ΔY=β1T+β2X+e

Was per definitionem äquivalent ist zu;

Y2Y1=β1T+β2X+e

Wenn Sie nun die Basislinie als Kovariate , sollte ein Problem auftreten, da Sie den Term auf beiden Seiten der Gleichung haben. Dies zeigt, dass nicht ist, da es inhärent mit dem Fehlerterm korreliert.β 3 Y 1Y1β3Y1

Y2Y1=β1T+β2X+β3Y1+eY2=β1T+β2X+β3Y1+(e+Y1)

Nun scheint ein Teil der Verwirrung in den verschiedenen Antworten auf die Tatsache zurückzuführen zu sein, dass verschiedene Modelle identische Ergebnisse für den Behandlungseffekt liefern , in meiner obigen Formulierung. Wenn man also den Behandlungseffekt für das Modell unter Verwendung von Änderungswerten als abhängige Variable mit dem Modell unter Verwendung der "Ebenen" vergleicht (wobei jedes Modell die Grundlinie als Kovariate enthält), ist die Interpretation des Behandlungseffekts die gleich. In den beiden folgenden Modellen sind und die darauf basierenden Schlussfolgerungen gleich (Bruce Weaver hat auch SPSS-Code veröffentlicht, der die Gleichwertigkeit demonstriert).Y 1 β 1 Tβ1TY1β1T

Change Score Model:Y2Y1=β1T+β2X+β3Y1+eLevels Model:Y2=β1T+β2X+β3Y1+e

Einige werden sich also streiten (wie Felix in diesem Thread und Bruce Weaver in einigen Diskussionen über die SPSS-Google-Gruppe)) Da die Modelle den gleichen geschätzten Behandlungseffekt haben, spielt es keine Rolle, welchen Sie wählen. Ich bin anderer Meinung, da die Basiskovariate im Änderungsbewertungsmodell nicht interpretiert werden kann, sollten Sie die Basiskovariate niemals als Kovariate einbeziehen (unabhängig davon, ob der geschätzte Behandlungseffekt derselbe ist oder nicht). Dies wirft also eine andere Frage auf: Was nützt es, die Änderungswerte als abhängige Variablen zu verwenden? Wie Felix bereits bemerkte, unterscheidet sich das Modell, das den Änderungswert als abhängige Variable ohne die Basislinie als Kovariate verwendet, von dem Modell, das die Ebenen verwendet. Zur Verdeutlichung werden in den nachfolgenden Modellen unterschiedliche Behandlungseffekte angegeben (insbesondere für den Fall, dass die Behandlung mit dem Ausgangswert korreliert).

Change Score Model Without Baseline:Y2Y1=β1T+β2X+eLevels Model:Y2=β1T+β2X+β3Y1+e

Dies wurde in der Literatur als "Lord's Paradox" bezeichnet. Welches Modell ist also richtig? Nun, im Fall von randomisierten Experimenten würde ich sagen, dass das Levels-Modell vorzuziehen ist (obwohl der durchschnittliche Behandlungseffekt zwischen den Modellen sehr nahe sein sollte, wenn Sie eine gute Arbeit beim Randomisieren geleistet haben). Andere haben Gründe genannt, warum das Level-Modell vorzuziehen ist. Charlies Antwort macht einen guten Punkt darin, dass Sie Interaktionseffekte mit der Grundlinie im Level-Modell abschätzen können (aber nicht im Change-Score-Modell). Whuber zeigt in dieser Antwort auf eine sehr ähnliche Frage, wie die Änderungswerte Korrelationen zwischen verschiedenen Behandlungen induzieren.

In Situationen, in denen die Behandlung nicht zufällig zugeordnet wird, sollte das Modell, das Änderungswerte als abhängige Variable verwendet, stärker berücksichtigt werden. Der Hauptvorteil des Change-Score-Modells besteht darin, dass jederzeit invariante Prädiktoren des Ergebnisses kontrolliert werden. Angenommen, in der obigen Formulierung ist über die gesamte Zeit konstant (zum Beispiel, wenn eine genetische Veranlagung ein bestimmtes Gewicht hat), und korreliert damit, ob eine Person trainiert (und nicht beobachtet wird). In diesem Fall ist das Änderungsbewertungsmodell vorzuziehen. Auch in Fällen, in denen die Auswahl in die Behandlung mit dem Grundlinienwert korreliert, kann das Änderungsbewertungsmodell vorzuziehen sein. Paul Allison in seiner Zeitung,XXXDie Ergebnisse als abhängige Variablen in der Regressionsanalyse ändern , enthält dieselben Beispiele (und hat meine Sichtweise auf das Thema stark beeinflusst, daher empfehle ich dringend, sie zu lesen).

Das soll nicht heißen, dass Änderungsergebnisse in nicht zufälligen Einstellungen immer vorzuziehen sind. In dem Fall, dass Sie erwarten, dass die Baseline einen tatsächlichen kausalen Effekt auf das Post-Gewicht hat, sollten Sie das Level-Modell verwenden. Wenn Sie erwarten, dass die Baseline einen kausalen Effekt hat und die Auswahl der Behandlung mit der Baseline korreliert, wird der Behandlungseffekt mit dem Baseline-Effekt verwechselt.

Ich habe die Anmerkung von Charlie ignoriert, dass der Logarithmus des Gewichts als abhängige Variable verwendet werden könnte. Ich bezweifle zwar nicht, dass dies eine Möglichkeit sein könnte, aber es ist keine Folge der ursprünglichen Frage. In einer anderen Frage wurde erörtert, wann die Logarithmen der Variablen verwendet werden sollten (und diese gelten in diesem Fall immer noch). Es gibt wahrscheinlich bereits Literatur zu diesem Thema, anhand derer Sie feststellen können, ob die Verwendung des protokollierten Gewichts ebenfalls angemessen ist.


Zitat

Allison, Paul D. 1990. Änderungswerte als abhängige Variablen in der Regressionsanalyse . Sociological Methodology 20: 93 & ndash; 114. Öffentliche PDF-Version .


3
In der Gleichung nehmen wir wie üblich an, dass alle Kovariaten keine Zufallsvariablen sind, dann wird nicht mit korreliert . Daher denke ich, dass es nur ein Problem gibt, wenn Sie als zufällig betrachten. In diesem Fall sollten Sie (ebenfalls meiner Meinung nach) gemeinsam jedoch ohne als Kovariate. In dieser Hinsicht wurde mir ohne fehlende Daten mitgeteilt, dass dieser Ansatz als feste Kovariate entspricht (ich werde versuchen, einige Referenzen dafür zu finden). Y2=β1T+β2X+β3Y1+(e+Y1)Y1e+Y1Y1(Y1,Y2)Y1Y1
12.

1
@dandar, diese Aussage ergibt für mich keinen Sinn. Beachten Sie, dass der Vorbehandlungswert des Ergebnisses ist und nicht die Variable, die in einem Experiment wird . Sie damit sagen, dass ich, wenn ich den Basiswert von habe, ein Experiment durchführe und dann , sowohl als auch als Funktion der experimentellen Intervention modellieren sollte ? Y1Y1Y2Y1Y2
Andy W

1
Das Modell, von dem ich spreche, impliziert in der Tat, dass eine Funktion der Behandlung ist, aber nur unter dem Gesichtspunkt, dass es trotz Randomisierung immer geringfügige Unterschiede zwischen der Behandlungs- und der Kontrollgruppe in Bezug auf ihre Grundlinienmittel gibt. Somit erfasst diesen Unterschied sowie die Wirkung der Behandlung. Die Referenz hierfür ist ("Longitudinal Data Analysis of Continuous and Discrete Responses for Pre-Post Designs" von Zeger und Liang, 2000). Y1β1
Dandar

1
Eine klare Diskussion dieses Papiers findet sich in („Sollte die Basislinie eine kovariate oder abhängige Variable bei Analysen der Veränderung gegenüber der Basislinie in klinischen Studien sein?“ Von Liu, Mogg, Mallick und Mehrotra 2009). Sie bezeichnen dieses Modell als bedingungsloses Modell (dh es unterliegt nicht der Grundreaktion). In der Arbeit von Liu (2009) diskutieren sie die Hauptergebnisse der Arbeit von Zeger (2000). Dies ist zum einen, dass ohne fehlende Daten die Punktschätzungen von aus dem bedingungslosen Modell die gleichen sind wie diejenigen aus dem bedingten Ansatz von ANCOVA unter Verwendung der Post-BaselineB1
Dandar

1
Messung als Antwort und Konditionierung auf einen festen Basiswert und zweitens, dass die Punktschätzungsvarianz aus dem ANCOVA-Modell immer größer oder gleich der aus dem bedingungslosen Modell ist. Es hat sich herausgestellt, dass diese Varianzdifferenz aufgrund der Randomisierung in der Regel gering ist, um sicherzustellen, dass die durchschnittlichen Antworten zwischen den Gruppen bei der Grundlinie gering sind. Die Autoren kommen zu dem Schluss, dass das bedingungslose Modell für die Modellierung der Basislinie als Zufallsvariable geeignet ist, ANCOVA jedoch als geeignet, wenn es als fest angesehen wird.
12.

21

Andys Antwort scheint die Sichtweise des Ökonomen zu sein. In klinischen Studien ist es gängige Praxis, sich fast immer an die Basisversion der Antwortvariablen anzupassen, um die Leistung erheblich zu steigern. Da wir die Basisvariablen als Bedingung verwenden, gibt es keinen 'Fehlerterm', der mit dem Gesamtfehlerterm verwechselt werden könnte. Das einzige Problem wäre, wenn Messfehler in der Basiskovariate mit einem anderen X verwechselt würden, was den Effekt dieses anderen X verzerrt. Die insgesamt bevorzugte Methode besteht darin, die Basislinie anzupassen und die Antwortvariable zu modellieren, ohne die Änderung zu berechnen. Ein Grund dafür ist, dass Änderungen stark davon abhängen, ob die Transformation von Y korrekt ist, und dass diese Änderungen im Allgemeinen nicht für Regressionsmodelle gelten. Wenn beispielsweise Y eine Ordnungszahl ist, ist die Differenz zwischen zwei Ordnungszahlvariablen nicht länger eine Ordnungszahl.


1
Ich verstehe diese Antwort nicht ganz. Was meinst du mit "Adjust for Baseline"? Nehmen Sie den Unterschied oder die Kontrolle dafür?
Henrik

3
Mit "Anpassen für Basislinie" meinte ich das Einbeziehen der Basislinie als Kovariate. Es ist auch üblich, Änderungsergebnisse zu verwenden, aber Sie können sie nicht verwenden, ohne die Basislinie als Kovariate anzupassen (warum sollten Sie sich also mit Änderungsergebnissen befassen?).
Frank Harrell

6
Eigentlich steht nichts, was Sie hier (oder als Antwort auf Felix 'Kommentare) sagen, in direktem Widerspruch zu dem, was ich sage. Die Verwendung von Änderungswerten passt sich nicht an die Basislinie an, sondern steuert alle nicht festgeschriebenen Variablen (oder ob die Auswahl in der Behandlung in hohem Maße mit der Basislinie korreliert). Wenn der Ausgangswert nicht vernachlässigbar ist (dh eine direkte ursächliche Auswirkung auf das Ergebnis oder eine Wechselwirkung mit der Behandlung hat), können die Änderungsergebnisse das Problem nicht lösen.
Andy W

2
@Frank Harrell Vielen Dank, dass Sie sich dieser Diskussion angeschlossen und diese geklärt haben. (+1)
Henrik

8

Wir können die Argumentation von @ ocram leicht ändern, damit

E[w1w0X,w0]=β0+xβ+w0γE[w1X,w0]=β0+xβ+w0(γ+1)

Also, wenn dies das richtige Modell , sagte , dass der Unterschied hängt von dem Gewicht bedeutet , dass der Endwert hängt von dem Anfangswert mit einem Koeffizienten, der alles sein könnte. eine Regression der Differenz für und oder des Endgewichts für dieselben Variablen , sollten Sie für alle dieselben Koeffizienten . Wenn dieses Modell jedoch nicht genau stimmt, führen diese Regressionen auch bei den anderen Koeffizienten zu unterschiedlichen Ergebnissen.xw0w0

Beachten Sie, dass dies bedeutet , eingerichtet, dass das Ausgangsgewicht der vorhersagt Unterschied in Gewichte, nicht die Auswirkungen der Behandlung . Dies würde einen Interaktionsterm erfordern, vielleicht

E[w1w0X,w0]=β0+(xw0)β+w0γ.

Ein anderer Ansatz wäre, zu berechnen hier ist die Wachstumsrate des Gewichts. Dies könnte Ihr Ergebnis sein. Ihre Koeffizienten für sagen Ihnen, wie diese Prädiktoren mit Gewichtsveränderungen im Verhältnis stehen. Dies "kontrolliert" das anfängliche Gewicht, indem es besagt, dass zum Beispiel ein Trainingsprogramm, das das Gewicht um 10% reduziert (ein Koeffizient von 0,1 multipliziert mit 100%), für jemanden, der 130 Pfund wiegt, das Gewicht um 13 Pfund reduziert, während das Programm das Gewicht reduziert Gewicht eines 200 Pfund Teilnehmers um 20 Pfund. In diesem Fall müssen Sie möglicherweise nicht das Anfangsgewicht (oder sein Protokoll) auf der rechten Seite einfügen.

log(w1)log(w0)r;
rx

Ein Interaktionsbegriff kann dennoch erforderlich sein, wenn Sie der Meinung sind, dass die Wirkung des Programms vom Startgewicht abhängt. Wenn Sie im Interaktionsbegriff verwenden, ist das Programm mit einer Änderung der Wachstumsrate des Gewichts von . Jedes Pfund, das zu Beginn des Programms schwerer war als eine Person, führt zu einem Anstieg der Veränderung der Wachstumsrate um (dies ist die partielle Kreuzableitung des Erwartungswerts sowohl in Bezug auf die Behandlung als auch auf das Anfangsgewicht).w0w0β1β1

Wenn Sie im Interaktionsbegriff verwenden, erhöht sich die Auswirkung des Programms um für jedes zusätzliche Pfund, das der Teilnehmer zu Beginn des Programms schwerer war.β 1 / w 0log(w0)β1/w0

Wie Sie sehen, ist die Interpretation der Crosspartials zu Interaktionsbegriffen möglicherweise etwas schwierig, sie erfassen jedoch möglicherweise die Auswirkungen, an denen Sie interessiert sind.


Hallo Charlie, ich sehe den Vorteil der Proportionsänderung, aber warum finden Sie den Unterschied in den protokollierten Variablen, anstatt nur w1 über w0 zu teilen.
ChrisStata

Ich mag die Idee der proportionalen Veränderung. Es bleibt jedoch die Frage, ob die erwartete Interaktion buchstäblich proportional ist oder nicht. Wenn nicht, müssten Sie das ursprüngliche Gewicht immer noch als Kovariate angeben. Oder würden Sie sicher sein, dass es genauso schwierig ist, 10% Ihres Gewichts für eine Person mit einem Gewicht von 100 oder 200 Pfund zu verlieren?
Henrik

@ ChrisStata, das könnten Sie auch. Ich bin ein Ökonom und wir lieben unsere Protokolle (und Unterschiede auch). Wenn Sie eine Zeitreihe (dh mehrere Beobachtungen) für jede Person hätten (einen Paneldatensatz erstellen), könnte ich argumentieren, dass mein Weg besser ist, aber das ist hier nicht relevant. Henrik, du hast recht; Ich fügte meiner Antwort etwas darüber hinzu.
Charlie

8

BEARBEITEN: Andy Ws Argument überzeugte mich, Modell C fallen zu lassen. Ich fügte eine weitere Möglichkeit hinzu: Analyse von Änderungen mit Zufallskoeffizientenmodellen (auch bekannt als Multilevel-Modelle oder Mixed-Effect-Modelle)

Es gab viele wissenschaftliche Debatten über die Verwendung von Differenzwerten. Meine Lieblingstexte sind Rogosa (1982, [1]) und Fitzmaurice, Laird & Ware (2004, [2]).

Im Allgemeinen haben Sie drei Möglichkeiten, Ihre Daten zu analysieren:

  • A) Nimm nur die interindividuelle Differenzbewertung (die Änderungsbewertung)
  • B) Behandeln Sie die Nachmessung als DV und kontrollieren Sie sie für die Basislinie
  • C) Nehmen Sie den Differenzwert als DV und kontrollieren Sie ihn für die Basislinie (das ist das von Ihnen vorgeschlagene Modell). Aufgrund der Argumente von Andy W habe ich diese Alternative fallen gelassen
  • D) Verwenden eines Mehrebenen- / Mixed-Effect-Modellansatzes, bei dem die Regressionslinie für jeden Teilnehmer modelliert wird und Teilnehmer als Level-2-Einheiten behandelt werden.

Die Modelle A und B können sehr unterschiedliche Ergebnisse liefern, wenn die Basislinie mit dem Änderungswert korreliert ist (z. B. haben schwerere Personen einen höheren Gewichtsverlust) und / oder die Behandlungszuordnung mit der Basislinie korreliert ist.

Wenn Sie mehr über diese Themen erfahren möchten, lesen Sie die zitierten Artikel oder hier und hier .

Kürzlich wurde auch eine Simulationsstudie durchgeführt [3], in der empirisch die Bedingungen verglichen werden, unter denen A oder B vorzuziehen sind.

Für vollständig ausgeglichene Entwürfe ohne fehlende Werte sollte Modell D dem Modell A entsprechen. Es bietet jedoch mehr Informationen über die Variabilität zwischen Personen, lässt sich leicht auf mehr Messpunkte erweitern und hat gute Eigenschaften bei nicht ausgeglichenen Daten und / oder fehlende Werte.

Fazit: In Ihrem Fall würde ich die für die Baseline kontrollierten Post-Measures analysieren (Modell B).

[1] Rogosa, D., Brandt, D. & Zimowski, M. (1982). Ein Wachstumskurven-Ansatz zur Messung von Veränderungen. Psychological Bulletin, 92, 726 & ndash; 748.

[2] Fitzmaurice, GM, Laird, NM & Ware, JH (2004). Angewandte Längsschnittanalyse. Hoboken, NJ: Wiley.

[3] Petscher, Y. & Schatschneider, C., 2011. Eine Simulationsstudie zur Leistung der einfachen differenz- und kovarianzangepassten Scores in randomisierten experimentellen Designs. Journal of Educational Measurement, 48, 31-43.


Ich habe diese Antwort abgelehnt, und Sie können meine Antwort darauf sehen, warum ich der Meinung bin, dass die Änderungsergebnisse mit der Grundlinie als Kovariate nicht durchgeführt werden sollten. Zusammenfassend bedeutet dies nicht, dass Modell C vorzuziehen ist, obwohl die Modelle B und C in Ihrer Formulierung äquivalente Behandlungseffekte hervorrufen. Tatsächlich ist der Basiseffekt in Modell C nicht interpretierbar, daher sollte er meines Erachtens nicht verwendet werden.
Andy W

@ AndyW: Ihr Argument hat mich überzeugt; Obwohl die relevanteste Schätzung des Behandlungseffekts in beiden Modellen gleich ist, sollte Modell B Modell C vorgezogen werden. Ich habe meine Antwort entsprechend angepasst. Aber was sagst du dazu Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.?, wer zeigt eine Äquivalenz von B und C?
Felix S

Ich glaube nichts, was ich gesagt habe, widerspricht dem Artikel von Laird. Grundsätzlich war alles, was ich schimpfte, dass (in Lairds Notation) nicht interpretierbar ist. Warum sollte ich es also melden (die Äquivalenz war nicht in Frage gestellt)? Laird äußert sich auch darüber, wie der kovariate Basiseffekt als Hypothese interpretiert werden kann, ob sich einzelne Behandlungsgruppen nicht ändern (obwohl dies immer noch kritisch ist). Fühlen Sie sich frei, meinen Standpunkt mit Situationen zu kontern, in denen nützlich ist (es ist mit Sicherheit nicht nützlich auf die normale Art und Weise, wie wir Regressionskoeffizienten interpretieren). ˉ bb¯b¯
Andy W

Ein Punkt für Modell D. Ich frage mich, warum ich nicht nur Modell D in Betracht ziehe. Es ist das beständigste (der Basiswert ist eine Zufallsvariable und muss nicht zu einer abhängigen Variablen gezwungen werden), es ist einfach, sehr flexibel (Interaktion möglich) hinzugefügt werden) und liefert auch die Standardabweichung der Grundgesamtheit.
Giordano


3

Glymour et al. (2005) unter Verwendung der Baseline-Anpassung bei der Analyse einer Änderungsbewertung angesprochen. Wenn die Änderung des Gesundheitszustands vor der Basisbewertung erfolgte oder ein großer Messfehler in der abhängigen Variablen vorliegt, stellen sie fest, dass eine Verzerrung auftreten kann, wenn das Regressionsmodell, das den Änderungswert als abhängige Variable verwendet, eine Basiskovariate enthält. Frank Harrells Antwort "Das einzige Problem wäre, wenn Messfehler in der Basiskovariate mit einem anderen X verwechselt würden, was den Effekt dieses anderen X verzerrt." kann die gleiche Tendenz wie Glymour-Adressen widerspiegeln.

Glymour (2005) "Wann ist eine Grundlinienanpassung bei der Analyse von Veränderungen nützlich? Ein Beispiel für Bildung und kognitive Veränderungen. American Journal of Epidemiology 162: 267-278


1

Ocram ist nicht korrekt. Die Gewichtsdifferenz berücksichtigt nicht das Anfangsgewicht. Insbesondere wird das Anfangsgewicht durch Subtrahieren des Endgewichts von ihm herausgenommen.

Daher würde ich argumentieren, dass es keine Annahmen verletzt, wenn Sie für das Anfangsgewicht kontrollieren.

(Dieselbe Logik gilt, wenn Sie den Unterschied zwischen dem BMI und dem anfänglichen BMI nehmen.)


Update
Nachdem Andy W kritisiert hat, möchte ich genauer erklären, warum ich richtig und Ocram falsch liege (zumindest aus meiner Sicht).

Es gibt ein absolutes Gewichtsniveau, das jede Person hat (z. B. ungefähr 100 Pfund im Gegensatz zu 200 Pfund). Sei dieses absoulte Gewicht. Dann kann das Anfangsgewicht als und das Endgewicht alsi w = a w e w = a w + Δ waw
iw=awew=aw+Δw

Der dv, den das OP verwenden möchte, ist somitΔw=iwew=awaw+Δw=Δw

Mit anderen Worten, das absolute Gewichtsniveau (formalisiert als ) fällt aus der Gleichung, die das dv darstellt, heraus und kontaminiert es daher nicht (was der Behauptung von Andy W widerspricht).aw

Wenn Sie dies berücksichtigen möchten, müssen Sie es separat in Ihr Modell integrieren (als gewöhnlicher Parameter und / oder als Interaktionsbegriff).

Offensichtlich gilt dieselbe Logik für und kann leicht in Proportionen gebracht werden, in denen man zB sagen würde:ΔBMJew=awpropΔw


Als ich sagte, dass der Unterschied das Anfangsgewicht berücksichtigt, meinte ich das eigentlich. Was würden Sie konkret schreiben? Endgewicht - Anfangsgewicht = ...?
18.

Wie ich schrieb, scheint mir Ihre Argumentation falsch zu sein. Ich würde argumentieren, dass in der Tat das Endgewicht das Anfangsgewicht stärker berücksichtigt, da es sich auf derselben "Skala" befindet, wohingegen die Differenz "neu skaliert" wird (als das Endgewicht wird daher ein Absolutwert von einem anderen Absolutwert subtrahiert .
Henrik

(-1) Das ist nicht korrekt. Im Allgemeinen sollten Sie nicht dieselbe Variable sowohl auf der rechten als auch auf der linken Seite der Gleichung einfügen (da dies dazu führt, dass die unabhängige Variable mit dem Fehlerterm korreliert). Wenn Sie also Differenzen für die abhängige Variable verwenden, sollten Sie die Basislinie nicht als Kovariate einschließen.
Andy W

@ Andy W: Ich weiß, dass Ihr Argument im Prinzip richtig ist. Mein Argument ist jedoch, dass Sie den Absolutwert teilweise herausrechnen (indem Sie den Endwert von der Grundlinie subtrahieren), wodurch diese Korrelation beseitigt wird. Das Hinzufügen als Kovariate führt daher nicht zu einer solchen falschen Fehlerkorrelation.
Henrik

@Henrik, sieh dir meine Antwort auf diese Frage an und warum ich immer noch glaube, dass dieses Gefühl falsch ist.
Andy W

0

Beachten Sie das

end weightinitial weightY=β0+βTx

ist äquivalent zu

end weight=initial weight+β0+βTx

In Worten, die Verwendung der Gewichtsänderung (anstelle des Endgewichts selbst) als DV berücksichtigt bereits das Anfangsgewicht.


1
Aber ich denke, es könnte eine Wechselwirkung zwischen anfänglichem Gewicht und Gewichtsverlust beim Training geben. Nehmen wir an, ein Erwachsener mit einer Körpergröße von 1,90 m und einem Körpergewicht von 70 kg und ein Erwachsener mit einer Körpergröße von 1,60 m und einem Körpergewicht von 90 kg nehmen an denselben Trainingsübungen teil. Ich wette, dass letzterer mehr Gewicht verliert. Ein zweiter Gedanke: Vielleicht ist der Body-Mass-Index ein besserer Lebenslauf als nur das Gewicht.
xmjx

1
@xmjx: Wenn Sie glauben, dass das anfängliche Gewicht das endgültige Gewicht beeinflusst - und Sie haben wahrscheinlich Recht - dann ist es eine gute Idee, es als Versatz in das Modell
einzufügen,

3
Im Allgemeinen nicht korrekt. Wenn die Steigung des Basisgewichts nicht 1,0 beträgt, entspricht die Analyse der Änderung nicht der Analyse des Endgewichts, es sei denn, das Anfangsgewicht ist in beiden Modellen vorhanden und Sie verwenden die normale Regression. Wenn sich das Basisgewicht an zwei Stellen befindet, ist das Modell tatsächlich schwieriger zu erklären, sodass die Gründe für die Beibehaltung dieses Ansatzes unklar sind.
Frank Harrell
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.