Best Practice bei der Analyse von Designs zur Kontrolle vor und nach der Behandlung


53

Stellen Sie sich das folgende gemeinsame Design vor:

  • 100 Teilnehmer werden nach dem Zufallsprinzip entweder einer Behandlung oder einer Kontrollgruppe zugeordnet
  • Die abhängige Variable ist numerisch und wird vor und nach der Behandlung gemessen

Drei offensichtliche Möglichkeiten zur Analyse solcher Daten sind:

  • Testen Sie die Gruppe nach Zeitinteraktionseffekt in gemischter ANOVA
  • Führen Sie eine ANCOVA mit der Bedingung IV und der Vormessung als Kovariate und der Nachmessung als DV durch
  • Führen Sie einen T-Test mit der Bedingung IV und einer Bewertung vor dem Wechsel als DV durch

Frage:

  • Wie lassen sich solche Daten am besten analysieren?
  • Gibt es Gründe, einen Ansatz einem anderen vorzuziehen?

1
Wenn Sie "Bedingung" sagen, meinen Sie damit Gruppenzuweisung?
pmgjones

1
@propofol: ja. Entschuldigung, wenn meine Sprache nicht klar ist.
Jeromy Anglim

1
Es gibt auch parametrische "N-of-1" -Methoden zur statistischen Auswertung von Zeitdaten für einzelne Beobachtungen. Beispielanwendung: ncbi.nlm.nih.gov/pubmed/2039432 Vergleichsmethoden: europepmc.org/abstract/MED/10557859/…
user31256

Antworten:


34

Es gibt eine große Literatur zu diesem Thema (Change / Gain Scores), und ich denke, die besten Referenzen stammen aus dem biomedizinischen Bereich, z

Senn, S (2007). Statistische Probleme bei der Arzneimittelentwicklung . Wiley (Kap. 7, S. 96-112)

In der biomedizinischen Forschung wurden auch interessante Arbeiten in Bezug auf Cross-Over-Studien durchgeführt (insbesondere in Bezug auf die Übertragungseffekte , obwohl ich nicht weiß, wie sie für Ihre Studie anwendbar sind).

From Gain Score t bis ANCOVA F (und umgekehrt) von Knapp & Schaffer bietet einen interessanten Überblick über den Ansatz von ANCOVA vs. t (das sogenannte Lord's Paradox). Die einfache Analyse der Änderungswerte ist nicht die empfohlene Methode für das Pre- / Post-Design gemäß Senn in seinem Artikel Änderung gegenüber der Baseline und Analyse der Kovarianz (Stat. Med. 2006 25 (24)). Darüber hinaus ist die Verwendung eines Mixed-Effects-Modells (z. B. um die Korrelation zwischen den beiden Zeitpunkten zu berücksichtigen) nicht besser, da Sie die "Pre" -Messung wirklich als Kovariate verwenden müssen, um die Präzision zu erhöhen (durch Anpassung). Sehr kurz:

  • Die Verwendung von Änderungs Partituren (post vor, oder das Ergebnis Baseline) nicht das Problem des Ungleichgewichts lösen; Die Korrelation zwischen Vor- und Nachmessung ist <1, und die Korrelation zwischen Vor- und (Nach- Vormessung ist im Allgemeinen negativ. Daraus folgt, dass die Behandlung (Ihre Gruppenzuordnung), gemessen anhand der Rohwerte, ein unfairer Nachteil im Vergleich ist zu kontrollieren, wird es einen unfairen Vorteil mit Änderungswerten haben.- ----
  • Die Varianz des in ANCOVA verwendeten Schätzers ist im Allgemeinen niedriger als die für Roh- oder Änderungsbewertungen (sofern nicht die Korrelation zwischen Pre und Post gleich 1 ist).
  • Wenn sich die Prä-Post-Beziehungen zwischen den beiden Gruppen unterscheiden (Steigung), ist dies kein so großes Problem wie bei allen anderen Methoden (der Ansatz für die Änderungsbewertung geht auch davon aus, dass die Beziehung zwischen den beiden Gruppen identisch ist - die Hypothese der parallelen Steigung ).
  • Unter der Nullhypothese der Gleichbehandlung (zum Ergebnis) wird keine Interaktionsbehandlung x Grundlinie erwartet; Es ist gefährlich, ein solches Modell anzupassen, aber in diesem Fall müssen zentrierte Basislinien verwendet werden (andernfalls wird der Behandlungseffekt auf den kovariaten Ursprung geschätzt).

Ich mag auch Ten Difference Score Myths von Edwards, obwohl es sich um Differenzwerte in einem anderen Kontext handelt. Aber hier ist eine kommentierte Bibliographie über die Analyse der Veränderungen vor und nach dem Tod (leider deckt sie nicht die neuesten Arbeiten ab). Van Breukelen verglich auch ANOVA vs. ANCOVA in randomisierter und nicht randomisierter Umgebung, und seine Schlussfolgerungen stützen die Idee, dass ANCOVA zumindest in randomisierten Studien (die eine Regression auf den Mittelwert verhindern) vorzuziehen ist.


Nur um zu verdeutlichen: Meinst du, dass die ANCOVA mit den Ergebnissen vor dem Test als Kovariaten die beste Option ist?
mkt - Setzen Sie Monica

17

Daniel B. Wright erörtert dies in Abschnitt 5 seines Artikels Freunde mit Ihren Daten werden . Er schlägt vor (S.130):

Das einzige Verfahren, das in dieser Situation immer korrekt ist, ist ein Streudiagramm, in dem die Punktzahlen zum Zeitpunkt 2 mit denen zum Zeitpunkt 1 für die verschiedenen Gruppen verglichen werden. In den meisten Fällen sollten Sie die Daten auf verschiedene Arten analysieren. Wenn die Ansätze unterschiedliche Ergebnisse liefern ... denken Sie genauer über das von jedem Modell implizierte nach.

Als weiterführende Literatur empfiehlt er folgende Artikel:

  • Hand, DJ (1994). Dekonstruktion statistischer Fragen. Zeitschrift der Royal Statistical Society: A, 157, 317–356.
  • Lord, FM (1967). Ein Paradoxon bei der Interpretation von Gruppenvergleichen. Psychological Bulletin, 72, 304–305. Kostenloses PDF
  • Wainer, H. (1991). Bereinigen um unterschiedliche Basisraten: Wieder das Paradoxon des Herrn. Psychological Bulletin, 109, 147–151. Kostenloses PDF

9

Die gängigsten Strategien wären:

  1. ANOVA mit wiederholten Messungen mit einem subjektinternen Faktor (vor und nach dem Test) und einem zwischen den Subjekten liegenden Faktor (Behandlung und Kontrolle).
  2. ANCOVA für die Nachbehandlungsergebnisse, mit Vorbehandlungsergebnis als Kovariate und Behandlung als unabhängige Variable. Intuitiv ist die Idee, dass ein Test der Unterschiede zwischen beiden Gruppen genau das ist, wonach Sie streben, und das Einbeziehen von Ergebnissen vor dem Test, da eine Kovariate die Leistung im Vergleich zu einem einfachen T-Test oder einer ANOVA erhöhen kann.

Es gibt viele Diskussionen über die Interpretation, Annahmen und scheinbar paradoxen Unterschiede zwischen diesen beiden Ansätzen und über differenziertere Alternativen (insbesondere wenn die Teilnehmer nicht zufällig der Behandlung zugeordnet werden können), aber sie bleiben meiner Meinung nach ziemlich standardisiert.

Eine wichtige Quelle der Verwirrung ist, dass für die ANOVA der interessierende Effekt höchstwahrscheinlich die Wechselwirkung zwischen Zeit und Behandlung ist und nicht der Haupteffekt der Behandlung. Übrigens liefert der F-Test für diesen Interaktionszeitraum genau das gleiche Ergebnis wie ein unabhängiger Stichproben-T-Test für die Verstärkungsbewertungen (dh Bewertungen, die durch Subtrahieren der Bewertung vor dem Test von der Bewertung nach dem Test für jeden Teilnehmer erhalten wurden) auch dafür gehen.

Wenn all dies zu viel ist, haben Sie keine Zeit, es herauszufinden, und können keine Hilfe von einem Statistiker erhalten. Ein schneller und schmutziger, aber keineswegs völlig absurder Ansatz wäre, einfach die Ergebnisse nach dem Test mit einem zu vergleichen unabhängiger Stichproben-T-Test, wobei die Werte vor dem Test ignoriert werden. Dies ist nur sinnvoll, wenn die Teilnehmer tatsächlich zufällig der Behandlungs- oder Kontrollgruppe zugeordnet wurden .

Letztendlich ist das an sich kein guter Grund, es zu wählen, aber ich vermute, Ansatz 2 oben (ANCOVA) ist das, was derzeit als der richtige Ansatz in der Psychologie gilt. Wenn Sie sich also für etwas anderes entscheiden, müssen Sie möglicherweise die Technik im Detail erklären oder begründen Sie sich selbst gegenüber jemandem, der überzeugt ist, zB dass „Gewinnquoten als schlecht bekannt sind“.


1
Ich würde sagen, dass die erste Empfehlung, ANOVA mit wiederholten Messungen, nicht für die Analyse von Pre-Post-Daten geeignet ist. Ist die Behandlung in der Interventionsgruppe zu Studienbeginn auf 0 codiert? In beiden Fällen wird der Hawthorne-Effekt wieder eingeführt. Systematische Unterschiede zwischen den Kontrollen vor und nach dem Eingriff werden durch zufällige Variationen überlagert. Die RM AN C OVA ist gerechtfertigt, wenn in einer Nachperiode mehrere Messungen durchgeführt wurden und die Basislinienwerte weiterhin als Kovariate angepasst oder als Verstärkungsfaktor verwendet werden.
AdamO

2

ANCOVA und wiederholte Messungen / gemischtes Modell für den Interaktionsterm testen zwei verschiedene Hypothesen. Siehe diesen Artikel: ariticle 1 und dieser Artikel: Artikel 2


-2

Da Sie zwei Möglichkeiten haben (entweder einen bestimmten Gegenstand oder die Summe des Inventars), gibt es keinen Grund, eine ANOVA in Betracht zu ziehen. Ein gepaarter t-Test ist wahrscheinlich angebracht; Dies kann Ihnen bei der Auswahl des von Ihnen benötigten T-Tests helfen.

Möchten Sie sich die objektspezifischen Ergebnisse oder die Gesamtpunktzahlen ansehen? Wenn Sie eine Artikelanalyse durchführen möchten, ist dies möglicherweise ein nützlicher Ausgangspunkt.


4
Was ist mit der Kontrollgruppe? Ein paarweiser T-Test auf alle Daten klingt nach einer schlechten Idee und geht mit Sicherheit nicht auf die Hauptfrage ein (ist die Behandlung effektiv?). Ein paarweiser t-Test, der auf die Behandlungsgruppe beschränkt ist, ist eine plausible Strategie, aber das Ignorieren der Kontrollgruppe wirft eine Menge Daten weg und liefert einen viel schwächeren Beweis dafür, dass die Intervention tatsächlich der Wirkstoff ist. ANOVA ist in der Tat eine übliche - wenn auch oft kritisierte - Methode, um dieses Design zu analysieren.
Gala
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.