Warum ist die Voreingenommenheit betroffen, wenn eine klinische Studie frühzeitig abgebrochen wird?

24

Eine Zwischenanalyse ist eine Analyse der Daten zu einem oder mehreren Zeitpunkten vor dem offiziellen Abschluss der Studie mit der Absicht, z. B. die Studie möglicherweise vorzeitig zu beenden.

Laut Piantadosi, S. ( Klinische Studien - eine methodologische Perspektive ): " Die Schätzung eines Behandlungseffekts wird verzerrt, wenn eine Studie in einem frühen Stadium beendet wird. Je früher die Entscheidung, desto größer die Verzerrung. "

Können Sie mir diese Behauptung erklären? Ich kann leicht verstehen, dass die Genauigkeit beeinträchtigt wird, aber die Behauptung über die Abweichung ist für mich nicht offensichtlich ...

clinical-trials bias

— Ocram
quelle

Ich denke, dies ist eine perfekte Frage, um die Unterschiede zwischen der Bayes'schen und der Frequent'schen Methodik zu "konkretisieren"

— Wahrscheinlichkeitsrechnung

13

Zuallererst müssen Sie den Kontext beachten: Dies gilt nur, wenn die Studie aufgrund einer Zwischenüberwachung, die Wirksamkeit / Sinnlosigkeit zeigt, vorzeitig abgebrochen wurde, und nicht aus zufälligen Gründen. In diesem Fall wird die Schätzung der Effektgröße in einem vollständig statistischen Sinne verzerrt. Wenn Sie aus Gründen der Wirksamkeit angehalten haben, ist der geschätzte Effekt zu hoch (vorausgesetzt, er ist positiv). Wenn Sie aus Gründen der Sinnlosigkeit angehalten haben, ist er zu niedrig.

Piantodosi gibt auch eine intuitive Erklärung (Abschnitt 10.5.4 in meiner Ausgabe). Angenommen, der wahre Unterschied in zwei Mitteln ist 1 Einheit. Wenn Sie viele Versuche durchführen und diese zum Zeitpunkt der Zwischenanalyse betrachten, haben einige von ihnen Effektgrößen von weit über 1, einige von weit unter 1 und die meisten von etwa 1 festgestellt - die Verteilung ist breit, aber symmetrisch. Die geschätzte Effektgröße zu diesem Zeitpunkt wäre nicht sehr genau, aber unvoreingenommen. Sie stoppen jedoch nur und melden eine Effektgröße, wenn der Unterschied signifikant ist (angepasst für mehrere Tests), dh die Schätzung liegt auf der hohen Seite. In allen anderen Fällen machen Sie weiter und melden keine Schätzung. Das bedeutet , dass die Bedingung früh gestoppt hatist die Verteilung der Effektgröße nicht symmetrisch und ihr erwarteter Wert liegt über dem wahren Wert der Schätzung.

Die Tatsache, dass dieser Effekt von Anfang an schwerwiegender ist, beruht auf der größeren Hürde für den Abbruch des Versuchs, sodass ein größerer Teil der Verteilung während der Konditionierung weggeworfen wird.

— Aniko
quelle

1

Anfangs dachte ich das auch, aber als ich mich hinsetzte, um es zu beweisen, konnte ich nicht: Ich konnte nur zeigen, dass die resultierende Schätzung tatsächlich unvoreingenommen ist. (Neue Intuition: Die positive Verzerrung durch einen bedingten Stopp gleicht eine negative Verzerrung von der Durchführung des Experiments bis zur Fertigstellung aus.) Können Sie also eine strengere Demonstration vorlegen?

— Whuber

@whuber Ich werde versuchen , es zu schreiben, aber der Punkt ist , dass Piantodosi Aussage nur über das , was passiert , wenn Sie tun Anschlag früh. Es gibt keine Vollendung, um es auszugleichen.

— Aniko

2

@whuber Ja, das behauptet auch die ursprüngliche Aussage. Ihr Standpunkt, dass es eine gegenteilige Verzerrung gibt, die vom Abschluss der Studie abhängig ist, ist ebenfalls gültig. Die ganze Botschaft sollte lauten, dass, sobald Sie anfangen, eine Zwischenüberwachung durchzuführen, lustige Dinge passieren, wenn Sie die Effektgröße einschätzen können.

— Aniko

3

@Aniko Es sollte möglich sein, die Vorspannung anzupassen, wenn eine vorzeitige Beendigung eintritt. Wir scheinen daher die naive Verwendung eines Standardschätzers zu diskutieren, der für Zufallsstichproben mit fester Größe vorgesehen ist, und zwar in Experimenten mit bedingtem Abschluss, bei denen solche Schätzer nicht die gewünschten Eigenschaften haben. (+1, übrigens.)

— whuber

2

@whuber Klar, du kannst dich auf diese Tendenz einstellen, aber zuerst musst du erkennen, dass sie existiert. Und dann müssen Sie an den Prüfer verkaufen, dass, obwohl eindeutig 5 von 10 Patienten geantwortet haben, die geschätzte Ansprechrate 40% (Zahlen gebildet) beträgt, nachdem die Verzerrung aufgrund eines vorzeitigen Abbruchs korrigiert wurde.

— Aniko

3

Hier ist ein Beispiel dafür, wie Voreingenommenheit in Schlussfolgerungen entstehen kann und warum dies möglicherweise nicht die ganze Geschichte ist. Angenommen, Sie haben eine sequentielle Prüfung eines Arzneimittels, bei der ein positiver (+1) Effekt erwartet wird, der sich jedoch negativ auswirken kann (-1). Fünf Meerschweinchen werden nacheinander getestet. Die unbekannte Wahrscheinlichkeit für einen positiven Ausgang in einem Einzelfall ist tatsächlich und ein negativer Ausgang . $\frac{3}{4}$ $\frac{1}{4}$

Nach fünf Versuchen sind die Wahrscheinlichkeiten der verschiedenen Ergebnisse also

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

Die Wahrscheinlichkeit für ein positives Ergebnis insgesamt ist 918/1024 = 0,896, und das mittlere Ergebnis ist +2,5. Division durch die 5 Versuche, dies ist ein Durchschnitt von +0,5 Ergebnissen pro Versuch.

Dies ist die vorurteilsfreie Zahl, da sie auch beträgt . $+1\times\frac{3}{4}-1\times\frac{1}{4}$

Angenommen, zum Schutz von Meerschweinchen wird die Studie abgebrochen, wenn das kumulative Ergebnis zu irgendeinem Zeitpunkt negativ ist. Dann werden die Wahrscheinlichkeiten

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

Die Wahrscheinlichkeit für ein positives Ergebnis ist also insgesamt 702/1024 = 0,6855, und das mittlere Ergebnis ist +1,953. Wenn wir den Mittelwert des Ergebnisses pro Versuch in der vorherigen Berechnung betrachtet haben, dh mit , , , , und dann würden wir +0,184 erhalten. $\frac{+5}{5}$ $\frac{+3}{5}$ $\frac{+1}{5}$ $\frac{-1}{5}$ $\frac{-1}{3}$ $\frac{-1}{1}$

Dies sind die Sinne, in denen eine Vorspannung vorliegt, indem im zweiten Schema frühzeitig angehalten wird und die Vorspannung in der vorhergesagten Richtung liegt. Aber es ist nicht die ganze Geschichte.

Warum denken Whuber und Probabilityislogic, dass ein vorzeitiges Stoppen zu unvoreingenommenen Ergebnissen führen sollte? Wir wissen, dass das erwartete Ergebnis der Versuche im zweiten Schema +1.953 beträgt. Die erwartete Anzahl der Versuche beträgt 3,906. Wenn wir also eins durch das andere teilen, erhalten wir genau wie zuvor +0,5 und das, was als unvoreingenommen beschrieben wurde.

— Henry
quelle

Sie nehmen die Perspektive der "Pre-Data" -Welt ein. Was Sie sagen, ist wahr, dass die Stopp-Regel wichtig ist, aber nur, bevor Sie die Daten berücksichtigen . Dies liegt daran, dass die Abbruchregel Informationen zu den Daten enthält, nicht jedoch zu den tatsächlichen Wahrscheinlichkeiten. Sobald die Daten eingegangen sind, spielt die Stoppregel keine Rolle mehr. Beachten Sie, dass die wahren Wahrscheinlichkeiten im tatsächlichen Experiment unbekannt sind. Sie müssen also auch Situationen berücksichtigen, in denen die Wahrscheinlichkeiten wie folgt lauten:

und

P (+) = \frac{1}{4}

$P(+)=\frac{1}{4}$

sowie jede andere mögliche Kombination.

P (-) = \frac{3}{4}

$P(-)=\frac{3}{4}$

— Wahrscheinlichkeitslogik

Also nehme ich Ihr Beispiel als Aussage, dass

. Das ist sicherlich wahr! Meine Antwort auch Bedingungen auf

though. Dies liegt daran, dass ich, wenn Sie mir die Stopp-Regel mitteilen, aber nicht, ob Sie tatsächlich aufgehört haben, dies anhand des Datensatzes herausfinden kann, den ich tatsächlich habe. In der Tat kann ich herausfinden, ob eine Stoppregel tatsächlich gestoppt hätte, sobald ich die Daten kenne.

P (H | S, I) \neq P (H | I)

$P(H|S,I)\neq P(H|I)$

D

$D$

— Wahrscheinlichkeit

1

Nun, mein Wissen dazu stammt aus der Rede von Harveian im Jahr 2008 http://bookshop.rcplondon.ac.uk/details.aspx?e=262. Nach meinem besten Wissen werden die Ergebnisse im Wesentlichen voreingenommen sein, da 1) sie vorzeitig beendet werden In der Regel bedeutet dies, dass entweder die Behandlung mehr oder weniger wirksam war als erhofft, und wenn dies positiv ist, können Sie den Zufall nutzen. Ich glaube, dass p-Werte auf der Grundlage des geplanten Stichprobenumfangs berechnet werden (aber ich könnte in diesem Punkt falsch liegen), und auch wenn Sie Ihre Ergebnisse ständig überprüfen, um festzustellen, ob irgendwelche Effekte gezeigt wurden, müssen Sie mehrere Vergleiche korrigieren um sicherzustellen, dass Sie nicht nur einen zufälligen Effekt finden. Wenn Sie beispielsweise 20 Mal nach p-Werten unter 0,05 suchen, ist statistisch gesehen fast sicher, dass Sie ein signifikantes Ergebnis finden.

— richiemorrisroe
quelle

TEIL 1 Zunächst einmal vielen Dank für Ihre Antwort. Tatsächlich korrigieren frequentistische Methoden Mehrfachtests. Daher kann das Problem der voreingenommenen Abschätzung des Behandlungseffekts nicht von dort ausgehen. Bei einer Zwischenanalyse basiert der Test auf den aktuellen Informationen, wobei der aktuelle Stichprobenumfang und nicht der insgesamt geplante Stichprobenumfang verwendet wird. Das Problem kommt also auch nicht von dort.

— 25.

TEIL 2 Ich bin damit einverstanden, dass ein früher Abbruch bedeuten kann, dass die Behandlung "wirksamer ist als ein Abbruch". In diesem Sinne wäre der geschätzte Behandlungseffekt größer als erwartet. Aber meiner Meinung nach ist es nicht voreingenommen ... Stattdessen war meiner Meinung nach in gewissem Sinne "unsere Hoffnung voreingenommen".

— 25.

1

Ich würde dieser Behauptung nicht zustimmen, es sei denn, mit "Bias" meint Piantadosi den Teil der Genauigkeit, der allgemein als Bias bezeichnet wird. Die Schlussfolgerung wird nicht "voreingenommen" sein, weil Sie sich entschieden haben, per se zu stoppen: Sie wird "voreingenommen" sein, weil Sie weniger Daten haben. Das sogenannte "Wahrscheinlichkeitsprinzip" besagt, dass Inferenz nur von Daten abhängen sollte, die beobachtet wurden, und nicht von Daten, die möglicherweise beobachtet wurden, aber nicht. Die LP sagt

P (H | D, S, ich) = P (H | D, ich)

$P(H|D,S,I)=P(H|D,I)$

$H$ $D$ $S$ $I$ $D$ $I$ $S=g(D,I)$ $AA=A$ $S=g(D,I)$ $D$ $I$ $D,S,I = D,g(D,I),I = D,I$ $D$ $I$ dass es darauf ankommt.

— Wahrscheinlichkeitslogik
quelle

@ probabilityislogic: Danke! Wenn ich es gut verstehe, sollte "Voreingenommenheit" nicht im statistischen Sinne verstanden werden. Ich denke, das ist sinnvoll, weil Piantadosi über die "Voreingenommenheit" einer Schätzung und nicht eines Schätzers spricht ...

— 25.

E (μ - \hat{μ})^{2} = v a r (\hat{μ}) + B i a s (\hat{μ})

$E(\mu-\hat{\mu})^{2}=var(\hat{\mu})+Bias(\hat{\mu})$

μ

$\mu$

\hat{μ}

$\hat{\mu}$ ist der "Schätzer". Wenn der zweite Term (die Verzerrung) von der Stichprobengröße abhängt, ist zu erwarten, dass ein vorzeitiges Stoppen die Verzerrung erhöht, da die Stichprobengröße im Vergleich zu einer Fortsetzung des Experiments verringert wurde. Aber aus Ihrer Sicht klingt es so, als ob "Voreingenommenheit" aus Piantadosis Sicht als "Fehler" interpretiert werden sollte.

— Wahrscheinlichkeitislogic

1

Dieses Argument sagt nichts über die Voreingenommenheit aus, nur den Aspekt des Hypothesentests des Problems, den niemand in Frage stellt.

— Aniko

@Prob Ich muss @Aniko zustimmen: Es ist offensichtlich, dass bei einer Null eine positive Wahrscheinlichkeit für eine vorzeitige Beendigung besteht. In diesem Fall ist die Schätzung des Effekts ungleich Null. Daher ist die Erwartung des geschätzten Effekts, der von einer vorzeitigen Beendigung abhängig ist, positiv, wohingegen die unbedingte Erwartung Null ist. (Beachten Sie, dass das OP die Schätzung und nicht das Testen von Hypothesen behandelt.)

— whuber

H

$H$

μ

$\mu$

(a, a + d a)

$(a,a+da)$

S

$S$

D

$D$

I

$I$

S

$S$

S

$S$

S

$S$

D

$D$

I

$I$

μ

$\mu$

— Wahrscheinlichkeitslogik

0

Es wird eine Verzerrung (im "statistischen Sinne") geben, wenn die Beendigung des Studiums nicht zufällig erfolgt.

In einer Reihe von Experimenten, die zum Abschluss kommen, zeigen die "frühen" Ergebnisse von (a) einigen Experimenten, die letztendlich "keine Wirkung" finden, eine Wirkung (als Ergebnis des Zufalls) und (b) einigen Experimenten, die letztendlich eine Wirkung finden Der Effekt zeigt "no effect" (wahrscheinlich aufgrund eines Mangels an Leistung). In einer Welt, in der Sie Studien beenden, werden Sie, wenn Sie (a) öfter als (b) beenden, über eine Reihe von Studien hinweg voreingenommen sein, um einen Effekt zu finden. (Gleiche Logik gilt für Effektgrößen ; Abschluss Studien , die „größer als erwartet“ -Effekt früh häufiger als diejenigen , die zeigen , „wie erwartet oder senken“ zeigen Anzahl der Ergebnisse aufblasen „großer Wirkung.“)

Wenn in der Tat medizinische Studien abgebrochen werden, wenn frühe Ergebnisse einen positiven Effekt zeigen - um die Behandlung für Patienten mit Placebo oder andere Patienten verfügbar zu machen -, aber nicht, wenn frühe Ergebnisse nicht schlüssig sind, liegt bei solchen Tests ein größerer Fehler vom Typ 1 vor als es würde geben, wenn alle Experimente zu Ende geführt würden. Das heißt aber nicht, dass die Praxis falsch ist. Die Kosten für Typ-1-Fehler könnten moralisch gesehen niedriger sein, als die Behandlung so schnell zu verweigern, wie dies ansonsten bei Behandlungen der Fall wäre, bei denen sich gezeigt hätte, dass sie am Ende des vollständigen Versuchs wirksam sind.

— dmk38
quelle

Bitte beachten Sie meinen Kommentar zu Anikos Antwort, da ich Ihnen dieselbe Frage stellen möchte: Können Sie eine genauere Demonstration liefern?

— Whuber

Ich verlasse mich auf Aniko - er macht einen besseren Job als ich. Wenn Sie sich jedoch einig sind, dass der "Schreibtischschubladeneffekt" zu Verzerrungen führt, ist die Logik hier identisch. Es gibt eine Befangenheit zugunsten von Daten, die die Hypothese stützen - im ersten Fall werden b / c die nicht unterstützten Daten nicht gemeldet, im zweiten Fall wird notwendigerweise ein Teil der nicht unterstützten Daten nicht erfasst: Beendigung der Studie Früh, wenn die Ergebnisse gut aussehen, schließt dies aus, dass ein Teil der Verteilung der "schlechten Ergebnisse" durch Versuche ausgefüllt wird, die zu spät zu schlechten Ergebnissen führen . Vielleicht kann diese Vorspannung angepasst werden - aber es gibt eine Vorspannung, die angepasst werden muss.

— dmk38

@dmk Ich versuche nur, Sie beide dazu anzuregen, eine Diskussion mit @ Probability zu führen, mit der Sie offenbar nicht einverstanden sind ;-).

— Whuber

1

P (D | H, S, I)

$P(D|H,S,I)$

1

@ Wahrscheinlichkeit Das ist eine Möglichkeit, es zu betrachten. Eine andere Möglichkeit besteht darin, der Hypothese insgesamt auszuweichen und die tatsächlich gestellte Frage anzusprechen. nämlich, was die Größe des Behandlungseffektes ? Unter diesem Gesichtspunkt kann die Beendigung eintreten, sobald die Schätzung mit ausreichender Genauigkeit bekannt ist, um die Entscheidungsfindung zu unterstützen. Zum Beispiel möchten wir möglicherweise die Gewissheit haben, dass der gesundheitliche Gewinn durch die Verschreibung der Behandlung wahrscheinlich die Kosten (und Nebenwirkungen) der Behandlung übersteigt.

— Whuber