Ist eine präzisionsbasierte (dh inverse Varianz) Gewichtung ein wesentlicher Bestandteil der Metaanalyse?

10

Ist die präzisionsbasierte Gewichtung für die Metaanalyse von zentraler Bedeutung? Borenstein et al. (2009) schreiben, dass für eine mögliche Metaanalyse lediglich Folgendes erforderlich ist:

Studien berichten über eine Punktschätzung, die als einzelne Zahl ausgedrückt werden kann.
Für diese Punktschätzung kann eine Varianz berechnet werden.

Mir ist nicht sofort klar, warum (2) unbedingt notwendig ist. Tatsächlich stützen sich jedoch alle allgemein anerkannten Methoden der Metaanalyse auf präzisionsbasierte (dh inverse Varianz) Gewichtungsschemata, die eine Varianzschätzung für die Effektgröße jeder Studie erfordern. Es ist zu beachten, dass die Hedges-Methode (Hedges & Olkin, 1985; Hedges & Vevea, 1998) und die Hunter- und Schmidt-Methode (Hunter & Schmidt, 2004) grundsätzlich die Gewichtung der Stichprobengröße verwenden, diese Methoden jedoch nur für normalisierte mittlere Unterschiede gelten und daher erforderlich sind eine Standardabweichung an anderer Stelle. Es ist sinnvoll, dass Gewichte, die umgekehrt proportional zur Varianz in jeder Studie sind, die Varianz im Schätzer für die Gesamteffektgröße minimieren. Ist dieses Gewichtungsschema also ein erforderliches Merkmal aller Methoden?

Ist es möglich, eine systematische Überprüfung ohne Zugriff auf die Varianz für jede Effektgröße durchzuführen und das Ergebnis dennoch als Metaanalyse zu bezeichnen? Die Stichprobengröße scheint ein Potenzial für die Genauigkeit zu haben, wenn keine Varianz verfügbar ist. Könnte man zum Beispiel die Stichprobengrößengewichtung in einer Studie verwenden, in der die Effektgröße als rohe mittlere Differenz definiert wurde? Wie würde sich dies auf die Konsistenz und Effizienz der resultierenden mittleren Effektgröße auswirken?

— Jennifer
quelle

eine gute Frage. Wenn Sie eine eindeutige spezifische Abfrage stellen, kann dies dem Leser helfen.

— Subhash C. Davar

Insbesondere suche ich nach einer Möglichkeit, ein Maß für die Heterogenität zwischen Studien (dh zufällige Effekte) in mein Gewichtungsschema aufzunehmen, wenn Varianzdaten nicht für alle Studien verfügbar sind. Eine frühere, spezifischere Version meiner Frage finden Sie hier: stats.stackexchange.com/questions/155063/…

— Jennifer

11

Die Frage ist schwer zu beantworten, da sie in einem Großteil der metaanalytischen Literatur auf eine allgemeine Verwirrung und einen durcheinandergebrachten Zustand hinweist (das OP ist hier nicht schuld - es ist die Literatur und die Beschreibung der Methoden , Modelle und Annahmen, die oft ein Chaos sind).

Um es kurz zu machen: Nein, wenn Sie eine Reihe von Schätzungen kombinieren möchten (die einen Effekt, einen Assoziationsgrad oder ein anderes als relevant erachtetes Ergebnis quantifizieren) und es sinnvoll ist, diese Zahlen zu kombinieren. dann könnte man einfach ihren (ungewichteten) Durchschnitt nehmen und das wäre vollkommen in Ordnung. Daran ist nichts auszusetzen, und unter den Modellen, die wir normalerweise bei der Durchführung einer Metaanalyse annehmen, erhalten Sie sogar eine unvoreingenommene Schätzung (vorausgesetzt, die Schätzungen selbst sind unvoreingenommen). Nein, Sie benötigen keine Stichprobenabweichungen, um die Schätzungen zu kombinieren.

Warum ist die inverse Varianzgewichtung fast gleichbedeutend mit einer tatsächlichen Metaanalyse? Dies hat mit der allgemeinen Idee zu tun, dass wir großen Studien (mit kleineren Stichprobenvarianzen) mehr Glaubwürdigkeit beimessen als kleineren Studien (mit größeren Stichprobenvarianzen). Tatsächlich führt die Verwendung der inversen Varianzgewichtung unter den Annahmen der üblichen Modelle zu dem einheitlich unverzerrten Schätzer für die minimale Varianz(UMVUE) - Nun, wenn wir wieder unvoreingenommene Schätzungen annehmen und die Tatsache ignorieren, dass die Stichprobenvarianzen tatsächlich oft nicht genau bekannt sind, sondern selbst geschätzt werden und in Zufallseffektmodellen, müssen wir auch die Varianzkomponente für die Heterogenität schätzen. aber dann haben wir es einfach als eine bekannte Konstante behandelt, was auch nicht ganz richtig ist ... aber ja, wir erhalten den UMVUE, wenn wir die inverse Varianzgewichtung verwenden, wenn wir nur unsere Augen sehr fest zusammenknicken und einige davon ignorieren Probleme.

Hier geht es also um die Effizienz des Schätzers, nicht um die Unparteilichkeit selbst. Aber selbst ein ungewichteter Durchschnitt ist oft nicht viel weniger effizient als die Verwendung eines gewichteten Durchschnitts mit inverser Varianz, insbesondere in Modellen mit zufälligen Effekten und wenn die Heterogenität groß ist (in diesem Fall führt das übliche Gewichtungsschema zu nahezu einheitlichen Gewichten wie auch immer!). Aber selbst in Modellen mit festen Effekten oder mit geringer Heterogenität ist der Unterschied oft nicht überwältigend.

Und wie Sie erwähnen, kann man auch leicht andere Gewichtungsschemata in Betracht ziehen, wie die Gewichtung nach Stichprobengröße oder eine Funktion davon, aber auch dies ist nur ein Versuch, etwas in die Nähe der inversen Varianzgewichte zu bringen (da die Stichprobenvarianzen sind, um weitgehend bestimmt durch die Stichprobengröße einer Studie).

Aber wirklich, man kann und sollte das Thema Gewichte und Varianzen insgesamt "entkoppeln". Es sind wirklich zwei getrennte Stücke, über die man nachdenken muss. Aber so werden die Dinge in der Literatur normalerweise nicht dargestellt.

Der Punkt hier ist jedoch, dass Sie wirklich über beides nachdenken müssen. Ja, Sie können einen ungewichteten Durchschnitt als kombinierte Schätzung verwenden, und dies wäre im Wesentlichen eine Metaanalyse. Wenn Sie jedoch mit der Schlussfolgerung auf der Grundlage dieser kombinierten Schätzung beginnen möchten (z. B. einen Hypothesentest durchführen, erstellen Sie ein Konfidenzintervall) ) müssen Sie die Stichprobenvarianzen (und das Ausmaß der Heterogenität) kennen. Stellen Sie sich das so vor: Wenn Sie eine Reihe kleiner (und / oder sehr heterogener) Studien kombinieren, ist Ihre Punktschätzung viel ungenauer als wenn Sie dieselbe Anzahl sehr großer (und / oder homogener) Studien kombinieren. Studien - unabhängig davon, wie Sie Ihre Schätzungen bei der Berechnung des kombinierten Werts gewichtet haben.

Tatsächlich gibt es sogar einige Möglichkeiten, die Stichprobenabweichungen (und das Ausmaß der Heterogenität) nicht zu kennen, wenn wir mit der Inferenzstatistik beginnen. Man kann Methoden in Betracht ziehen, die auf Resampling basieren (z. B. Bootstrapping, Permutationstests) oder Methoden, die konsistente Standardfehler für die kombinierte Schätzung liefern , selbst wenn wir Teile des Modells falsch spezifizieren - aber wie gut diese Ansätze funktionieren können, muss sorgfältig auf a bewertet werden von Fall zu Fall.

— Wolfgang
quelle

0

Wenn Sie einige der Standardfehler kennen, aber nicht alle, finden Sie hier eine Lösung:

(1) Nehmen Sie an, dass die unbekannte SE zufällig aus derselben Verteilung wie die bekannten SE gezogen wird, oder lassen Sie die Verteilung der SE der Schätzungen der Papiere mit unbekannter SE eine freie Variable sein. Wenn Sie Lust haben, können Sie die Modellmittelung über diese Optionen verwenden.

(2) Schätzung über maximale Wahrscheinlichkeit

Wenn Ihre Studie mit unbekannter SE ein "Ausreißer" ist, erklärt das Modell die Anomalie auf eine Kombination dieser Arten:

(a) Die Studie hatte wahrscheinlich eine hohe SE für ihre Schätzung (die Studie hat wahrscheinlich eine niedrige Leistung).

(b) Die Studie hat wahrscheinlich eine große Zufallseffektkomponente (der Forscher hat einen Datensatz oder eine Methode usw. ausgewählt, die ein atypisches Ergebnis liefert).

Tatsächlich verringert dieses Modell die effektive Genauigkeit der Schätzung mit unbekannter SE, wenn sie anomaler wird. In dieser Hinsicht ist es äußerst robust gegenüber der Einbeziehung von „Ausreißern“. Wenn Sie gleichzeitig viele Studien mit unbekannter Varianz, aber typischen Ergebnissen hinzufügen, sinkt gleichzeitig die SE oder Ihre endgültige Schätzung.

— Frustriert
quelle