Was ist die Effektgröße… und warum ist sie überhaupt nützlich?


18

Ich habe einen statistischen Hintergrund auf Einführungsniveau (vorausgesetzt, ich kenne die mathematische Statistik und die Wahrscheinlichkeit auf einem Bachelor-Niveau (z. B. Wackerly et al., Ross 'Probability) und verfüge über einige Kenntnisse der Maßtheorie).

Ich habe vor kurzem angefangen, experimentelles Design und statistische Berichterstattung in der Bildungsstatistik zu betreiben, und war in einem Projekt beschäftigt, in dem ich im Grunde Rechenschaftsmetriken für Schulen prüfe und die Daten analysieren, Änderungen vorschlagen usw. Beachten Sie, dass ich der einzige bin eine in meiner Abteilung mit einem mathematischen Statistikhintergrund.

In meiner Position haben die Leute dringend empfohlen, die Effektgröße zu verwenden, um die Wirksamkeit von Programmen zu messen. Das einzige Mal, dass ich jemals von Effektstärke gehört habe, ist von meinem Freund, der Psychologie studiert hat. Mein Eindruck ist, dass

Effect Size=Difference of MeansStandard Deviation.

Was ist an dieser Metrik im Vergleich zu herkömmlichen Hypothesentests so nützlich und warum sollte ich mich darum kümmern? Für mich ist es nichts anderes als eine Teststatistik für einen Test mit zwei Stichproben . Ich sehe das überhaupt nicht als nützlich an, abgesehen davon, dass vielleicht alles auf den gleichen Maßstab gebracht wird (weshalb jeder wirklich irgendetwas "normalisiert"), aber ich dachte, dass Teststatistiken (wie mir die Effektgröße erscheint) aus der Mode gekommen sind und Werte sind bevorzugt.tp


Ich bin ein wenig verwirrt von "Einführung in die Statistik"; Die ersten beiden Begriffe scheinen sich zu widersprechen. Können Sie klären, was das beinhaltet? Ist das so etwas wie der Beginn der Graduiertenstatistik oder etwas anderes?
Glen_b

2
@Glen_b Ja, es beginnt mit Statistiken für Absolventen. Angenommen, ich kenne mathematische Statistik und Wahrscheinlichkeitsrechnung auf Bachelor-Niveau (z. B. Wackerly et al., Ross 'Probability) und habe einige Kenntnisse in der Maßtheorie.
Klarinettist

3
Ich kann mitfühlen, OP. Vor dem Hintergrund von Mathematik / Statistik war es oft verwirrend, Statistiken mit soziologisch oder psychologisch ausgebildeten Doktoranden zu diskutieren, da sie unterschiedliche Begriffe für alles haben :) und manchmal starre Vorstellungen darüber haben, wie man Dinge genau macht, unabhängig davon, ob dies der Fall ist die beste statistische Praxis, z. B. den Versuch, einen hartnäckigen Prüfer / Herausgeber davon zu überzeugen, dass die Modellierung von Strukturgleichungen nicht die Lösung für alle Probleme ist, oder dass Linearität nicht immer eine gute Annahme ist! Ich habe jedoch gelernt, mich nach einigen Jahren recht gut mit dieser Community zu verbinden!
CrockGill

Antworten:


20

Das ist ein Maß für die Effektgröße, aber es gibt viele andere. Es ist sicherlich nicht das t Test-Statistik. Ihr Maß für die Effektgröße wird oft als Cohens (genau genommen ist dies nur dann richtig, wenn die SD über MLE geschätzt wird, dh ohne Bessels Korrektur ). allgemeiner wird es als "standardisierte mittlere Differenz" bezeichnet. Vielleicht wird dadurch klarer, dass t d : ddtd

d=x¯2x¯1SDt=x¯2x¯1SEt=x¯2x¯1SDN
Das heißt, das " "fehlt in der Formel für die standardisierte mittlere Differenz. /N

Im Allgemeinen liefert das Herausnehmen der Stichprobengröße aus dem Wert echte Informationen. Angenommen, der wahre Effekt ist nicht genau bis unendlich Dezimalstellen, können Sie mit ausreichend N ein beliebiges Signifikanzniveau erreichen0N . Der Wert gibt Auskunft darüber, wie sicher wir sein können, die Nullhypothese abzulehnen. Dies geschieht jedoch, indem wir die Größe des Effekts mit der Menge Ihrer Daten in Einklang bringen. Es ist sicherlich schön zu wissen, ob wir die Nullhypothese ablehnen sollten, aber es wäre auch schön zu wissen, ob der Effekt Ihrer pädagogischen Intervention große Gewinne für Schulkinder bringt oder trivial ist und nur aufgrund großer N signifikant war . pN


15

Ich erwarte, dass jemand mit einem Hintergrund in einem relevanteren Bereich (z. B. Psychologie oder Erziehung) eine bessere Antwort findet, aber ich werde es versuchen.

" Effektgröße " ist ein Begriff mit mehr als einer Bedeutung - was vor vielen Jahren zu einigen verwirrenden Gesprächen führte, bis ich schließlich zu dieser Erkenntnis kam. Hier haben wir es eindeutig mit der für Standardabweichungen skalierten Version zu tun ("Um wie viele Standardabweichungen hat sich das geändert?").

Ein Grund für die Betrachtung dieser Art von "Effektgröße" in den Themenbereichen, in denen sie häufig vorkommen, besteht darin, dass sie häufig Variablen haben, deren bestimmte Werte nicht von Natur aus bedeutsam sind, sondern darauf ausgelegt sind, eine zugrunde liegende Sache zu messen, die schwer zu ermitteln ist beim.

Stellen Sie sich zum Beispiel vor, Sie versuchen, die Arbeitszufriedenheit zu messen (möglicherweise für ein Modell, das sich auf eine Reihe unabhängiger Variablen bezieht, beispielsweise auf eine Behandlung von Interesse). Sie haben keine Möglichkeit, direkt darauf zuzugreifen, aber Sie könnten (zum Beispiel) versuchen, einen Fragebogen zu erstellen, um verschiedene Aspekte davon zu erfassen, vielleicht unter Verwendung einer Likert-Skala.

Ein anderer Forscher hat möglicherweise einen anderen Ansatz, um die Arbeitszufriedenheit zu messen, und daher sind Ihre beiden "Zufriedenheits" - Messreihen nicht direkt vergleichbar - aber wenn sie die verschiedenen Gültigkeitsformen haben und so weiter, werden diese Dinge überprüft (so dass sie können vernünftigerweise die Zufriedenheit messen), dann kann gehofft werden, dass sie sehr ähnliche Effektgrößen haben; Zumindest wird die Effektgröße annähernd vergleichbar sein.


3
macht einen sehr guten Job, um die Idee eines Konstrukts ohne technische Details einzuführen. Aber in Ihrer Arbeit, Klarinettist, müssen Sie diese Idee gründlich verstehen. Ich empfehle dringend die Originalquelle zu 'Konstruktvalidität', Cronbach & Meehls
David C. Norris

7

Die obige Formel gibt an, wie Sie Cohens d für verwandte Stichproben berechnen (welche haben Sie wahrscheinlich?). Wenn diese nicht verwandt sind, können Sie stattdessen die gepoolte Varianz verwenden. Es gibt verschiedene Statistiken, die Sie über die Effektgröße informieren, aber Cohens d ist ein standardisiertes Maß, das zwischen 0 und 3 variieren kann. Wenn Sie viele verschiedene Variablen haben, kann es hilfreich sein, über ein standardisiertes Maß nachzudenken sie alle zusammen. Andererseits ziehen es viele Menschen vor, die Effektgröße in Bezug auf die gemessenen Einheiten zu verstehen. Warum berechnen Sie d, wenn Sie bereits p-Werte haben? Hier ist ein Beispiel aus einem Datensatz, mit dem ich gerade arbeite. Ich betrachte eine Verhaltensintervention in Schulen, die mit validierten psychologischen Fragebögen (die Likert-Daten produzieren) gemessen wurde. Fast alle meine Variablen zeigen statistisch signifikante Veränderungen, was vielleicht nicht verwunderlich ist, da ich eine große Stichprobe habe (n = ~ 250). Für einige Variablen gilt jedoch Cohens dist recht winzig, etwa 0,12, was darauf hinweist, dass es sich zwar zweifellos um eine Änderung handelt, es sich jedoch möglicherweise nicht um eine klinisch wichtige Änderung handelt. Daher ist es wichtig, zu diskutieren und zu interpretieren, was in den Daten vor sich geht. Dieses Konzept ist in den Psychologie- und Gesundheitswissenschaften weit verbreitet, wo die Praktiker (oder in Ihrem Fall die Schulen) den tatsächlichen klinischen Nutzen von Behandlungen (oder was auch immer sie experimentieren) berücksichtigen müssen. Cohens d hilft uns bei der Beantwortung von Fragen, ob es sich wirklich lohnt, eine Intervention durchzuführen (unabhängig von den p-Werten). In den medizinischen Wissenschaften berücksichtigen sie auch gerne die NNT und bewerten diese anhand der Schwere des betreffenden Zustands. Schauen Sie sich diese großartige Ressource von @krstoffr an: http://rpsychologist.com/d3/cohend/



2

Tatsächlich sind p-Werte nun auch endgültig „aus der Mode“: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Das Testen der Signifikanz von Nullhypothesen (NHST) liefert kaum mehr als eine Beschreibung Ihrer Stichprobengröße. (*) Jeder experimentelle Eingriff hat eine gewisse Auswirkung, dh, die einfache Nullhypothese, dass keine Auswirkung vorliegt, ist im engeren Sinne immer falsch . Ein "nicht signifikanter" Test bedeutet daher einfach, dass Ihre Stichprobengröße nicht groß genug war. Ein "signifikanter" Test bedeutet, dass Sie genug Daten gesammelt haben, um etwas zu "finden".

Die "Effektgröße" stellt einen Versuch dar, dies zu beheben, indem ein Maß in der natürlichen Größenordnung des Problems eingeführt wird. In der Medizin, in der Behandlungen immer einen gewissen Effekt haben (auch wenn es sich um einen Placebo-Effekt handelt), wird der Begriff eines „klinisch bedeutsamen Effekts“ eingeführt, um der 50% igen Wahrscheinlichkeit zuvor vorzubeugen, dass eine „Behandlung“ einen „a“ hat ( statistisch signifikanter positiver Effekt (jedoch winzig) in einer beliebig großen Studie.

Wenn ich die Natur Ihrer Arbeit verstehe, Klarinettist, dann besteht ihr legitimes Ziel letztendlich darin , Maßnahmen / Interventionen zu informieren , die die Bildung in den Schulen unter Ihrer Kontrolle verbessern. Daher handelt es sich bei Ihrer Einstellung um eine entscheidungstheoretische Einstellung , und Bayes'sche Methoden sind der am besten geeignete (und eindeutig kohärente [1] ) Ansatz.

Tatsächlich ist der beste Weg, um frequentistische Methoden zu verstehen, die Annäherung an die Bayes'schen Methoden . Die geschätzte Effektgröße kann so verstanden werden, dass ein Maß für die Zentralität der Bayes'schen posterioren Verteilung angestrebt wird, während der p-Wert so verstanden werden kann, dass ein Schwanz dieses posterioren gemessen werden soll. Somit zusammen enthalten diese beiden Größen einige grobe Kern der Bayes - posterior , die auf Ihrem Problem die natürliche Eingabe in eine entscheidungstheoretische Perspektiven darstellt. (Alternativ kann ein frequentistisches Konfidenzintervall für die Effektgröße ebenfalls als ein glaubwürdiges Intervall verstanden werden .)

In den Bereichen Psychologie und Pädagogik sind die Bayes'schen Methoden tatsächlich recht beliebt. Ein Grund dafür ist, dass es einfach ist, "Konstrukte" als latente Variablen in Bayes'sche Modelle zu installieren. Vielleicht möchten Sie sich das Welpenbuch von John K. Kruschke , einem Psychologen, ansehen . Im Bildungsbereich (wo Schüler in Klassenräumen, Schulen, Distrikten usw. eingebettet sind) ist eine hierarchische Modellierung unvermeidlich. Bayesianische Modelle eignen sich auch hervorragend für die hierarchische Modellierung. In diesem Zusammenhang möchten Sie vielleicht Gelman & Hill [2] ausprobieren.

[1]: Robert, Christian P. Die Bayes'sche Wahl: Von entscheidungs-theoretischen Grundlagen zur rechnergestützten Implementierung. 2nd ed. Springer-Texte in der Statistik. New York: Springer, 2007.

[2]: Gelman, Andrew und Jennifer Hill. Datenanalyse mit Regression und mehrstufigen / hierarchischen Modellen. Analytische Methoden für die Sozialforschung. Cambridge; New York: Cambridge University Press, 2007.


Weitere Informationen zum Thema „Kohärenz“ unter dem Gesichtspunkt, dass man sich nicht unbedingt mit einem Bayes'schen Ziegel auf den Kopf schlagen muss, finden Sie in [3].

[3]: Robins, James und Larry Wasserman. "Konditionierung, Wahrscheinlichkeit und Kohärenz: Ein Überblick über einige grundlegende Konzepte." Journal of the American Statistical Association 95, No. 452 (1. Dezember 2000): 1340–46. doi: 10.1080 / 01621459.2000.10474344.

(*) In [4] geißelt Meehl NHST viel eleganter, aber nicht weniger aggressiv als ich:

Da die Nullhypothese quasi immer falsch ist, sind Tabellen, in denen die Untersuchung anhand von Mustern „signifikanter Unterschiede“ zusammengefasst wird, kaum mehr als komplexe, kausal nicht interpretierbare Ergebnisse statistischer Potenzfunktionen.

[4]: Meehl, Paul E. „Theoretische Risiken und tabellarische Sternchen: Sir Karl, Sir Ronald und der langsame Fortschritt der weichen Psychologie.“ Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


Und hier ist ein entsprechendes Zitat von Tukey: /stats//a/728/41404


1
" Jede experimentelle Intervention wird einen gewissen Effekt haben" (mein Schwerpunkt) ist eine ziemlich starke Aussage, wie auch das folgende "immer". In einigen Studienbereichen ist es wahrscheinlich eine ausgezeichnete Faustregel, aber ich denke, es birgt die Gefahr, zu weit zu gehen. Ich würde auch vorschlagen , dass „[NHST] produziert wenig mehr als eine Beschreibung Ihrer Probengröße“ ist fraglich: Der p-Wert ergibt sich aus dem Zusammenspiel zwischen beiden der Größe der Probe und der Größe des Effekts.
Silverfish

@Silverfish, danke für deine Antwort. Ich möchte Sie einladen, ein Beispiel zu nennen, in dem meine Sicht auf p-Werte „gefährlich“ wäre. (Übrigens hatte ich einige kursiv gesetzt und den Ausdruck "im engeren Sinne" im Vorgriff auf eine Beschwerde wie Ihre verwendet. Meine Behauptung besteht immer noch.) Obwohl der p-Wert in der Tat "aus einem Zusammenspiel hervorgeht" von Zwei weitere Faktoren, einer davon (Stichprobengröße), ist weitgehend ein freier Designparameter, der willkürlich gewählt wird. Diese willkürliche Wahl ist es, was der p-Wert daher widerspiegelt. Zwei Zahlen sind eindeutig erforderlich; Warum nicht die Endpunkte eines Konfidenzintervalls?
David C. Norris

2
Als Beispiel: Jeder Fall, in dem wir die Nullhypothese vernünftigerweise als wahr ansehen oder zumindest nicht eindeutig behaupten konnten, dass sie falsch ist, ohne dass wir uns die Mühe gemacht hätten, ein Experiment durchzuführen oder die Daten zu untersuchen. Nicht alle Nullen sind falsch: Betrachten Sie Forschung in der Parapsychologie, wie zum Beispiel Telepathie- und Vorkenntnis-Experimente, aber viele Nullen sind wahr in Bereichen, die Sie für "wissenschaftlich valider" halten, wie zum Beispiel die Genomik.
Silverfish

5
-1, hier gibt es viele Probleme, IMO. Die Tatsache, dass 1 kleines Psychologiejournal p-Werte verboten hat, bedeutet nicht, dass "p-Werte jetzt endgültig aus der Mode sind". Das Verbot wurde vielfach kritisiert (einschließlich einer höflichen Erklärung der ASA & wurde in den letzten Monaten von keiner anderen Zeitschrift aufgegriffen). , wird aber nur von Fall zu Fall
gung - Wiedereinsetzung von Monica

3
In einem echten Experiment durchbricht der Prozess der Randomisierung von Einheiten jedoch endogene Pfade, wodurch ein Test eines direkten Kausalpfades von X nach Y ermöglicht wird. Es ist eine seltsame metaphysische Behauptung, dass alle Variablen in beide Richtungen direkt kausal zusammenhängen, aber wenn Sie Halten Sie das nicht für falsch, es ist inkohärent zu behaupten, dass die „Nullhypothese von‚ no effect 'immer falsch ist “.
gung - Wiedereinsetzung von Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.