Welche deskriptiven Statistiken sind keine Effektgrößen?


12

Wikipedia sagt

Die Effektgröße ist ein Maß für die Stärke eines Phänomens oder eine stichprobenartige Schätzung dieser Menge. Eine aus Daten berechnete Effektgröße ist eine beschreibende Statistik, die die geschätzte Größe einer Beziehung angibt, ohne eine Aussage darüber zu treffen, ob die offensichtliche Beziehung in den Daten eine echte Beziehung in der Grundgesamtheit widerspiegelt.

Um es besser zu verstehen, habe ich mich gefragt, welche beschreibenden Statistiken keine Effektgröße sind, außer Grafiken und Plots.


Diagramme und Plots können tatsächlich großartig sein, um die Größe eines Effekts auf intuitivere Weise zu messen als die Größe eines Effekts. Wenn Sie tatsächlich sehen die Überlappung zwischen zwei Gruppen auf einigen Maßnahmen (die zu einem kleineren etwa entsprechen würde d ), dann ist es vielleicht leichter zu erkennen , dass ein signifikanter Unterschied bedeutet nicht , dass Mitglied einer Gruppe alle niedrigere Werte haben als Mitglieder der anderen Gruppe usw.
Gala

Antworten:


18

Effektgrößen

  • Gängige standardisierte Effektgrößen quantifizieren typischerweise das Ausmaß oder den Grad einer Beziehung oder eines Effekts. Die gebräuchlichsten Größenmaße für Effekte sind wahrscheinlich cohen's d, Pearson's r und die Odds Ratio (insbesondere für einen binären Prädiktor).
  • Weniger gebräuchliche Größenmaße für Effekte:Das heißt, Sie können standardisierte und nicht standardisierte Größenmaße für Effekte festlegen. Jede Statistik, die den Grad der Beziehung angibt und nicht besonders durch die Stichprobengröße kontaminiert ist, ist wahrscheinlich ein Maß für die Effektgröße. Somit erfassen Beta-Koeffizienten, R-Quadrat, Kovarianz, rohe mittlere Unterschiede zwischen Gruppen usw. den Grad der Wirkung. Trotzdem stelle ich fest, dass einige Forscher die Größenmaße der Effekte etwas blind anwenden und vergessen, dass das allgemeinere Ziel darin besteht, den Lesern einen Eindruck vom Grad der Wirkung zu vermitteln. Und so erkennen sie oft nicht, dass Maße wie mittlere Differenzen oder rohe Regressionskoeffizienten in gewisser Weise ein Maß für die Effektgröße sind. Ein weiteres Beispiel für die blinde Verwendung von Effektgrößen ist die Verwendung von Effektgrößenmaßen, die nicht intuitiv interpretiert werden können, aber von einigen Lehrbüchern empfohlen wurden.

Nicht Effektgrößen:

  • Die meisten Teststatistiken sind keine Effektgrößen. ZB Chi-Quadrat-Test, T-Test, Z-Test, F-Test. Sie werden sowohl mit zunehmender Populationsgröße als auch mit zunehmender Stichprobengröße größer. In vielerlei Hinsicht wurde in den letzten Jahren die gesamte Sprache der Effektgrößen hervorgehoben, da sich die Forscher zu sehr darauf konzentrierten, wie groß ihre Teststatistiken und nicht wie groß ihre Effektgrößen waren. Dies ist besonders wichtig, wenn Sie eine große Stichprobengröße haben und selbst kleine Effekte statistisch signifikant sein können.
  • Die meisten univariaten Statistiken sind keine Effektgrößen. In den meisten Fällen hängt die Effektgröße von der Beziehung zwischen mindestens zwei Variablen ab. Daher sind der Stichprobenmittelwert, die Standardabweichung, der Versatz, die Kurtosis, die minimale und die maximale Abweichung usw. keine Messgrößen für die Auswirkung.
  • Statistiken, die sich nicht auf den Verwandtschaftsgrad beziehen, sind keine Größenmaße. Zum Beispiel zielen Tests der multivariaten Normalität, der Eigenwerte einer Matrix usw. im Allgemeinen nicht direkt darauf ab, einen Effekt im gewöhnlichen Sinne des Wortes zu quantifizieren.

Weitere Überlegungen

  • Überlegungen zur Skalierung: Der Nutzen einer Statistik als Maß für die Effektgröße hängt weitgehend von ihrer Fähigkeit ab, die Größe eines Effekts zu kommunizieren. Manchmal wird dies durch die Verwendung bekannter standardisierter Wirkungsmaße erreicht (z. B. Cohens d). In anderen Fällen kann eine sorgfältige Betrachtung der Skalierung der Variablen zu einer noch klareren Interpretation der Größe des Effekts führen. Nehmen wir zum Beispiel an, ich hätte eine Studie über ein Trainingsprogramm auf Einkommensebene. Ich konnte berichten, dass das Trainingsprogramm das Einkommen um 0,2 Standardabweichungen erhöhte, oder ich konnte sagen, dass das Programm das Einkommen um 3.500 US-Dollar erhöhte. Beide sind nützlich; beides sind effektgrößenmaße. Das erste ist standardisiert (cohen's d), das zweite ist nicht standardisiert (rohe mittlere Gruppendifferenzen).
  • Präzision bei der Schätzung von Effektgrößen: Wir extrahieren häufig Stichprobenschätzungen von Effektgrößenmaßen (z. B. Cohen's d, Pearson's r usw.). Dieser Kontext kann dazu führen, dass Signifikanztests mit Effektgrößenmessungen verglichen werden. Trotzdem sollte das Ziel weiterhin darin bestehen, die Größe der Bevölkerungseffekte präzise und unvoreingenommen abzuschätzen. Aus Sicht des Frequenzspektrums liefern Konfidenzintervalle um die Effektgröße eine Schätzung der Präzision. Aus Bayes-Sicht gibt es Posterior-Dichten für Effektgrößen. In vielen Fällen muss darauf geachtet werden, dass Sie ein unbefangenes Effektgrößenmaß verwenden.

1
(+1) Gute Antwort.
chl

Der dritte und letzte Punkt erklären wahrscheinlich, woher die Autoren des Wikipedia-Artikels kommen. Angesichts der Betonung der Psychologie geht es meines Erachtens weniger darum, die Effektgröße mit anderen deskriptiven Statistiken zu kontrastieren, sondern vielmehr um Teststatistiken und p-Werte (dh Inferenzstatistiken).
Gala

Vielen Dank für Ihre nette Antwort. Ich habe jedoch eine Frage: Meinst du, das Konfidenzintervall kann nicht als Maß für die Effektgröße verwendet werden, da es in direktem Zusammenhang mit der Stichprobengröße steht? (Mit Konfidenzintervall meine ich den Wert, der zur Prävalenz addiert oder von dieser subtrahiert wird, den Mittelwert usw. - nicht die Ober- und Untergrenze eines CI).
Vic

2
@Vic Sie können ein Konfidenzintervall für eine Effektgrößenmessung festlegen, das Konfidenzintervall selbst ist jedoch nicht die Effektgröße.
Jeromy Anglim

Äh vielen Dank, lieber Jeromy. In all den Jahren habe ich mich geirrt. :)
Vic

6

Erstens können Effektgrößen sowohl inferenziell als auch beschreibend verwendet werden. r und ORs sind alle Effektgrößen und werden mit Sicherheit alle in den Inferenzstatistiken verwendet.

Univariate Statistiken sind normalerweise keine Effektgrößen, obwohl dies möglich ist. Wenn Sie beispielsweise das Alter von Männern und Frauen vergleichen, die miteinander verheiratet sind, ist das Durchschnittsalter von Männern keine Effektgröße (der Unterschied der Mittelwerte wäre eine Effektgröße). Wenn Sie jedoch sehen möchten, ob der Mittelwert von etwas 0 ist, ist der Mittelwert eine Effektgröße.

Wenn es einen Effekt misst, ist es eine Effektgröße!


Ich denke, das ist wahr, @Peter, aber die Effektgröße ist ein Begriff, der von Cohen enger definiert wurde: (Mean1-Mean2) / PooledSD. Das klingt ein bisschen so, als wäre der Unterschied signifikant oder nur statistisch signifikant - die Verwendung gebräuchlicher Wörter, um einen statistischen Begriff zu definieren.
doug.numbers

2
Wo definiert Cohen das so? Wenn Sie sein Buch über Power Analysis meinen, ich denke, er verwendet das als die Art von Standard, um andere Effektgrößen in umzuwandeln. Aber jede Leistungsanalysetabelle in diesem Buch (und es gibt eine Menge) verwendet eine bestimmte Effektgröße (und nicht alle verwenden diese)
Peter Flom - Reinstate Monica

1
Cohen's d ist immer so, wie ich es verstanden habe. Ähnlich wie beschrieben en.wikipedia.org/wiki/Effect_size . Aber Sie haben absolut Recht, es gibt viele Methoden, die als Effektgröße bezeichnet werden.
doug.numbers

4
Der T-Test und der Z-Test sind keine Effektgrößen. Die gleiche Effektgröße ergibt für verschiedene Probengrößen wesentlich unterschiedliche t- und z-Werte.
Jeromy Anglim

1
@ JeromyAnglim ist richtig; +1. Ich habe meine Antwort
geändert
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.