Effektgröße als Hypothese für Signifikanztests


37

Heute, im Cross Validated Journal Club (warum warst du nicht da?), Fragte @mbq:

Glauben Sie, wir (moderne Datenwissenschaftler) wissen, was Bedeutung bedeutet? Und in welcher Beziehung steht es zu unserem Vertrauen in unsere Ergebnisse?

@Michelle antwortete, wie einige (einschließlich mir) normalerweise tun:

Ich finde das Konzept der Signifikanz (basierend auf p-Werten) im weiteren Verlauf meiner Karriere immer weniger hilfreich. Ich kann zum Beispiel extrem große Datensätze verwenden, sodass alles statistisch signifikant ist ( ).p<.01

Dies ist wahrscheinlich eine dumme Frage, aber ist das Problem nicht die Hypothese, die geprüft wird? Wenn Sie die Nullhypothese "A ist gleich B" testen, wissen Sie, dass die Antwort "Nein" ist. Größere Datenmengen bringen Sie dieser unweigerlich zutreffenden Schlussfolgerung nur näher. Ich glaube, es war Deming, der einmal ein Beispiel mit der Hypothese gab: "Die Anzahl der Haare auf der rechten Seite eines Lammes ist gleich der Anzahl der Haare auf der linken Seite." Na klar ist es nicht.

Eine bessere Hypothese wäre: "A unterscheidet sich nicht mehr als so sehr von B." Oder im Beispiel Lamm: "Die Anzahl der Haare an den Seiten eines Lammes unterscheidet sich nicht um mehr als X%."

Macht das Sinn?


1) Das Testen der mittleren Äquivalenz (vorausgesetzt, Sie möchten dies) kann in einigen Fällen vereinfacht werden, um die Signifikanz der mittleren Differenz zu testen. Mit einem Standardfehler für diese Differenzschätzung können Sie alle Arten von Tests für die Sorten "Nicht um mehr von B unterscheiden ..." durchführen. 2) Was die Stichprobengröße betrifft - ja, bei großen Stichproben nimmt die Bedeutung der Signifikanz ab, sie ist jedoch immer noch von entscheidender Bedeutung für kleinere Stichproben, bei denen Sie nicht einfach zusätzliche Werte generieren können.
Ondrej

11
Re "Natürlich ist es nicht." Vermutlich hat ein Lamm auf jeder Seite etwa Haare. Wenn es eine gerade Anzahl solcher Haare gibt und sie zufällig mit gleichen Chancen auf beiden Seiten verteilt sind und die Seiten klar abgegrenzt sind , beträgt die Wahrscheinlichkeit, dass beide Zahlen genau gleich sind, 0,178%. In einer großen Herde von mehreren Hundert sollte man damit rechnen , dass mindestens einmal in jedem Jahrzehnt ein so perfekt ausbalanciertes Lamm geboren wird (vorausgesetzt, eine gerade Anzahl von Haaren kommt in etwa 50% der Fälle vor). Oder: Fast jeder alte Schafzüchter hat so ein Lamm gehabt! 105
whuber

1
@whuber Es wird durch den Zweck der Analyse bestimmt. Eine bessere Analogie wäre, was die minimale Effektgröße ist, die eine weitere Investition in ein Medikament nach einer Studie rechtfertigt. Nur das Vorhandensein eines statistisch signifikanten Effekts reicht nicht aus, da die Entwicklung eines Arzneimittels teuer ist und möglicherweise Nebenwirkungen zu berücksichtigen sind. Es ist keine statistische, sondern eine praktische Frage.
Dikran Beuteltier

2
@whuber Ich vermute, dass in den meisten Anwendungen, in denen es keine praktischen Informationen gibt, um die interessierende minimale Effektgröße zu bestimmen, der Standardhypothesentest in Ordnung ist, zum Beispiel das Testen auf Normalität. Als Bayesianer würde ich der Ansicht zustimmen, dass es sich eher um ein Optimierungsproblem als um ein Hypothesentestproblem handelt. Ein Teil des Problems mit Hypothesentests resultiert aus dem Statistik-Kochbuch-Ansatz, bei dem Tests traditionell durchgeführt werden, ohne den Zweck der Übung oder die wahre Bedeutung des Ergebnisses zu berücksichtigen (natürlich alle IMHO).
Dikran Beuteltier

1
@DikranMarsupial ist da nicht der Schlüssel, dass den Schülern Tests auswendig beigebracht werden, wie unten durch gung identifiziert, und nicht die Wichtigkeit eines guten Studiendesigns? Würde eine stärkere Betonung des Studiendesigns dazu beitragen, einige Probleme zu lösen - nicht unbedingt bei großen Datenmengen?
Michelle

Antworten:


25

Was Signifikanztests anbelangt (oder irgendetwas anderes, das im Wesentlichen dasselbe wie Signifikanztests tut ), habe ich lange geglaubt, dass der beste Ansatz in den meisten Situationen wahrscheinlich darin besteht, eine standardisierte Effektgröße mit einem Konfidenzintervall von 95% zu schätzen Effektgröße. Es gibt dort nichts wirklich Neues - mathematisch kann man zwischen ihnen hin- und herschieben - wenn der p-Wert für eine Null <.05 ist, dann liegt 0 außerhalb eines 95% -KI und umgekehrt. Der Vorteil davon ist meiner Meinung nach psychologischer Natur; Das bedeutet, dass wichtige Informationen vorhanden sind, die die Benutzer jedoch nicht sehen können, wenn nur p-Werte gemeldet werden. Es ist zum Beispiel leicht zu erkennen, dass ein Effekt sehr "bedeutend", aber lächerlich klein ist. oder "nicht signifikant", aber nur, weil die Fehlerbalken riesig sind, während der geschätzte Effekt mehr oder weniger dem entspricht, was Sie erwartet haben. Diese können mit Rohwerten und deren CIs gepaart werden.

In vielen Bereichen sind die Rohwerte von sich aus bedeutungsvoll, und ich erkenne, dass sich die Frage stellt, ob es sich noch lohnt, Effektgrößenmaße zu berechnen, da wir bereits Werte wie Mittelwerte und Steigungen haben. Ein Beispiel könnte sich mit verkümmertem Wachstum befassen. Wir wissen, was es für einen 20-jährigen weißen Mann bedeutet, 6 +/- 2 Zoll kürzer (dh 15 +/- 5 cm) zu sein, als sie es sonst tun würden. Warum also 5 ? Ich bin der Meinung, dass es immer noch sinnvoll ist, beides zu melden, und es können Funktionen geschrieben werden, um diese zu berechnen, so dass es nur sehr wenig zusätzliche Arbeit ist, aber ich erkenne, dass die Meinungen variieren werden. Ich behaupte jedenfalls, dass Punktschätzungen mit Konfidenzintervallen die p-Werte als ersten Teil meiner Antwort ersetzen. d=1.6±.5

Auf der anderen Seite, denke ich, ist eine größere Frage, ob Signifikanztests das sind, was wir wirklich wollen. Ich denke, das eigentliche Problem ist, dass für die meisten Menschen, die Daten analysieren (dh für Praktiker und nicht für Statistiker), Signifikanztests zur Gesamtheit der Datenanalyse werden können. Es scheint mir, dass das Wichtigste darin besteht, prinzipiell darüber nachzudenken, was mit unseren Daten vor sich geht, und das Testen der Signifikanz von Nullhypothesen ist bestenfalls ein sehr kleiner Teil davon. Lassen Sie mich ein imaginäres Beispiel geben (ich gebe zu, dass dies eine Karikatur ist, befürchte aber leider, dass dies etwas plausibel ist):

Bob führt eine Studie durch und sammelt Daten über irgendetwas. Er geht davon aus, dass die Daten normal verteilt sind und sich um einen bestimmten Wert gruppieren, und beabsichtigt, einen T-Test mit einer Stichprobe durchzuführen, um festzustellen, ob sich seine Daten von einem festgelegten Wert "erheblich unterscheiden". Nachdem er seine Probe gesammelt hat, prüft er, ob seine Daten normal verteilt sind und stellt fest, dass dies nicht der Fall ist. Stattdessen haben sie keinen ausgeprägten Knoten in der Mitte, sondern sind über einen bestimmten Zeitraum relativ hoch und ziehen dann mit einem langen linken Schwanz ab. Bob macht sich Gedanken darüber, was er tun soll, um sicherzustellen, dass sein Test gültig ist. Am Ende führt er etwas aus (z. B. eine Transformation, einen nicht parametrischen Test usw.) und gibt dann eine Teststatistik und einen p-Wert aus.

Ich hoffe, das wird nicht so schlimm. Ich will niemanden verspotten, aber ich denke, dass so etwas gelegentlich passiert. Sollte dieses Szenario eintreten, können wir uns alle darauf einigen, dass es sich um eine schlechte Datenanalyse handelt. Das Problem ist jedoch nicht, dass die Teststatistik oder der p-Wert falsch sind. wir können davon ausgehen, dass die daten in dieser hinsicht richtig behandelt wurden. Ich würde argumentieren, dass das Problem darin besteht, dass Bob sich mit dem beschäftigt, was Cleveland "Rote-Daten-Analyse" nennt. Er scheint zu glauben, dass der einzige Punkt darin besteht, den richtigen p-Wert zu erhalten, und denkt nur sehr wenig über seine Daten nach, außer dass er dieses Ziel verfolgt. Er hätte sogar zu meinem obigen Vorschlag übergehen und eine standardisierte Effektgröße mit einem Konfidenzintervall von 95% angeben können, und es hätte nichts an dem geändert, was ich als größeres Problem betrachte (das habe ich damit gemeint, im Wesentlichen dasselbe zu tun) "auf andere Weise). In diesem speziellen Fall ist die Tatsache, dass die Daten nicht so aussahen, wie er es erwartet hatte (dh nicht normal waren), eine echte Information, die interessant istund sehr wahrscheinlich wichtig, aber diese Informationen werden im Wesentlichen einfach weggeworfen. Bob erkennt dies nicht, da der Schwerpunkt auf Signifikanztests liegt. Meiner Meinung nach ist dies das eigentliche Problem beim Testen der Signifikanz.

Lassen Sie mich einige andere Perspektiven ansprechen, die erwähnt wurden, und ich möchte ganz klar sagen, dass ich niemanden kritisiere.

  1. Es wird oft erwähnt, dass viele Menschen p-Werte nicht wirklich verstehen (z. B. wenn sie glauben, dass sie die Wahrscheinlichkeit haben, dass der Nullwert wahr ist) Geh weg. Ich glaube, dass die Menschen die Bayes'sche Datenanalyse auf eine ebenso inkonsequente und mechanische Weise angehen können. Ich denke jedoch, dass ein Missverständnis der Bedeutung von p-Werten weniger schädlich wäre, wenn niemand daran gedacht hätte, einen p-Wert zu erhalten.
  2. Das Vorhandensein von „Big Data“ hat im Allgemeinen nichts mit diesem Problem zu tun. Big Data macht nur deutlich, dass die Organisation der Datenanalyse nach "Signifikanz" kein hilfreicher Ansatz ist.
  3. Ich glaube nicht, dass das Problem darin besteht, dass die Hypothese getestet wird. Wenn die Leute nur sehen wollen, ob der geschätzte Wert außerhalb eines Intervalls liegt, anstatt einem Punktwert zu entsprechen, können viele der gleichen Probleme auftreten. (Auch hier möchte ich klarstellen, dass Sie nicht 'Bob' sind .)
  4. Vorab möchte ich erwähnen, dass mein eigener Vorschlag aus dem ersten Absatz das Problem nicht anspricht, wie ich versucht habe, darauf hinzuweisen.

Für mich ist dies die Kernfrage: Was wir wirklich wollen, ist eine prinzipielle Art, darüber nachzudenken, was passiert ist . Was das in einer bestimmten Situation bedeutet, wird nicht geschnitten und getrocknet. Wie das den Schülern einer Methodenklasse vermittelt wird, ist weder klar noch einfach. Signifikanztests haben viel Trägheit und Tradition. In einer Statistik-Klasse ist klar, was und wie unterrichtet werden muss. Für Studenten und Praktiker wird es möglich, ein konzeptionelles Schema für das Verständnis des Materials und eine Checkliste / ein Flussdiagramm (ich habe einige gesehen!) Für die Durchführung von Analysen zu entwickeln. Signifikanztests können sich natürlich zu einer Datenanalyse entwickeln, ohne dass jemand dumm, faul oder schlecht ist. Das ist das Problem.


Ich mag Konfidenzintervalle :) Eine Frage: Meinten Sie, dass die Post-Hoc-Berechnung der Effektgröße in Ordnung ist?
Michelle

@Michelle, ich bin mir nicht ganz sicher, was du mit "post hoc" meinst, aber wahrscheinlich. Sie erfassen beispielsweise einige Daten, , & , und berechnen dann . Nun, das ist voreingenommen und die einfachste Situation, aber Sie bekommen die Idee. x 2=14SD=6d=0,67x¯1=10x¯2=14SD=6d=.67
gung - Wiedereinsetzung von Monica

Ja, ich denke, wir sind uns hier einig.
Michelle

+1 Die Geschichte von Bob erinnert mich daran: pss.sagepub.com/content/early/2011/10/17/0956797611417632
Carlos Accioly

+1 Ich bevorzuge selbst glaubwürdige Intervalle. In Bezug auf Punkt 1 würde ich argumentieren, dass Bayes'sche Alternativen mit geringerer Wahrscheinlichkeit zu einer roten Datenanalyse führen, da die Definition einer Wahrscheinlichkeit nicht so kontraintuitiv ist, was es viel einfacher macht, die Frage, die Sie tatsächlich stellen möchten, statistisch zu formulieren . Das eigentliche Problem besteht darin, dass für die Durchführung des Tests Intergrale erforderlich sind, die für eine breite Anwendung solcher Methoden zu schwierig sind. Hoffentlich entwickelt sich die Software so weit, dass sich der Benutzer auf die Formulierung der Frage konzentrieren und den Rest dem Computer überlassen kann.
Dikran Marsupial

18

Warum bestehen wir auf irgendeiner Form von Hypothesentest in der Statistik?

In dem wunderbaren Buch Statistik als prinzipielles Argument argumentiert Robert Abelson, dass die statistische Analyse Teil eines prinzipiellen Arguments über das betreffende Thema ist. Er sagt, anstatt als Hypothesen bewertet zu werden, die abgelehnt oder nicht abgelehnt werden (oder sogar akzeptiert werden!?!), Sollten wir sie auf der Grundlage dessen bewerten, was er die MAGIC-Kriterien nennt:

Größe - wie groß ist es? Artikulation - Ist es voller Ausnahmen? Ist das klar? Allgemeinheit - Wie allgemein gilt das? Interesse - Interessiert uns das Ergebnis? Glaubwürdigkeit - Können wir es glauben?

Meine Rezension des Buches auf meinem Blog


4
Das Problem wird von einigen Professoren geschürt. Ich promoviere in Psychometrie, die in der Abteilung für Psychologie ist. Ich hörte Professoren aus anderen Bereichen der Abteilung Dinge sagen wie "Nur den p-Wert melden, darauf kommt es an". Meine Arbeit besteht aus Beratungen, hauptsächlich mit Doktoranden und Forschern aus den Bereichen Soziales, Verhalten, Bildung und Medizin. Die Menge an Fehlinformationen, die von Promotionsausschüssen gegeben wird, ist erstaunlich.
Peter Flom - Reinstate Monica

1
+1 für "Warum ...", das ist ein großer Teil dessen, worauf ich in meiner Antwort abzielte.
gung - Reinstate Monica

Ein anderer Teil dessen, worauf ich bei meiner Antwort abzielen wollte, ist, dass ich denke, dass dies auf natürliche Weise geschieht. Übrigens, es ist nicht fair, zwei Upvotes zu bekommen ;-), man könnte diese kombinieren.
gung - Reinstate Monica

13

Ihre letzte Frage ist nicht nur sinnvoll: Vernünftige Industriestatistiker prüfen heutzutage nicht auf signifikante Unterschiede, sondern auf signifikante Äquivalenzen, eine Nullhypothese der Form Wobei vom Benutzer festgelegt wird und in der Tat mit dem Begriff "Effektgröße" zusammenhängt. Der gebräuchlichste Äquivalenztest ist der sogenannte TOST . Dennoch sind die TOST Strategie Ziele zu beweisen , dass zwei Mittel und deutlich -close, zum Beispiel ist der Mittelwert für einige Messverfahren undH0:{|μ1μ2|>ϵ}ϵμ1μ2ϵμ1μ2Für eine andere Messmethode ist es in vielen Situationen sinnvoller, die Äquivalenz zwischen den Beobachtungen zu bewerten, als die Mittelwerte. Zu diesem Zweck könnten wir Hypothesentests für Größen durchführen, bei denen , und diese Hypothesentests beziehen sich auf Toleranzintervalle.Pr(|X1X2|>ϵ)


(+1) Und willkommen zu 1000 Ruf. Prost.
Kardinal

6

Herkömmliche Hypothesentests geben Aufschluss darüber, ob es statistisch signifikante Hinweise auf das Vorliegen eines Effekts gibt, wohingegen wir häufig wissen möchten, ob Hinweise auf einen praktisch signifikanten Effekt vorliegen.

Es ist sicherlich möglich, Bayesianische "Hypothesentests" mit einer minimalen Effektgröße zu bilden (IIRC gibt es ein Beispiel dafür in David MacKays Buch über "Informationstheorie, Inferenz- und Lernalgorithmen". Ich werde es nachschlagen, wenn ich einen Moment Zeit habe .

Normalitätstests sind ein weiteres gutes Beispiel. Normalerweise wissen wir, dass die Daten nicht wirklich normal verteilt sind. Wir testen nur, ob es Beweise dafür gibt, dass dies keine vernünftige Annäherung ist. Bei der Prüfung auf die Voreingenommenheit einer Münze wissen wir, dass es unwahrscheinlich ist, dass sie vollständig voreingenommen ist, da sie asymmetrisch ist.


6

Vieles davon hängt davon ab, welche Frage Sie tatsächlich stellen, wie Sie Ihre Studie gestalten und was Sie unter Gleichheit verstehen.

Ich habe einmal eine interessante kleine Beilage im British Medical Journal gelesen, in der es darum ging, was Menschen bestimmte Phasen als bedeutsam interpretierten. Es stellt sich heraus, dass "immer" bedeuten kann, dass in 91% der Fälle etwas passiert (BMJ VOLUME 333 26 AUGUST 2006 Seite 445). Man könnte also annehmen, dass gleich und äquivalent (oder innerhalb von X% für einen Wert von X) dasselbe bedeuten. Und fragen wir den Computer nach einer einfachen Gleichheit mit R:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

Nun könnte ein reiner Mathematiker mit unendlicher Präzision sagen, dass diese 2 Werte nicht gleich sind, aber R sagt, dass sie gleich sind, und für die meisten praktischen Fälle wären sie (wenn Sie mir anbieten würden, (1e + 5 + 1e-50) zu geben ), aber Der Betrag letztendlich auf (1e + 5 - 1e-50). Ich würde das Geld nicht ablehnen, weil es von dem abweicht, was versprochen wurde.$$$

Wenn unsere alternative Hypothese , schreiben wir häufig die Null als , obwohl die tatsächliche Null technisch , aber wir arbeiten mit der Gleichheit als Null denn wenn wir zeigen können, dass größer als dann wissen wir auch, dass es größer ist als alle Werte kleiner als . Und ist ein zweiseitiger Test nicht wirklich nur zwei einseitige Tests? Würden Sie wirklich sagen, dass aber sich weigern, zu sagen, auf welcher Seite von befindet? Dies ist teilweise der Grund, warum es einen Trend gibt, Konfidenzintervalle anstelle von p-Werten zu verwenden, wenn mein Konfidenzintervall fürH 0 : μ = μ 0 H 0 : μ μ 0 μ μ 0 μ 0 μ & ne; μ 0 μ 0 μ μ μ 0 μ μ 0 μ 0 μHa:μ>μ0H0:μ=μ0H0:μμ0μμ0μ0μμ0μ0 μμ enthält dann , während ich nicht bereit sein, zu glauben , dass ist genau gleich , kann ich nicht mit Sicherheit sagen , welche Seite liegt auf, was bedeutet , dass sie auch für praktische Zwecke gleich sein könnten .μ0μμ0μ0 μ

Vieles davon hängt davon ab, die richtige Frage zu stellen und die richtige Studie für diese Frage zu entwerfen. Wenn Sie am Ende über genügend Daten verfügen, um zu zeigen, dass ein praktisch bedeutungsloser Unterschied statistisch signifikant ist, haben Sie Ressourcen verschwendet, um so viele Daten zu erhalten. Es wäre besser gewesen, zu entscheiden, was ein bedeutungsvoller Unterschied wäre, und die Studie so zu gestalten, dass Sie genug Macht haben, um diesen Unterschied zu erkennen, aber nicht kleiner.

Und wenn wir wirklich Haare spalten wollen, wie definieren wir, welche Teile des Lammes rechts und welche links sind? Wenn wir es durch eine Linie definieren, die per Definition die gleiche Anzahl von Haaren auf jeder Seite hat, dann lautet die Antwort auf die obige Frage "Natürlich ist es das".


Ich vermute, die Antwort, die Sie von R erhalten, ist einfach das Ergebnis eines arithmetischen Gleitkommaproblems und keine bewusste Entscheidung, irrelevante Unterschiede außer Acht zu lassen. Betrachten Sie das klassische Beispiel (.1 + .2) == .3. Ein "reiner Mathematiker" würde Ihnen sagen, dass sie bei jeder Genauigkeit gleich sind, R jedoch FALSE zurückgibt.
Gala

@ GaëlLaurans, mein Punkt ist, dass aufgrund der Rundung (ob vom Menschen oder vom Computer bewusst) die Konzepte von genau gleich und innerhalb von X% für ein ausreichend kleines X praktisch gleich sind.
Greg Snow

5

Aus organisatorischer Sicht, sei es eine Regierung mit politischen Optionen oder ein Unternehmen, das ein neues Verfahren / Produkt einführen möchte, kann die Verwendung einer einfachen Kosten-Nutzen-Analyse ebenfalls hilfreich sein. Ich habe in der Vergangenheit argumentiert, dass (unter Missachtung politischer Gründe) angesichts der bekannten Kosten einer neuen Initiative, was die Gewinnschwelle für eine Anzahl von Menschen ist, die von dieser Initiative positiv betroffen sein müssen. Wenn die neue Initiative beispielsweise darauf abzielt, mehr Arbeitslose zur Arbeit zu bringen, und die Initiativkosten $100,000, führt sie dann zu einer Verringerung der Arbeitslosentransfers um mindestens $100,000? Wenn nicht, ist die Wirkung der Initiative praktisch nicht signifikant.

Für die gesundheitlichen Ergebnisse gewinnt der Wert eines statistischen Lebens an Bedeutung. Dies ist darauf zurückzuführen, dass die Gesundheitsleistungen während der gesamten Lebensdauer anfallen (und daher die Leistungen auf der Grundlage eines Abzinsungssatzes im Wert nach unten angepasst werden ). Anstelle der statistischen Signifikanz werden also Argumente dafür angeführt, wie der Wert eines statistischen Lebens geschätzt werden soll und welcher Abzinsungssatz angewendet werden soll.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.