Interpretation nicht signifikanter Ergebnisse als „Trends“


16

In letzter Zeit haben zwei verschiedene Mitarbeiter eine Art Argument über Unterschiede zwischen Bedingungen verwendet, die mir unkorrekt erscheinen. Beide Mitarbeiter verwenden Statistiken, sind jedoch keine Statistiker. Ich bin ein Neuling in der Statistik.

In beiden Fällen habe ich argumentiert, dass es falsch ist, eine allgemeine Aussage über diese Gruppen in Bezug auf die Manipulation zu machen, da es keinen signifikanten Unterschied zwischen zwei Bedingungen in einem Experiment gibt. Beachten Sie, dass "eine allgemeine Behauptung aufstellen" so etwas wie das Schreiben bedeutet: "Gruppe A hat X häufiger verwendet als Gruppe B".

Meine Mitarbeiter erwiderten: "Auch wenn es keinen signifikanten Unterschied gibt, ist der Trend immer noch da" und "Auch wenn es keinen signifikanten Unterschied gibt, gibt es immer noch einen Unterschied". Für mich klingen beide wie eine Zweideutigkeit, dh, sie haben die Bedeutung von "Differenz" von "eine Differenz, die wahrscheinlich das Ergebnis von etwas anderem als Zufall ist" (dh statistische Signifikanz) in "irgendeine Nicht-Bedeutung" geändert -null Unterschied in der Messung zwischen Gruppen ".

War die Antwort meiner Mitarbeiter richtig? Ich habe es nicht mit ihnen aufgenommen, weil sie mir überlegen waren.


Ich fand diese Artikel hilfreich Immer noch nicht signifikant und geringfügig signifikant
user20637

Antworten:


26

Das ist eine großartige Frage. Die Antwort hängt stark vom Kontext ab.

Im Allgemeinen würde ich sagen, dass Sie Recht haben : Eine uneingeschränkte allgemeine Behauptung wie "Gruppe A verwendet X häufiger als Gruppe B" ist irreführend. Es wäre besser, so etwas zu sagen

In unserer Versuchsgruppe A wurde X häufiger verwendet als in Gruppe B, aber wir sind unsicher, wie sich dies in der Allgemeinbevölkerung auswirken wird

oder

Obwohl Gruppe A in unserem Experiment 13% häufiger verwendete als Gruppe B, ist unsere Schätzung des Unterschieds in der Allgemeinbevölkerung nicht eindeutig : Die plausiblen Werte reichen von A unter Verwendung von X 5% weniger häufig als bei Gruppe B bis A unter Verwendung von X 21%. öfter als Gruppe B

oder

Gruppe A verwendete X 13% häufiger als Gruppe B, aber der Unterschied war statistisch nicht signifikant (95% CI -5% bis 21%; p = 0,75)

Auf der anderen Seite: Ihre Mitarbeiter haben Recht, dass in diesem speziellen Experiment Gruppe A X häufiger verwendet hat als Gruppe B. Die Teilnehmer an einem bestimmten Experiment interessieren sich jedoch selten. Sie möchten wissen, wie sich Ihre Ergebnisse auf eine größere Population auswirken. In diesem Fall können Sie nicht mit Sicherheit sagen, ob eine zufällig ausgewählte Gruppe A X häufiger oder seltener als eine zufällig ausgewählte Gruppe B verwendet.

Wenn Sie heute eine Entscheidung treffen müssen, ob Sie Behandlung A oder Behandlung B verwenden möchten, um die Verwendung von X zu erhöhen, wenn keine anderen Informationen, Kostenunterschiede usw. vorliegen, ist die Auswahl von A die beste Wahl. Wenn Sie sich jedoch sicher sein möchten, dass Sie wahrscheinlich die richtige Wahl getroffen haben, benötigen Sie weitere Informationen.

Beachten Sie, dass Sie nicht sagen sollten "es gibt keinen Unterschied zwischen Gruppe A und Gruppe B in der Verwendung von X" oder "Gruppe A und Gruppe B verwenden X die gleiche Menge". Dies gilt weder für die Teilnehmer an Ihrem Experiment (bei dem A 13% mehr verwendet hat) noch für die allgemeine Bevölkerung. in den meisten realen Kontexten, wissen Sie , dass es wirklich sein muss , eine gewisse Wirkung (egal wie gering) von A gegen B; Sie wissen einfach nicht, in welche Richtung es geht.


5
Schöne Antwort, Ben! Ich frage mich, ob Ihre zweite Beispielanweisung aus Gründen der Klarheit geändert werden könnte, um den Kern der ersten Beispielanweisung widerzuspiegeln: "Obwohl Gruppe A X 13% häufiger verwendete als Gruppe B IN UNSEREM EXPERIMENT, der Unterschied IN DER NUTZUNG VON X ZWISCHEN GRUPPEN IM ALLGEMEINEN BEVÖLKERUNG war nicht klar : Der plausible Bereich DIESES UNTERSCHIEDS ging von A unter Verwendung von X 5% seltener als Gruppe B zu A unter Verwendung von X 21% häufiger als Gruppe B.
Isabella Ghement

3
Danke, teilweise aufgenommen (versuchen, Kürze / Klarheit und Genauigkeit auszugleichen ...)
Ben Bolker

8
+1 Ich denke, dass viele Menschen nicht erkennen, dass die beobachteten Unterschiede ohne statistische Belege das Gegenteil von dem sein können, was mit der Bevölkerung vor sich geht!
Dave

@ Dave: Auch wenn "statistische Beweise" vorliegen (statistisch signifikanter p-Wert?), "
Können

@boscovich Sicher, ich habe absolut gesprochen, als wir Statistiken machten, aber ich halte es für einen unbedeutenden p-Wert, was bedeutet, dass Sie wirklich keine Ahnung haben, was mit der Bevölkerung passiert. Zumindest mit einem signifikanten p-Wert haben Sie eine bestimmte Nachweisgrenze erreicht, die darauf hindeutet, dass Sie etwas wissen. Aber es ist definitiv möglich, einen signifikanten p-Wert zu erhalten, wenn die Richtung falsch identifiziert wird. Dieser Fehler sollte von Zeit zu Zeit auftreten.
Dave

3

Das ist eine schwierige Frage!

5% p

H0EINBXY. H0ppH0 um wahr zu sein (dh kein Trend).

pH0H0pH0

p23%23%23%H0: =0,5% p-

XβH0: β=0β0

β=0

4%

Ich hoffe, diese zu wortreiche Erklärung hilft Ihnen, Ihre Ideen zu sortieren. Die Zusammenfassung ist, dass Sie absolut Recht haben! Wir sollten unsere Berichte nicht mit wilden Behauptungen füllen, die von wenigen Beweisen gestützt werden, egal ob für Forschungszwecke, Unternehmen oder was auch immer. Wenn Sie wirklich glauben, dass es einen Trend gibt, Sie aber keine statistische Signifikanz erreicht haben, wiederholen Sie das Experiment mit mehr Daten!


1
+1 für den Hinweis, dass jede Signifikanzschwelle willkürlich ist (und implizit ist es nicht möglich, aus den Ergebnissen einer Stichprobe absolute Aussagen über die Gesamtbevölkerung abzuleiten - alles, was Sie erhalten, sind bessere Wahrscheinlichkeiten).
Peter - Reinstate Monica

0

Signifikanter Effekt bedeutet nur, dass Sie eine unwahrscheinliche Anomalie gemessen haben (unwahrscheinlich, wenn die Nullhypothese, Abwesenheit eines Effekts, wahr wäre). Infolgedessen muss mit hoher Wahrscheinlichkeit daran gezweifelt werden (obwohl diese Wahrscheinlichkeit nicht gleich dem p-Wert ist und auch von früheren Überzeugungen abhängt).

Je nach Qualität des Experiments konnte man den gleichen Effekt messen Größe , aber es könnte eine Anomalie nicht sein (nicht ein unwahrscheinliches Ergebnis , wenn die Nullhypothese wahr wäre).

Wenn Sie einen Effekt beobachten, der jedoch nicht signifikant ist, kann dieser (der Effekt) zwar immer noch vorhanden sein, er ist jedoch nur nicht signifikant (die Messungen weisen nicht darauf hin, dass die Nullhypothese mit hoher Wahrscheinlichkeit angezweifelt / verworfen werden sollte). Es bedeutet, dass Sie Ihr Experiment verbessern und mehr Daten sammeln sollten, um sicherer zu sein.

Anstelle des Dichotomieeffekts und des No-Effekts sollten Sie sich für die folgenden vier Kategorien entscheiden:

vier Kategorien

Bild von https://en.wikipedia.org/wiki/Equivalence_test zur Erläuterung des zweiseitigen T-Test-Verfahrens (TOST)

Sie scheinen in der Kategorie D zu sein, der Test ist nicht schlüssig. Ihre Kollegen könnten sich irren, wenn sie sagen, dass es einen Effekt gibt. Es ist jedoch ebenso falsch zu sagen, dass es keine Wirkung gibt!


p

@ David, ich stimme Ihnen vollkommen zu, dass der p-Wert genauer gesagt ein Maß für die Wahrscheinlichkeit ist, dass wir einen Fehler davon abhängig machen, dass die Nullhypothese wahr ist (oder die Wahrscheinlichkeit, solche extremen Ergebnisse zu sehen), und dies nicht drücken Sie direkt 'die Wahrscheinlichkeit aus, dass die Nullhypothese falsch ist'. Ich bin jedoch der Meinung, dass der p-Wert nicht dazu gedacht ist, in diesem „offiziellen“ Sinne verwendet zu werden. Der p-Wert wird verwendet, um Zweifel in der Nullhypothese auszudrücken, um auszudrücken, dass die Ergebnisse auf eine Anomalie hinweisen und Anomalien uns an der Null zweifeln lassen sollten ....
Sextus Empiricus

.... in deinem Fall, wenn du zeigst, den Null-Effekt herauszufordern (die Idee herauszufordern, dass man die Münzen nicht vorhersagen kann), indem du einen seltenen Fall vorlegst (genau wie die Dame, die Tee probiert), dann sollten wir in der Tat Zweifel an der Null haben Hypothese. In der Praxis müssten wir dafür einen angemessenen p-Wert festlegen (da man die Null tatsächlich zufällig herausfordern könnte), und ich würde den 1% -Pegel nicht verwenden. Die hohe Wahrscheinlichkeit, an der Null zu zweifeln, sollte nicht eins zu eins mit dem p-Wert gleichgesetzt werden (da diese Wahrscheinlichkeit eher ein Bayes'sches Konzept ist).
Sextus Empiricus

Ich habe den Text angepasst, um diese Fehlinterpretation zu beseitigen.
Sextus Empiricus

0

Es hört sich so an, als würden sie p-value gegen die Definition von "Trend" argumentieren.

Wenn Sie die Daten in einem Laufdiagramm darstellen, sehen Sie möglicherweise einen Trend ... eine Reihe von Plotpunkten, die einen Trend anzeigen, der über die Zeit steigt oder fällt.

Aber wenn Sie die Statistiken darüber machen, deutet der p-Wert darauf hin, dass es nicht signifikant ist.

Damit der p-Wert nur eine geringe Bedeutung hat, sie aber einen Trend / Lauf in der Datenreihe sehen, müsste dies ein sehr geringer Trend sein.

Wenn das der Fall wäre, würde ich auf den p-Wert zurückgreifen. IE: OK, ja, die Daten weisen einen Trend / Lauf auf. Aber es ist so gering und unbedeutend, dass die Statistiken darauf hindeuten, dass es sich nicht lohnt, weiter zu verfolgen Analyse von.

Ein unbedeutender Trend kann auf eine gewisse Tendenz in der Forschung zurückgeführt werden. Möglicherweise handelt es sich dabei um etwas sehr Nebensächliches. Möglicherweise handelt es sich nur um ein einmaliges Ereignis in dem Experiment, bei dem ein leichter Trend aufgetreten ist.

Wenn ich der Manager der Gruppe wäre, würde ich ihnen sagen, dass sie keine Zeit und kein Geld mehr damit verschwenden sollen, sich mit unbedeutenden Trends zu befassen und nach wichtigeren Trends Ausschau zu halten.


0

Es hört sich so an, als hätten sie in diesem Fall wenig Rechtfertigung für ihre Behauptung und missbrauchen lediglich Statistiken, um zu dem Schluss zu gelangen, dass sie bereits hatten. Aber es gibt Zeiten, in denen es in Ordnung ist, nicht so streng mit p-Val-Cutoffs umzugehen. Dies (wie man statistische Signifikanz und pval-Cutoffs verwendet) ist eine Debatte, die seit Fisher, Neyman und Pearson die Grundlagen für statistische Tests gelegt hat.

Angenommen, Sie erstellen ein Modell und entscheiden, welche Variablen einbezogen werden sollen. Sie sammeln einige Daten, um mögliche Variablen vorab zu untersuchen. Nun gibt es eine Variable, die das Business-Team wirklich interessiert, aber Ihre vorläufige Untersuchung zeigt, dass die Variable statistisch nicht signifikant ist. Die 'Richtung' der Variablen entspricht jedoch den Erwartungen des Geschäftsteams, und obwohl sie den Schwellenwert für die Signifikanz nicht erreicht hat, war sie eng. Möglicherweise wurde eine positive Korrelation mit dem Ergebnis vermutet, und Sie erhielten einen Beta-Koeffizienten, der positiv war, aber der pval lag nur ein wenig über dem Grenzwert von 0,05.

In diesem Fall könnten Sie fortfahren und es einschließen. Es ist eine Art informelle Bayes'sche Statistik - es gab eine starke vorherige Überzeugung, dass es sich um eine nützliche Variable handelt, und die erste Untersuchung ergab einige Beweise in diese Richtung (aber keine statistisch signifikanten Beweise!), So dass Sie den Vorteil des Zweifels angeben und behalte es im Modell. Vielleicht wird mit mehr Daten klarer, welche Beziehung es zum Ergebnis des Interesses hat.

Ein anderes Beispiel könnte sein, dass Sie ein neues Modell erstellen und sich die Variablen ansehen, die im vorherigen Modell verwendet wurden. Sie können auch weiterhin eine Randvariable (eine Variable, die sich an der Schwelle der Signifikanz befindet) einfügen, um eine gewisse Kontinuität zum Modell zu gewährleisten zu modellieren.

Grundsätzlich gibt es, abhängig davon, was Sie tun, Gründe, diese Art von Dingen mehr und weniger streng zu betrachten.

Andererseits ist auch zu beachten, dass statistische Signifikanz keine praktische Signifikanz implizieren muss! Denken Sie daran, dass die Stichprobengröße das Herzstück all dessen ist. Sammeln Sie genügend Daten, und der Standardfehler der Schätzung wird auf 0 sinken. Dies macht jeden Unterschied, egal wie gering er ist, „statistisch signifikant“, auch wenn dieser Unterschied in der realen Welt nichts ausmacht. Angenommen, die Wahrscheinlichkeit, dass eine bestimmte Münze auf dem Kopf landet, beträgt 500000000000001. Dies bedeutet, dass Sie theoretisch ein Experiment entwerfen könnten, bei dem festgestellt wird, dass die Münze nicht fair ist, die Münze jedoch in jeder Hinsicht als faire Münze behandelt werden könnte.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.