Ein Dialog zwischen einem Lehrer und einem nachdenklichen Schüler
Demütig in der Überzeugung, dass in diesem Thread bisher nicht genügend Buntstifte verwendet wurden. Am Ende erscheint eine kurze, illustrierte Übersicht.
Student : Was bedeutet ein p-Wert? Eine Menge Leute scheinen zuzustimmen, dass es die Wahrscheinlichkeit ist, dass eine Stichprobe einen Mittelwert größer oder gleich einer Statistik hat oder dass es die Wahrscheinlichkeit ist, dieses Ergebnis zu beobachten, vorausgesetzt, die Nullhypothese ist wahr oder wo die Statistik meiner Stichprobe ist fiel auf [eine simulierte] Verteilung " und sogar " die Wahrscheinlichkeit, eine Teststatistik zu beobachten, die mindestens so groß ist wie die, die unter der Annahme der Nullhypothese berechnet wurde " .
Lehrer : Richtig verstanden, sind all diese Aussagen unter vielen Umständen richtig.
Student : Ich sehe nicht, wie wichtig die meisten von ihnen sind. Haben Sie uns nicht , dass wir eine Nullhypothese und eine Alternativhypothese ? Wie sind sie an diesen Ideen von "größer als oder gleich" oder "mindestens so groß" oder dem sehr populären "extremeren" beteiligt?H AH0HA
Lehrer : Wäre es für uns hilfreich, ein konkretes Beispiel zu untersuchen, weil es im Allgemeinen kompliziert erscheinen kann?
Student : Sicher. Aber bitte machen Sie es realistisch, aber einfach, wenn Sie können.
Lehrer : Diese Theorie des Hypothesentests begann historisch mit dem Bedürfnis der Astronomen, Beobachtungsfehler zu analysieren. Wie wäre es also damit, dort anzufangen? Ich habe eines Tages einige alte Dokumente durchgesehen, in denen ein Wissenschaftler seine Bemühungen zur Reduzierung des Messfehlers in seinem Gerät beschrieb. Er hatte viele Messungen an einem Stern an einer bekannten Position vorgenommen und deren Verschiebungen vor oder hinter dieser Position aufgezeichnet. Um diese Verschiebungen zu visualisieren, zeichnete er ein Histogramm, das - wenn es ein wenig geglättet war - so aussah.
Student : Ich erinnere mich, wie Histogramme funktionieren: Die vertikale Achse ist mit "Dichte" gekennzeichnet, um mich daran zu erinnern, dass die relativen Häufigkeiten der Messungen eher durch Fläche als durch Höhe dargestellt werden.
Lehrer : Richtig. Ein "ungewöhnlicher" oder "extremer" Wert würde sich in einer Region mit einer ziemlich kleinen Fläche befinden. Hier ist ein Wachsmalstift. Denken Sie, Sie könnten in einer Region färben, deren Fläche nur ein Zehntel der Gesamtfläche ausmacht?
Student : Sicher; das ist einfach. [Farben in der Abbildung.]
Lehrer : Sehr gut! Das sind ungefähr 10% der Fläche für mich. Beachten Sie jedoch, dass nur die Bereiche zwischen vertikalen Linien im Histogramm von Bedeutung sind: Sie stellen die Chance oder Wahrscheinlichkeit dar, dass die Verschiebung zwischen diesen Linien auf der horizontalen Achse liegt. Das heißt, Sie mussten die gesamte Fläche bis zum Grund einfärben, und das wäre mehr als die Hälfte der Fläche, nicht wahr?
Student : Oh, ich verstehe. Lass mich es nochmal versuchen. Ich werde färben wollen, wo die Kurve wirklich niedrig ist, nicht wahr? Es ist an den beiden Enden am niedrigsten. Muss ich nur einen Bereich einfärben oder wäre es in Ordnung, ihn in mehrere Teile zu zerlegen?
Lehrer : Die Verwendung mehrerer Teile ist eine kluge Idee. Wo würden sie sein?
Student (zeigt): Hier und hier. Da dieser Stift nicht sehr scharf ist, habe ich einen Stift verwendet, um Ihnen die Linien zu zeigen, die ich verwende.
Lehrer : Sehr nett! Lassen Sie mich den Rest der Geschichte erzählen. Der Wissenschaftler hat einige Verbesserungen an seinem Gerät vorgenommen und dann zusätzliche Messungen durchgeführt. Er schrieb, dass die Verschiebung der ersten nur betrug , was er für ein gutes Zeichen hielt, aber als vorsichtiger Wissenschaftler fuhr er fort, zur Kontrolle weitere Messungen durchzuführen. Leider gehen diese anderen Messungen verloren - das Manuskript bricht an dieser Stelle ab - und wir haben nur diese einzelne Zahl, .0,10.10.1
Student : Das ist schade. Aber ist das nicht viel besser als die große Verschiebungsbreite Ihrer Figur?
Lehrer : Das ist die Frage, die Sie beantworten sollen. Was ist zunächst als ?H0
Student : Nun, ein Skeptiker würde sich fragen, ob die Verbesserungen, die am Gerät vorgenommen wurden, überhaupt Auswirkungen hatten. Die Beweislast liegt beim Wissenschaftler: Er möchte zeigen, dass der Skeptiker falsch liegt. Aus diesem Grund halte ich die Nullhypothese für etwas schlecht: Sie besagt, dass sich alle neuen Messungen - einschließlich des Werts von wir kennen - wie im ersten Histogramm beschrieben verhalten sollten. Oder vielleicht sogar noch schlimmer: Sie könnten noch weiter auseinander liegen.0.1
Lehrer : Weiter, es geht dir gut.
Student : Die Alternative ist also, dass die neuen Messungen weniger verbreitet sind, oder?
Lehrer : Sehr gut! Könnten Sie mir ein Bild davon zeichnen, wie ein Histogramm mit geringerer Streuung aussehen würde? Hier ist eine weitere Kopie des ersten Histogramms. Sie können darauf als Referenz zeichnen.
Student (Zeichnung): Ich benutze einen Stift, um das neue Histogramm zu zeichnen, und male den Bereich darunter aus. Ich habe es so gemacht, dass der größte Teil der Kurve auf der horizontalen Achse nahe bei Null liegt und der größte Teil der Fläche in der Nähe eines (horizontalen) Wertes von Null liegt.
Lehrer : Das ist ein guter Anfang. Denken Sie jedoch daran, dass ein Histogramm, das die Chancen anzeigt, eine Gesamtfläche von . Die Gesamtfläche des ersten Histogramms beträgt daher . Wie viel Fläche befindet sich in Ihrem neuen Histogramm?111
Student : Weniger als die Hälfte, denke ich. Ich sehe, das ist ein Problem, aber ich weiß nicht, wie ich es beheben soll. Was soll ich machen?
Lehrer : Der Trick besteht darin, das neue Histogramm höher als das alte zu machen, so dass seine Gesamtfläche beträgt . Hier zeige ich Ihnen eine computergenerierte Version zur Veranschaulichung.1
Student : Ich verstehe: Sie haben es vertikal gestreckt, sodass sich seine Form nicht wirklich geändert hat, aber jetzt sind der rote Bereich und der graue Bereich (einschließlich des Teils unter dem roten) gleich groß.
Lehrer : Richtig. Sie sehen ein Bild der Nullhypothese (in blau, verteilt) und einen Teil der Alternativhypothese (in rot, mit geringerer Verteilung).
Student : Was meinst du mit „Teil“ der Alternative? Ist es nicht nur die alternative Hypothese?
Lehrer : Statistiker und Grammatik scheinen sich nicht zu vermischen. :-) Im Ernst, was sie mit einer "Hypothese" meinen, ist normalerweise eine ganze Reihe von Möglichkeiten. Hier besteht die Alternative (wie Sie bereits sagten) darin, dass die Messungen "weniger verteilt" sind als zuvor. Aber wie viel weniger ? Es gibt viele Möglichkeiten. Hier, lassen Sie mich Ihnen einen anderen zeigen. Ich habe es mit gelben Strichen gezeichnet. Es liegt zwischen den beiden vorhergehenden.
Student : Ich verstehe: Sie können unterschiedliche Ausbreitungsmengen haben, aber Sie wissen nicht im Voraus, wie hoch die Ausbreitung wirklich sein wird. Aber warum hast du die lustige Schattierung in diesem Bild gemacht?
Lehrer : Ich wollte hervorheben, wo und wie sich die Histogramme unterscheiden. Ich habe sie grau hinterlegt, wenn die alternativen Histogramme niedriger als die Null sind, und rot, wenn die Alternativen höher sind .
Student : Warum ist das wichtig?
Lehrer : Erinnerst du dich, wie du das erste Histogramm in beiden Schwänzen eingefärbt hast? Ah, hier ist es. Lassen Sie uns dieses Bild auf die gleiche Weise ausmalen.
Student : Ich erinnere mich: das sind die extremen Werte. Ich fand die Stellen, an denen die Nulldichte so gering wie möglich war und die dort 10% der Fläche färbten.
Lehrer : Erzählen Sie mir von den Alternativen in diesen extremen Bereichen.
Student : Es ist schwer zu sehen, weil der Wachsmalstift es verdeckt hat, aber es sieht so aus, als gäbe es kaum eine Alternative in den von mir eingefärbten Bereichen. Ihre Histogramme liegen genau auf der Werteachse und es ist kein Platz für einen Bereich unter ihnen vorhanden.
Lehrer : Lassen Sie uns diesen Gedanken fortsetzen. Wenn ich Ihnen hypothetisch sagen würde, dass eine Messung eine Verschiebung von , und Sie fragen würden, von welchem dieser drei Histogramme das wahrscheinlichste stammt, welches wäre es?−2
Student : Der erste - der blaue. Es ist das am meisten verbreitete und es ist das einzige, bei dem keine Chance zu haben scheint aufzutreten.−2
Lehrer : Und was ist mit dem Wert von im Manuskript?0.1
Student : Hmmm ... das ist eine andere Geschichte. Alle drei Histogramme sind mit ziemlich hoch über dem Boden .0.1
Lehrer : Okay, fair genug. Angenommen, ich habe Ihnen gesagt, dass der Wert in der Nähe von , also zwischen und . Hilft Ihnen das, einige Wahrscheinlichkeiten aus diesen Diagrammen abzulesen?0 0,20.100.2
Student : Sicher, weil ich Bereiche benutzen kann. Ich muss nur die Flächen unter jeder Kurve zwischen und schätzen . Aber das sieht ziemlich schwer aus.0,200.2
Lehrer : Sie müssen nicht so weit gehen. Kannst du einfach sagen, welches Gebiet das größte ist?
Student : Natürlich die unter der höchsten Kurve. Alle drei Bereiche haben dieselbe Basis. Je höher die Kurve, desto mehr Fläche befindet sich darunter und unter der Basis. Das heißt, das höchste Histogramm - das, das ich mit den roten Strichen gezeichnet habe - ist das wahrscheinlichste für eine Verschiebung von . Ich glaube, ich sehe, wohin Sie damit gehen, aber ich bin ein wenig besorgt: Muss ich mir nicht alle Histogramme für alle Alternativen ansehen , nicht nur das eine oder andere, das hier gezeigt wird? Wie könnte ich das machen?0.1
Lehrer : Sie sind gut darin, Muster zu erfassen. Sagen Sie mir also, was passiert mit dem Histogramm des Messgeräts, wenn es immer präziser wird?
Student : Es wird enger - oh, und es muss auch größer werden, damit die Gesamtfläche gleich bleibt. Das macht es ziemlich schwierig, die Histogramme zu vergleichen. Die alternativen sind alle höher als die Null rechts bei , das ist offensichtlich. Bei anderen Werten sind die Alternativen manchmal höher und manchmal niedriger! Zum Beispiel [zeigt auf einen Wert in der Nähe von ], genau hier ist mein rotes Histogramm das niedrigste, das gelbe Histogramm das höchste und das ursprüngliche Null-Histogramm liegt dazwischen. Aber rechts ist die Null die höchste.3 / 403/4
Lehrer : Im Allgemeinen ist das Vergleichen von Histogrammen eine komplizierte Angelegenheit. Um uns dabei zu helfen, habe ich den Computer gebeten, ein weiteres Diagramm zu erstellen : Er hat jede der alternativen Histogrammhöhen (oder "Dichten") durch die Null-Histogrammhöhe dividiert und Werte erstellt, die als "Wahrscheinlichkeitsverhältnisse" bekannt sind. Infolgedessen bedeutet ein Wert größer als dass die Alternative wahrscheinlicher ist, während ein Wert kleiner als bedeutet, dass die Alternative weniger wahrscheinlich ist. Es hat noch eine Alternative aufgezeigt: Es ist weiter verbreitet als die beiden anderen, aber immer noch weniger weit verbreitet als der ursprüngliche Apparat.111
Lehrer (Fortsetzung): Können Sie mir zeigen, wo die Alternativen tendenziell wahrscheinlicher sind als die Null?
Student (Färbung): Hier in der Mitte, offensichtlich. Und da es sich nicht mehr um Histogramme handelt, sollten wir eher Höhen als Flächen betrachten. Deshalb markiere ich nur einen Wertebereich auf der horizontalen Achse. Aber woher weiß ich, wie viel von der Mitte einzufärben ist? Wo höre ich auf zu färben?
Lehrer : Es gibt keine feste Regel. Es hängt alles davon ab, wie wir unsere Schlussfolgerungen verwenden wollen und wie heftig die Skeptiker sind. Aber lehnen Sie sich zurück und überlegen Sie, was Sie erreicht haben: Sie erkennen jetzt, dass Ergebnisse mit hohen Wahrscheinlichkeitsquoten ein Beweis für die Alternative sind und Ergebnisse mit geringen Wahrscheinlichkeitsquoten ein Beweis für die Alternative. Was ich Sie bitten werde, ist, in einem Bereich zu färben, der, soweit dies möglich ist, eine geringe Chance hat, unter der Nullhypothese aufzutreten, und eine relativ große Chance, unter den Alternativen aufzutreten. Zurück zu dem ersten Diagramm, das Sie zu Beginn unseres Gesprächs eingefärbt haben, haben Sie die beiden Enden der Null eingefärbt, weil sie "extrem" waren. Würden sie immer noch gute Arbeit leisten?
Student : Das glaube ich nicht. Obwohl sie unter der Nullhypothese ziemlich extrem und selten waren, sind sie für keine der Alternativen praktisch unmöglich. Wenn meine neue Messung beispielsweise , würde ich mich der Skepsis anschließen und bestreiten, dass eine Verbesserung eingetreten ist, obwohl in jedem Fall ein ungewöhnliches Ergebnis war. Ich möchte diese Farbe ändern. Hier - lass mich noch einen Wachsmalstift haben.3,03.03.0
Lehrer : Was bedeutet das?
Student : Wir begannen damit, dass Sie mich baten, nur 10% der Fläche unter dem ursprünglichen Histogramm einzuzeichnen - das, das die Null beschreibt. Also habe ich jetzt 10% des Gebiets eingezogen, in dem die Alternativen wahrscheinlicher auftreten. Ich denke, wenn sich eine neue Messung in diesem Bereich befindet, sollten wir an die Alternative glauben.
Lehrer : Und wie sollte die Skeptiker darauf reagieren?
Student : Ein Skeptiker muss nie zugeben, dass er sich irrt, oder? Aber ich denke, sein Glaube sollte ein wenig erschüttert sein. Immerhin haben wir es so angeordnet, dass eine Messung zwar innerhalb des Bereichs liegen könnte , den ich gerade gezeichnet habe, aber nur eine 10% ige Chance hat, dort zu sein, wenn die Null wahr ist. Und es hat eine größere Chance, dort zu sein, wenn die Alternative wahr ist. Ich kann Ihnen nur nicht sagen, wie viel größer diese Chance ist, da es davon abhängt, wie sehr der Wissenschaftler den Apparat verbessert hat. Ich weiß nur, dass es größer ist. Der Beweis wäre also gegen den Skeptiker.
Lehrer : Alles klar. Würde es Ihnen etwas ausmachen, Ihr Verständnis so zusammenzufassen, dass wir genau wissen, was Sie gelernt haben?
Student : Ich habe gelernt, dass wir, um alternative Hypothesen mit Nullhypothesen zu vergleichen, ihre Histogramme vergleichen sollten. Wir teilen die Dichten der Alternativen durch die Dichte der Null: Das haben Sie das "Wahrscheinlichkeitsverhältnis" genannt. Um einen guten Test zu machen, sollte ich eine kleine Zahl wie 10% auswählen oder was auch immer ausreicht, um einen Skeptiker zu erschüttern. Dann sollte ich Werte finden, bei denen das Wahrscheinlichkeitsverhältnis so hoch wie möglich ist, und sie einfärben, bis 10% (oder was auch immer) eingefärbt wurden.
Lehrer : Und wie würden Sie diese Färbung verwenden?
Student : Wie Sie mich früher erinnert haben, muss die Färbung zwischen vertikalen Linien sein. Werte (auf der horizontalen Achse), die unter der Färbung liegen, sprechen gegen die Nullhypothese. Andere Werte - nun, es ist schwer zu sagen, was sie bedeuten könnten, ohne einen genaueren Blick auf alle beteiligten Histogramme zu werfen.
Lehrer : Zurück zum Wert von im Manuskript, was würden Sie daraus schließen?0.1
Student : Das liegt in dem Bereich, den ich zuletzt gefärbt habe. Ich denke, der Wissenschaftler hatte wahrscheinlich Recht und der Apparat wurde wirklich verbessert.
Lehrer : Eine letzte Sache. Ihre Schlussfolgerung basierte auf der Auswahl von 10% als Kriterium oder "Größe" des Tests. Viele Leute verwenden stattdessen gerne 5%. Einige bevorzugen 1%. Was kannst du ihnen sagen?
Student : Ich konnte nicht alle diese Tests auf einmal machen! Na ja, vielleicht könnte ich das irgendwie. Ich kann sehen, dass ich unabhängig von der Größe des Tests mit dem Färben bei , was in diesem Sinne der "extremste" Wert ist, und von dort aus in beide Richtungen nach außen arbeiten sollte. Wenn ich genau bei - dem tatsächlich beobachteten Wert - anhalten würde, hätte ich wahrscheinlich in einem Bereich zwischen und , beispielsweise gefärbt . Die 5% und 1% Leute konnten sofort sagen, dass ich zu viel gefärbt habe: Wenn sie nur 5% oder 1% färben wollten, konnten sie es, aber sie würden nicht so weit herauskommen wie0,1 0,05 0,1 0,08 0,100.10.050.10.080.1. Sie würden nicht zu dem gleichen Schluss kommen wie ich: Sie würden sagen, es gibt nicht genügend Beweise dafür, dass eine Änderung tatsächlich stattgefunden hat.
Lehrer : Sie haben mir gerade gesagt, was all diese Zitate am Anfang wirklich bedeuten. Aus diesem Beispiel sollte ersichtlich sein, dass sie möglicherweise nicht "extremer" oder "größer oder gleich" oder "mindestens so groß" im Sinne eines größeren Werts oder sogar eines Werts mit einer geringen Nulldichte beabsichtigen können . Sie meinen diese Dinge wirklich im Sinne großer Wahrscheinlichkeitsverhältnisse , die Sie beschrieben haben. Übrigens wird die Zahl um , die Sie berechnet haben, als "p-Wert" bezeichnet. Es kann nur so richtig verstanden werden, wie Sie es beschrieben haben: im Hinblick auf eine Analyse der relativen Histogrammhöhen - die Wahrscheinlichkeitsverhältnisse.0.08
Student : Danke. Ich bin nicht sicher, ob ich das alles vollständig verstehe, aber Sie haben mir viel zu denken gegeben.
Lehrer : Wenn Sie noch weiter gehen möchten, werfen Sie einen Blick auf das Neyman-Pearson-Lemma . Sie sind wahrscheinlich bereit, es jetzt zu verstehen.
Zusammenfassung
Bei vielen Tests, die auf einer einzelnen Statistik wie der im Dialogfeld basieren, wird diese als " " oder " " bezeichnet. Dies sind Anhaltspunkte dafür, wie das Null-Histogramm aussieht, aber sie sind nur Anhaltspunkte: Wie wir diese Zahl nennen, spielt keine Rolle. Die vom Schüler zusammengefasste Konstruktion, wie sie hier dargestellt ist, zeigt, wie sie mit dem p-Wert zusammenhängt. Der p-Wert ist die kleinste Testgröße, bei der eine Beobachtung von zur Ablehnung der Nullhypothese führen würde.t t = 0,1ztt=0.1
In dieser Abbildung, die zur Darstellung von Details gezoomt ist, ist die Nullhypothese durchgehend blau und zwei typische Alternativen sind mit gestrichelten Linien dargestellt. Der Bereich, in dem diese Alternativen tendenziell viel größer als die Null sind, ist schattiert. Die Schattierung beginnt dort, wo die relativen Wahrscheinlichkeiten der Alternativen am größten sind (bei ). Die Schattierung stoppt, wenn die Beobachtung erreicht ist. Der p-Wert ist die Fläche des schattierten Bereichs unter dem Null-Histogramm: Dies ist die Chance, unter der Annahme, dass die Null wahr ist, ein Ergebnis zu beobachten, dessen Wahrscheinlichkeitsverhältnisse tendenziell groß sind, unabhängig davon, welche Alternative wahr ist. Insbesondere hängt diese Konstruktion stark von der alternativen Hypothese ab. Es kann nicht ohne Angabe der möglichen Alternativen durchgeführt werden.t = 0,10t=0.1