"Investigator Intention" und Schwellenwerte / p-Werte

Ich lese John Kruschkes Folien "Doing Bayesian Data Analysis" , habe aber tatsächlich eine Frage zu seiner Interpretation von t-Tests und / oder dem gesamten Nullhypothesen-Signifikanztest-Framework. Er argumentiert, dass p-Werte schlecht definiert sind, weil sie von den Absichten des Untersuchers abhängen.

Insbesondere gibt er ein Beispiel (Seite 3-6) für zwei Labore, in denen identische Datensätze erfasst werden, in denen zwei Behandlungen verglichen werden. Ein Labor verpflichtet sich, Daten von 12 Probanden zu sammeln (6 pro Bedingung), während das andere für eine feste Dauer Daten sammelt, was ebenfalls 12 Probanden ergibt. Nach den Dias, die kritische - Wert für unterscheidet sich zwischen diesen beiden Datenerfassungssysteme: für das ehemalige, aber für das letztere! $t$ $p<0.05$ $t_{\textrm{crit}}=2.33$ $t_{\textrm{crit}}=2.45$

Ein Blogbeitrag - den ich jetzt nicht finden kann - schlug vor, dass das Szenario mit fester Dauer mehr Freiheitsgrade hat, da sie Daten von 11, 13 oder einer anderen Anzahl von Probanden hätten sammeln können, während das Szenario mit festem N von Definition hat . $N=12$

Könnte mir bitte jemand erklären:

Warum würde sich der kritische Wert zwischen diesen Bedingungen unterscheiden?
(Angenommen, es ist ein Problem) Wie würde man die Auswirkungen verschiedener Stoppkriterien korrigieren / vergleichen?

Ich weiß, dass das Einstellen der Stoppkriterien basierend auf der Signifikanz (z. B. Stichprobe bis ) die Wahrscheinlichkeit eines Fehlers vom Typ I erhöhen kann, aber das scheint hier nicht vor sich zu gehen, da keine der Stoppregeln vom Ergebnis von abhängt Die Analyse. $p<0.05$

hypothesis-testing

— Matt Krause
quelle

Antworten:

Weitere Informationen: http://doingbayesiandataanalysis.blogspot.com/2012/07/sampling-distributions-of-t-when.html

Eine ausführlichere Beschreibung finden Sie hier: http://www.indiana.edu/~kruschke/BEST/ In diesem Artikel werden p-Werte für das Anhalten bei Schwelle N, das Anhalten bei Schwellendauer und das Anhalten bei Schwelle t berücksichtigt.

— John K. Kruschke
quelle

Wow! Sozusagen direkt aus dem Maul des Pferdes ... Es ist definitiv eine interessante Idee, die mir nicht in den Sinn gekommen war. Danke für die zusätzlichen Infos.

— Matt Krause

Ich wollte hinzufügen, dass dies in Dr. Kruschkes Buch (in Kapitel 11) ausführlich besprochen wird .

— Matt Krause

Ich habe endlich den Artikel gefunden, der mit den Dias zu tun hat : Kruschke (2010) , der hier auch direkt beim Autor (über CiteSeerX) erhältlich ist , da die Zeitschrift nicht weit verbreitet ist. Die Erklärung ist ein bisschen prosaisch, aber ich bin mir immer noch nicht sicher, ob ich sie kaufe.

Im Fall mit festem N wird der kritische Wert wie folgt berechnet: Stichproben werden zufällig aus der (gleichen) Grundgesamtheit gezogen und ein Wert berechnet. Dieser Vorgang wird mehrmals wiederholt, um eine Nullverteilung aufzubauen. Schließlich ist das 95. Perzentil dieser Verteilung. $t$ $2N$ $t$ $t_{crit}$

Für den Fall der festen Dauer geht er davon aus, dass die Probanden eine mittlere Rate . Die Nullverteilung wird durch Wiederholen von zwei Schritten erstellt. Im ersten Schritt wird die Anzahl der Probanden für jede Bedingung und aus einer Possionsverteilung mit dem Parameter . Als nächstes werden zufällige und -Ziehungen aus der Grundgesamtheit verwendet, um einen Wert zu berechnen . Dies wird viele Male wiederholt, und gesetzt , um das 95. Perzentil der Verteilung dieser sein. $\lambda$ $N_1$ $N_2$ $\lambda$ $N_1$ $N_2$ $t$ $t_{crit}$

$t$ $N$ $N$ $t$ $2N-2$

In der anderen Bedingung scheint es, dass die " " -ähnliche Verteilung tatsächlich eine Kombination von Proben aus vielen verschiedenen Verteilungen ist , abhängig von den spezifischen Ziehungen. Durch Setzen von könnte man die durchschnittlichen Freiheitsgrade auf , aber das reicht nicht ganz aus. Zum Beispiel scheint der Durchschnitt der Verteilungen für und nicht die Verteilung mit 3 Freiheitsgraden zu sein. $t$ $t$ $\lambda=N$ $2N-N$ $t$ $\nu=1$ $\nu=5$ $t$

Zusammenfassend:

$t_{crit}$
$t$
Ich bin nach wie vor nicht davon überzeugt, dass dies tatsächlich ein Problem ist, würde mich aber freuen, Antworten zu lesen / zu bewerten / anzunehmen, wenn jemand anders darüber nachdenkt.

— Matt Krause
quelle

Warum können Sie Ihre eigene Frage beantworten und mit einem Häkchen versehen? Scheint nicht so, als ob Sie sich selbst einen Tipp geben könnten!

— Michael R. Chernick

Es ist nichts falsch, seine eigene Frage zu beantworten , Michael.

— CHL

@MichaelChernick, ich glaube, du bekommst keine Wiederholung, wenn du deine eigene Antwort akzeptierst. Zu der Zeit schien es das Richtige zu sein, da ich die Antwort in den letzten zwei Wochen mehr oder weniger aufgespürt hatte, aber ich habe mein Einverständnis mit der Antwort von John K. Kruschke gewechselt, da er eindeutig die Autorität für sich selbst ist Folien :-)

— Matt Krause

Interessanter Dank. Aber ich verstehe nicht, warum man seine eigene Antwort jederzeit überprüfen sollte, auch wenn sie richtig und die beste zu sein scheint. Wir haben festgestellt, dass die Überprüfung Ihrer eigenen Antwort keine Wiederholungspunkte ergibt.

— Michael R. Chernick

Da das Markieren einer Antwort als akzeptiert keinen anderen Zweck hat, als eine korrekte Lösung (für zukünftige Besucher) anzugeben, insbesondere wenn keine andere vorgeschlagen wurde, sehe ich kein Problem damit. Persönlich habe ich diese Antwort vor langer Zeit positiv bewertet, da ich es zu schätzen weiß, dass das OP uns von seiner eigenen Forschung profitieren lässt. Und es tut mir wirklich leid, dass ich keine zusätzliche Stimme für die einfache Tatsache abgeben kann, diesem Thread zu folgen und seine Entscheidung zu aktualisieren. PS "Wir haben festgestellt ..." bezieht sich auf Warum ist es möglich, sich Reputationspunkte zu geben? .

— CHL