Tatsächlich sind p-Werte nun auch endgültig „aus der Mode“: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Das Testen der Signifikanz von Nullhypothesen (NHST) liefert kaum mehr als eine Beschreibung Ihrer Stichprobengröße. (*) Jeder experimentelle Eingriff hat eine gewisse Auswirkung, dh, die einfache Nullhypothese, dass keine Auswirkung vorliegt, ist im engeren Sinne immer falsch . Ein "nicht signifikanter" Test bedeutet daher einfach, dass Ihre Stichprobengröße nicht groß genug war. Ein "signifikanter" Test bedeutet, dass Sie genug Daten gesammelt haben, um etwas zu "finden".
Die "Effektgröße" stellt einen Versuch dar, dies zu beheben, indem ein Maß in der natürlichen Größenordnung des Problems eingeführt wird. In der Medizin, in der Behandlungen immer einen gewissen Effekt haben (auch wenn es sich um einen Placebo-Effekt handelt), wird der Begriff eines „klinisch bedeutsamen Effekts“ eingeführt, um der 50% igen Wahrscheinlichkeit zuvor vorzubeugen, dass eine „Behandlung“ einen „a“ hat ( statistisch signifikanter positiver Effekt (jedoch winzig) in einer beliebig großen Studie.
Wenn ich die Natur Ihrer Arbeit verstehe, Klarinettist, dann besteht ihr legitimes Ziel letztendlich darin , Maßnahmen / Interventionen zu informieren , die die Bildung in den Schulen unter Ihrer Kontrolle verbessern. Daher handelt es sich bei Ihrer Einstellung um eine entscheidungstheoretische Einstellung , und Bayes'sche Methoden sind der am besten geeignete (und eindeutig kohärente [1] ) Ansatz.
Tatsächlich ist der beste Weg, um frequentistische Methoden zu verstehen, die Annäherung an die Bayes'schen Methoden . Die geschätzte Effektgröße kann so verstanden werden, dass ein Maß für die Zentralität der Bayes'schen posterioren Verteilung angestrebt wird, während der p-Wert so verstanden werden kann, dass ein Schwanz dieses posterioren gemessen werden soll. Somit zusammen enthalten diese beiden Größen einige grobe Kern der Bayes - posterior , die auf Ihrem Problem die natürliche Eingabe in eine entscheidungstheoretische Perspektiven darstellt. (Alternativ kann ein frequentistisches Konfidenzintervall für die Effektgröße ebenfalls als ein glaubwürdiges Intervall verstanden werden .)
In den Bereichen Psychologie und Pädagogik sind die Bayes'schen Methoden tatsächlich recht beliebt. Ein Grund dafür ist, dass es einfach ist, "Konstrukte" als latente Variablen in Bayes'sche Modelle zu installieren. Vielleicht möchten Sie sich das Welpenbuch von John K. Kruschke , einem Psychologen, ansehen . Im Bildungsbereich (wo Schüler in Klassenräumen, Schulen, Distrikten usw. eingebettet sind) ist eine hierarchische Modellierung unvermeidlich. Bayesianische Modelle eignen sich auch hervorragend für die hierarchische Modellierung. In diesem Zusammenhang möchten Sie vielleicht Gelman & Hill [2] ausprobieren.
[1]: Robert, Christian P. Die Bayes'sche Wahl: Von entscheidungs-theoretischen Grundlagen zur rechnergestützten Implementierung. 2nd ed. Springer-Texte in der Statistik. New York: Springer, 2007.
[2]: Gelman, Andrew und Jennifer Hill. Datenanalyse mit Regression und mehrstufigen / hierarchischen Modellen. Analytische Methoden für die Sozialforschung. Cambridge; New York: Cambridge University Press, 2007.
Weitere Informationen zum Thema „Kohärenz“ unter dem Gesichtspunkt, dass man sich nicht unbedingt mit einem Bayes'schen Ziegel auf den Kopf schlagen muss, finden Sie in [3].
[3]: Robins, James und Larry Wasserman. "Konditionierung, Wahrscheinlichkeit und Kohärenz: Ein Überblick über einige grundlegende Konzepte." Journal of the American Statistical Association 95, No. 452 (1. Dezember 2000): 1340–46. doi: 10.1080 / 01621459.2000.10474344.
(*) In [4] geißelt Meehl NHST viel eleganter, aber nicht weniger aggressiv als ich:
Da die Nullhypothese quasi immer falsch ist, sind Tabellen, in denen die Untersuchung anhand von Mustern „signifikanter Unterschiede“ zusammengefasst wird, kaum mehr als komplexe, kausal nicht interpretierbare Ergebnisse statistischer Potenzfunktionen.
[4]: Meehl, Paul E. „Theoretische Risiken und tabellarische Sternchen: Sir Karl, Sir Ronald und der langsame Fortschritt der weichen Psychologie.“ Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
Und hier ist ein entsprechendes Zitat von Tukey: /stats//a/728/41404