Dies ist eine Antwort auf @vinesh sowie ein Blick auf das allgemeine Prinzip in der ursprünglichen Frage.
Bei mehreren Vergleichen gibt es hier wirklich zwei Probleme: Wenn wir die Anzahl der durchgeführten Vergleiche erhöhen, verfügen wir über mehr Informationen, die es einfacher machen, echte Unterschiede zu erkennen, aber die erhöhte Anzahl von Vergleichen macht es auch einfacher, nicht vorhandene Unterschiede zu erkennen (False Positives, Ausbaggern von Daten, Foltern der Daten, bis sie gestehen).
Stellen Sie sich eine Klasse mit 100 Schülern vor, jeder der Schüler erhält eine faire Münze und wird aufgefordert, die Münze zehnmal zu werfen und anhand der Ergebnisse die Nullhypothese zu testen, dass der Anteil der Köpfe 50% beträgt. Wir würden erwarten, dass die p-Werte zwischen 0 und 1 liegen, und zufällig würden wir erwarten, dass etwa 5 der Schüler p-Werte von weniger als 0,05 erhalten. Tatsächlich wären wir sehr überrascht, wenn keiner von ihnen einen p-Wert von weniger als 0,05 erhalten würde (weniger als 1% Wahrscheinlichkeit, dass dies geschieht). Wenn wir nur die wenigen signifikanten Werte betrachten und alle anderen ignorieren, werden wir fälschlicherweise zu dem Schluss kommen, dass die Münzen voreingenommen sind. Wenn wir jedoch eine Technik verwenden, die die mehrfachen Vergleiche berücksichtigt, werden wir wahrscheinlich immer noch richtig beurteilen, dass die Münzen fair sind (oder zumindest nicht ablehnen, dass sie oder fair).
Betrachten Sie andererseits einen ähnlichen Fall, in dem 10 Schüler einen Würfel werfen und bestimmen, ob der Wert in der Menge {1,2,3} oder in der Menge {4,5,6} liegt, von denen jeder 50% hat Chance jeden Wurf, wenn der Würfel fair ist (kann aber anders sein, wenn der Würfel manipuliert ist). Alle 10 Schüler berechnen p-Werte (null ist 50%) und erhalten Werte zwischen 0,06 und 0,25. In diesem Fall hat keiner von ihnen den magischen Grenzwert von 5% erreicht. Wenn Sie also die Ergebnisse einzelner Schüler betrachten, wird dies nicht zu einer nicht fairen Erklärung führen, aber alle p-Werte sind kleiner als 0,5, wenn alle Würfel fair sind dann sollten die p-Werte gleichmäßig verteilt sein und eine 50% ige Chance haben, über 0,5 zu liegen. Die Chance, 10 unabhängige p-Werte zu erhalten, die alle kleiner als 0,5 sind, wenn die Nullen wahr sind, ist geringer als die magische 0,05, und dies legt nahe, dass die Würfel voreingenommen sind.
Jetzt sind Münzwurf und Würfelwurf etwas erfunden, also ein anderes Beispiel: Ich habe ein neues Medikament, das ich testen möchte. Mein Budget ermöglicht es mir, das Medikament an 1.000 Probanden zu testen (dies ist ein paarweiser Vergleich, wobei jedes Proband seine eigene Kontrolle hat). Ich denke über 2 verschiedene Studiendesigns nach. Im ersten rekrutiere ich 1.000 Probanden, die die Studie durchführen und einen einzelnen p-Wert angeben. Im zweiten Entwurf rekrutiere ich 1.000 Probanden, teile sie jedoch in 100 10er-Gruppen auf. Ich mache die Studie für jede der 100 10er-Gruppen und berechne einen p-Wert für jede Gruppe (100 p-Gesamtwerte). Denken Sie über die möglichen Unterschiede zwischen den beiden Methoden nach und darüber, wie sich die Schlussfolgerungen unterscheiden können. Ein objektiver Ansatz würde erfordern, dass beide Studiendesigns zu derselben Schlussfolgerung führen (bei denselben 1.000 Patienten und alles andere ist dasselbe).
@mljrg, warum hast du dich entschieden, g1 und g2 zu vergleichen? Wenn dies vor dem Sammeln von Daten eine Frage von Interesse war, ist der MW-p-Wert angemessen und aussagekräftig. Wenn Sie jedoch den KW-Test durchgeführt haben, haben Sie nachgefragt, welche 2 Gruppen am unterschiedlichsten waren, und den MW-Test nur mit diesen durchgeführt sah am unterschiedlichsten aus, dann wurden die Annahmen für den MW-Test verletzt und der MW-p-Wert ist bedeutungslos und der KW-p-Wert ist der einzige mit potenzieller Bedeutung.