Angenommen, ich habe 20 Mäuse. Ich paare die Mäuse auf irgendeine Weise, so dass ich 10 Paare bekomme. Für den Zweck dieser Frage könnte es sich um eine zufällige Paarung handeln, ODER es könnte sich um eine sinnvolle Paarung handeln, beispielsweise um den Versuch, Mäuse aus demselben Wurf mit gleichem Geschlecht und ähnlichem Gewicht zu paaren, ODER es könnte sich um eine absichtlich dumme Paarung handeln versuchen, Mäuse mit Gewichten zu paaren, die so ungleich sind wie sie nur sein könnten. Ich benutze dann Zufallszahlen, um eine Maus in jedem Paar der Kontrollgruppe und die andere Maus der zu behandelnden Gruppe zuzuweisen. Ich mache jetzt das Experiment, indem ich nur die zu behandelnden Mäuse behandle, aber ansonsten den soeben getroffenen Vorkehrungen keinerlei Beachtung schenke.
Wenn man die Ergebnisse analysiert, kann man entweder ungepaarte T-Tests oder gepaarte T-Tests verwenden. Inwiefern unterscheiden sich die Antworten, wenn überhaupt? (Ich interessiere mich grundsätzlich für systematische Unterschiede bei statistischen Parametern, die geschätzt werden müssen.)
Der Grund, warum ich das frage, ist, dass ein Artikel, mit dem ich kürzlich zu tun hatte, von einem Biologen dafür kritisiert wurde, dass er einen gepaarten T-Test anstelle eines ungepaarten T-Tests verwendet. Natürlich war die Situation im eigentlichen Experiment nicht so extrem wie die Situation, die ich skizziert habe, und meiner Meinung nach gab es gute Gründe für das Pairing. Aber der Biologe stimmte nicht zu.
Es scheint mir nicht möglich zu sein, unter den von mir skizzierten Umständen die statistische Signifikanz zu verbessern (den p-Wert zu verringern), indem ein gepaarter t-Test anstelle eines ungepaarten Tests verwendet wird, selbst wenn eine Paarung nicht angebracht ist. Es könnte jedoch die statistische Signifikanz verschlechtern, wenn Mäuse schlecht gepaart wären. Ist das richtig?