Eine Methode zur Reduzierung der Konservativität einiger diskreter Teststatistiken
(oder allgemeiner, nur mehr Auswahlmöglichkeiten des Signifikanzniveaus)
Abhängig vom Test besteht ein gelegentlich nützlicher Ansatz, der keine Randomisierung erfordert, darin, einen winzigen Bruchteil einer anderen vernünftigen Statistik hinzuzufügen, um Bindungen zu lösen.
Stellen Sie sich zum Beispiel vor, wir testen Kendalls Tau, aber in kleinen bis mittelgroßen Proben ist es immer noch ziemlich diskret, sodass es schwierig ist, ein gewünschtes Signifikanzniveau zu erreichen.
Nehmen wir zur Verdeutlichung an, Sie möchten bei einem zweiseitigen Test mit einen Wert nahe .n = 7α = 10 %n = 7
Die erreichbaren Signifikanzniveaus betragen 6,9% oder 13,6%; beides ist nicht sehr nah an dem, was gebraucht wird!
Eine Sache, die wir tun könnten, ist, einen winzigen Bruchteil einer anderen Statistik hinzuzufügen, die nicht perfekt mit der Statistik korreliert, die wir haben. Dies bedeutet, dass viele Vereinbarungen, die zuvor verknüpfte Statistiken lieferten, nicht mehr verknüpft sind, obwohl ihre Werte nahe beieinander liegen.
Wenn wir zum Beispiel Spearmans Rho verwenden, um Bindungen zu lösen, indem wir beispielsweise , sind die Werte fast identisch mit zuvor, aber die erreichbaren Signifikanzniveaus sind jetzt 8,9% und 10,9% - nicht perfekt , aber viel besser als zuvor - und in diesem Fall ist die Statistik immer noch verteilungsfrei.0,999 τ+ 0,001 ρ
Beachten Sie, dass das Gewicht auf so klein wie gewünscht gemacht werden kann.ρ
Hier ist eine Illustration - das Schwarz ist das ECDF der ursprünglichen Kendall-Korrelation, während das Rot die "Break Tie" -Version ist. Ich habe den relativen Beitrag des Spearman hier viel größer gemacht (ein Gewicht von 0,1), damit Sie den Effekt deutlicher sehen können:
Vergrößern wir die Region in der Nähe des 2,5% - und 5% -Niveaus am linken Ende (einseitig, entsprechend 5% und 10% zweiseitig):
Wie wir sehen, können wir auf diese Weise dem gewünschten Signifikanzniveau viel näher kommen und dabei nahezu alle anderen wünschenswerten Eigenschaften in dem von uns gewünschten Grad an Nähe beibehalten.
Es gibt verschiedene Anpassungen, um das Ergebnis noch Kendall-ähnlicher zu machen (z. B. um es so einzurichten, dass die Erwartung einer kleinen Anpassung der Kendall-Korrelation bei jeder Kendall-Korrelation Null ist, aber das ist für mich selten ein Problem).
[Wenn Sie wirklich nicht wissen, welchen von Kendall und Spearman Sie für eine nichtparametrische Korrelation verwenden möchten, hat eine gleichmäßigere Mischung eine viel normalere Verteilung (obwohl es etwas schwierig ist, die Varianz zu ermitteln, wenn Sie dies nicht tun Berechnen Sie die genaue Verteilung - eine nette Eigenschaft bei der Verwendung einer Version mit fast allen Statistiken ist, dass Sie eine vorhandene normale Näherung einfacher verwenden können, auch wenn es sich nicht um eine so schöne Verteilung handelt.]
Der gleiche Ansatz, um "schönere" Signifikanzniveaus (und p-Werte) zu erhalten, kann mit anderen Tests funktionieren. Ich habe es zum Beispiel bei einem Vorzeichentest (Aufbrechen von Verbindungen mit einer entsprechend neu skalierten Statistik mit signiertem Rang) gesehen.