Welche Hypothesentests können neben Durbin-Watson zu nicht schlüssigen Ergebnissen führen?

10

Die Durbin-Watson-Teststatistik kann in einem nicht eindeutigen Bereich liegen, in dem es nicht möglich ist, die Nullhypothese (in diesem Fall der Null-Autokorrelation) abzulehnen oder nicht abzulehnen.

Welche anderen statistischen Tests können zu "nicht schlüssigen" Ergebnissen führen?

Gibt es eine allgemeine Erklärung (Handwinken ist in Ordnung), warum diese Tests nicht in der Lage sind, eine binäre Entscheidung "Ablehnen" / "Nicht ablehnen" zu treffen?

Es wäre ein Bonus, wenn jemand die entscheidungstheoretischen Implikationen als Teil seiner Antwort auf die letztere Frage erwähnen könnte - bedeutet das Vorhandensein einer zusätzlichen Kategorie von (In-) Schlussfolgerungen, dass wir die Kosten von Typ I und Typ II berücksichtigen müssen Fehler auf raffiniertere Weise?

hypothesis-testing statistical-significance decision-theory

— Silberfisch
quelle

2

Ein bisschen abseits des Themas, aber randomisierte Tests haben einen solchen Geschmack. Für einige Werte der Daten müssen Sie über das Akzeptieren und Ablehnen randomisieren.

— Christoph Hanck

@ChristophHanck danke, das war eine interessante Verbindung, die ich nicht bemerkt hätte. Nicht das, was ich vorhatte, aber ich habe die Frage absichtlich vage gehalten, in der Hoffnung, dass sie ein Allheilmittel ist - abhängig von den Antworten, die ich später möglicherweise genauer fokussiere.

— Silverfish

10

Der Wikipedia-Artikel erklärt, dass die Verteilung der Teststatistik unter der Nullhypothese von der Entwurfsmatrix abhängt - der speziellen Konfiguration der in der Regression verwendeten Prädiktorwerte. Durbin & Watson berechnete untere Grenzen für die Teststatistik, unter der der Test auf positive Autokorrelation bei bestimmten Signifikanzniveaus für jede Entwurfsmatrix ablehnen muss , und obere Grenzen, über die der Test für keine Entwurfsmatrix nicht ablehnen darf . Die "nicht eindeutige Region" ist lediglich die Region, in der Sie unter Berücksichtigung Ihrer Entwurfsmatrix genaue kritische Werte berechnen müssten, um eine eindeutige Antwort zu erhalten.

Eine analoge Situation wäre, einen einseitigen t-Test mit einer Stichprobe durchführen zu müssen, wenn Sie nur die t-Statistik kennen und nicht die Stichprobengröße ^† : 1,645 & 6,31 (entsprechend unendlichen Freiheitsgraden & nur einer) die Grenzen für einen Test der Größe 0,05.

Was die Entscheidungstheorie betrifft, müssen Sie neben der Stichprobenvariation eine neue Unsicherheitsquelle berücksichtigen, aber ich verstehe nicht, warum sie nicht auf die gleiche Weise wie bei zusammengesetzten Nullhypothesen angewendet werden sollte. Sie befinden sich in derselben Situation wie jemand mit einem unbekannten Störparameter, unabhängig davon, wie Sie dorthin gekommen sind. Wenn Sie also eine Ablehnungs- / Beibehaltungsentscheidung treffen müssen, während Sie den Fehler vom Typ I über alle Möglichkeiten hinweg kontrollieren, lehnen Sie dies konservativ ab (dh wenn die Durbin-Watson-Statistik unter der Untergrenze liegt oder die T-Statistik über 6,31 liegt).

† Oder vielleicht haben Sie Ihre Tische verloren; Ich kann mich aber an einige kritische Werte für einen Standard-Gaußschen Wert und an die Formel für die Cauchy-Quantilfunktion erinnern.

— Scortchi - Monica wieder einsetzen
quelle

(+1) Danke. Ich wusste, dass dies beim Durbin-Watson-Test der Fall war (hätte das in meiner Frage wirklich erwähnen sollen), fragte mich aber, ob dies ein Beispiel für ein allgemeineres Phänomen ist und wenn ja, ob sie alle im Wesentlichen gleich funktionieren. Ich vermutete, dass dies beispielsweise passieren kann, wenn bestimmte Tests durchgeführt werden, während nur Zugriff auf Zusammenfassungsdaten besteht (nicht unbedingt in einer Regression), aber DW ist der einzige Fall, an den ich mich erinnern kann, dass die oberen und unteren kritischen Werte zusammengestellt und tabellarisch dargestellt wurden . Wenn Sie irgendwelche Gedanken darüber haben, wie ich die Frage besser zielen kann, wäre das sehr willkommen.

— Silverfish

Die erste Frage ist etwas vage ("Welche anderen statistischen Tests [...]?"), Aber ich glaube nicht, dass Sie sie klären können, ohne die zweite zu beantworten ("Gibt es eine allgemeine Erklärung [...]?"). Sie selbst - insgesamt denke ich, dass es in Ordnung ist.

— Scortchi - Monica wieder einsetzen

7

Ein weiteres Beispiel für einen Test mit möglicherweise nicht eindeutigen Ergebnissen ist ein Binomialtest für einen Anteil, bei dem nur der Anteil und nicht die Stichprobengröße verfügbar ist. Dies ist nicht völlig unrealistisch - wir sehen oder hören oft schlecht gemeldete Behauptungen der Form "73% der Menschen stimmen dem zu ..." und so weiter, wenn der Nenner nicht verfügbar ist.

Nehmen wir zum Beispiel an, wir kennen nur den auf den nächsten ganzen Prozentsatz gerundeten Stichprobenanteil und möchten gegen auf der Ebene testen . $H_0: \pi = 0.5$ $H_1: \pi \neq 0.5$ $\alpha = 0.05$

Wenn unser beobachteter Anteil war, muss die Stichprobengröße für den beobachteten Anteil mindestens 19 betragen haben, da der Anteil mit dem niedrigsten Nenner ist, der auf runden würde . Wir wissen nicht, ob die beobachtete Anzahl der Erfolge tatsächlich 1 von 19, 1 von 20, 1 von 21, 1 von 22, 2 von 37, 2 von 38, 3 von 55, 5 von 5 war 100 oder 50 von 1000 ... aber was auch immer es ist, das Ergebnis wäre auf der Ebene signifikant . $p=5\%$ $\frac{1}{19}$ $5\%$ $\alpha = 0.05$

Wenn wir andererseits wissen, dass der Stichprobenanteil betrug, wissen wir nicht, ob die beobachtete Anzahl von Erfolgen 49 von 100 (was auf diesem Niveau nicht signifikant wäre) oder 4900 von 10.000 (was auf diesem Niveau nicht signifikant wäre) war erlangt gerade Bedeutung). In diesem Fall sind die Ergebnisse also nicht schlüssig. $p = 49\%$

Beachten Sie, dass es bei gerundeten Prozentsätzen keinen Bereich gibt, in dem keine Ablehnung möglich ist: Selbst stimmt mit Stichproben wie 49.500 von 100.000 Erfolgen überein, die zur Ablehnung führen würden, sowie mit Stichproben wie 1 Erfolg von 2 Versuchen , was dazu führen würde, dass abgelehnt wird . $p=50\%$ $H_0$

Im Gegensatz zum Durbin-Watson-Test habe ich noch nie tabellarische Ergebnisse gesehen, für die Prozentsätze signifikant sind. Diese Situation ist subtiler, da es keine oberen und unteren Grenzen für den kritischen Wert gibt. Ein Ergebnis von wäre eindeutig nicht schlüssig, da null Erfolge in einem Versuch unbedeutend wären, jedoch keine Erfolge in einer Million Versuche von hoher Bedeutung wären. Wir haben bereits gesehen, dass nicht schlüssig ist, aber dass es signifikante Ergebnisse gibt, z. B. dazwischen. Darüber hinaus ist das Fehlen eines Grenzwerts nicht nur auf die anomalen Fälle von und . Wenn Sie ein wenig herumspielen, entspricht die niedrigstwertige Stichprobe $p=0\%$ $p=50\%$ $p=5\%$ $p=0\%$ $p=100\%$ $p=16\%$ ist 3 Erfolge in einer Stichprobe von 19, in welchem Fall also signifikant wäre; für könnten wir 1 Erfolg in 6 Versuchen haben, was unbedeutend ist, so dass dieser Fall nicht schlüssig ist (da es eindeutig andere Proben mit die wäre bedeutend); für kann es 2 Erfolge in 11 Versuchen geben (unbedeutend, ), so dass dieser Fall ebenfalls nicht schlüssig ist; Für sind jedoch 3 Erfolge in 19 Versuchen mit die am wenigsten signifikante mögliche Stichprobe. Dies ist also wieder signifikant. $\Pr(X \leq 3) \approx 0.00221 < 0.025$ $p=17\%$ $\Pr(X \leq 1) \approx 0.109 > 0.025$ $p=16\%$ $p=18\%$ $\Pr(X \leq 2) \approx 0.0327 > 0.025$ $p=19\%$ $\Pr(X \leq 3) \approx 0.0106 < 0.025$

Tatsächlich ist der höchste gerundete Prozentsatz unter 50%, der bei 5% eindeutig signifikant ist (sein höchster p-Wert wäre für 4 Erfolge in 17 Versuchen und ist nur signifikant), während ist das niedrigste Nicht-Null-Ergebnis, das nicht schlüssig ist (da es 1 Erfolg in 8 Versuchen entsprechen könnte). Wie aus den obigen Beispielen hervorgeht, ist das, was dazwischen passiert, komplizierter! Die Grafik unten hat eine rote Linie bei : Punkte unterhalb der Linie sind eindeutig signifikant, aber die darüber liegenden Punkte sind nicht eindeutig. Das Muster der p-Werte ist so, dass es keine einzelnen unteren und oberen Grenzen für den beobachteten Prozentsatz gibt, damit die Ergebnisse eindeutig signifikant sind. $p=24\%$ $p=13\%$ $\alpha=0.05$

Am wenigsten signifikanter p-Wert des Binomialtests mit unbekannter Probengröße

R-Code

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(Der Rundungscode wird aus dieser StackOverflow-Frage herausgeschnitten .)

— Silberfisch
quelle