Fit-Test: Frage zum Anderson-Darling-Test und zum Cramér-von-Mises-Kriterium


10

Ich lese Webseiten für gute Anpassungstests, als ich zum Anderson-Darling-Test und zum Cramér-von-Mises-Kriterium kam .

Bisher habe ich verstanden; es scheint, dass der Anderson-Darling-Test und das Cramér-von-Mises-Kriterium ähnlich sind, nur basierend auf einer anderen Gewichtungsfunktion . Es gibt auch eine Variante des Cramér-von-Mises-Kriteriums namens Watson-Test .w

Grundsätzlich habe ich hier zwei Fragen

  1. Es gibt nicht viele Google-Ergebnisse zu diesen beiden Methoden. Sind sie immer noch auf dem neuesten Stand der Technik? oder schon durch bessere Ansätze ersetzt?

    Es ist eine kleine Überraschung, denn laut diesem Artikel über Leistungsvergleiche von Shapiro-Wilk-, Kolmogorov-Smirnov-, Lilliefors- und Anderson-Darling-Tests schneidet AD recht gut ab. Immer besser als Lilliefors und KS und sehr nahe am SW-Test, der speziell für die Normalverteilung entwickelt wurde.

  2. Was ist das Konfidenzintervall für solche Tests?

    Bei den AD-, CM- und Watson-Tests habe ich die auf den Wiki-Seiten definierte Teststatistikvariable gesehen, aber das Konfidenzintervall nicht gefunden.

    KαK

Antworten:


4

Es kann keinen einzigen Stand der Technik für die Anpassungsgüte geben (zum Beispiel wird es keinen UMP-Test für allgemeine Alternativen geben, und es kommt wirklich nichts in die Nähe - selbst hoch angesehene Omnibus-Tests haben in manchen Situationen eine schreckliche Leistung).

Im Allgemeinen wählen Sie bei der Auswahl einer Teststatistik die Arten von Abweichungen aus, die am wichtigsten sind, um eine Teststatistik zu erkennen und zu verwenden, die für diesen Job gut ist. Einige Tests eignen sich sehr gut für eine Vielzahl interessanter Alternativen, was sie zu anständigen Standardentscheidungen macht, aber das macht sie nicht zum "Stand der Technik".

Der Anderson Darling ist immer noch sehr beliebt und das aus gutem Grund. Der Cramer-von-Mises-Test wird heutzutage viel weniger verwendet (zu meiner Überraschung, weil er normalerweise besser als der Kolmogorov-Smirnov ist, aber einfacher als der Anderson-Darling - und oft eine bessere Leistung hat als er bei Unterschieden "in der Mitte" von der Vertrieb)

Alle diese Tests leiden unter Voreingenommenheit gegenüber einigen Arten von Alternativen, und es ist leicht, Fälle zu finden, in denen der Anderson-Darling (schrecklich, wirklich) viel schlechter abschneidet als die anderen Tests. (Wie ich vorschlage, sind es mehr "Pferde für Kurse" als ein Test, um sie alle zu regieren). Leider wird diesem Thema oft wenig Beachtung geschenkt (was ist am besten, um die Abweichungen zu erfassen, die für mich am wichtigsten sind?), Leider.

In einigen dieser Beiträge finden Sie möglicherweise einen Wert:

Ist Shapiro-Wilk der beste Normalitätstest? Warum könnte es besser sein als andere Tests wie Anderson-Darling?

2 Stichprobe Kolmogorov-Smirnov vs. Anderson-Darling vs. Cramer-von-Mises (etwa zwei Stichproben, aber viele der Aussagen übertragen sich

Motivation für Kolmogorovs Abstand zwischen Verteilungen (theoretischere Diskussion, aber es gibt mehrere wichtige Punkte zu praktischen Implikationen)


Ich glaube nicht, dass Sie in der Cramer-von-Mises- und Anderson-Darline-Statistik ein Konfidenzintervall für das PDF bilden können, da die Kriterien auf allen Abweichungen und nicht nur auf den größten basieren.


Ich habe "Stand der Technik" als etwas verstanden, das Verwendung findet, das nicht veraltet ist. Das Vorhandensein mehrerer Definitionen der Anpassungsgüte sollte uns signalisieren, dass die Anpassungsgüte kein einziges Konzept ist. Bedenken Sie, dass "gut" davon abhängt, "warum" wir eine Regression durchführen. Angenommen, wir passen Modell A an Daten B an, um einen besten Prädiktor für Effekt C zu erhalten. Dann ist "gut" der beste Prädiktor für C, nicht B. Am häufigsten wird jedoch die Frage, wie sich B und C unterscheiden, ignoriert.
Carl

1
@Carl Vielleicht möchten Sie in einem Wörterbuch (oder Wikipedia) nachsehen, welchen Stand der Technik normalerweise bedeutet - Ihre Interpretation der Phrase ist nicht so, wie die meisten Leute die Phrase lesen. Wörterbücher sagen solche Dinge: " der jüngste Entwicklungsstand, der die neuesten Ideen einbezieht " und " der höchste Entwicklungsstand zu einem bestimmten Zeitpunkt " und " der neueste Stand der Technik ". In diesem Zusammenhang - Testen der Passgenauigkeit - impliziert der Ausdruck "das Beste, was wir derzeit tun können". Ich bestehe darauf, dass man das nicht wirklich über einen einzelnen Test sagen kann. ... ctd
Glen_b -Rate State Monica

2
... zB Wir können sagen, dass beliebte Tests wie der Shapiro-Wilk (obwohl sie beim Testen der Normalität sehr beliebt sind) Konkurrenten mit einer weitaus besseren Leistung haben (z. B. siehe Shapiro & Chen 1995) - aber nicht in jeder Situation. Es gibt keine einzige beste Testauswahl (und daher keinen aktuellen Stand der Technik). Natürlich stimme ich zu, dass das Beste (Stand der Technik) von den Umständen abhängt - das ist der Punkt meiner Antwort; Die möglichen Antworten sind unzählig - etwas Gutes in einer Situation kann in einer anderen sehr schlecht sein. Es lohnt sich zu wissen, wann Tests gut abschneiden, anstatt nach dem "Besten" zu fragen, als wäre es eine einzige Sache.
Glen_b -State Monica

Ihre Definition ist zwar korrekter. Es gibt jedoch viel mehr Methoden als Methodentests, und der "Stand der Technik" ist größtenteils Fiktion, dh die "Kunst" hat keinen "Zustand", sondern nur Protagonisten. Jede Antwort auf solch eine nebulöse Position ist nicht eindeutig. Ich sagte 'Ja' und Sie sagten 'Nein' und wir sagten beide dasselbe.
Carl

Übrigens war die Frage "Stand der Technik" oder "ersetzt", was ich als "veraltet oder nicht veraltet" bezeichnete. Es gab also einen Kontext für meine Antwort, der lautete: "Bitte nehmen Sie an, dass 'Stand der Technik' und 'Ersetzen' Antonyme sind, und wählen Sie eines davon aus." Sie haben Recht, dass dies keine Antonyme sind, die ich im Kontext beantwortet habe, und Sie haben sich entschieden, die Frage zu stellen. Meine war also die höfliche Antwort. Und ich werde für Ihre Antwort stimmen, weil ich sie informativ, wenn nicht übermäßig höflich finde.
Carl

2

n=400 Der Shapiro-Wilk-Test ist jedoch nur für Normalverteilungstests vorgesehen. Der Cramér-von-Mises-Test und das Pearson-Chi-Quadrat sind allgemein für alle Verteilungsanpassungen an Histogramme, und ich denke, dass der Cramér-von-Mises-Test mehr Leistung hat als der Pearson-Chi-Quadrat. Der Cramér-von-Mises-Testist ein leistungsfähigerer Anpassungstest für die kumulative Dichtefunktion als der Kolmogorov-Smirnov-Test und kann eine Leistung aufweisen, die größer oder kleiner als die t-Prüfung ist. Chi-Quadrat hat Schwierigkeiten mit niedrigen Zellzahlen, daher werden Bereichsbeschränkungen für die Anpassung von Schwänzen verwendet.

** Frage 1: ... sind ... diese beiden Methoden ... immer noch auf dem neuesten Stand der Technik? oder schon durch bessere Ansätze ersetzt? Frage 2 Was ist das Konfidenzintervall für solche Tests? ** **.

Antwort: Sie sind auf dem neuesten Stand der Technik. Manchmal wollen wir jedoch Konfidenzintervalle, keine Wahrscheinlichkeiten. Wenn wir diese Methoden miteinander vergleichen, sprechen wir eher von Macht als von Konfidenzintervallen. Manchmal wird die Anpassungsgüte anhand von AIC, BIC und anderen Kriterien analysiert, im Gegensatz zu den Wahrscheinlichkeiten einer guten Anpassung, und manchmal ist das Kriterium der Anpassungsgüte irrelevant, beispielsweise wenn die Anpassungsgüte nicht das Kriterium für die Anpassung ist . Im letzteren Fall kann unser Regressionsziel eine physikalische Größe sein, die nicht mit der Anpassung zusammenhängt, z. B. siehe Tk-GV .


NB Der Anderson-Darling-Test ist eine gewichtete Version des Cramer-von-Mises-Tests. &, wie es, für jede kontinuierliche Verteilung geeignet.
Scortchi - Monica wieder einsetzen
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.