Anwenden von Erik Antwort auf Michaels :
Genauso kann man denken, worauf Erik sich bezieht, wenn er das Leistungsmaß auswählt.
Ich finde es hilfreich, anhand der Fragen, die sie beantworten, auf verschiedene solche Maßnahmen zu verweisen (hier in der mir am besten vertrauten medizinischen Diagnosesprache - aber vielleicht können Sie den Patienten einfach durch Text und die Krankheit durch Spam ersetzen ;-)):
Empfindlichkeit: Wenn der Patient wirklich an der Krankheit leidet, wie wahrscheinlich ist es, dass der Klassifikator dies erkennt?
Spezifität: Wie wahrscheinlich ist es, dass der Klassifikator dies erkennt, wenn der Patient die Krankheit tatsächlich nicht hat?
Positiver prädiktiver Wert: Wie wahrscheinlich ist es, dass der Patient tatsächlich an der Krankheit leidet, wenn der Klassifikator behauptet, er sei krank?
Negativer Vorhersagewert: Wenn der Klassifikator behauptet, der Patient sei nicht krank, wie wahrscheinlich ist es dann, dass der Patient die Krankheit wirklich nicht hat?
Wie Sie sehen, sind die prädikitiven Werte das, woran Ärzte und Patienten wirklich interessiert sind. Fast jeder charakterisiert seinen Klassifikator jedoch durch Sensitivität und Spezifität. Der Grund dafür ist, dass die Vorhersagewerte die Prävalenz der Krankheit berücksichtigen müssen und diese für verschiedene Arten von Patienten sehr unterschiedlich sein kann (Größenordnungen!).
Mehr zum Thema für Ihre Frage:
Ich wette, Sie haben Recht, wenn Sie sich Sorgen machen.
Nehmen wir beide Szenarien von Erik als Beispiel:
Hier sind die unabhängigen Testmuster:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(Beachten Sie, dass dieser Test zweiseitig war, vorausgesetzt, die beiden Klassifikatoren wären veröffentlicht worden, selbst wenn die Ergebnisse umgekehrt gewesen wären ...)
Hier ist die bestmögliche Situation: gepaarter Test, und der neue Klassifikator ist für alle Proben richtig, der alte ist auch richtig, plus 10 weitere:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(Der p-Wert bleibt unter dem magischen Wert von 0,05, solange nicht mehr als 10 der 1000 Proben von den beiden Klassifikatoren unterschiedlich vorhergesagt wurden.)
Auch wenn p-Werte die richtige Antwort auf die falsche Frage sind, gibt es Hinweise darauf, dass es ein enger Raum ist.
Unter Berücksichtigung der üblichen wissenschaftlichen Praxis, dh es wurde eine unbekannte (unveröffentlichte) Anzahl neuer Funktionen getestet, und nur die, die etwas besser funktionierte, wurde veröffentlicht, wodurch der Platz noch enger wurde. Und dann ist der 80% -Klassifikator möglicherweise nur der Nachfolger eines 79% -Klassifikators ...
Wenn Sie gerne Deutsch lesen, gibt es einige wirklich schöne Bücher von Beck-Bornhold und Dubben. Wenn ich mich richtig erinnere, hat Mit an Wahrscheinlichkeit grenzender Sicherheit eine sehr nette Diskussion über diese Probleme. (Ich weiß nicht, ob es eine englische Ausgabe gibt, eine eher wörtliche Übersetzung des Titels lautet "Mit einer an die Wahrscheinlichkeit grenzenden Gewissheit".)