Was sagen ROC-Kurven Ihnen, dass traditionelle Inferenz nicht würde?


12

Wann tendieren Sie dazu, ROC-Kurven gegenüber anderen Tests zu verwenden, um die Vorhersagefähigkeit einiger Messungen für ein Ergebnis zu bestimmen?

Was macht ROC-Kurven im Umgang mit diskreten Ergebnissen (lebendig / tot, gegenwärtig / abwesend) leistungsfähiger oder weniger leistungsfähig als so etwas wie ein Chi-Quadrat?


Was ist eine ROC-Kurve? Könnten Sie bitte einen Link angeben?

Antworten:


12

Mit der ROC-Funktion (dies ist nicht unbedingt eine Kurve) können Sie die Unterscheidungsfähigkeit eines bestimmten statistischen Modells (bestehend aus einer Prädiktorvariablen oder einer Reihe von Prädiktorvariablen) bewerten.

Eine Hauptüberlegung der ROCs ist, dass Modellvorhersagen nicht nur auf der Fähigkeit des Modells beruhen, Vorhersagen auf der Grundlage der von den Prädiktorvariablen bereitgestellten Beweise zu unterscheiden / zu treffen. Außerdem wird ein Antwortkriterium verwendet, das definiert, wie viele Nachweise für das Modell erforderlich sind, um eine Antwort vorherzusagen, und was das Ergebnis dieser Antworten ist. Der Wert, der für die Antwortkriterien festgelegt wird, hat großen Einfluss auf die Modellvorhersagen und letztendlich auf die Art der Fehler, die sie machen werden.

Betrachten Sie ein generisches Modell mit Prädiktorvariablen und einem Antwortkriterium. Dieses Modell versucht, das Vorhandensein von X vorherzusagen, indem es auf Ja oder Nein antwortet. Sie haben also die folgende Verwirrungsmatrix:

                                **X present               X absent**
 **Model Predicts X Present**       Hit                   False Alarm

 **Model Predicts X Absent**      Miss                 Correct Rejection

In dieser Matrix müssen Sie nur den Anteil der Treffer und der Fehlalarme berücksichtigen (da die anderen davon abgeleitet werden können, vorausgesetzt, sie haben einen Wert von 1). Für jedes Antwortkriterium wird eine andere Verwirrungsmatrix erstellt. Die Fehler (Fehlschläge und Fehlalarme) hängen negativ zusammen, was bedeutet, dass ein Antwortkriterium, das Fehlalarme minimiert, Fehlschläge maximiert und umgekehrt. Die Meldung lautet: Es gibt kein kostenloses Mittagessen.

Um zu verstehen, wie gut das Modell Fälle unterscheidet / Vorhersagen trifft, zeichnen Sie unabhängig von den festgelegten Antwortkriterien die erzielten Treffer- und Fehlerraten über den Bereich der möglichen Antwortkriterien.

Was Sie aus diesem Plot erhalten, ist die ROC-Funktion. Der Bereich unter der Funktion liefert ein unbefangenes und nicht parametrisches Maß für die Unterscheidungsfähigkeit des Modells. Diese Maßnahme ist sehr wichtig, da sie frei von Verwechslungen ist, die durch die Antwortkriterien verursacht worden sein könnten.

Ein zweiter wichtiger Aspekt ist, dass durch die Analyse der Funktion definiert werden kann, welche Antwortkriterien für Ihre Ziele besser sind. Welche Arten von Fehlern Sie vermeiden möchten und welche Fehler sind in Ordnung. Betrachten Sie zum Beispiel einen HIV-Test: Es handelt sich um einen Test, der nach Beweisen (in diesem Fall nach Antikörpern) sucht und eine Diskriminierung / Vorhersage basierend auf dem Vergleich der Beweise mit dem Antwortkriterium vornimmt. Dieses Antwortkriterium ist in der Regel sehr niedrig eingestellt, damit Sie Fehler minimieren. Dies führt natürlich zu mehr Fehlalarmen, die Kosten verursachen, die jedoch im Vergleich zu den Fehlalarmen vernachlässigbar sind.

Mit ROCs können Sie die Unterscheidungsfähigkeit eines Modells unabhängig von den Antwortkriterien bewerten und auch die optimalen Antwortkriterien festlegen, je nachdem, welche Anforderungen und Einschränkungen Sie messen. Tests wie hi-square können dabei überhaupt nicht helfen, denn selbst wenn Sie testen, ob die Vorhersagen auf dem Zufallsniveau liegen, stimmen viele verschiedene Treffer-Fehlalarm-Paare mit dem Zufallsniveau überein.

Einige Frameworks, wie die Signaldetektionstheorie, gehen von vornherein davon aus, dass die für die Diskriminierung verfügbaren Belege eine spezifische Verteilung aufweisen (z. B. Normalverteilung oder Gammaverteilung). Wenn diese Annahmen zutreffen (oder ziemlich nahe beieinander liegen), gibt es einige wirklich gute Maßnahmen, die Ihnen das Leben erleichtern.

Ich hoffe, dies hilft Ihnen dabei, die Vorteile von ROCs zu erläutern


Ich hatte jetzt 7 Jahre Zeit, darüber nachzudenken und habe Ihre Antwort akzeptiert.
Jermdemo

6

Eine ROC-Kurve wird verwendet, wenn der Prädiktor kontinuierlich ist und das Ergebnis diskret ist, sodass ein Chi-Quadrat-Test nicht anwendbar wäre. Tatsächlich entspricht die ROC-Analyse in gewissem Sinne dem Mann-Whitney-Test: Die Fläche unter der Kurve ist P (X> Y), die Menge, die durch den MW-Test getestet wird. Die Mann-Whitney-Analyse betont jedoch nicht die Auswahl eines Grenzwerts, während dies der Hauptpunkt der ROC-Analyse ist. Darüber hinaus werden ROC-Kurven häufig nur als visuelle Anzeige der Vorhersagefähigkeit einer Kovariate verwendet.


6

Die kürzeste Antwort ist, dass herkömmliche Tests der Signalerkennung nur einen einzigen Punkt auf dem ROC (Receiver Operating Characteristic) liefern, während die Kurve es Ihnen ermöglicht, die Reaktionen über einen Wertebereich hinweg zu sehen. Es ist möglich, dass sich das Kriterium und d 'während einer Verschiebung in der Kurve verschieben. Es ist wie der Unterschied zwischen einem T-Test, der durch Auswahl von zwei Klassen von Prädiktorvariablen und zwei Regressionslinien generiert wird, die durch Betrachtung parametrischer Manipulationen jeder Prädiktorvariablen generiert werden.


2

Falls Sie an weiteren Referenzen interessiert sind, finden Sie auf der Website von KH Zou, Literaturrecherche zu Receiver Operating Characteristics (ROC) , eine umfangreiche Liste von Artikeln .

ROC-Kurven werden auch verwendet, wenn es darum geht, die Leistung verschiedener Klassifikatoren mit einer breiten Anwendung in der biomedizinischen Forschung und in der Bioinformatik zu vergleichen.


1

In vielerlei Hinsicht sind ROCs eine Ablenkung von primären Inferenz- und Schätzwerkzeugen für Modelle. Ich kann dort nicht viel Wert sehen.


Bitte erläutern Sie, wenn Sie eine Chance bekommen! Ich glaube, ich habe eine allgemeine Vorstellung von Ihrem Argument aus anderen Schriften, und es wäre hier eine sehr wertvolle Ergänzung.
Matt Parker

1
Wenn wir an Modelle glauben, sind modellbasierte Schätzungen ideal und die leistungsfähigsten / empfindlichsten / genauesten. Es gibt verschiedene Maßklassen, wie zB erläuterte VariationsmaßeR2und Verallgemeinerungen davon. Andere Maßnahmen konzentrieren sich auf die Vielfalt der vom Modell erzielten Vorhersagen. Ein Histogramm der vorhergesagten Werte reicht weit. ROC-Kurven sehen unterschiedliche Grenzwerte vor. Cutoffs sind irreführend und gefährlich; sie lassen kategorisches Denken entstehen, dh sie behandeln alle Personen einer Gruppe so, als hätten sie identische Eigenschaften. Ein anderer Ansatz: Partitionierung von Abweichungen.
Frank Harrell
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.