Ich lerne einen maschinellen Lernkurs und die Vorlesungsfolien enthalten Informationen, die dem empfohlenen Buch widersprechen.
Das Problem ist folgendes: Es gibt drei Klassifikatoren:
- Klassifikator A, der eine bessere Leistung im unteren Bereich der Schwellenwerte bietet,
- Klassifikator B, der eine bessere Leistung im höheren Bereich der Schwellenwerte bietet,
- Klassifikator C was wir bekommen, wenn wir eine p-Münze werfen und aus den beiden Klassifikatoren auswählen.
Wie wird sich der Klassifikator C auf einer ROC-Kurve verhalten?
In den Vorlesungsfolien heißt es, dass wir durch einfaches Umwerfen dieser Münze die magische " konvexe Hülle " der ROC-Kurve der Klassifikatoren A und B erhalten.
Ich verstehe diesen Punkt nicht. Wie können wir Informationen erhalten, indem wir einfach eine Münze werfen?
Die Vorlesungsfolie
Was das Buch sagt
In dem empfohlenen Buch ( Data Mining ... von Ian H. Witten, Eibe Frank und Mark A. Hall ) heißt es dagegen:
Um dies zu sehen, wählen Sie eine bestimmte Wahrscheinlichkeitsgrenze für Methode A, die wahre und falsche positive Raten von tA bzw. fA ergibt, und eine andere Grenze für Methode B, die tB und fB ergibt. Wenn Sie diese beiden Schemata zufällig mit den Wahrscheinlichkeiten p und q verwenden, wobei p + q = 1 ist, erhalten Sie wahre und falsch positive Raten von p. tA + q. tB und p. fA + q. fB. Dies stellt einen Punkt dar, der auf der geraden Linie liegt, die die Punkte (tA, fA) und (tB, fB) verbindet. Indem Sie p und q variieren, können Sie die gesamte Linie zwischen diesen beiden Punkten nachzeichnen.
Um Informationen zu erhalten und den konvexen Rumpf zu erreichen, müssen wir meines Erachtens etwas Fortgeschritteneres tun, als nur eine P-Münze zu werfen.
AFAIK, der richtige Weg (wie im Buch vorgeschlagen) ist der folgende:
- wir sollten eine optimale Schwelle Oa für den Klassifikator A finden
- wir sollten eine optimale Schwelle Ob für den Klassifikator B finden
definiere C wie folgt:
- Wenn t <Oa, verwenden Sie den Klassifikator A mit t
- Wenn t> Ob, verwenden Sie den Klassifikator B mit t
- Wenn Oa <t <Ob, wählen Sie zwischen Klassifikator A mit Oa und B mit Ob anhand der Wahrscheinlichkeit als Linearkombination, in der wir uns zwischen Oa und Ob befinden.
Ist das richtig? Wenn ja, gibt es ein paar wesentliche Unterschiede zu den Vorschlägen der Folien.
- Es ist kein einfaches Münzwerfen, sondern ein fortschrittlicherer Algorithmus, der manuell definierte Punkte und Picks basierend auf der Region benötigt, in die wir fallen.
- Es werden niemals die Klassifizierer A und B mit Schwellenwerten zwischen Oa und Ob verwendet.
Können Sie das Problem mir erklären , und was ist der richtige Weg , es zu verstehen , wenn mein Verständnis nicht richtig war?
Was würde passieren, wenn wir einfach eine P-Münze werfen würden, wie es die Folien suggerieren würden? Ich würde denken, dass wir eine ROC-Kurve erhalten würden, die zwischen A und B liegt, aber niemals "besser" als die bessere an einem bestimmten Punkt.
Soweit ich sehen kann, verstehe ich wirklich nicht, wie die Folien richtig sein könnten. Die Wahrscheinlichkeitsrechnung auf der linken Seite macht für mich keinen Sinn.
Update: Den Artikel des ursprünglichen Autors gefunden, der die Methode der konvexen Hülle erfunden hat: http://www.bmva.org/bmvc/1998/pdf/p082.pdf