Von der „Stärke“ schwacher Lernender

22

Ich habe einige eng verwandte Fragen zu schwachen Lernenden im Ensemble-Lernen (z. B. Boosten).

Das hört sich vielleicht dumm an, aber was sind die Vorteile von schwachen Lernenden gegenüber starken Lernenden? (zB warum nicht mit "starken" Lernmethoden aufladen?)
Gibt es eine Art "optimale" Stärke für die schwachen Lernenden (z. B. während alle anderen Ensemble-Parameter unverändert bleiben)? Gibt es einen "Sweet Spot", wenn es um ihre Stärke geht?
Wie können wir die Stärke eines schwachen Lernenden in Bezug auf die resultierende Ensemblemethode messen? Wie können wir den Grenznutzen eines Ensembles quantitativ messen?
Wie vergleichen wir mehrere schwache Lernalgorithmen, um zu entscheiden, welche für eine bestimmte Ensemblemethode verwendet werden sollen?
Wenn eine bestimmte Ensemble-Methode eher schwachen als starken Klassifikatoren hilft, wie können wir dann feststellen, dass ein bestimmter Klassifikator bereits "zu stark" ist, um beim Boosten signifikante Gewinne zu erzielen?

machine-learning boosting ensemble

16

Dies mag eher in Sackleinen sein, aber dennoch:

Wenn Sie wirklich einen starken Lerner haben, müssen Sie ihn nicht durch Ensemblematerial verbessern.
Ich würde sagen ... irrelevant. Wenn ein zu starker Klassifikator beim Mischen und Baggern trivial verstärkt wird, kann dies zu einigen Konvergenzbrüchen führen (dh eine glückliche Vorhersage kann die nächste Iteration zum Vorhersagen von reinem Rauschen und damit zum Verringern der Leistung führen).
Auch dies ist nicht das eigentliche Problem. Der Kern dieser Methoden ist zu
1. Zwingen Sie die Teilklassifizierer, das Problem genauer zu betrachten.
2. Kombinieren Sie ihre Vorhersagen, um das Rauschen zu dämpfen und das Signal zu verstärken.
1) braucht etwas Aufmerksamkeit beim Boosten (dh gutes Boosting-Schema, sich teilweise gut benehmender Lernender - dies ist jedoch hauptsächlich anhand von Experimenten zum gesamten Boosten zu beurteilen), 2) beim Absacken und Mischen (hauptsächlich um sicherzustellen, dass keine Korrelation zwischen Lernenden besteht und das Ensemble nicht überstimmen). Solange dies in Ordnung ist, ist die Genauigkeit des Teilklassifikators ein Problem dritter Ordnung.

Vielen Dank @mbq. Bedeutet dies, dass schwache Klassifikatoren in der Regel mehr von Ensemble-Methoden als von starken profitieren? (dh Boosten hilft schwachen Klassifikatoren mehr als starken). Woher wissen wir in diesem Sinne, dass ein bestimmter Klassifikator für eine bestimmte Ensemblemethode bereits stark genug ist? (Wie können Sie grob sagen, dass Sie einen starken Lerner haben, der vom Boosten nicht viel profitiert?)

— Amelio Vazquez-Reina

1

Vielmehr geben nur schwache Klassifikatoren Raum für Verbesserungen. Im Allgemeinen ist Stärke eine abstrakte Eigenschaft und wir können sie nicht wirklich messen. Der einzig sichere Test besteht lediglich darin, ein Experiment durchzuführen und zu prüfen, ob das Ensembing die Leistung erheblich steigert. Wenn ja, war der Klassifikator schwach. Wenn nein, wissen wir immer noch nichts.

11

Erstens sind die Begriffe "schwach" und "stark" nur schwach definiert. Aus meiner Sicht müssen sie relativ zum optimalen Bayes-Klassifikator definiert werden, der das Ziel jedes Trainingsalgorithmus ist. In diesem Sinne antworte ich auf drei der Punkte wie folgt.

Computational wie ich es sehe. Die meisten mir bekannten schwachen Lernenden sind rechnerisch schnell (und ansonsten nicht erwägenswert). Ein wichtiger Punkt beim Lernen von Ensembles ist genau, dass wir einfache und schnelle, aber nicht so gute Lerner kombinieren und die Fehlerquote verbessern können. Wenn wir stärkere (und rechenintensivere) Lernende einsetzen, wird der Spielraum für Verbesserungen kleiner, während die Rechenkosten größer werden, was die Verwendung von Ensemblemethoden weniger interessant macht. Darüber hinaus ist es möglicherweise einfacher, einen einzelnen starken Lernenden zu interpretieren. Was jedoch schwach und was stark ist, hängt vom Problem und der optimalen Bayes-Rate ab, die wir erreichen möchten. Wenn ein Lernender, der oft als stark eingestuft wird, beim Boosten noch Raum für Verbesserungen lässt und das Boosten rechnerisch machbar ist, dann tun Sie Boosten ...
Dies hängt von den Kriterien ab, nach denen Sie "optimal" messen. In Bezug auf die Fehlerrate würde ich nein sagen (ich begrüße jegliche Korrekturen, wenn andere eine andere Erfahrung haben). In Bezug auf die Geschwindigkeit vielleicht, aber ich würde mir vorstellen, dass dies sehr problemabhängig ist. Ich kenne keine Literatur zu diesem Thema, sorry.
?
Kreuzvalidierung, Kreuzvalidierung, Kreuzvalidierung. Wie bei jedem anderen Vergleich von Trainingsmethoden mit dem Ziel, Vorhersagen zu treffen, benötigen wir unvoreingenommene Schätzungen des Generalisierungsfehlers für den Vergleich, die erreicht werden können, indem ein Testdatensatz beiseite gelegt oder durch Kreuzvalidierung angenähert wird.

— NRH
quelle

Danke @NRH, das ist sehr hilfreich. Ich habe die dritte Frage in zwei getrennte Fragen unterteilt, da ich denke, dass sie wahrscheinlich unterschiedliche Antworten erfordern.

— Amelio Vazquez-Reina

Gibt es also eine Möglichkeit herauszufinden, wie nahe ein Klassifikator am optimalen Bayes-Klassifikator liegt? Wenn es schon eng genug ist, können wir es nicht verbessern.

— highBandWidth

@highBandWidth, es ist nicht möglich zu wissen, wie hoch die Bayes-Rate ist. Es ist eine theoretische Größe, die auf der unbekannten Verteilung beruht. Theoretische Annahmen könnten untere und obere (asymptotische) Grenzen liefern, und durch Verwendung von Kreuzvalidierung oder unabhängigen Testdaten ist es möglich, obere Grenzen genau abzuschätzen. Aber wenn Sie die Verteilung nicht kennen, ist es unmöglich zu sagen, ob solche Obergrenzen eng sind oder Raum für Verbesserungen lassen.

— NRH