Ich habe mich mit halbüberwachten Lernmethoden befasst und bin auf das Konzept der "Pseudo-Kennzeichnung" gestoßen.
So wie ich es verstehe, haben Sie mit Pseudo-Labeling eine Reihe von beschrifteten Daten sowie eine Reihe von unbeschrifteten Daten. Sie trainieren zunächst ein Modell nur mit den beschrifteten Daten. Sie verwenden diese Anfangsdaten dann, um die unbeschrifteten Daten zu klassifizieren (vorläufige Beschriftungen anzuhängen). Anschließend geben Sie sowohl die beschrifteten als auch die unbeschrifteten Daten in Ihr Modelltraining zurück und passen sie sowohl an die bekannten als auch an die vorhergesagten Etiketten (neu) an. (Wiederholen Sie diesen Vorgang und kennzeichnen Sie ihn erneut mit dem aktualisierten Modell.)
Die behaupteten Vorteile bestehen darin, dass Sie die Informationen über die Struktur der unbeschrifteten Daten verwenden können, um das Modell zu verbessern. Eine Variation der folgenden Abbildung wird häufig gezeigt, um zu "demonstrieren", dass der Prozess eine komplexere Entscheidungsgrenze basierend auf dem Ort der (unbeschrifteten) Daten festlegen kann.
Bild aus Wikimedia Commons von Techerin CC BY-SA 3.0
Ich kaufe diese vereinfachende Erklärung jedoch nicht ganz. Naiv, wenn das ursprüngliche Trainingsergebnis nur mit Beschriftung die obere Entscheidungsgrenze wäre, würden die Pseudo-Beschriftungen basierend auf dieser Entscheidungsgrenze zugewiesen. Das heißt, die linke Hand der oberen Kurve wäre pseudo-markiert weiß und die rechte Hand der unteren Kurve wäre pseudo-markiert schwarz. Sie würden die schöne geschwungene Entscheidungsgrenze nach der Umschulung nicht erhalten, da die neuen Pseudo-Labels einfach die aktuelle Entscheidungsgrenze verstärken würden.
Oder anders ausgedrückt, die derzeitige Entscheidungsgrenze nur für Beschriftungen hätte eine perfekte Vorhersagegenauigkeit für die unbeschrifteten Daten (wie wir sie verwendet haben). Es gibt keine treibende Kraft (kein Gradient), die dazu führen würde, dass wir den Ort dieser Entscheidungsgrenze ändern, indem wir einfach die pseudo-markierten Daten hinzufügen.
Habe ich Recht, wenn ich denke, dass die im Diagramm enthaltene Erklärung fehlt? Oder fehlt mir etwas? Wenn nicht, was ist der Vorteil von Pseudo-Labels, da die Entscheidungsgrenze vor der Umschulung eine perfekte Genauigkeit gegenüber den Pseudo-Labels aufweist?