Ich habe Trainingsdaten, die mit Binärwerten gekennzeichnet sind. Ich habe auch das Vertrauen jedes dieser Etiketten gesammelt, dh 0,8 Vertrauen würde bedeuten, dass 80% der menschlichen Etikettierer diesem Etikett zustimmen.
Ist es möglich, diese Vertrauensdaten zu verwenden, um die Genauigkeit meines Klassifikators zu verbessern?
Würde folgendes funktionieren?
1a) Wenn das Etikett 0 ist und die Konfidenzdaten für dieses Etikett 0,8 sind, geben Sie den Trainingsdaten ein neues Etikett von 0,2
1b) Wenn das Etikett 1 ist und die Konfidenzdaten für dieses Etikett 0,8 sind, geben Sie den Trainingsdaten ein neues Etikett von 0,8
2) Berechnen Sie das neue Etikett mit dieser Methode für jeden Eintrag im Trainingssatz
3) Behandeln Sie das Problem als Regressionsproblem (wobei die Beschriftungen zwischen 0 und 1 liegen).
4) Klassifizieren Sie unbeschriftete Daten danach, ob die neuen Beschriftungen über oder unter einem bestimmten Wert liegen. dh Geben Sie allen vorhergesagten Bezeichnungen Klasse 0, wenn sie unter X liegen, und Klasse 1, wenn sie über X liegen.
Ich verwende derzeit eine SVM mit einem RBF-Kernel für mein Modell.
Danke im Voraus!