Gibt es wissenschaftliche Probleme bei der Verwendung von ML zur Unterstützung menschlicher Anmerkungen?
Ich habe einen unbeschrifteten Datensatz mit 3 Klassen, in dem nur 1 von 500 Elementen zu den 2 interessierenden Klassen gehört.
Die Beschriftungen sind nicht für alle Elemente der unbeschrifteten Daten trivial erkennbar. Da jedoch die meisten Elemente der Mehrheitsklasse mit einem einfachen NN leicht erkennbar sind, können die meisten Elemente der Mehrheitsklasse herausgefiltert und die Zahl auf reduziert werden etwa 1 zu 100 und Erhöhung der Effektivität der Zeit menschlicher Annotatoren um das 50-fache. Der beschriftete Datensatz wird zum Trainieren, Testen und Validieren eines Klassifikators verwendet.
Ich kann jedoch Gründe vorhersehen, warum dies speziell aus akademischer Sicht zu einem Problem führen könnte:
- Wenn die mit Anmerkungen versehenen Daten aufgrund von Verzerrungen in der vor der menschlichen Anmerkung verwendeten ML nicht repräsentativ sind, kann es sein, dass der Klassifizierer Schwierigkeiten hat, sie zu verallgemeinern
- Die Verwendung eines ML-Datenbereinigers, der nicht auf von Menschen bereitgestellten, vertretbaren Regeln basiert, setzt eine Black Box am Anfang des Datenanalyseprozesses
- Nur die Annotation eines kleinen Teils der weit verbreiteten Klasse macht den Datensatz sehr selektiv. Dies würde Kritik am Missbrauch dieser Verzerrung hervorrufen (dh Manipulation für eine gewünschte Hypothese).
Alle Gedanken geschätzt