Nehmen wir an, ich habe eine Reihe von Zeilen für ein Klassifizierungsproblem:
Wobei die Merkmale / Prädiktoren sind und die Klasse ist, zu der die Merkmalskombination der Zeile gehört.
Viele Feature-Kombinationen und ihre Klassen werden im Datensatz wiederholt, den ich zum Anpassen eines Klassifikators verwende. Ich frage mich nur, ob es akzeptabel ist, Duplikate zu entfernen (ich führe grundsätzlich eine group by X1 ... XN Y
in SQL durch). Vielen Dank.
PS:
Dies gilt nur für einen Datensatz mit binärer Präsenz, bei dem die Klassenprioren ziemlich verzerrt sind