Wir hatten bereits mehrere Fragen zu unausgeglichenen Daten bei der Verwendung von logistischer Regression , SVM , Entscheidungsbäumen , Absacken und einer Reihe anderer ähnlicher Fragen, was es zu einem sehr beliebten Thema macht! Leider scheint jede der Fragen algorithmenspezifisch zu sein, und ich habe keine allgemeinen Richtlinien für den Umgang mit unausgeglichenen Daten gefunden.
Zitiert eine der Antworten von Marc Claesen zum Umgang mit unausgeglichenen Daten
(...) hängt stark von der Lernmethode ab. Die meisten allgemeinen Ansätze haben eine (oder mehrere) Möglichkeiten, um damit umzugehen.
Aber wann genau sollten wir uns um unausgeglichene Daten kümmern? Welche Algorithmen sind am häufigsten davon betroffen und welche sind in der Lage, damit umzugehen? Welche Algorithmen benötigen wir, um die Daten auszugleichen? Mir ist bewusst, dass es unmöglich ist, die einzelnen Algorithmen auf einer solchen Q & A-Site zu diskutieren. Ich suche eher nach allgemeinen Richtlinien, wann dies ein Problem sein könnte.