Meine 'maschinelles Lernen'-Aufgabe besteht darin, harmlosen Internet-Verkehr von böswilligem Verkehr zu trennen. Im realen Szenario ist der größte Teil (sagen wir 90% oder mehr) des Internetverkehrs harmlos. Daher hatte ich das Gefühl, dass ich auch für das Training meiner Modelle ein ähnliches Daten-Setup wählen sollte. Aber ich bin auf ein oder zwei Forschungsarbeiten gestoßen (in meinem Arbeitsbereich), die einen "Klassenausgleich" -Datenansatz zum Trainieren der Modelle verwendet haben, der eine gleiche Anzahl von Fällen von harmlosem und böswilligem Datenverkehr impliziert.
Wenn ich Modelle für maschinelles Lernen erstelle, sollte ich mich im Allgemeinen für einen Datensatz entscheiden, der für das Problem der realen Welt repräsentativ ist, oder für einen ausgeglichenen Datensatz, der besser zum Erstellen der Modelle geeignet ist (da sich bestimmte Klassifikatoren bei einem Klassenungleichgewicht nicht gut verhalten) aus anderen mir nicht bekannten gründen)?
Kann jemand mehr Aufschluss über die Vor- und Nachteile beider Entscheidungen geben und wie man entscheidet, für wen man sich entscheidet?