5
Soll ich mich für einen 'ausgeglichenen' Datensatz oder einen 'repräsentativen' Datensatz entscheiden?
Meine 'maschinelles Lernen'-Aufgabe besteht darin, harmlosen Internet-Verkehr von böswilligem Verkehr zu trennen. Im realen Szenario ist der größte Teil (sagen wir 90% oder mehr) des Internetverkehrs harmlos. Daher hatte ich das Gefühl, dass ich auch für das Training meiner Modelle ein ähnliches Daten-Setup wählen sollte. Aber ich bin auf ein …