Deshalb habe ich ein paar Beiträge darüber gelesen, warum Binning immer vermieden werden sollte. Eine beliebte Referenz für diese Behauptung ist dieser Link .
Das Hauptproblem besteht darin, dass die Binning-Punkte (oder Cutpoints) sowie der daraus resultierende Informationsverlust eher willkürlich sind und dass Splines bevorzugt werden sollten.
Derzeit arbeite ich jedoch mit der Spotify-API, die eine Reihe kontinuierlicher Vertrauensmaßnahmen für einige ihrer Funktionen enthält.
In Bezug auf ein Merkmal, "Instrumentalität", heißt es in den Referenzen:
Prognostiziert, ob ein Track keinen Gesang enthält. "Ooh" - und "aah" -Töne werden in diesem Zusammenhang als instrumental behandelt. Rap- oder Spoken-Word-Tracks sind eindeutig „vokal“. Je näher der Instrumentalitätswert an 1,0 liegt, desto wahrscheinlicher ist es, dass der Track keinen Stimminhalt enthält. Werte über 0,5 sollen Instrumentalspuren darstellen , aber das Vertrauen ist höher, wenn sich der Wert 1,0 nähert.
Angesichts der sehr linksgerichteten Verteilung meiner Daten (etwa 90% der Stichproben liegen kaum über 0) fand ich es sinnvoll, dieses Merkmal in zwei kategoriale Merkmale umzuwandeln: "instrumental" (alle Stichproben mit einem Wert über 0,5) und "non_instrumental" "(für alle Proben mit einem Wert unter 0,5).
Ist das falsch? Und was wäre die Alternative gewesen, wenn sich fast alle meine (kontinuierlichen) Daten um einen einzelnen Wert drehen? Soweit ich über Splines verstehe, würden sie auch nicht mit Klassifizierungsproblemen (was ich tue) funktionieren.