Ich denke über ein Problem nach, das darin besteht, das Protokoll (die Ausgaben) eines Kunden mithilfe der linearen Regression vorherzusagen.
Ich überlege, welche Funktionen als Eingabe verwendet werden sollen, und frage mich, ob es in Ordnung wäre, das Perzentil einer Variablen als Eingabe zu verwenden.
Zum Beispiel könnte ich die Einnahmen des Unternehmens als Input verwenden. Ich frage mich, ob ich stattdessen das Umsatzperzentil des Unternehmens verwenden könnte.
Ein anderes Beispiel wäre ein kategorialer Branchenklassifikator (NAICS). Wenn ich den Median der Ausgaben pro NAICS-Code betrachten und dann jeden NAICS-Code einem 'NAICS-Perzentil' zuweisen würde, wäre dies eine gültige erklärende Variable, die ich verwenden könnte?
Sie fragen sich nur, ob bei der Verwendung von Perzentilen Probleme zu beachten sind? Entspricht es in gewisser Weise einer Art von Feature-Skalierung?