Ich entwickle eine Prognoseanwendung, deren Zweck es einem Importeur ist, die Nachfrage nach seinen Produkten über sein Kundennetzwerk von Händlern zu prognostizieren. Die Verkaufszahlen sind ein ziemlich guter Indikator für die Nachfrage, solange genügend Lagerbestände vorhanden sind, um die Nachfrage zu befriedigen. Wenn der Lagerbestand jedoch auf Null gesenkt wird (die Situation, die wir unseren Kunden vermeiden möchten), wissen wir nicht viel, um das wir das Ziel verfehlt haben. Wie viele Verkäufe hätte der Kunde gemacht, wenn er ausreichend versorgt gewesen wäre? Standardmäßige, auf Regression basierende ML-Ansätze, die Sales als einfache Zielvariable verwenden, führen zu inkonsistenten Schätzungen der Beziehung zwischen Zeit, meinen beschreibenden Variablen und Nachfrage.
Die Tobit-Modellierung ist der naheliegendste Weg, um das Problem anzugehen : http://en.wikipedia.org/wiki/Tobit_model . Ich wundere mich über ML-Anpassungen von zufälligen Wäldern, GBMS, SVMs und neuronalen Netzen, die auch für eine linkshändige zensierte Struktur der Daten verantwortlich sind.
Kurz gesagt, wie wende ich Tools für maschinelles Lernen auf linkszensierte Regressionsdaten an, um konsistente Schätzungen der Beziehungen zwischen meinen abhängigen und unabhängigen Variablen zu erhalten? Die erste Präferenz wären Lösungen, die in R verfügbar sind, gefolgt von Python.
Prost,
Aaron