Angenommen, ich habe etwas mehr als 20.000 monatliche Zeitreihen vom 05. Januar bis zum 11. Dezember. Diese repräsentieren jeweils globale Verkaufsdaten für ein anderes Produkt. Was wäre, wenn ich mich, anstatt Prognosen für jeden einzelnen von ihnen zu berechnen, nur auf eine kleine Anzahl von Produkten konzentrieren wollte, die "tatsächlich wichtig" sind?
Ich könnte diese Produkte nach dem jährlichen Gesamtumsatz ordnen und die Liste mit klassischem Pareto reduzieren. Trotzdem scheint es mir, dass einige Produkte, obwohl sie nicht viel zum Endergebnis beitragen, so einfach vorherzusagen sind, dass es eine schlechte Beurteilung wäre, sie wegzulassen. Ein Produkt, das in den letzten 10 Jahren jeden Monat einen Wert von 50 US-Dollar verkauft hat, klingt vielleicht nicht nach viel, erfordert jedoch so wenig Aufwand, um Vorhersagen über zukünftige Verkäufe zu erstellen, dass ich es genauso gut tun könnte.
Nehmen wir also an, ich teile meine Produkte in vier Kategorien ein: hoher Umsatz / einfach zu prognostizieren - niedriger Umsatz / einfach zu prognostizieren - hoher Umsatz / schwer zu prognostizieren - niedriger Umsatz / schwer zu prognostizieren.
Ich denke, es wäre vernünftig, nur die Zeitreihen der vierten Gruppe zurückzulassen. Aber wie genau kann ich die "Prognosefähigkeit" bewerten?
Der Variationskoeffizient scheint ein guter Ausgangspunkt zu sein (ich erinnere mich auch, dass ich vor einiger Zeit ein Papier darüber gesehen habe). Aber was ist, wenn meine Zeitreihen Saisonalität / Pegelverschiebungen / Kalendereffekte / starke Trends aufweisen?
Ich würde mir vorstellen, dass ich meine Bewertung nur auf die Variabilität der Zufallskomponente und nicht auf die der "Rohdaten" stützen sollte. Oder fehlt mir etwas?
Hat jemand schon einmal auf ein ähnliches Problem gestoßen? Wie würdet ihr das machen?
Wie immer wird jede Hilfe sehr geschätzt!