Vollständige Offenlegung: Ich bin kein Statistiker und behaupte auch nicht, einer zu sein. Ich bin ein niedriger IT-Administrator. Bitte spiel sanft mit mir. :) :)
Ich bin für die Erfassung und Prognose der Festplattennutzung für unser Unternehmen verantwortlich. Wir erfassen unsere Speichernutzung monatlich und verwenden eine einfache rollierende zwölfmonatige lineare Regression für Prognosen (mit anderen Worten, bei der Erstellung einer Projektion werden nur die Daten der letzten zwölf Monate berücksichtigt). Wir verwenden diese Informationen für die Allokations- und Kapitalkostenplanung, z. B. "Basierend auf diesem Modell müssen wir x Betrag kaufen, wenn die Lagerung in y Monaten erfolgt, um unsere Anforderungen zu erfüllen." Dies alles funktioniert gut genug, um unseren Bedürfnissen zu entsprechen.
In regelmäßigen Abständen haben wir große einmalige Bewegungen in unseren Zahlen, die die Prognose verwerfen. Zum Beispiel findet jemand 500 GB alte Backups, die nicht mehr benötigt werden, und löscht sie. Gut für sie, um den Raum zurückzugewinnen! Unsere Prognosen sind jedoch jetzt durch diesen starken Rückgang in einem Monat weit verzerrt. Wir haben immer nur akzeptiert, dass ein solcher Rückgang 9 bis 10 Monate dauert, um aus den Modellen herauszukommen, aber das kann sehr lange dauern, wenn wir in die Planungssaison für Kapitalkosten eintreten.
Ich frage mich, ob es eine Möglichkeit gibt, mit diesen einmaligen Abweichungen umzugehen, sodass die prognostizierten Werte nicht so stark beeinflusst werden (z. B. ändert sich die Steigung der Linie nicht so dramatisch), aber sie werden berücksichtigt (z eine einmalige Änderung des y-Werts, der einem bestimmten Zeitpunkt zugeordnet ist). Unsere ersten Versuche, dies in Angriff zu nehmen, haben zu hässlichen Ergebnissen geführt (z. B. exponentielle Wachstumskurven). Wir führen die gesamte Verarbeitung in SQL Server durch, wenn dies wichtig ist.