Anpassungen an (lineare Regressions-) Prognose


11

Vollständige Offenlegung: Ich bin kein Statistiker und behaupte auch nicht, einer zu sein. Ich bin ein niedriger IT-Administrator. Bitte spiel sanft mit mir. :) :)

Ich bin für die Erfassung und Prognose der Festplattennutzung für unser Unternehmen verantwortlich. Wir erfassen unsere Speichernutzung monatlich und verwenden eine einfache rollierende zwölfmonatige lineare Regression für Prognosen (mit anderen Worten, bei der Erstellung einer Projektion werden nur die Daten der letzten zwölf Monate berücksichtigt). Wir verwenden diese Informationen für die Allokations- und Kapitalkostenplanung, z. B. "Basierend auf diesem Modell müssen wir x Betrag kaufen, wenn die Lagerung in y Monaten erfolgt, um unsere Anforderungen zu erfüllen." Dies alles funktioniert gut genug, um unseren Bedürfnissen zu entsprechen.

In regelmäßigen Abständen haben wir große einmalige Bewegungen in unseren Zahlen, die die Prognose verwerfen. Zum Beispiel findet jemand 500 GB alte Backups, die nicht mehr benötigt werden, und löscht sie. Gut für sie, um den Raum zurückzugewinnen! Unsere Prognosen sind jedoch jetzt durch diesen starken Rückgang in einem Monat weit verzerrt. Wir haben immer nur akzeptiert, dass ein solcher Rückgang 9 bis 10 Monate dauert, um aus den Modellen herauszukommen, aber das kann sehr lange dauern, wenn wir in die Planungssaison für Kapitalkosten eintreten.

Ich frage mich, ob es eine Möglichkeit gibt, mit diesen einmaligen Abweichungen umzugehen, sodass die prognostizierten Werte nicht so stark beeinflusst werden (z. B. ändert sich die Steigung der Linie nicht so dramatisch), aber sie werden berücksichtigt (z eine einmalige Änderung des y-Werts, der einem bestimmten Zeitpunkt zugeordnet ist). Unsere ersten Versuche, dies in Angriff zu nehmen, haben zu hässlichen Ergebnissen geführt (z. B. exponentielle Wachstumskurven). Wir führen die gesamte Verarbeitung in SQL Server durch, wenn dies wichtig ist.


Ausgezeichnete Frage. Nur eine kurze Klarstellung. Möchten Sie diese Ereignisse vorhersagen oder, sobald sie eintreten, die Modellvorhersagen anhand Ihrer neuen Informationen anpassen?
Matthew Drury

1
Richtig, es ist nicht klar, ob Sie versuchen, diese seltenen Ereignisse wie das 500-GB-Beispiel zu "glätten", damit sie Ihre Ergebnisse nicht so stark beeinflussen, oder ob Sie versuchen, mehr davon zu berücksichtigen, da Sie erfassen möchten, wann Hündinnenanpassungen gespeichert werden sollen werden hergestellt? Der Unterschied ist subtil: Im ersten Fall möchten Sie den neuen Punkt (seltenes Ereignis) fast ignorieren, im zweiten Fall möchten Sie den Punkt hervorheben (seltenes Ereignis). Wenn es die erstere ist, ist eine robuste Regression wahrscheinlich eine einfache Methode für Sie, da Sie bereits eine lineare Regression verwenden. Siehe hier: ats.ucla.edu/stat/r/dae/rreg.htm
StatsStudent

Verwenden Sie auch Software, um Ihre Vorhersagen zu treffen, und verwenden Sie Konfidenzintervalle?
StatsStudent

Ich kann nachträglich eine Anpassung hinzufügen. Tatsächlich weiß ich die meiste Zeit nichts über eine größere Abweichung, bis ich mir die Zahlen des nächsten Monats ansehe und eine große Veränderung sehe. Ich verwende keine Software, um Vorhersagen zu treffen. Nur eine gespeicherte Prozedur in SQL Server, um meine Regressionswerte zu berechnen.
sbrown

Schnelle Reaktionen: (a) Ich würde wahrscheinlich zuerst einen sehr einfachen AR (1) an Änderungen in der Verwendung der Protokollfestplatte anpassen? Sie würden im Grunde genommen eine langfristige Wachstumsrate der Festplattennutzung schätzen und wie schnell sich die Wachstumsrate der Festplattennutzung nach einem Schock wieder auf diesen Trend zurückbewegt. (aa) Sie können auch andere Daten verwenden und eine VAR (Vektorautoregression) anpassen. (b) Alle Daten> 12 Monate wegzuwerfen, ist möglicherweise nicht die optimale Vorgehensweise. (c) reguläres OLS minimiert die Summe der Quadrate. Sie könnten eine andere Straffunktion (z. B. Huber) verwenden, die für Ausreißer robuster ist.
Matthew Gunn

Antworten:


0

Hier ist ein einfacher Vorschlag. Ich weiß nicht, ob es für Sie funktioniert, und vielleicht hätte ich es als Kommentar machen sollen, aber es scheint, dass Sie mehr Privilegien benötigen, um einen Kommentar abzugeben, als um eine Antwort zu geben.

Wenn ich das richtig verstehe, sind die Zahlen, die Sie verwenden, die Speichermengen, die Sie jeden Monat verwenden. Wahrscheinlich nehmen diese normalerweise zu, und Sie möchten vorhersagen, wie hoch der Betrag in Zukunft sein wird, wenn sich die Trends fortsetzen. Wenn Sie feststellen, dass Ihre große Änderung eingetreten ist (z. B. dass 500 GB freigegeben wurden), können Sie zurückgehen und die Zahlen der Vormonate ändern (z. B. 500 GB aus allen löschen)? Grundsätzlich würden Sie die Zahlen der Vormonate an das anpassen, was sie hätten sein sollen, wenn Sie damals wüssten, was Sie jetzt wissen.

Natürlich empfehle ich dies nur, wenn Sie sicherstellen, dass Sie zu den alten Zahlen zurückkehren können. Die Prognose, die Sie erstellen möchten, klingt jedoch so, als ob sie sogar in Excel erstellt werden könnte. In diesem Fall können Sie so viele Versionen haben, wie Sie möchten.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.