Was ist der Unterschied zwischen "In-Sample" - und "Out-of-Sample" -Prognosen?


16

Ich verstehe nicht genau, was der Unterschied zwischen "In-Sample" - und "Out-of-Sample" -Vorhersage ist. Bei einer In-Sample-Prognose wird eine Teilmenge der verfügbaren Daten verwendet, um Werte außerhalb des Schätzzeitraums vorherzusagen. Bei einer Out-of-Sample-Prognose werden stattdessen alle verfügbaren Daten verwendet. Sind diese korrekt ?

Ganz konkret ist die folgende Definition richtig?

Eine Prognose innerhalb der Stichprobe verwendet eine Teilmenge der verfügbaren Daten, um Werte außerhalb des Schätzzeitraums vorherzusagen und sie mit den entsprechenden bekannten oder tatsächlichen Ergebnissen zu vergleichen. Dies wird durchgeführt, um die Fähigkeit des Modells zu bewerten, bekannte Werte vorherzusagen. Zum Beispiel könnte eine Prognose innerhalb einer Stichprobe von 1980 bis 2015 Daten von 1980 bis 2012 verwenden, um das Modell zu schätzen. Mit diesem Modell würde der Prognostiker dann Werte für 2013-2015 vorhersagen und die prognostizierten Werte mit den tatsächlich bekannten Werten vergleichen. Eine Out-of-Sample-Prognose verwendet stattdessen alle verfügbaren Daten in der Stichprobe, um ein Modell zu schätzen. Für das vorherige Beispiel würde die Schätzung für den Zeitraum 1980-2015 durchgeführt und die Prognose (n) würden 2016 beginnen.


Könnten Sie einen Kontext angeben? Die Antworten, die Sie auf Ihre Frage geben, scheinen in Ordnung zu sein, die Terminologie kann jedoch fachspezifisch sein.
IWS

Woher haben Sie diese Definitionen?
gung - Wiedereinsetzung von Monica

In-sample sind Daten, die Sie zum Zeitpunkt des Modellbaus kennen und die Sie zum Erstellen dieses Modells verwenden. Außerhalb der Stichprobe befinden sich Daten, die nicht angezeigt wurden, und Sie erstellen nur die Vorhersage / Prognose. Unter den meisten Umständen wird das Modell außerhalb der Stichprobe schlechter abschneiden als innerhalb der Stichprobe, wenn alle Parameter kalibriert wurden.
Ric

@ IWS Ich fügte hinzu, bestimmte Frage :)
Engin YILMAZ

@ Richard Bitte lesen Sie neue spezielle Frage ...
Engin YILMAZ

Antworten:


30

Mit "Stichprobe" ist die Datenstichprobe gemeint, die Sie zum Anpassen des Modells verwenden.

Erstens: Sie haben eine Stichprobe.
Zweitens: Sie passen ein Modell an die Stichprobe an.
Drittens: Sie können das Modell für Prognosen verwenden

Wenn Sie eine Prognose für eine Beobachtung erstellen, die Teil der Datenstichprobe war, handelt es sich um eine In-Sample-Prognose.

Wenn Sie eine Prognose für eine Beobachtung abgeben, die nicht Teil der Datenstichprobe war, handelt es sich um eine Prognose außerhalb der Stichprobe.

Die Frage, die Sie sich stellen müssen, lautet also: Wurde die jeweilige Beobachtung für die Modellanpassung verwendet oder nicht? Wenn es für die Modellanpassung verwendet wurde, erfolgt die Vorhersage der Beobachtung stichprobenartig. Andernfalls ist es nicht in der Stichprobe.

Wenn Sie die Daten 1990-2013 für das Modell verwenden und dann für 2011-2013 prognostizieren, handelt es sich um eine In-Sample-Prognose. Wenn Sie jedoch nur 1990-2010 zum Anpassen des Modells verwenden und dann 2011-2013 prognostizieren, wird die Prognose außerhalb der Stichprobe erstellt.


Wir haben eine Stichprobe von 1990 bis 2013. Dann passen wir das Modell der Stichprobe an. Dann prognostizieren wir 2011-2013. Ist dies eine Stichprobe? oder Wir haben Stichprobe von 1990 bis 2013, dann passen wir das Modell von 1990 bis 2010 auf die Stichprobe an, prognostizieren wir für 2011-2013, ist dies nicht der Fall?
Engin YILMAZ

ja, wenn Sie die Daten 1990-2013 für das Modell verwenden und dann für 2011-2013 prognostizieren, handelt es sich um eine In-Sample-Prognose. Wenn Sie jedoch nur 1990-2010 zum Anpassen des Modells verwenden und dann 2011-2013 prognostizieren, wird die Prognose außerhalb der Stichprobe erstellt.
König Salomons Pferd

3

Angenommen, Sie haben in Ihrer Stichprobe eine Folge von 10 Datenpunkten. Diese Daten können in zwei Teile unterteilt werden - z. B. die ersten 7 Datenpunkte zum Schätzen der Modellparameter und die nächsten 3 Datenpunkte zum Testen der Modellleistung. Unter Verwendung des angepassten Modells werden Vorhersagen, die für die ersten 7 Datenpunkte erstellt wurden, als In-Sample-Vorhersage bezeichnet, und dieselben Vorhersagen für die letzten 3 Datenpunkte werden als Out-Sample-Vorhersage bezeichnet. Dies entspricht der Idee, die Daten in einen Trainingssatz und einen Validierungssatz aufzuteilen.


1

Bei der In-Sample- Prognose werden die Vorhersagemöglichkeiten der mit beobachteten Daten entwickelten Modelle formal bewertet, um festzustellen, wie effektiv die Algorithmen die Daten reproduzieren. Es ähnelt einem Trainingssatz in einem Algorithmus für maschinelles Lernen, und das Out-of-Sample ähnelt dem Testsatz.


Sie geben eine kurze Erklärung für die In-Sample-Prognose. Können Sie diese auch für Out-of-Sample-Prognosen geben (dh eine kurze Erklärung, nicht nur einen Vergleich mit Test-Sets)?
ReneBt

0

Das folgende Diagramm hilft Ihnen, die IN TIME und OUT OF TIME zu verstehen

Bildbeschreibung hier eingeben


-1

In der Zeitreihenprognose bedeutet "Insample" Zugdaten. "Outsample" bedeutet Testdaten

In Zeitreihen können wir zuerst Ergebnisse für 'Insample'-Daten (dh Zugdaten) vorhersagen. Später können wir die Ergebnisse für "Outsample" -Daten (dh Testdaten) vorhersagen.

model = ARIMA(order = (p,d,q), seasonal_order=(P,D,Q,S))
model.fit(train_data)

train_predictions = model.predict_in_sample()
test_predictions = model.predict(n_periods=len(test_data.index))

predictions = pd.concatenate((train_predictions, test_predictions),axis=0)

Ich denke, Ihre Antwort wird herabgestuft, weil sie die Frage nicht beantwortet - insbesondere "Ist die folgende Definition ganz konkret richtig?" ist nicht angesprochen.
Martin Modrák
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.