Was ist der Unterschied zwischen Schätzung und Vorhersage?


46

Zum Beispiel habe ich historische Verlustdaten und berechne extreme Quantile (Value-at-Risk oder wahrscheinlicher maximaler Verlust). Die erzielten Ergebnisse dienen dazu, den Verlust abzuschätzen oder vorherzusagen. Wo kann man die Grenze ziehen? Ich bin verwirrt.


4
Eng verwandt ist eine Diskussion über den Unterschied zwischen Konfidenzintervallen und Vorhersageintervallen unter stats.stackexchange.com/questions/16493 .
Whuber

Antworten:


64

"Vorhersage" und "Schätzung" werden in der Tat manchmal synonym im nichttechnischen Schreiben verwendet und scheinen ähnlich zu funktionieren, aber es gibt einen scharfen Unterschied zwischen ihnen im Standardmodell eines statistischen Problems. Ein Schätzer verwendet Daten, um einen Parameter zu erraten, während ein Prädiktor die Daten verwendet, um einen zufälligen Wert zu erraten, der nicht Teil der Datenmenge ist. Für diejenigen, die nicht wissen, was "Parameter" und "Zufallswert" in der Statistik bedeuten, wird im Folgenden eine ausführliche Erläuterung gegeben.

In diesem Standardmodell wird angenommen, dass die Daten eine (möglicherweise multivariate) Beobachtung einer Zufallsvariablen deren Verteilung bekanntermaßen nur innerhalb eines bestimmten Satzes möglicher Verteilungen liegt, der "Naturzustände". Ein Schätzer ist eine mathematische Prozedur, die jedem möglichen Wert von eine Eigenschaft eines Naturzustands zuweist , wie beispielsweise seinen Mittelwert . Somit ist eine Schätzung eine Vermutung über den wahren Zustand der Natur. Wir können feststellen, wie gut eine Schätzung ist, indem wir mit . X t x t ( x ) θ μ ( θ ) t ( x ) μ ( θ )xX txt(x)θμ(θ)t(x)μ(θ)

Ein Prädiktor betrifft die unabhängige Beobachtung einer anderen Zufallsvariablen deren Verteilung mit dem wahren Naturzustand zusammenhängt. Eine Vorhersage ist eine Vermutung über einen anderen zufälligen Wert. Wie gut eine bestimmte Vorhersage ist, können wir nur durch einen Vergleich von mit dem von realisierten Wert erkennen . Wir hoffen, dass die Übereinstimmung im Durchschnitt gut ist (im Sinne einer Mittelung über alle möglichen Ergebnisse und gleichzeitig über alle möglichen Werte von ).Z p ( x ) Z x Zp(x)Zp(x)Zx Z

Das gewöhnliche kleinste Quadrat liefert das Standardbeispiel. Die Daten bestehen aus Paaren die Werte der abhängigen Variablen den Werten der unabhängigen Variablen zuordnen. Der Zustand der Natur wird durch drei Parameter angegeben: , und : Jedes ist wie eine unabhängige Ziehung aus einer Normalverteilung mit dem Mittelwert und der Standardabweichung . , und sind Parameter (Zahlen), von denen angenommen wird, dass sie fest und unveränderlich sind. Das Interesse konzentriert sich aufy i x i α β & sgr; y i α + β x i & sgr; α(xi,yi)yixiαβσyiα+βxiσα& sgr; α β ( α , β ) α α β β α ββσα (der Achsenabschnitt) und (die Steigung). Die OLS schätzen, geschrieben , ist gut in dem Sinne , dass dicht an sein neigt und tendenziell nahe an , egal wie die wahren (aber unbekannten) Werte von und könnten .β(α^,β^)α^αβ^βαβ

Die OLS- Vorhersage besteht darin, einen neuen Wert der abhängigen Variablen zu beobachten, der einem Wert der unabhängigen Variablen zugeordnet ist. könnte oder könnte nicht zu den in der Datenmenge gehören; das ist unerheblich. Eine intuitiv gute Vorhersage ist, dass dieser neue Wert wahrscheinlich in der Nähe von . Bessere Vorhersagen geben an, wie nahe der neue Wert sein könnte (sie werden Vorhersageintervalle genannt ). Sie erklären, dass und ungewiss sind (weil sie mathematisch von den Zufallswerten abhängen)x x x iZ=Y(x)xxxi α β (yi)σY(x)σα+βxα^+β^xα^β^(yi) ), dass nicht mit Sicherheit bekannt ist (und daher geschätzt werden muss), sowie die Annahme, dass eine Normalverteilung mit Standardabweichung und Mittelwert ( Beachten Sie das Fehlen von Hüten!).σY(x)σα+βx

Man beachte insbesondere, dass diese Vorhersage zwei getrennte Unsicherheitsquellen hat: Unsicherheit in den Daten führt zu Unsicherheit in der geschätzten Steigung, dem Achsenabschnitt und der Reststandardabweichung ( ); Darüber hinaus besteht Ungewissheit darüber, welcher Wert von auftreten wird. Diese zusätzliche Unsicherheit - weil zufällig ist - kennzeichnet Vorhersagen. Eine Vorhersage kann wie eine Schätzung aussehen ( schätzt :-) und kann sogar dieselbe mathematische Formel haben ( kann manchmal dasselbe sein wieσ Y ( x ) , Y ( x ) α + β x α + β x p ( x ) t ( x )(xi,yi)σY(x)Y(x)α^+β^x α+βxp(x)t(x)), aber es wird eine größere Unsicherheit geben als die Schätzung.

Hier sehen wir also im Beispiel von OLS die Unterscheidung deutlich: Eine Schätzung schätzt die Parameter (die feste, aber unbekannte Zahlen sind), während eine Vorhersage den Wert einer Zufallsgröße schätzt . Die Ursache für mögliche Verwirrung ist, dass die Vorhersage normalerweise auf den geschätzten Parametern aufbaut und möglicherweise sogar die gleiche Formel wie ein Schätzer hat.

In der Praxis können Sie Schätzer auf zwei Arten von Prädiktoren unterscheiden:

  1. Zweck : Ein Schätzer versucht, eine Eigenschaft des wahren Zustands der Natur zu kennen, während eine Vorhersage versucht, das Ergebnis einer Zufallsvariablen zu erraten. und

  2. Unsicherheit : Ein Prädiktor hat normalerweise eine größere Unsicherheit als ein verwandter Schätzer, da das Ergebnis dieser Zufallsvariablen eine zusätzliche Unsicherheit aufweist. Gut dokumentierte und beschriebene Prädiktoren haben daher normalerweise Unsicherheitsbänder - Vorhersageintervalle -, die breiter sind als die Unsicherheitsbänder von Schätzern, die als Konfidenzintervalle bezeichnet werden. Ein charakteristisches Merkmal von Vorhersageintervallen ist, dass sie (hypothetisch) kleiner werden können, wenn der Datensatz größer wird, aber nicht auf die Breite Null verkleinert werden - die Unsicherheit des zufälligen Ergebnisses ist "irreduzibel" -, wohingegen die Breiten von Konfidenzintervallen dazu neigen auf Null schrumpfen, was unserer Vorstellung entspricht, dass die Genauigkeit einer Schätzung bei ausreichenden Datenmengen beliebig gut werden kann.

Berücksichtigen Sie bei der Beurteilung des potenziellen Investitionsverlusts zunächst den Zweck: Möchten Sie wissen, wie viel Sie in einem bestimmten Zeitraum bei dieser Investition (oder bei diesem bestimmten Anlagekorb) tatsächlich verlieren könnten , oder raten Sie wirklich nur, um was es sich handelt? erwarteter Verlust (über ein großes Universum von Investitionen, vielleicht)? Ersteres ist eine Vorhersage, letzteres eine Schätzung. Dann betrachten Sie die Unsicherheit. Wie würde sich Ihre Antwort ändern, wenn Sie nahezu unbegrenzte Ressourcen hätten, um Daten zu sammeln und Analysen durchzuführen? Wenn es sehr genau werden würde, schätzen Sie wahrscheinlich die erwartete Rendite der Investition, während Sie eine Prognose abgeben, wenn Sie über die Antwort äußerst unsicher bleiben.

Wenn Sie sich also immer noch nicht sicher sind, mit welchem ​​Tier Sie es zu tun haben, fragen Sie Ihren Schätzer / Prädiktor: Wie falsch ist es wahrscheinlich und warum? Anhand der beiden Kriterien (1) und (2) wissen Sie, was Sie haben.


Sehr interessante Antwort! Können Sie uns einige Referenzen dazu geben?
user1420303

2
F

y=α+βx+ui+ϵuiN(0,σu2) α,β,σ,σu yuinui

2
ui

2
@whuber Der wichtigste Punkt, auf den Sie hingewiesen haben, ist, dass Schätzer immer darauf abzielen, eine Größe mit nicht stochastischer / nicht zufälliger Natur wie Parameter in einem SLR-Modell anzunähern. Prädiktoren zielen immer darauf ab, eine Größe mit stochastischer / zufälliger Natur wie die Antwortvariable (einschließlich des Fehlerterms) in einem SLR-Modell zu approximieren. Dieser Punkt ist in Raos frühen Werken besonders hervorgehoben.
Henry.L

8

Die Schätzung gilt immer für unbekannte Parameter, während die Vorhersage für zufällige Variablen gilt.


5
Sie sagen eine Realisierung einer Zufallsvariablen voraus , während Sie einen Parameter einer Zufallsvariablen (z. B. den erwarteten Wert) schätzen.
Richard Hardy

@CowboyTrader, ich weiß nicht genug über die Schätzung der Kerneldichte, um Ihre Behauptung zu kommentieren.
Richard Hardy

2

Es gibt keinen Unterschied in den Modellen. Es gibt tatsächlich einen (geringfügigen) Unterschied in der durchgeführten Aktion. Schätzung ist die Kalibrierung Ihres probabilistischen Modells anhand von Daten ("Lernen" in der AI-Terminologie). Vorhersage ist das "Raten" einer zukünftigen Beobachtung. Angenommen, diese "Vermutung" basiert auf früheren Daten - dies könnte ein Schätzungsfall sein; B. die Vorhersage der Größe der nächsten Person, die Sie treffen möchten, unter Verwendung einer Schätzung der mittleren Größe in der Bevölkerung. Beachten Sie jedoch, dass die Vorhersage nicht immer ein Beispiel für eine Schätzung ist. Das Geschlecht der nächsten Person, die Sie kennenlernen möchten, ist kein Parameter der Bevölkerung im klassischen Sinne. Die Vorhersage des Geschlechts erfordert möglicherweise eine gewisse Schätzung, erfordert jedoch weitere ...

Im Value-at-Risk-Fall stimmen die Vorhersage und die Schätzung überein, da Ihr vorhergesagter Verlust die geschätzte Erwartung des Schadens ist.


2
Sie beginnen gut mit einer korrekten Unterscheidung zwischen Schätzung und Vorhersage, aber dann scheinen die letzten zwei Drittel der Antwort die Vorhersage erneut mit der Schätzung zu verwechseln. Das Beispiel des Geschlechts einzuführen wird noch verwirrender, da es nicht mit der anfänglichen Unterscheidung zusammenhängt (in der Tat ist es unsinnig, weil es auf einer Verschiebung des statistischen Modells zwischen dem Schätzungs- und dem Vorhersageschritt beruht).
Whuber

0

Die Vorhersage ist die Verwendung der Stichprobenregressionsfunktion, um einen Wert für die abhängige Variable zu schätzen, der von einigen nicht beobachteten Werten der unabhängigen Variablen abhängig ist.

Schätzung ist der Prozess oder die Technik zur Berechnung eines unbekannten Parameters oder einer unbekannten Menge der Bevölkerung.


3
12

0

Normalerweise ist "Schätzung" für Parameter und die "Vorhersage" für Werte reserviert. Manchmal wird die Unterscheidung jedoch unscharf, z. B. haben Sie möglicherweise etwas wie "Schätzen Sie den Wert morgen" statt "Vorhersagen Sie den Wert morgen" gesehen.

Der Value-at-Risk (VaR) ist ein interessanter Fall. VaR ist kein Parameter, aber wir sagen nicht "VaR vorhersagen". Wir sagen "VaR schätzen". Warum?

Der Grund dafür ist, dass der VaR keine Zufallsgröße ist, WENN Sie die Verteilung kennen, UND Sie die Verteilung kennen müssen , um den VaR zu berechnen. Wenn Sie also einen parametrischen VaR-Ansatz verwenden, schätzen Sie zuerst die Parameter der Verteilung und berechnen dann den VaR. Wenn Sie den nichtparametrischen VaR verwenden, schätzen Sie den VaR direkt , ähnlich wie Sie Parameter schätzen würden. In dieser Hinsicht ähnelt es dem Quantil.

Andererseits ist der Verlustbetrag ein zufälliger Wert. Wenn Sie also aufgefordert werden, Verluste vorherzusagen , würden Sie voraussagen, dass sie nicht geschätzt werden. Wieder sagen wir manchmal "geschätzten" Verlust. Die Linie ist also verschwommen, wie ich zuvor geschrieben habe.


Sie sagen, VaR ist kein Parameter, aber ich frage mich, ob das wirklich der Fall ist. VaR ist das (bedingte oder unbedingte) Quantil der Verteilung der abhängigen Variablen. Als solches scheint es mir ein Parameter der Verteilung zu sein oder zumindest eine Funktion von anderen, grundlegenderen Parametern, die das Wesen nicht zu verändern scheinen. Es sieht nicht nach einer Realisierung einer Zufallsvariablen aus.
Richard Hardy

Wenn Sie außerdem sagen, dass die Vorhersage für Werte gilt, gilt dies für Werte von Parametern ebenso wie für Realisierungen von Zufallsvariablen (die auch Werte sind). Daher empfehle ich, Werte durch die Realisierung von Zufallsvariablen zu ersetzen. dann hätten Sie die Dichotomie, die Sie anstreben.
Richard Hardy

-3

Ich finde folgende Definitionen erklärender:

Die Schätzung ist die berechnete Annäherung eines Ergebnisses. Dieses Ergebnis kann eine Vorhersage sein, muss aber nicht. Zum Beispiel kann ich schätzen, dass die Anzahl der Autos auf der Golden Gate Bridge gestern um 17.00 Uhr 900 war, wenn man annimmt, dass die drei Fahrspuren in Richtung Marin voll sind, jedes Auto 30 Fuß Platz beansprucht und die Brücke 9000 Fuß lang ist ( 9000/30 x 3 = 900).

Bei der Extrapolation wird der Wert einer Variablen außerhalb eines bekannten Wertebereichs geschätzt, indem angenommen wird, dass der geschätzte Wert einem Muster aus den bekannten folgt. Die einfachste und beliebteste Form der Extrapolation ist die Schätzung eines linearen Trends auf der Grundlage der bekannten Daten. Alternativen zur linearen Extrapolation umfassen Polynom- und konische Extrapolation. Ebenso wie die Schätzung kann die Extrapolation für die Vorhersage verwendet werden, ist jedoch nicht auf die Vorhersage beschränkt.

Vorhersage sagt einfach etwas über die Zukunft aus. Vorhersagen konzentrieren sich in der Regel auf die Ergebnisse und nicht auf den Weg zu diesen Ergebnissen. Zum Beispiel könnte ich vorhersagen, dass bis 2050 alle Fahrzeuge mit Elektromotoren angetrieben werden, ohne zu erläutern, wie wir von einer niedrigen Übernahme im Jahr 2011 zu einer vollständigen Übernahme im Jahr 2050 kommen. Wie Sie aus dem vorherigen Beispiel ersehen können, basieren Vorhersagen nicht unbedingt auf Daten.

Prognose ist der Prozess der Erstellung einer Prognose oder Vorhersage. Die Begriffe Vorhersage und Vorhersage werden oft synonym verwendet, aber manchmal werden Vorhersagen von Vorhersagen dadurch unterschieden, dass Vorhersagen häufig Erklärungen für die Wege zu einem Ergebnis liefern. Zum Beispiel könnte eine Prognose für die Einführung von Elektrofahrzeugen den Weg zur vollständigen Einführung von Elektrofahrzeugen nach einem S-förmigen Einführungsmuster einschließen, bei dem vor 2025 nur wenige Autos elektrisch sind, ein Wendepunkt bei 2030 mit schneller Einführung auftritt und die Mehrheit der Autos nach 2025 elektrisch ist 2040.

Schätzung, Extrapolation, Vorhersage und Prognose sind keine sich gegenseitig erschöpfenden und kollektiv erschöpfenden Begriffe. Gute Langzeitprognosen für komplexe Probleme erfordern oft andere Techniken als die Extrapolation, um plausible Ergebnisse zu erzielen. Vorhersagen und Vorhersagen können auch ohne berechnete Schätzungen erfolgen.

siehe links definitions1 definitions2


2
Vorhersage muss nicht unbedingt über die Zukunft sein.
Miura

Lesen Sie es vollständig durch: Vorhersage sagt einfach etwas über die Zukunft aus. Vorhersagen konzentrieren sich normalerweise auf die Ergebnisse und nicht auf den Weg zu diesen Ergebnissen.
So

Ja, aber die Ergebnisse müssen nicht in der Zukunft liegen. Sie können beispielsweise auch frühere unbekannte Ergebnisse vorhersagen.
Miura

1
Dies ist eine vernünftige Darstellung, wie die Wörter "Schätzung" und "Vorhersage" in einem nichttechnischen, nichtstatistischen Sinne verwendet werden. Wie @miura andeutet, geht aus den anderen Antworten hervor, dass sich diese umgangssprachlichen Sinne von den herkömmlichen statistischen unterscheiden. Ich sehe ein berechtigtes Argument dafür, die ursprüngliche Frage nicht statistisch zu interpretieren. Diese Interpretation führt jedoch zu einer unangenehmen und unnötigen Einschränkung, da "Vorhersagen" nicht auf vergangene (abgeschlossene) Ereignisse mit unbekannten Ergebnissen angewendet werden können.
Whuber

Wenn Sie es auf einen früheren Kalman-Filter mit minimaler Varianz anwenden, kann ein Glätter mit minimaler Varianz verwendet werden, um Daten von Interesse aus verrauschten Messungen wiederherzustellen. Die oben genannten Techniken basieren auf One-Step-Ahead-Prädiktoren ... also immer noch eine Prognose, die einen Schritt voraus ist (die Zukunft) :)
also
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.