@whuber hat dich auf drei gute Antworten hingewiesen, aber vielleicht kann ich noch etwas von Wert schreiben. Ihre explizite Frage ist, wie ich es verstehe:
Unter der y^i=m^xi+b^ N(0, σ 2 e )ynewxnew( y -σe, y +σe)Annahme , dass mein angepasstes Modell (beachte, dass ich 'Hüte' hinzugefügt habe) und dass meine Residuen normalverteilt sind , kann ich vorhersagen dass eine noch nicht beobachtete Antwort mit einem bekannten Prädiktorwert mit einer Wahrscheinlichkeit von 68% in das Intervall fällt?N( 0 , σ^2e)yn e wxn e w( y^- σe, y^+ σe)
Intuitiv scheint die Antwort "Ja" zu sein, aber die wahre Antwort ist vielleicht . Dies wird der Fall sein , wenn die Parameter (dh, u ) sind bekannt und ohne Fehler. Da Sie diese Parameter geschätzt haben, müssen wir deren Unsicherheit berücksichtigen. σm , b ,σ
Lassen Sie uns zuerst über die Standardabweichung Ihrer Residuen nachdenken. Da dies anhand Ihrer Daten geschätzt wird, kann es zu Fehlern bei der Schätzung kommen. Folglich sollte die Verteilung, die Sie zur Bildung Ihres Vorhersageintervalls verwenden sollten, , nicht die normale. Da sich das schnell dem Normalwert annähert, ist dies in der Praxis weniger wahrscheinlich ein Problem. ttdf fehlert
Können wir also einfach anstelle von , und machen Sie unseren fröhlichen Weg? Unglücklicherweise nicht. Das größere Problem ist , dass es Unsicherheit über Ihre Schätzung des bedingten Mittelwert der Antwort an dieser Stelle ist aufgrund der Unsicherheit in Ihren Schätzungen & . Daher muss die Standardabweichung Ihrer Vorhersagen mehr als nur . Da sich Abweichungen addieren , ist die geschätzte Abweichung der Vorhersagen:
Beachten Sie, dass das " y neu±z(1-α/2)s m b sFehlers 2 Vorhersagen (neu) =s 2 error +Var( m xneu+ b )xs2xsy^Neu± t( 1 - α / 2 , df Fehler ) sy^Neu± z( 1 - α / 2 )sm^b^sError
s2Vorhersagen (neu)= s2Error+ Var ( m^xNeu+ b^)
x"ist mit einem Index versehen, um den spezifischen Wert für die neue Beobachtung darzustellen, und das" "ist entsprechend mit einem Index versehen. Das heißt, Ihr Vorhersageintervall hängt von der Position der neuen Beobachtung entlang der Achse ab. Die Standardabweichung von Ihrer Vorhersagen können mit der folgenden Formel bequemer geschätzt werden:
Interessanterweise können wir aus dieser Gleichung einige Fakten über Vorhersageintervalle ableiten. Erstens werden die Vorhersageintervalle umso kürzer, je mehr Daten wir zum Zeitpunkt der Erstellung des Vorhersagemodells hatten (dies liegt daran, dass die Unsicherheit in Bezug auf &
s2xsVorhersagen (neu)= s2Error( 1 + 1N+ ( xNeu- x¯)2∑ ( xich- x¯)2)------------------------√
m^b^). Zweitens sind Vorhersagen am genauesten, wenn sie auf dem Mittelwert der Werte basieren, die Sie für die Entwicklung Ihres Modells verwendet haben, da der Zähler für das dritte Glied . Der Grund ist, dass unter normalen Umständen keine Unsicherheit über die geschätzte Steigung beim Mittelwert von
x0x, nur eine gewisse Unsicherheit über die wahre vertikale Position der Regressionsgeraden. Einige Lektionen, die für die Erstellung von Vorhersagemodellen gelernt werden müssen, lauten: Mehr Daten sind hilfreich, nicht um die „Signifikanz“ zu finden, sondern um die Präzision zukünftiger Vorhersagen zu verbessern; und dass Sie Ihre Datenerfassungsbemühungen auf das Intervall konzentrieren sollten, in dem Sie in Zukunft Vorhersagen treffen müssen (um diesen Zähler zu minimieren), aber die Beobachtungen von diesem Zentrum aus so weit wie möglich verbreiten sollten (um diesen Nenner zu maximieren).
Nachdem wir den korrekten Wert auf diese Weise berechnet haben, können wir ihn mit der oben angegebenen Verteilung verwenden. t