Ich bin daran interessiert, eine unvoreingenommene Schätzung von in einer multiplen linearen Regression zu erhalten.
Bei der Reflexion kann ich mir zwei verschiedene Werte vorstellen, mit denen eine unvoreingenommene Schätzung von übereinstimmen könnte.
- Out of sample : das r-Quadrat, das erhalten würde, wenn die aus der Stichprobe erhaltene Regressionsgleichung (dh ) auf eine unendliche Datenmenge außerhalb der Stichprobe angewendet würde, jedoch aus denselben Daten Erzeugungsprozess.
- Population : Das r-Quadrat, das erhalten würde, wenn eine unendliche Stichprobe erhalten und das Modell an diese unendliche Stichprobe angepasst würde (dh ), oder alternativ nur das R-Quadrat, das durch den bekannten Datenerzeugungsprozess impliziert wird.
Ich verstehe, dass das eingestellte so ausgelegt ist, dass es die in Probe beobachtete Überanpassung ausgleicht . Nichtsdestotrotz ist nicht klar, ob angepasstes R 2 tatsächlich eine unvoreingenommene Schätzung von R 2 ist , und wenn es eine unvoreingenommene Schätzung ist, welche der obigen zwei Definitionen von R 2 geschätzt werden soll.
Also meine Fragen:
- Was ist eine unvoreingenommene Schätzung dessen, was ich oben aus Probe nenne ?
- Was ist eine unvoreingenommene Schätzung dessen, was ich über der Population nenne ?
- Gibt es Referenzen, die die Unparteilichkeit simulieren oder auf andere Weise belegen?