Jeder, der Baseball folgt, hat wahrscheinlich von der aus dem Nichts stammenden MVP-Leistung von Jose Bautista aus Toronto gehört. In den letzten vier Jahren erzielte er ungefähr 15 Homeruns pro Saison. Letztes Jahr erreichte er 54, eine Zahl, die von nur 12 Spielern in der Baseballgeschichte übertroffen wurde.
Im Jahr 2010 erhielt er 2,4 Millionen und er bittet das Team um 10,5 Millionen für 2011. Sie bieten 7,6 Millionen an. Wenn er das 2011 wiederholen kann, wird er beide Beträge leicht wert sein. Aber wie stehen die Chancen, dass er sich wiederholt? Wie schwer können wir erwarten, dass er sich auf den Mittelwert zurückbildet? Wie viel von seiner Leistung können wir erwarten, war zufällig? Was können wir von seiner auf den Mittelwert angepassten Gesamtsumme für 2010 erwarten? Wie arbeite ich es aus?
Ich habe mit der Lahman Baseball-Datenbank herumgespielt und eine Abfrage herausgepresst, die die Gesamtzahl der Homeruns für alle Spieler in den letzten fünf Spielzeiten zurückgibt, die mindestens 50 Fledermäuse pro Saison hatten.
Die Tabelle sieht so aus (beachten Sie Jose Bautista in Zeile 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
Das vollständige Ergebnis (232 Zeilen) finden Sie hier .
Ich weiß wirklich nicht, wo ich anfangen soll. Kann mich jemand in die richtige Richtung weisen? Einige relevante Theorie- und R-Befehle wären besonders hilfreich.
Vielen Dank
Tommy
Hinweis: Das Beispiel ist ein wenig erfunden. Homeruns sind definitiv nicht der beste Indikator für den Wert eines Spielers, und die Gesamtzahl der Homeruns berücksichtigt nicht die unterschiedliche Anzahl von Chancen pro Saison, dass ein Schlagmann die Chance hat, Homeruns zu treffen (Plattenauftritte). Es spiegelt auch nicht wider, dass einige Spieler in günstigeren Stadien spielen und dass sich die durchschnittlichen Heimläufe der Liga von Jahr zu Jahr ändern. Usw. Wenn ich die Theorie hinter der Berücksichtigung der Regression zum Mittelwert verstehen kann, kann ich sie für geeignetere Maßnahmen als HRs verwenden.