Messung der Regression auf den Mittelwert beim Schlagen von Home Runs


11

Jeder, der Baseball folgt, hat wahrscheinlich von der aus dem Nichts stammenden MVP-Leistung von Jose Bautista aus Toronto gehört. In den letzten vier Jahren erzielte er ungefähr 15 Homeruns pro Saison. Letztes Jahr erreichte er 54, eine Zahl, die von nur 12 Spielern in der Baseballgeschichte übertroffen wurde.

Im Jahr 2010 erhielt er 2,4 Millionen und er bittet das Team um 10,5 Millionen für 2011. Sie bieten 7,6 Millionen an. Wenn er das 2011 wiederholen kann, wird er beide Beträge leicht wert sein. Aber wie stehen die Chancen, dass er sich wiederholt? Wie schwer können wir erwarten, dass er sich auf den Mittelwert zurückbildet? Wie viel von seiner Leistung können wir erwarten, war zufällig? Was können wir von seiner auf den Mittelwert angepassten Gesamtsumme für 2010 erwarten? Wie arbeite ich es aus?

Ich habe mit der Lahman Baseball-Datenbank herumgespielt und eine Abfrage herausgepresst, die die Gesamtzahl der Homeruns für alle Spieler in den letzten fünf Spielzeiten zurückgibt, die mindestens 50 Fledermäuse pro Saison hatten.

Die Tabelle sieht so aus (beachten Sie Jose Bautista in Zeile 10)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

Das vollständige Ergebnis (232 Zeilen) finden Sie hier .

Ich weiß wirklich nicht, wo ich anfangen soll. Kann mich jemand in die richtige Richtung weisen? Einige relevante Theorie- und R-Befehle wären besonders hilfreich.

Vielen Dank

Tommy

Hinweis: Das Beispiel ist ein wenig erfunden. Homeruns sind definitiv nicht der beste Indikator für den Wert eines Spielers, und die Gesamtzahl der Homeruns berücksichtigt nicht die unterschiedliche Anzahl von Chancen pro Saison, dass ein Schlagmann die Chance hat, Homeruns zu treffen (Plattenauftritte). Es spiegelt auch nicht wider, dass einige Spieler in günstigeren Stadien spielen und dass sich die durchschnittlichen Heimläufe der Liga von Jahr zu Jahr ändern. Usw. Wenn ich die Theorie hinter der Berücksichtigung der Regression zum Mittelwert verstehen kann, kann ich sie für geeignetere Maßnahmen als HRs verwenden.


2
Baseball ist die beliebteste Quelle für Beispiele vieler US-Statistiker, sodass bei einer Google-Suche (/ Scholar) mehrere relevante Artikel angezeigt werden , z. B. Morrison und Schmittlein (1981) jstor.org/stable/2630890 . Ich überlasse es jemandem, der sowohl mit Baseball als auch mit R besser vertraut ist, Ihre Frage zu beantworten.
Onestop

1
Ich würde auch vorschlagen, dass Sie sich die Arbeit von JC Bradbury und seinem Blog Sabernomics unter sabernomics.com/sabernomics ansehen . Sein Buch über die Messung des Spielerwerts wird wahrscheinlich Aufschluss darüber geben, welche Eigenschaften die zukünftige Produktivität vorhersagen.
Andy W

2
Das Problem ist, wie gesagt, ein bisschen wie ein Ausreißerproblem , aber nicht so, wie man es normalerweise von Ausreißern hält. Um das erstaunliche Ergebnis (dh den Ausreißer) zu berücksichtigen, benötigen Sie eine "Stichprobenverteilung" mit einem schweren Schwanz (Joses Ergebnis liegt weit über 3 Standardabweichungen von seinem Durchschnitt über die vergangenen Daten), sodass dies möglicherweise zu einer besseren Anpassung Ihrer Daten beiträgt erklären Sie es in der Vorhersage.
Wahrscheinlichkeitslogik

Wenn Sie zusätzlich zu den komplexeren Kommentaren, die hier erscheinen, eine grobe kleine Verknüpfung in Betracht ziehen würden, gibt es Dixons Test für Ausreißer, den Sie an einem Beispiel ab 4 durchführen können. Siehe cee.vt.edu/ewr/environmental/teach/smprimer / Ausreißer /…
Rolando2

Antworten:


3

Ich denke, dass es definitiv eine Bayes'sche Schrumpfung oder vorherige Korrektur gibt, die die Vorhersage erleichtern könnte, aber Sie möchten vielleicht auch einen anderen Ansatz in Betracht ziehen ...

Suchen Sie nach Spielern in der Geschichte, nicht nur in den letzten Jahren, die nach einem Paar in den Majors Breakout-Saisons hatten (dramatische Erhöhungen vielleicht 2x), und sehen Sie, wie sie sich im folgenden Jahr geschlagen haben. Es ist möglich, dass die Wahrscheinlichkeit, die Leistung dort aufrechtzuerhalten, der richtige Prädiktor ist.

Es gibt verschiedene Möglichkeiten, dieses Problem zu betrachten, aber wie mpiktas sagte, werden Sie mehr Daten benötigen. Wenn Sie sich nur mit den neuesten Daten befassen möchten, müssen Sie sich die allgemeinen Ligastatistiken ansehen, die Pitcher, gegen die er antritt, es ist ein komplexes Problem.

Und dann werden nur noch Bautistas eigene Daten berücksichtigt. Ja, das war sein bestes Jahr, aber es war auch das erste Mal seit 2007, dass er über 350 ABs (569) hatte. Möglicherweise möchten Sie die prozentuale Leistungssteigerung konvertieren.


3

Sie können ein Modell nur an diese Daten anpassen und Vorhersagen erhalten, die die Regression auf den Mittelwert berücksichtigen, indem Sie gemischte (mehrstufige) Modelle verwenden. Vorhersagen aus solchen Modellen erklären die Regression zum Mittelwert. Selbst ohne so gut wie nichts über Baseball zu wissen, finde ich keine Ergebnisse, die ich fürchterlich glaubwürdig gemacht habe, da das Modell, wie Sie sagen, andere Faktoren wie das Erscheinungsbild der Platte wirklich berücksichtigen muss.

Ich denke, ein Poisson-Modell mit gemischten Effekten wäre besser geeignet als ein lineares Modell mit gemischten Effekten, da die Anzahl der Home Runs zählt. Wenn Sie sich die von Ihnen angegebenen Daten ansehen, hrzeigt ein Histogramm , dass sie stark positiv verzerrt sind, was darauf hindeutet, dass ein lineares gemischtes Modell nicht gut funktioniert und eine ziemlich große Anzahl von Nullen enthält, mit oder ohne logarithmische Transformation zuerst.

Hier ist ein Code, der die lmerFunktion aus dem lme4- Paket verwendet. Nachdem ich eine ID-Variable erstellt habe, um jeden Spieler zu identifizieren, und die Daten in das 'lange' Format umgeformt habe, wie in seiner Antwort angegeben, habe ich dies in Stata getan, da ich in R nicht gut in der Datenverwaltung bin, aber Sie könnten es in a tun Tabellenkalkulationspaket):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

Dies passt zu einem Modell mit einem Log-Link, der eine exponentielle Abhängigkeit der Trefferquote vom Jahr ergibt, die zwischen den Spielern variieren darf. Andere Verknüpfungsfunktionen sind möglich, obwohl die Identitätsverknüpfung aufgrund negativ angepasster Werte einen Fehler ergab. Ein sqrt-Link funktionierte jedoch einwandfrei und hat einen niedrigeren BIC und AIC als das Modell mit dem Protokolllink, sodass er möglicherweise besser passt. Die Vorhersagen für die Trefferquote im Jahr 2011 hängen von der gewählten Link-Funktion ab, insbesondere für Spieler wie Bautista, deren Trefferquote sich in letzter Zeit stark verändert hat.

Ich fürchte, ich habe es nicht geschafft, solche Vorhersagen tatsächlich zu erhalten lme4. Ich bin mit Stata besser vertraut, was es sehr einfach macht, Vorhersagen für Beobachtungen mit fehlenden Werten für das Ergebnis zu erhalten, obwohl xtmelogit anscheinend keine andere Auswahl an Linkfunktionen als log bietet, was für Bautista eine Vorhersage von 50 ergab Home Runs im Jahr 2011. Wie gesagt, ich finde das nicht besonders glaubwürdig. Ich wäre dankbar, wenn jemand zeigen könnte, wie man aus den oben genannten lmerModellen Vorhersagen für 2011 generiert .

Ein autoregressives Modell wie AR (1) für die Fehler auf Spielerebene mag ebenfalls interessant sein, aber ich weiß nicht, wie ich eine solche Struktur mit einem gemischten Poisson-Modell kombinieren soll.


Bei Verwendung der Funktion Schmelze aus Paketumformung ist die Konvertierung in ein Langformat eine Zeile in R, Schmelze (Daten, ID = 1: 2).
mpiktas

Eine interessante Erweiterung / Alternative dazu besteht darin, ein hierarchisches Modell mit einer Possion-Stichprobenverteilung mit einem Stichprobenratenparameter (1 Rate pro Jahr), aber einer Cauchy- Stichprobenverteilung für den Ratenparameter (anstelle einer normalen oder normalen Mischung) anzupassen . Die Cauchy-Verteilung ermöglicht das Auftreten des Extremereignisses (durch Abtasten eines großen Ratenparameters). Ein Zwischenfall (zwischen Normal und Cauchy) ist die t-Verteilung. (Cauchy ist einfacher zu probieren, da es die inverse CDF-Methode verwenden kann).
Wahrscheinlichkeitslogik

2

Sie benötigen zusätzliche Daten zu den Spielern und ihren Eigenschaften in der Zeitspanne, in der Sie Daten über Home-Runs haben. Fügen Sie für den ersten Schritt einige zeitlich variierende Merkmale wie Alter oder Erfahrung der Spieler hinzu. Dann können Sie HLM- oder Paneldatenmodelle verwenden. Sie müssen Daten in folgendem Format vorbereiten:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

Das einfachste Modell wäre dann (die Funktion lme stammt aus dem Paket nlme )

lme(HR~Experience,random=~Experience|Year,data=your_data)

Dieses Modell wird stark von der Annahme abhängen, dass die Home-Run-Nummer jedes Spielers nur von der Erfahrung abhängt, die eine gewisse Variabilität zulässt. Es wird wahrscheinlich nicht sehr genau sein, aber Sie werden zumindest ein Gefühl dafür bekommen, wie unwahrscheinlich die Zahlen von Jose Bautista im Vergleich zu einem durchschnittlichen Spieler sind. Dieses Modell kann durch Hinzufügen der Eigenschaften anderer Spieler weiter verbessert werden.


Ich würde nicht sagen , dass @TMOD braucht mehr Daten, nur dass die Vorhersagen sind wahrscheinlich genauer zu sein , wenn @TMOD hat mehr Daten. Die Frage enthält genügend Informationen, um eine Vorhersage zu erstellen.
Wahrscheinlichkeitslogik

@probabilityislogic, ja, es gibt genügend Informationen, um die Vorhersage zu generieren, aber dann hat das Modell nur einen Achsenabschnitt.
mpiktas

nicht unbedingt, man könnte ein AR (1) - oder AR (2) -Modell an diese Daten
Wahrscheinlichkeitslogik

@probabilityislogic, ah ja, du hast recht.
mpiktas

2

Vielleicht möchten Sie sich The Book Blog ansehen.

Tom Tango und die anderen Autoren von "The Book: Playing the Percentages in Baseball" sind wahrscheinlich die besten Quellen für Sabermetrik. Insbesondere lieben sie die Regression zum Mittelwert. Sie entwickelten ein Prognosesystem, das als das grundlegendste akzeptable System (Marcel) konzipiert wurde und fast ausschließlich auf der Regression des Mittelwerts beruht.

Ich nehme an, eine Methode wäre, eine solche Prognose zu verwenden, um das wahre Talent zu schätzen und dann eine angemessene Verteilung um dieses mittlere Talent zu finden. Sobald Sie das haben, wird jedes Erscheinungsbild der Platte wie ein Bernoulli-Versuch sein, sodass die Binomialverteilung Sie den Rest des Weges führen könnte.


1

Zu Ihrer Information, von 2011 bis 2014 erreichte er 43, 27, 28 und 35.

Das ist ziemlich nahe an seinem 162-Spiele-Durchschnitt von 32 (was natürlich diese Werte beinhaltet) und ungefähr 1 SD unter den 54 im Jahr 2010.

Sieht aus wie eine Regression des Mittelwerts in Aktion: Eine extreme Gruppe, die durch die Nutzung von lauten Themen (in diesem Fall 1) aufgebaut wird, die zufällig von ihrem Gruppenmittelwert abweichen.

http://www.baseball-reference.com/players/b/bautijo02.shtml

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.