Modellierung eines Win-Draw-Loss-Ergebnisses im Sport


7

Ich habe Daten über verschiedene Teams, Spieler usw. Ich versuche herauszufinden, wie ich das Ergebnis eines Spiels am besten modellieren kann. Dies kann zu einem Sieg für die Heimmannschaft, einer Niederlage für die Heimmannschaft oder einem Unentschieden führen. Ich habe jedoch Probleme, dies zu modellieren.

Zum Beispiel kann ich eine Poisson-Regression verwenden, um die Anzahl der Tore zu modellieren, die jedes Team erzielt, und dann ein Raster ihrer Wahrscheinlichkeiten berechnen, aber ich bin mit der Annahme der Unabhängigkeit nicht allzu zufrieden. Ich könnte auch ein bivariates Poisson machen, mit dem ich nicht viel Erfahrung habe. Ich frage mich, was ein geeigneter Ansatz ist, um die Abhängigkeit des Ergebnisses von den beiden Teams zu modellieren und gleichzeitig die Tatsache zu bewahren, dass sich die Ergebnisse gegenseitig ausschließen (die Wahrscheinlichkeiten für den Gewinn eines Unentschieden sollten sich zu einer Einheit summieren).


Warum nicht versuchen, die erwartete Tordifferenz zu modellieren, anstatt das zwischen den beiden Teams erzielte Tor unabhängig voneinander zu modellieren?
Antoine Vernet

Ich habe keine Antwort, aber ich bin dieser Website gefolgt und habe genau das getan, was Sie beabsichtigt haben. Sie haben Vorhersagen für die Euro 2016 getroffen und dann mit der Zufälligkeit und dem Quotenverhältnis der Wett-Website verglichen. Es stellt sich heraus, dass das tatsächliche Quotenverhältnis etwas besser ist als ihre Vorhersagen: kickoff.ai
Metariat

Antworten:


4

Sie können die bivariate Poisson-Verteilung mit Wahrscheinlichkeitsmassenfunktion verwenden

f(x,y)=exp{(λ1+λ2+λ3)}λ1xx!λ2yy!k=0min(x,y)(xk)(yk)k!(λ3λ1λ2)k

Dabei ist und und , sodass Sie als Maß für die Abhängigkeit zwischen den beiden behandeln können Poisson-Verteilungen. Die pmf- und Zufallsgenerierung für diese Distribution wird im extraDistr- Paket implementiert , wenn Sie R verwenden.E(X)=λ1+λ3E(Y)=λ2+λ3cov(X,Y)=λ3λ3

Tatsächlich wurde diese Verteilung im Hinblick auf die Analyse von Sportdaten von Karlis und Ntzoufras (2003) beschrieben, sodass Sie deren Artikel auf weitere Details überprüfen können. Diese Autoren diskutierten in ihrer früheren Arbeit auch das univariate Poisson-Modell, wo sie zu dem Schluss kamen, dass die Annahme der Unabhängigkeit eine faire Annäherung darstellt, da der Unterschied zwischen den Punktzahlen beider Teams nicht vom Korrelationsparameter des bivariaten Poisson abhängt (Karlis und Ntzoufras, 2000).

Kawamura (1984) beschrieb die Schätzung von Parametern für die bivariate Poisson-Verteilung durch direkte Suche unter Verwendung der maximalen Wahrscheinlichkeit. In Bezug auf Regressionsmodelle können Sie den EM-Algorithmus für die Schätzung der maximalen Wahrscheinlichkeit verwenden, wie Karlis und Ntzoufras (2003), oder das mit MCMC geschätzte Bayes'sche Modell. Der EM-Algorithmus für die bivariate Poisson-Regression ist in einem Bivpois- Paket (Karlis und Ntzoufras, 2005) implementiert, das derzeit leider nicht in CRAN enthalten ist.


Karlis, D. & Ntzoufras, I. (2003). Analyse von Sportdaten mit bivariaten Poisson-Modellen. Zeitschrift der Royal Statistical Society: Reihe D (The Statistician), 52 (3), 381-393.

Karlis, D. und Ntzoufras, I. (2000) Zur Modellierung von Fußballdaten. Student, 3, 229 & ndash; 244.

Kawamura, K. (1984). Direkte Berechnung des Maximum-Likelihood-Schätzers für die bivariate Poisson-Verteilung. Kodai Mathematical Journal, 7 (2), 211-221.

Karlis, D. und Ntzoufras, I. (2005). Bivariate Poisson- und diagonal aufgeblasene bivariate Poisson-Regressionsmodelle in R. Journal of Statistical Software, 14 (10), 1-36.


3

Das bivariate Poisson berücksichtigt keine negative Korrelation zwischen und . Ein Modell hierfür könnte konstruiert werden, indem die Poisson-Quantilfunktion auf jede Komponente einer Gaußschen Kopula angewendet wird. Die resultierende bivariate Wahrscheinlichkeitsmassenfunktion kann leicht in R mit folgendem Code berechnet werden, wobei der Vektor die Parameter der beiden marginalen Poisson-Verteilungen enthält und die Korrelation der binormalen Standardverteilung ist.x1x2lambdarho

library(mvtnorm)
dbipoisgausscopula <- function(x, lambda, rho) {
   pmvnorm(lower=qnorm(ppois(x-1,lambda)),
      upper=qnorm(ppois(x,lambda)),
      mean=c(0,0),
      sigma=matrix(c(1,rho,rho,1),2,2)
   )
}
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.