Predicciones Copa del mundo Rusia 2018

No me aguanté las ganas de hacer algo con datos para esta nueva edición de la Copa del mundo, Rusia 2018. Luego de navegar por internet un rato y recolectar algunos datos decidí enfocarme en el ajuste de un modelo de predicción para “goles esperados por cada equipo en cada partido”, lo que permite estimar las probabilidades de ganar que tiene cada equipo o bien que haya un empate para cada partido. Así, podremos pronosticar todos los partidos del torneo.

A continuación los detalles sobre los datos utilizados, el ajuste del modelo y los resultados.

Datos considerados

  • Resultados de todos los partidos en mundiales desde USA 1994 a Brasil 2014

  • Último Ranking FIFA registrado para las selecciones al momento de jugar cada mundial

  • Porcentaje de jugadores que juegan en las 5 principales ligas europeas (Inglaterra, España, Italia, Alemania y Francia) al momento de jugar cada mundial respecto al total de la plantilla.

  • Promedio de edad de la plantilla al momento de jugar cada mundial

  • Confederación de cada selección (UEFA, CONMEBOL, CONCACAF, etc.)

Exploración básica

Es así como se consideraron 372 partidos, en cuyos resultados puede apreciarse que el Empate es uno de los menos frecuentes (24%):

Resultado Cantidad Porcentaje
Equipo 1 168 45.2
Equipo 2 114 30.6
Empate 90 24.2

También es posible observar la distribución de goles de un equipo por partido, cuyo promedio es de 1.3. A continuación el histograma asociado a esa información.


Modelo de predicción con distribución de Poisson

Si bien se aplican diversos métodos para este tipo de predicciones, uno de los más utilizados es la de “goles esperados para un equipo por partido”, basado en un modelo de regresión con distribución de Poisson, dado que la cantidad de goles por partido se aproxima a esta distribución.

Para esto utilicé la fución glm de R ingresando todos los datos mencionados anteriormente, usando específicamente la diferencia de cada atributo entre los dos equipos que se enfrentan en cada partido.

El atributo más relevante que arrojó el modelo fue el porcentaje de jugadores en las grandes ligas de europa, así como una ventaja general para las selecciones de Conmebol. Los atributos Edad promedio y Ranking FIFA si bien tienen significancia estadística no tienen un gran impacto.

Cabe meniconar que se descartó la influencia de atributos como la localía del equipo anfitrión del mundial, la dispersión de las edades de jugadores y el resto de las confederaciones aparte de Conmebol.

Entonces, el modelo nos permite predecir la probabilidad que tiene cada equipo de hacer X goles en un determinado partido, por supuesto dependiendo del rival, y con eso estimar la matriz de probabilidades de resultados como se aprecia a modo de ejemplo en la siguiente visualización para el primer partido de Perú luego de 36 años sin asistir a un mundial:

Luego, considerando la suma de probabilidades según cada caso de resultado global podemos obtener las probabilidades para:

  • Triunfo del Equipo 1
  • Empate
  • Triunfo del Equipo 2

Paradójicamente, si bien el resultado exacto más probable es un 1-1 con 12% de probabilidad, representando Empate, si miramos las probabilidades de resultados globales lo más probable es que gane Dinamarca, con 50% de probabilidades, mientras que el empate o el triunfo de Perú arroja un 25% cada uno.

En la siguiente visualización se aprecian dichas probabilidades en relación al Empate:

Para tener una idea de la efectividad del modelo, particioné el conjunto de datos históricos para evaluarlo con datos aparte de los considerados en el ajuste, obteniendo un 54% de accuracy. De ese 46% de error, el 27% se explica por la presencia de empates que el modelo nunca predice, dado que como criterio básico nos quedamos con el resultado global más probable.


Predicción 2018

Finalmente, utilizando el modelo y considerando como ganador al equipo con mayor probailidad de ganar cada partido, es posible estimar la tabla de posiciones del torneo, desde el campeón hasta el último lugar:

Resultado Equipo
Campeón FRANCIA
Subcampeón ALEMANIA
3ero BRASIL
4to ESPAÑA
Cuartos de final PORTUGAL
Cuartos de final ARGENTINA
Cuartos de final BÉLGICA
Cuartos de final INGLATERRA
Octavos de final POLONIA
Octavos de final URUGUAY
Octavos de final SUECIA
Octavos de final EGIPTO
Octavos de final DINAMARCA
Octavos de final CROACIA
Octavos de final SUIZA
Octavos de final SENEGAL
Fase de grupos MARRUECOS
Fase de grupos PERÚ
Fase de grupos ISLANDIA
Fase de grupos SERBIA
Fase de grupos MÉXICO
Fase de grupos TÚNEZ
Fase de grupos COLOMBIA
Fase de grupos ARABIA SAUDI
Fase de grupos NIGERIA
Fase de grupos COSTA RICA
Fase de grupos JAPÓN
Fase de grupos RUSIA
Fase de grupos IRÁN
Fase de grupos AUSTRALIA
Fase de grupos COREA DEL SUR
Fase de grupos PANAMÁ

En comparación a las diversas predicciones que están dando vueltas en estos últimos días previo al inicio del mundial (MIT, EightyFivePoints, UBS, Achim Zeileis), la novedad de nuestros resultados está principalmente en el hecho de dar a Francia como ganador, dado que Alemania, Brasil y España aparecen en los primeros lugares en la gran mayoría de dichas predicciones.

Otras diferencias pueden estar en que este modelo arroja que Rusia, Perú, Colombia y México no pasan de la fase de grupos, lo que sí sucede en algunas otras predicciones.

Veremos qué pasa. De todos modos se debe tener presente que siempre en las predicciones de resultados globales de fútbol se tienen márgenes de error relativamente altos dada la naturaleza del mismo juego, con componentes azarosos, circunstaciales, psicológicos, emotivos, etc. los cuales son muy complejos de incluir en un modelo de predicción.

Durante el mundial estaremos publicando las estimaciones más detalladas de cada partido junto con otros datos históricos. Síguenos en Twitter y/o Facebook.