Predicciones Copa Libertadores 2018

El primer post #DatoFútbol del 2018 se lo dedicaré a la Copa Libertadores [La Copa], cuya fase de grupos comienza este martes 27 de febrero. Se trata de la continuación del trabajo de una publicación anterior en la cual se analizó la correlación entre el valor monetario de los planteles en el mercado y su respectivo rendimiento en la fase de grupos de la edición 2017 de La Copa, además de la cantidad de puntos necesarios para clasificar.

Esta vez aumentaré la cantidad de datos, incluyendo datos históricos de ediciones previas, con el objetivo de alimentar de mejor manera un modelo que permita predecir qué equipos pasarán la fase de grupos de la presente edición.

Recolección y proceso de datos

Aplicando scraping con la librería rvest de R descargué los datos de valores en el mercado, en millones de euros, y las tablas de posiciones disponibles en el sitio Transfermarkt.com para todos los planteles que participaron en la fase de grupos de las ediciones desarrolladas entre los años 2011 y 2017. La información de tablas de posiciones fue validada contrastando con el contenido de los sitios web de Conmebol y Wikipedia.

Es así como se trabajó con 224 registros de algún equipo participante en fase de grupos de La Copa (32 equipos en 7 ediciones). De este modo inicialmente se contó con los siguientes atributos para cada registro: Año de edición, N° de Grupo, Nombre Club, País del Club, Puntos obtenidos en fase de grupos, Clasificación (SI/NO) y Valor en el mercado.

En esta muestra de datos se tienen 97 equipos participantes diferentes, dentro de los cuales destacan Emelec de Ecuador con 7 participaciones, luego The Strongest de Bolivia, Peñarol y Nacional de Uruguay con 6 participaciones, además de Atlético Nacional e Independiente de Santa Fe de Colombia, Atlético Mineiro y Gremio de Brasil y Libertad de Paraguay con 5 participaciones. A continuación la tabla con el ranking de participaciones para casos con más de 3.

Club Pais Participaciones
cs emelec Ecuador 7
nacional Uruguay 6
penarol Uruguay 6
the strongest Bolivia 6
atletico mineiro Brasil 5
atletico nacional Colombia 5
gremio Brasil 5
independiente santa fe Colombia 5
libertad Paraguay 5
boca juniors Argentina 4
cerro porteno Paraguay 4
corinthians Brasil 4
deportivo tachira Venezuela 4
san lorenzo Argentina 4
sport. cristal Peru 4
universidad de chile Chile 4
velez sarsfield Argentina 4
zamora Venezuela 4

Por otro lado, cabe destacar que el valor en el mercado considerado para el análisis corresponde al valor de la fecha previa más cercana al inicio de cada edición de La Copa, de modo que se considera la valoración inicial del plantel como posible referencia de la inversión realizada para la misma y al mismo tiempo evitamos incluir el propio impacto que un equipo tendría en su valor debido a su rendimiento durante el desarrollo de los partidos.

Otro aspecto relacionado con el valor en el mercado es la variación del valor del dinero con el tiempo. Si bien existe la opción de corregir todos los valores a algún punto temporal arbitrario para que sean comparable entre sí, opté por convertir los valores a métricas que, además de corregir lo anterior, incorporen información útil respecto a cómo se relacionan los valores de los equipos de un mismo grupo, puesto que finalmente éstos serán los rivales a evaluar y sus respectivas relaciones de valores monetarios en el mercado.

En este contexto, consideré la creación de nuevos atributos para cada registro:

  • Valor centrado respecto a la media del grupo
  • Valor estandarizado respecto al grupo (el centrado dividido por la desviación estándar)
  • Valor numérico de 1 a 4 asociado al ranking del equipo dentro de un grupo según su Valor centrado.
  • Variable nominal según el ranking anterior. A: lugares 1 y 2, B: lugares 3 y 4

Mi apuesta fue que alguno de estos dos últimos nuevos parámetros ayuden a corregir los casos en que 3 equipos con valores monetarios relativamente altos o bajos (para el conjunto total de datos) estén en un mismo grupo, lo cual según las reglas de clasificación (solo lo hacen 2 por grupo) fuerza a que al menos uno de los valores “altos” no haya clasificado o uno de los “bajos” sí lo haya hecho, lo que podría ensuciar el modelo.

A modo descriptivo, en el siguiente gráfico se puede observar un gráfico de dispersión del Valor centrado v/s la Cantidad de puntos obtenidos en la fase de grupos, mapeando con colores el status de Clasificación SI/NO.

Con esta visualización podemos comprobar que al incorporar datos históricos sigue existiendo la correlación encontrada para la edición 2017 entre valor monetario de planteles (en este caso centrado respecto al promedio de su grupo) y su rendimiento en fase de grupos (puntos obtenidos). Dicha correlación tiene un R^2 igual a 0.3.

También se vuelve a observar que con 10 puntos la gran mayoría ha clasificado (excepto U. de Chile el 2014 y Deportes Iquique el 2017), pero que con 9 puntos no se asegura la clasificación (se reparte más o menos homogéneamente entré SI y NO), aún cuando han habido algunos casos puntuales de clasificación con 8 e incluso 7 puntos (Once caldas 2011, Sao Paulo 2013 y River Plate 2015).

Respecto al valor monetario, se puede apreciar que la gran mayoría de los planteles con un valor de 10 millones de EUR sobre el promedio de su grupo han clasificado. Los que no cumplen esta regla son 4 casos: Independiente de Avellaneda 2011, Guadalajara 2012 y Flamengo 2012 y 2017.

En contraste, la mayoría de planteles con 18 millones de EU menor al promedio de su grupo no lo han hecho. Las excepciones y “sorpresas” han sido: LDU de Quito 2011, Emelec 2012, U. de Sucre 2015 y Wilstermann 2017). ¿Factor común? Equipos Ecuatorianos y Bolivianos que juegan sus partidos de local en altura.

Bien, a continuación la presentación del modelo de clasifcación que desarrollé a partir de esta base de datos junto con sus resultados de predicción para la edición 2018 de La Copa.


Modelo de regresión logística

Como punto de partida ajusté un modelo de regresión para comprender, y eventualmente predecir, el status de clasificación SI/NO. Dado que esta variable tiene una distribución binomial o Bernoulli, con posibles salidas SI y NO, trabajé con un regresión logística, la cual a su vez también permite obtener las probabilidades asociadas a cada caso.

Luego de algunas pruebas con los distintos atributos, el predictor más útil fue el Valor centrado. Se descartó la influencia estadísticamente significativa de parámetros como el Nombre y el País del Club, el Año, el Valor estandarizado y el ranking numérico y nominal del valor centrado.

En la siguiente gráfica se puede apreciar la típica Curva S de probabilidades que resultan del ajuste del modelo en función del Valor centrado. El color mapea el status de clasificación.

Entonces, con este modelo podemos obtener la probabilidad de que un equipo pase la fase de grupos de La Copa conociendo su valor en el mercado y su diferencia respecto al promedio del grupo que le tocó. Sin embargo, estas son probabilidades “independientes” que deben ser ponderadas para cada caso para así obtener la probabilidad final de cada uno con tal de que la suma de los integrantes del grupo sumen 100%.

Por otro lado, si establecemos como criterio que los 2 equipos con mayor probabilidad dentro de un grupo serán los que clasifiquen, el modelo es capaz de predecir con una precisión del 71.4% cualquiera de las dos salidas (SI o NO), es decir se clasificacn correctamente 80 de los 112 ejemplos de cada categoría.


Predicción 2018

Finalmente, tomé la información de la versión 2018 de La Copa y la ingresé al modelo para obtener las probabilidades de clasificar para cada equipo y luego las ponderé para cada grupo.

En la siguiente tabla se pueden observar dichas probabilidades ponderadas de clasificación para cada equipo marcando con color azul los 2 más altos que clasificarían tomando a los mayores como criterio para clasificar:

Grupo Club Valor_Mill_EU Promedio_grupo Valor_centrado Prob Porcentaje
1 Grêmio 79.55 26.8650 52.6850 0.5902863 59.0
1 Defensor Sporting 10.78 26.8650 -16.0850 0.1479059 14.8
1 Cerro Porteño 10.68 26.8650 -16.1850 0.1470716 14.7
1 Monagas 6.45 26.8650 -20.4150 0.1147363 11.5
2 At. Nacional 25.63 14.8525 10.7775 0.3419911 34.2
2 Colo Colo 15.13 14.8525 0.2775 0.2538379 25.4
2 Delfín 11.70 14.8525 -3.1525 0.2229144 22.3
2 Bolívar 6.95 14.8525 -7.9025 0.1812566 18.1
3 Atlético Tucumán 16.43 10.5225 5.9075 0.3020696 30.2
3 Peñarol 15.98 10.5225 5.4575 0.2982773 29.8
3 Libertad 6.60 10.5225 -3.9225 0.2151902 21.5
3 The Strongest 3.08 10.5225 -7.4425 0.1844629 18.4
4 Flamengo 87.50 51.8750 35.6250 0.4662670 46.6
4 River Plate 75.15 51.8750 23.2750 0.4274163 42.7
4 Independiente santa fe 23.20 51.8750 -28.6750 0.0559138 5.6
4 Emelec 21.65 51.8750 -30.2250 0.0504030 5.0
5 Cruzeiro 56.70 41.3000 15.4000 0.3636518 36.4
5 Racing Club 49.20 41.3000 7.9000 0.3110358 31.1
5 Vasco da gama 42.70 41.3000 1.4000 0.2567897 25.7
5 Universidad de Chile 16.60 41.3000 -24.7000 0.0685228 6.9
6 Santos 59.80 28.9325 30.8675 0.4666411 46.7
6 Estudiantes 27.45 28.9325 -1.4825 0.2513967 25.1
6 Nacional 20.85 28.9325 -8.0825 0.1898826 19.0
6 Real Garcilaso 7.63 28.9325 -21.3025 0.0920795 9.2
7 Corinthians 59.45 30.9075 28.5425 0.4453615 44.5
7 Independiente 43.00 30.9075 12.0925 0.3600875 36.0
7 Millonarios 14.93 30.9075 -15.9775 0.1222233 12.2
7 Deportivo Lara 6.25 30.9075 -24.6575 0.0723277 7.2
8 Palmeiras 89.05 52.5525 36.4975 0.4606338 46.1
8 Boca Juniors 87.75 52.5525 35.1975 0.4580047 45.8
8 Junior FC 26.23 52.5525 -26.3225 0.0642466 6.4
8 Alianza Lima 7.18 52.5525 -45.3725 0.0171148 1.7

Según los resultados hay 3 tipos de grupos:

  1. Grupos donde los 2 equipos de mayor probabilidad se escapan sobre los demás: Grupo 4 con Flamengo y River Plate, Grupo 7 con Corinthians e Independiente de Avellaneda, y Grupo 8 con Palmeiras y Boca Juniors.

  2. Grupos donde el 1ero del ranking de probabilidades se escapa y el 2do y 3ero están muy cerca: Grupo 1 con Defensor Sporting y Cerro Porteño, y Grupo 6 con Santos y Estudiantes de la Plata.

  3. Grupos donde los 4 equipos no se diferencia notablemente: Grupos 2 y 3 donde el 1ero y el último se diferencian por aprox. solo 12%,

El Grupo 5 es la excepción ya que los 3 primeros equipos están muy cerca (aprox. 10%), pero el 4to equipo está muy abajo. Este es justamente el caso de la Universidad de Chile, que tiene solo un 7% de probabilidades de clasificar!

Por su parte Colo-Colo, el otro equipo chileno participante, según el modelo debería clasificar ya que cuenta con un 27% de probabilidades, estando en el segundo lugar de su grupo.

Al final de la fase de grupos veremos cómo nos va con la predicción y calcular una efectividad para la muestra nueva de datos. Es sabido que es posible refinar el modelo con variables como la edad y altura promedio de los planteles, rendimiento en ligas locales previas a La Copa, cantidad de extranjeros y sus nacionalidades, entre otras posibles, pero por ahora creo que un 70% de efectividad con los datos de entrenamiento es un muy buen punto de partida.

Agradecemos la difusión, nos vemos!