El primer post #DatoFútbol del 2018 se lo dedicaré a la Copa Libertadores [La Copa], cuya fase de grupos comienza este martes 27 de febrero. Se trata de la continuación del trabajo de una publicación anterior en la cual se analizó la correlación entre el valor monetario de los planteles en el mercado y su respectivo rendimiento en la fase de grupos de la edición 2017 de La Copa, además de la cantidad de puntos necesarios para clasificar.
Esta vez aumentaré la cantidad de datos, incluyendo datos históricos de ediciones previas, con el objetivo de alimentar de mejor manera un modelo que permita predecir qué equipos pasarán la fase de grupos de la presente edición.
Recolección y proceso de datos
Aplicando scraping con la librería rvest de R descargué los datos de valores en el mercado, en millones de euros, y las tablas de posiciones disponibles en el sitio Transfermarkt.com para todos los planteles que participaron en la fase de grupos de las ediciones desarrolladas entre los años 2011 y 2017. La información de tablas de posiciones fue validada contrastando con el contenido de los sitios web de Conmebol y Wikipedia.
Es así como se trabajó con 224 registros de algún equipo participante en fase de grupos de La Copa (32 equipos en 7 ediciones). De este modo inicialmente se contó con los siguientes atributos para cada registro: Año de edición, N° de Grupo, Nombre Club, País del Club, Puntos obtenidos en fase de grupos, Clasificación (SI/NO) y Valor en el mercado.
En esta muestra de datos se tienen 97 equipos participantes diferentes, dentro de los cuales destacan Emelec de Ecuador con 7 participaciones, luego The Strongest de Bolivia, Peñarol y Nacional de Uruguay con 6 participaciones, además de Atlético Nacional e Independiente de Santa Fe de Colombia, Atlético Mineiro y Gremio de Brasil y Libertad de Paraguay con 5 participaciones. A continuación la tabla con el ranking de participaciones para casos con más de 3.
Club | Pais | Participaciones |
---|---|---|
cs emelec | Ecuador | 7 |
nacional | Uruguay | 6 |
penarol | Uruguay | 6 |
the strongest | Bolivia | 6 |
atletico mineiro | Brasil | 5 |
atletico nacional | Colombia | 5 |
gremio | Brasil | 5 |
independiente santa fe | Colombia | 5 |
libertad | Paraguay | 5 |
boca juniors | Argentina | 4 |
cerro porteno | Paraguay | 4 |
corinthians | Brasil | 4 |
deportivo tachira | Venezuela | 4 |
san lorenzo | Argentina | 4 |
sport. cristal | Peru | 4 |
universidad de chile | Chile | 4 |
velez sarsfield | Argentina | 4 |
zamora | Venezuela | 4 |
Por otro lado, cabe destacar que el valor en el mercado considerado para el análisis corresponde al valor de la fecha previa más cercana al inicio de cada edición de La Copa, de modo que se considera la valoración inicial del plantel como posible referencia de la inversión realizada para la misma y al mismo tiempo evitamos incluir el propio impacto que un equipo tendría en su valor debido a su rendimiento durante el desarrollo de los partidos.
Otro aspecto relacionado con el valor en el mercado es la variación del valor del dinero con el tiempo. Si bien existe la opción de corregir todos los valores a algún punto temporal arbitrario para que sean comparable entre sí, opté por convertir los valores a métricas que, además de corregir lo anterior, incorporen información útil respecto a cómo se relacionan los valores de los equipos de un mismo grupo, puesto que finalmente éstos serán los rivales a evaluar y sus respectivas relaciones de valores monetarios en el mercado.
En este contexto, consideré la creación de nuevos atributos para cada registro:
- Valor centrado respecto a la media del grupo
- Valor estandarizado respecto al grupo (el centrado dividido por la desviación estándar)
- Valor numérico de 1 a 4 asociado al ranking del equipo dentro de un grupo según su Valor centrado.
- Variable nominal según el ranking anterior. A: lugares 1 y 2, B: lugares 3 y 4
Mi apuesta fue que alguno de estos dos últimos nuevos parámetros ayuden a corregir los casos en que 3 equipos con valores monetarios relativamente altos o bajos (para el conjunto total de datos) estén en un mismo grupo, lo cual según las reglas de clasificación (solo lo hacen 2 por grupo) fuerza a que al menos uno de los valores “altos” no haya clasificado o uno de los “bajos” sí lo haya hecho, lo que podría ensuciar el modelo.
A modo descriptivo, en el siguiente gráfico se puede observar un gráfico de dispersión del Valor centrado v/s la Cantidad de puntos obtenidos en la fase de grupos, mapeando con colores el status de Clasificación SI/NO.
Con esta visualización podemos comprobar que al incorporar datos históricos sigue existiendo la correlación encontrada para la edición 2017 entre valor monetario de planteles (en este caso centrado respecto al promedio de su grupo) y su rendimiento en fase de grupos (puntos obtenidos). Dicha correlación tiene un R^2 igual a 0.3.
También se vuelve a observar que con 10 puntos la gran mayoría ha clasificado (excepto U. de Chile el 2014 y Deportes Iquique el 2017), pero que con 9 puntos no se asegura la clasificación (se reparte más o menos homogéneamente entré SI y NO), aún cuando han habido algunos casos puntuales de clasificación con 8 e incluso 7 puntos (Once caldas 2011, Sao Paulo 2013 y River Plate 2015).
Respecto al valor monetario, se puede apreciar que la gran mayoría de los planteles con un valor de 10 millones de EUR sobre el promedio de su grupo han clasificado. Los que no cumplen esta regla son 4 casos: Independiente de Avellaneda 2011, Guadalajara 2012 y Flamengo 2012 y 2017.
En contraste, la mayoría de planteles con 18 millones de EU menor al promedio de su grupo no lo han hecho. Las excepciones y “sorpresas” han sido: LDU de Quito 2011, Emelec 2012, U. de Sucre 2015 y Wilstermann 2017). ¿Factor común? Equipos Ecuatorianos y Bolivianos que juegan sus partidos de local en altura.
Bien, a continuación la presentación del modelo de clasifcación que desarrollé a partir de esta base de datos junto con sus resultados de predicción para la edición 2018 de La Copa.
Modelo de regresión logística
Como punto de partida ajusté un modelo de regresión para comprender, y eventualmente predecir, el status de clasificación SI/NO. Dado que esta variable tiene una distribución binomial o Bernoulli, con posibles salidas SI y NO, trabajé con un regresión logística, la cual a su vez también permite obtener las probabilidades asociadas a cada caso.
Luego de algunas pruebas con los distintos atributos, el predictor más útil fue el Valor centrado. Se descartó la influencia estadísticamente significativa de parámetros como el Nombre y el País del Club, el Año, el Valor estandarizado y el ranking numérico y nominal del valor centrado.
En la siguiente gráfica se puede apreciar la típica Curva S de probabilidades que resultan del ajuste del modelo en función del Valor centrado. El color mapea el status de clasificación.
Entonces, con este modelo podemos obtener la probabilidad de que un equipo pase la fase de grupos de La Copa conociendo su valor en el mercado y su diferencia respecto al promedio del grupo que le tocó. Sin embargo, estas son probabilidades “independientes” que deben ser ponderadas para cada caso para así obtener la probabilidad final de cada uno con tal de que la suma de los integrantes del grupo sumen 100%.
Por otro lado, si establecemos como criterio que los 2 equipos con mayor probabilidad dentro de un grupo serán los que clasifiquen, el modelo es capaz de predecir con una precisión del 71.4% cualquiera de las dos salidas (SI o NO), es decir se clasificacn correctamente 80 de los 112 ejemplos de cada categoría.
Predicción 2018
Finalmente, tomé la información de la versión 2018 de La Copa y la ingresé al modelo para obtener las probabilidades de clasificar para cada equipo y luego las ponderé para cada grupo.
En la siguiente tabla se pueden observar dichas probabilidades ponderadas de clasificación para cada equipo marcando con color azul los 2 más altos que clasificarían tomando a los mayores como criterio para clasificar:
Grupo | Club | Valor_Mill_EU | Promedio_grupo | Valor_centrado | Prob | Porcentaje |
---|---|---|---|---|---|---|
1 | Grêmio | 79.55 | 26.8650 | 52.6850 | 0.5902863 | 59.0 |
1 | Defensor Sporting | 10.78 | 26.8650 | -16.0850 | 0.1479059 | 14.8 |
1 | Cerro Porteño | 10.68 | 26.8650 | -16.1850 | 0.1470716 | 14.7 |
1 | Monagas | 6.45 | 26.8650 | -20.4150 | 0.1147363 | 11.5 |
2 | At. Nacional | 25.63 | 14.8525 | 10.7775 | 0.3419911 | 34.2 |
2 | Colo Colo | 15.13 | 14.8525 | 0.2775 | 0.2538379 | 25.4 |
2 | Delfín | 11.70 | 14.8525 | -3.1525 | 0.2229144 | 22.3 |
2 | Bolívar | 6.95 | 14.8525 | -7.9025 | 0.1812566 | 18.1 |
3 | Atlético Tucumán | 16.43 | 10.5225 | 5.9075 | 0.3020696 | 30.2 |
3 | Peñarol | 15.98 | 10.5225 | 5.4575 | 0.2982773 | 29.8 |
3 | Libertad | 6.60 | 10.5225 | -3.9225 | 0.2151902 | 21.5 |
3 | The Strongest | 3.08 | 10.5225 | -7.4425 | 0.1844629 | 18.4 |
4 | Flamengo | 87.50 | 51.8750 | 35.6250 | 0.4662670 | 46.6 |
4 | River Plate | 75.15 | 51.8750 | 23.2750 | 0.4274163 | 42.7 |
4 | Independiente santa fe | 23.20 | 51.8750 | -28.6750 | 0.0559138 | 5.6 |
4 | Emelec | 21.65 | 51.8750 | -30.2250 | 0.0504030 | 5.0 |
5 | Cruzeiro | 56.70 | 41.3000 | 15.4000 | 0.3636518 | 36.4 |
5 | Racing Club | 49.20 | 41.3000 | 7.9000 | 0.3110358 | 31.1 |
5 | Vasco da gama | 42.70 | 41.3000 | 1.4000 | 0.2567897 | 25.7 |
5 | Universidad de Chile | 16.60 | 41.3000 | -24.7000 | 0.0685228 | 6.9 |
6 | Santos | 59.80 | 28.9325 | 30.8675 | 0.4666411 | 46.7 |
6 | Estudiantes | 27.45 | 28.9325 | -1.4825 | 0.2513967 | 25.1 |
6 | Nacional | 20.85 | 28.9325 | -8.0825 | 0.1898826 | 19.0 |
6 | Real Garcilaso | 7.63 | 28.9325 | -21.3025 | 0.0920795 | 9.2 |
7 | Corinthians | 59.45 | 30.9075 | 28.5425 | 0.4453615 | 44.5 |
7 | Independiente | 43.00 | 30.9075 | 12.0925 | 0.3600875 | 36.0 |
7 | Millonarios | 14.93 | 30.9075 | -15.9775 | 0.1222233 | 12.2 |
7 | Deportivo Lara | 6.25 | 30.9075 | -24.6575 | 0.0723277 | 7.2 |
8 | Palmeiras | 89.05 | 52.5525 | 36.4975 | 0.4606338 | 46.1 |
8 | Boca Juniors | 87.75 | 52.5525 | 35.1975 | 0.4580047 | 45.8 |
8 | Junior FC | 26.23 | 52.5525 | -26.3225 | 0.0642466 | 6.4 |
8 | Alianza Lima | 7.18 | 52.5525 | -45.3725 | 0.0171148 | 1.7 |
Según los resultados hay 3 tipos de grupos:
Grupos donde los 2 equipos de mayor probabilidad se escapan sobre los demás: Grupo 4 con Flamengo y River Plate, Grupo 7 con Corinthians e Independiente de Avellaneda, y Grupo 8 con Palmeiras y Boca Juniors.
Grupos donde el 1ero del ranking de probabilidades se escapa y el 2do y 3ero están muy cerca: Grupo 1 con Defensor Sporting y Cerro Porteño, y Grupo 6 con Santos y Estudiantes de la Plata.
Grupos donde los 4 equipos no se diferencia notablemente: Grupos 2 y 3 donde el 1ero y el último se diferencian por aprox. solo 12%,
El Grupo 5 es la excepción ya que los 3 primeros equipos están muy cerca (aprox. 10%), pero el 4to equipo está muy abajo. Este es justamente el caso de la Universidad de Chile, que tiene solo un 7% de probabilidades de clasificar!
Por su parte Colo-Colo, el otro equipo chileno participante, según el modelo debería clasificar ya que cuenta con un 27% de probabilidades, estando en el segundo lugar de su grupo.
Al final de la fase de grupos veremos cómo nos va con la predicción y calcular una efectividad para la muestra nueva de datos. Es sabido que es posible refinar el modelo con variables como la edad y altura promedio de los planteles, rendimiento en ligas locales previas a La Copa, cantidad de extranjeros y sus nacionalidades, entre otras posibles, pero por ahora creo que un 70% de efectividad con los datos de entrenamiento es un muy buen punto de partida.
Agradecemos la difusión, nos vemos!