¿Qué es el xG (Expected Goals) en apuestas?

Los Expected Goals (Goles Esperados) miden la calidad de las ocasiones de gol creadas por un equipo. Evalúa la probabilidad ($0$ a $1$) de que un tiro termine en gol, basándose en datos históricos. Es vital para detectar tendencias reales más allá del marcador.

¿Cómo se usa la Distribución de Poisson en el fútbol?

La Distribución de Poisson es un modelo matemático que utiliza el historial goleador de ataque y defensa de dos equipos para calcular las probabilidades de los posibles resultados (ej. 1-0, 2-1) y del mercado Under/Over.

¿Qué es el Value Betting?

El Value Betting (Apuestas de Valor) consiste en encontrar cuotas ofrecidas por las casas de apuestas que son mayores a la probabilidad estadística real de que el evento ocurra, asegurando rentabilidad a largo plazo.

Modelo Dixon Coles predicciones avanzadas de fútbol

En 1997, Mark Dixon y Stuart Coles publicaron un artículo académico que transformaría silenciosamente el mundo de las predicciones futbolísticas. Su modelo corregía dos debilidades fundamentales del enfoque básico de Poisson que hasta entonces dominaba el análisis estadístico de resultados de fútbol. Más de dos décadas después, el modelo Dixon-Coles sigue siendo el estándar de referencia para predicciones serias, utilizado tanto por casas de apuestas profesionales como por apostadores que buscan ventaja cuantitativa. Si ya dominas el modelo de Poisson básico y quieres dar el siguiente paso hacia predicciones más precisas, entender Dixon-Coles es el camino obligatorio.

El modelo básico de Poisson asume que los goles de cada equipo son estadísticamente independientes: que el Barcelona marque tres goles no afecta la probabilidad de que su rival marque dos. Esta asunción es matemáticamente conveniente pero futbolísticamente cuestionable. Cualquier aficionado sabe que un gol temprano cambia la dinámica del partido, que un equipo que va perdiendo abre líneas buscando el empate, que el marcador influye en las tácticas y, por tanto, en los goles subsiguientes. Dixon y Coles no solo identificaron esta debilidad, sino que propusieron una corrección elegante que mejora significativamente la precisión predictiva, especialmente para los marcadores que más frecuentemente deciden apuestas.

La corrección para marcadores bajos

El descubrimiento central de Dixon y Coles fue que el modelo de Poisson independiente subestima sistemáticamente la frecuencia de cuatro marcadores específicos: 0-0, 1-0, 0-1 y 1-1. Cuando compararon las predicciones del modelo básico con datos reales de miles de partidos ingleses entre 1992 y 1995, encontraron que estos cuatro resultados ocurrían más frecuentemente de lo que Poisson predecía. Los empates sin goles y los partidos cerrados con un solo gol eran más comunes en la realidad que en el modelo.

La explicación intuitiva de este fenómeno radica en la interdependencia táctica. Cuando un partido está 0-0 en los últimos minutos, ambos equipos pueden optar por asegurar el punto y no arriesgar. Si un equipo va ganando 1-0, es probable que refuerce su defensa mientras el otro se abre buscando el empate, pero la configuración defensiva del ganador dificulta que el perseguidor marque. Estas dinámicas crean una correlación entre los goles de ambos equipos que el modelo independiente ignora.

La corrección propuesta introduce un parámetro adicional llamado rho (ρ) que ajusta las probabilidades de estos cuatro marcadores específicos. La función tau (τ) modifica la probabilidad conjunta calculada por Poisson multiplicándola por un factor que depende de los goles esperados de cada equipo y del valor de rho. Para marcadores distintos a 0-0, 1-0, 0-1 y 1-1, el factor tau es simplemente 1, dejando la probabilidad sin modificar. Para los cuatro marcadores problemáticos, tau ajusta la probabilidad hacia arriba o hacia abajo según el valor estimado de rho.

La mecánica del ajuste

La implementación matemática del ajuste Dixon-Coles puede parecer intimidante, pero su lógica es directa una vez que se comprende. Para cada combinación de goles del equipo local (x) y visitante (y), la probabilidad conjunta se calcula como el producto de las probabilidades individuales de Poisson multiplicado por el factor tau correspondiente.

Para el marcador 0-0, el factor tau es: τ = 1 - (λ × μ × ρ), donde λ es la media de goles esperados del local, μ es la media del visitante, y ρ es el parámetro de corrección. Para 1-0, el factor es τ = 1 + (μ × ρ). Para 0-1, τ = 1 + (λ × ρ). Para 1-1, τ = 1 - ρ. Para cualquier otro marcador, τ = 1.

El valor de ρ se estima a partir de los datos históricos junto con los demás parámetros del modelo (fuerzas atacantes y defensivas de cada equipo). Dixon y Coles encontraron un valor negativo de ρ en sus datos ingleses, lo que indica que los marcadores bajos ocurren con mayor frecuencia de lo predicho por independencia. Un ρ negativo hace que tau sea mayor que 1 para 0-0 y 1-1, aumentando sus probabilidades, y menor que 1 para 1-0 y 0-1, redistribuyendo probabilidad hacia los empates bajos.

Cuando ρ es cero, el factor tau es siempre 1 y el modelo Dixon-Coles se reduce exactamente al modelo de Poisson independiente. Esto significa que el modelo básico es un caso especial del modelo Dixon-Coles, y la mejora viene precisamente de permitir que ρ tome valores distintos de cero.

El componente de decaimiento temporal

La segunda innovación del modelo Dixon-Coles aborda otro problema del enfoque básico: el tratamiento de datos históricos. El modelo de Poisson tradicional trata todos los partidos por igual, ya sea que ocurrieran hace una semana o hace dos años. Pero los equipos cambian: fichajes, despidos de entrenadores, lesiones de largo plazo, cambios tácticos. El Sheffield United que terminó noveno en la Premier League 2019-20 no era el mismo equipo que acabó último la temporada siguiente. Usar datos antiguos con el mismo peso que datos recientes contamina las estimaciones de fuerza actual de los equipos.

Dixon y Coles propusieron ponderar los partidos mediante una función de decaimiento exponencial. Cada partido recibe un peso φ(t) = exp(-ξt), donde t es el tiempo transcurrido desde que se jugó y ξ (xi) es un parámetro positivo que controla la velocidad del decaimiento. Un ξ mayor significa que los partidos antiguos pierden relevancia más rápidamente; un ξ menor otorga más importancia a datos históricos.

La optimización de ξ requiere experimentación con los datos específicos de la liga que se analiza. Dixon y Coles encontraron un valor óptimo de ξ = 0.0065 cuando medían el tiempo en medias semanas. Estudios posteriores han encontrado valores similares, típicamente en el rango de 0.001 a 0.005 cuando el tiempo se mide en semanas. El valor óptimo puede variar entre ligas según su estabilidad: ligas con mucha rotación de jugadores pueden beneficiarse de mayor decaimiento; ligas más estables pueden usar datos más antiguos sin pérdida de precisión.

Ventajas sobre el modelo básico

Las mejoras que ofrece Dixon-Coles sobre Poisson básico son modestas pero consistentes. En términos de Ranked Probability Score (RPS), una métrica estándar para evaluar predicciones probabilísticas, Dixon-Coles típicamente supera a Poisson por márgenes pequeños pero estadísticamente significativos cuando se evalúa sobre cientos de partidos. Un estudio sobre la Eredivisie holandesa encontró que Dixon-Coles obtuvo el menor RPS entre varios modelos comparados, superando tanto al Poisson básico como a alternativas más complejas como el Poisson bivariado.

La mejora es especialmente notable para predicciones de empates. El modelo básico de Poisson tiende a subestimar la probabilidad de empates, especialmente empates sin goles. Dixon-Coles corrige este sesgo, ofreciendo probabilidades de empate más realistas. Dado que los empates típicamente ofrecen las cuotas más altas en el mercado 1X2, mejorar su predicción tiene valor práctico directo para apostadores.

Para mercados de marcador exacto, la corrección de los cuatro resultados bajos es particularmente valiosa. Los marcadores 0-0, 1-0, 0-1 y 1-1 representan una proporción significativa de los resultados reales en ligas competitivas. Predecir correctamente sus probabilidades mejora tanto la precisión general del modelo como las oportunidades de encontrar valor en apuestas de resultado exacto.

Limitaciones que debes conocer

A pesar de sus mejoras, el modelo Dixon-Coles tiene limitaciones importantes que debes incorporar a tu uso práctico.

La corrección solo afecta a cuatro marcadores. Para partidos de alta puntuación (3-2, 4-1, etc.), Dixon-Coles ofrece las mismas probabilidades que Poisson básico. Si operas principalmente en ligas o partidos de alta puntuación, la mejora puede ser marginal. La corrección tiene más impacto en ligas defensivas donde los marcadores bajos son frecuentes.

El modelo sigue asumiendo que la fuerza atacante y defensiva de un equipo es constante durante el período de estimación. Aunque el decaimiento temporal mitiga este problema, no lo elimina. Un cambio drástico a mitad de temporada (nuevo entrenador, lesión de jugador clave) no se captura inmediatamente en las estimaciones. Se necesitan varios partidos bajo las nuevas condiciones antes de que el modelo ajuste adecuadamente.

La complejidad computacional aumenta significativamente. El modelo de Poisson básico puede estimarse con regresión estándar disponible en cualquier software estadístico. Dixon-Coles requiere optimización numérica de múltiples parámetros simultáneamente, incluyendo el rho y potencialmente el xi de decaimiento temporal. Esto demanda conocimientos de programación o acceso a implementaciones ya desarrolladas.

Implementación práctica

Para usuarios sin conocimientos de programación, existen calculadoras en línea y hojas de cálculo que implementan versiones simplificadas de Dixon-Coles. Estas herramientas típicamente te permiten introducir los goles esperados de cada equipo y un valor de rho (que puede fijarse en valores estándar como -0.13, aproximadamente lo que Dixon y Coles encontraron) para generar probabilidades ajustadas.

Para usuarios con conocimientos de programación, implementaciones en Python y R están disponibles en repositorios públicos. La biblioteca penaltyblog en Python ofrece funciones para ajustar el modelo a datos históricos y generar predicciones. En R, diversos blogs han publicado código funcional que puede adaptarse a necesidades específicas. La clave está en entender qué hace cada componente del código para poder modificarlo según tus requerimientos.

La estimación óptima del parámetro ξ de decaimiento temporal requiere backtesting. Se prueban diferentes valores de ξ sobre temporadas pasadas, calculando la precisión predictiva (típicamente medida por log-likelihood predictivo o RPS) para cada valor. El ξ que maximiza la precisión en el período de validación se usa para predicciones futuras. Este proceso debe repetirse periódicamente porque el valor óptimo puede cambiar si las características de la liga evolucionan.

Integración con tu proceso de análisis

Dixon-Coles no reemplaza el análisis contextual, lo complementa. El modelo proporciona probabilidades base más precisas que Poisson, especialmente para marcadores bajos y empates. Sobre esa base, aplicas tus ajustes por factores que el modelo no captura: lesiones recientes, motivación relativa, condiciones meteorológicas, historial de enfrentamientos directos.

La comparación entre probabilidades Dixon-Coles y cuotas del mercado sigue el mismo proceso que con cualquier modelo. Conviertes las cuotas a probabilidades implícitas, restas tus probabilidades calculadas, e identificas discrepancias significativas. La ventaja de Dixon-Coles es que tus probabilidades base son más precisas, reduciendo el ruido en la señal de valor.

Para mercados de empate específicamente, Dixon-Coles puede revelar oportunidades que Poisson básico no detecta. Si tu modelo básico sugiere 22% de probabilidad de empate pero Dixon-Coles indica 26%, y la cuota del mercado implica 25%, el modelo básico te habría hecho pasar de largo una apuesta con valor positivo que el modelo mejorado identifica correctamente.

El modelo Dixon-Coles representa el equilibrio óptimo entre complejidad y mejora práctica para predicciones futbolísticas. No es tan simple como Poisson básico, pero tampoco tan complejo como modelos académicos de vanguardia que ofrecen mejoras marginales a costa de implementación mucho más difícil. Para el apostador serio que quiere ir más allá de los fundamentos sin perderse en matemáticas esotéricas, Dixon-Coles es exactamente donde debe estar.