Why Shield is intentionally conservative

En predicción de lesiones, los falsos negativos son catastróficos y los falsos positivos son baratos. Un modelo que se pierde un desgarro de isquiotibiales en un activo de 40 millones le cuesta a un club una temporada. Un modelo que marca un nivel watch en un jugador que termina estando bien le cuesta a un club un día extra de descanso en la pretemporada. La asimetría no es sutil. Calibramos Shield en consecuencia — y la justificación está en la matemática, no en el marketing.

Por qué los modelos de lesiones futbolísticas suelen fallar

La mayoría de modelos académicos reportan una precisión impresionante y se pierden silenciosamente las peores lesiones. La razón es estructural. Desgarros de isquiotibiales, roturas de LCA y fracturas por estrés son eventos raros. Un modelo ingenuo que predice «sin lesión» todos los días para una plantilla de Premier en forma acierta el ~98% del tiempo. La precisión es la métrica equivocada. El recall sobre la clase rara es la correcta — y es brutal.

Peor: el contexto de despliegue no perdona. Un club no recibe un test set limpio. Recibe un jugador, una carga de trabajo, un partido el sábado. Un modelo que no puede dar una señal accionable en el momento en que se decide no es un modelo. Es una diapositiva.

Los cuatro niveles, y por qué cuatro

Shield emite un nivel, no una probabilidad. Cuatro niveles: bajo, watch, elevado, alto. Los umbrales se calibran contra resultados históricos de lesión a 30/60/90 días, y luego se desplazan deliberadamente hacia el lado prudente en los límites de watch y elevado.

Tres niveles forzarían falsa confianza: verde / ámbar / rojo, con «ámbar» haciendo demasiado trabajo. Cinco niveles serían cosméticos — los humanos no distinguen con fiabilidad cinco categorías de riesgo bajo presión de día de partido. Cuatro es el conjunto mínimo que separa la señal «deberías pensarlo» de la señal «deberías actuar» sin perder la línea base «bien, todavía no hay señal».

Conservador por diseño

El conservadurismo aquí es una elección de ingeniería precisa. Aparece en tres sitios:

Pérdida asimétrica. La pérdida de entrenamiento penaliza los falsos negativos con un peso 7× el de los falsos positivos. El número no es arbitrario; viene de una proporción de coste aproximada entre «jugador fuera 4 semanas» y «jugador con un día extra de descanso».
Deriva del umbral. Los umbrales de watch y elevado derivan hacia la prudencia a mitad de temporada, conforme se acumula la fatiga. Un modelo que usa el mismo umbral en octubre que en abril ignora biología conocida.
Ensemble preservando el desacuerdo. Random Forest, Survival Analysis y una cabeza LSTM de anomalía de carga votan por separado. Sacamos a la luz el desacuerdo cuando es agudo — tres modelos calmados frente a uno gritando es por sí mismo una señal que merece mostrarse.

Qué significa y qué no significa conservador

No significa marcar a todo el mundo en rojo. Un modelo que grita continuamente es inútil — los clubes lo ignoran en dos semanas, y hemos visto pasar exactamente eso con dos sistemas comerciales anteriores. El coste de una bandera ruidosa es real, solo que más pequeño que el coste de una bandera perdida.

Sí significa estar dispuesto a marcar watch en un jugador perfectamente en forma y equivocarse en público. El producto lo gestiona con un panel de atribución de features: cuando Shield marca watch, el panel muestra la anomalía de carga, la trayectoria histórica de pares y la posición en la curva de supervivencia. La bandera es auditable. El sesgo conservador es auditable. Los clubes pueden discutirla — y a menudo deberían.

Qué hay detrás del nivel

Shield combina tres cabezas de modelo, cada una afinada a una clase distinta de señal.

La cabeza de carga es un LSTM entrenado con GPS de sesión donde está disponible y proxies de player-load derivados de la retransmisión donde no. Lee los últimos 21 días como secuencia y marca las desviaciones agudo-crónicas que la literatura de ciencias del deporte lleva veinte años validando.

La cabeza de supervivencia es un modelo de riesgos proporcionales de Cox con covariables variables en el tiempo: edad, posición, historial, minutos recientes, intensidad del rival. Estima la función de hazard para los próximos 90 días. Sacamos a la luz por separado las proyecciones a 30, 60 y 90 días porque el menú de acción cambia en cada horizonte.

La cabeza de anomalía es un Random Forest entrenado para reconocer el patrón que precede a las lesiones de peor clase — no la lesión en sí, sino la huella de las dos semanas previas. Es la cabeza más probable de discrepar con las otras. Cuando discrepa y acierta, acierta pronto. Tratamos el desacuerdo como feature, no como bug.

Lo que no fingimos

Shield no es un dispositivo médico. No reemplaza al médico de club, al científico del deporte ni al jefe de rendimiento. Es una capa de señal sobre los datos que ya existen — proxies de carga vía retransmisión para todos, GPS y biometría para flujos privados opt-in. Está calibrado para ser útil dentro de una decisión real un martes, no para ganar un Kaggle.

Los clubes que más sacan de él lo tratan como un buen capitán trata un radar: como una entrada entre varias, con un sesgo conocido a falsos positivos y un coste de falso negativo siete veces peor. Ese es el diseño. El conservadurismo es el punto.