Why Shield is intentionally conservative

En prédiction de blessures, les faux négatifs sont catastrophiques et les faux positifs sont bon marché. Un modèle qui rate une déchirure des ischio-jambiers sur un actif à 40 M€ coûte une saison à un club. Un modèle qui signale un niveau watch sur un joueur qui se révèle finalement bien coûte au club un jour supplémentaire de repos en pré-saison. L’asymétrie n’est pas subtile. Nous avons calé Shield en conséquence — et la justification est dans la math, pas dans le marketing.

Pourquoi les modèles de blessures dans le football échouent en général

La plupart des modèles académiques rapportent une précision impressionnante et ratent silencieusement les pires blessures. La raison est structurelle. Les déchirures des ischio-jambiers, ruptures du LCA et fractures de fatigue sont des événements rares. Un modèle naïf qui prédit « pas de blessure » chaque jour pour un effectif de Premier en forme a raison ~98 % du temps. La précision est la mauvaise métrique. Le rappel sur la classe rare est la bonne — et il est brutal.

Pire, le contexte de déploiement est impitoyable. Un club ne reçoit pas un test set propre. Il reçoit un joueur, une charge de travail, un match samedi. Un modèle qui ne peut pas donner un signal actionnable au moment où la décision se prend n’est pas un modèle. C’est une slide.

Les quatre niveaux, et pourquoi quatre

Shield émet un niveau, pas une probabilité. Quatre niveaux : bas, watch, élevé, haut. Les seuils sont calibrés contre les résultats historiques de blessure à 30/60/90 jours, puis décalés délibérément vers le côté prudent aux frontières watch et élevé.

Trois niveaux forceraient une fausse confiance : vert / orange / rouge, avec « orange » faisant trop de travail. Cinq niveaux seraient cosmétiques — les humains ne distinguent pas avec fiabilité cinq catégories de risque sous pression de jour de match. Quatre est l’ensemble minimal qui sépare le signal « tu devrais y penser » du signal « tu devrais agir » sans perdre la baseline « ok, pas encore de signal ».

Conservateur par design

Le conservatisme ici est un choix d’ingénierie précis. Il apparaît à trois endroits :

Loss asymétrique. La loss d’entraînement pénalise les faux négatifs avec un poids 7× celui des faux positifs. Le nombre n’est pas arbitraire ; il vient d’un ratio de coût grossier entre « joueur dehors 4 semaines » et « joueur reposé un jour de plus ».
Drift de seuil. Les seuils watch et élevé dérivent vers la prudence à mi-saison à mesure que la fatigue s’accumule. Un modèle qui utilise le même seuil en octobre et en avril ignore une biologie connue.
Ensemble qui préserve le désaccord. Random Forest, Survival Analysis et une tête LSTM d’anomalie de charge votent séparément. On fait remonter le désaccord quand il est tranché — trois modèles calmes contre un qui crie est en soi un signal qui mérite d’être montré.

Ce que conservateur signifie et ne signifie pas

Cela ne signifie pas marquer tout le monde en rouge. Un modèle qui crie en permanence est inutile — les clubs l’ignorent en deux semaines, et on a vu exactement cela arriver avec deux systèmes commerciaux précédents. Le coût d’un signal bruyant est réel, simplement plus faible que le coût d’un signal manqué.

Cela signifie être prêt à signaler watch sur un joueur parfaitement en forme et avoir tort en public. Le produit gère cela avec un panneau d’attribution de features : quand Shield signale watch, le panneau montre l’anomalie de charge, la trajectoire historique des pairs et la position sur la courbe de survie. Le signal est auditable. Le biais conservateur est auditable. Les clubs peuvent le contester — et devraient souvent le faire.

Ce qu’il y a derrière le niveau

Shield combine trois têtes de modèle, chacune calée sur une classe de signal différente.

La tête de charge est une LSTM entraînée sur GPS de séance là où c’est disponible, et sur des proxys de player-load dérivés du broadcast quand ça ne l’est pas. Elle lit les 21 derniers jours comme une séquence et signale les écarts aigu-chronique sur lesquels la littérature des sciences du sport est cohérente depuis vingt ans.

La tête de survie est un modèle de risques proportionnels de Cox avec covariables variables dans le temps : âge, poste, historique, minutes récentes, intensité de l’adversaire. Elle estime la fonction de hazard pour les 90 prochains jours. On fait remonter séparément les projections à 30, 60 et 90 jours parce que le menu d’action est différent à chaque horizon.

La tête d’anomalie est une Random Forest entraînée à reconnaître le pattern qui précède les blessures de la pire classe — pas la blessure elle-même, mais l’empreinte des deux semaines d’avant. C’est la tête la plus susceptible d’être en désaccord avec les autres. Quand elle est en désaccord et a raison, elle a raison tôt. On traite le désaccord comme une feature, pas un bug.

Ce qu’on ne prétend pas

Shield n’est pas un dispositif médical. Il ne remplace pas le médecin du club, le scientifique du sport ou le responsable performance. C’est une couche de signal au-dessus des données qui existent déjà — proxys de charge via broadcast pour tout le monde, GPS et biométrie pour les flux privés opt-in. Il est calé pour être utile à l’intérieur d’une décision réelle de mardi, pas pour gagner un leaderboard Kaggle.

Les clubs qui en tirent le plus le traitent comme un bon capitaine traite un radar : comme une entrée parmi plusieurs, avec un biais connu vers les faux positifs et un coût de faux négatif sept fois pire. C’est le design. Le conservatisme est l’idée.