Why Shield is intentionally conservative

Nella previsione degli infortuni, i falsi negativi sono catastrofici e i falsi positivi sono economici. Un modello che si perde uno strappo agli ischiocrurali su un asset da 40 M€ costa al club una stagione. Un modello che segna un livello watch su un giocatore che poi sta benissimo costa al club un giorno extra di riposo in pre-stagione. L’asimmetria non è sottile. Abbiamo tarato Shield di conseguenza — e la motivazione è nella matematica, non nel marketing.

Perché i modelli di infortuni nel calcio falliscono

La maggior parte dei modelli accademici riporta accuratezze impressionanti e si perde silenziosamente gli infortuni peggiori. Il motivo è strutturale. Gli strappi agli ischiocrurali, le rotture del crociato e le fratture da stress sono eventi rari. Un modello ingenuo che predice «niente infortuni» ogni giorno per una rosa di Premier in forma indovina ~98% delle volte. L’accuratezza è la metrica sbagliata. Il recall sulla classe rara è quella giusta — ed è brutale.

Peggio: il contesto di deployment è impietoso. Un club non riceve un test set pulito. Riceve un giocatore, un carico di lavoro, una partita sabato. Un modello che non sa dare un segnale azionabile nel momento in cui si decide non è un modello. È una slide.

I quattro livelli, e perché quattro

Shield restituisce un livello, non una probabilità. Quattro livelli: basso, watch, elevato, alto. Le soglie sono calibrate sui risultati storici di infortunio a 30/60/90 giorni e poi spostate deliberatamente verso il prudente sui confini di watch ed elevato.

Tre livelli forzerebbero falsa fiducia: verde / ambra / rosso, con «ambra» a fare troppo lavoro. Cinque livelli sarebbero cosmetici — gli umani non distinguono in modo affidabile cinque categorie di rischio sotto pressione di giorno-partita. Quattro è l’insieme minimo che separa il segnale «dovresti pensarci» dal segnale «devi agire» senza perdere la baseline «ok, ancora nessun segnale».

Conservativo per progetto

La prudenza qui è una scelta ingegneristica precisa. Si vede in tre punti:

Loss asimmetrica. La loss di addestramento penalizza i falsi negativi con un peso 7× quello dei falsi positivi. Il numero non è arbitrario; viene da un rapporto di costo grossolano fra «giocatore fuori 4 settimane» e «giocatore con un giorno extra di riposo».
Drift della soglia. Le soglie di watch ed elevato derivano verso la prudenza a metà stagione, man mano che la fatica si accumula. Un modello che usa la stessa soglia in ottobre e in aprile ignora la biologia nota.
Ensemble che preserva il disaccordo. Random Forest, Survival Analysis e una testa LSTM di anomalia da carico votano separatamente. Facciamo emergere il disaccordo quando è netto — tre modelli calmi contro uno che urla è esso stesso un segnale che vale la pena mostrare.

Cosa significa e cosa non significa conservativo

Non significa segnare tutti in rosso. Un modello che urla in continuazione è inutile — i club lo ignorano in due settimane, e l’abbiamo visto succedere esattamente con due sistemi commerciali precedenti. Il costo di una bandiera rumorosa è reale, solo più piccolo del costo di una bandiera mancata.

Significa sì essere disposti a segnare watch su un giocatore in piena forma e sbagliare in pubblico. Il prodotto lo gestisce con un pannello di attribuzione feature: quando Shield segna watch, il pannello mostra l’anomalia da carico, la traiettoria storica dei pari e la posizione sulla curva di sopravvivenza. La bandiera è auditabile. Il bias prudente è auditabile. I club possono discuterla — e spesso devono.

Cosa c’è dietro al livello

Shield combina tre teste di modello, ognuna tarata su una classe di segnale diversa.

La testa di carico è un LSTM addestrato su GPS di seduta dove disponibile e su proxy di player-load derivati dal broadcast quando non c’è. Legge gli ultimi 21 giorni come sequenza e segnala le deviazioni acuto-cronico su cui la letteratura di scienze dello sport è coerente da vent’anni.

La testa di sopravvivenza è un modello a rischi proporzionali di Cox con covariate variabili nel tempo: età, ruolo, storia, minuti recenti, intensità degli avversari. Stima la funzione di hazard per i prossimi 90 giorni. Facciamo emergere separatamente le proiezioni a 30, 60 e 90 giorni perché il menu d’azione è diverso a ogni orizzonte.

La testa di anomalia è un Random Forest addestrato a riconoscere il pattern che precede gli infortuni di classe peggiore — non l’infortunio in sé, ma l’impronta delle due settimane prima. È la testa più probabile a essere in disaccordo con le altre. Quando è in disaccordo e ha ragione, ha ragione presto. Trattiamo il disaccordo come feature, non come bug.

Quello che non fingiamo

Shield non è un dispositivo medico. Non sostituisce il medico di club, lo scienziato dello sport o il responsabile performance. È uno strato di segnale sopra i dati che già esistono — proxy di carico via broadcast per tutti, GPS e biometria per stream privati opt-in. È calibrato per essere utile dentro una vera decisione del martedì, non per vincere una leaderboard di Kaggle.

I club che ne traggono di più lo trattano come un buon capitano tratta un radar: come un input fra diversi, con un bias noto verso i falsi positivi e un costo da falso negativo sette volte peggiore. È il design. La prudenza è il punto.