Why Shield is intentionally conservative

Na previsão de lesões, falsos negativos são catastróficos e falsos positivos são baratos. Um modelo que perde um estiramento dos isquiotibiais num ativo de 40 M€ custa ao clube uma época. Um modelo que sinaliza nível watch num jogador que afinal está bem custa ao clube um dia extra de descanso na pré-época. A assimetria não é subtil. Calibrámos o Shield em conformidade — e a justificação está na matemática, não no marketing.

Porque os modelos de lesões no futebol costumam falhar

A maioria dos modelos académicos reporta uma precisão impressionante e silenciosamente perde as piores lesões. A razão é estrutural. Estiramentos dos isquiotibiais, ruturas do LCA e fraturas de stress são eventos raros. Um modelo ingénuo que prevê «sem lesão» todos os dias para um plantel da Premier em forma acerta ~98% das vezes. A precisão é a métrica errada. O recall na classe rara é a certa — e é brutal.

Pior, o contexto de deployment não perdoa. Um clube não recebe um test set limpo. Recebe um jogador, uma carga de trabalho, um jogo no sábado. Um modelo que não consegue dar um sinal acionável no momento da decisão não é um modelo. É um slide.

Os quatro níveis, e porquê quatro

O Shield emite um nível, não uma probabilidade. Quatro níveis: baixo, watch, elevado, alto. Os limiares são calibrados contra resultados históricos de lesão a 30/60/90 dias e depois deslocados deliberadamente para o lado prudente nas fronteiras de watch e elevado.

Três níveis forçariam falsa confiança: verde / amarelo / vermelho, com «amarelo» a fazer demasiado trabalho. Cinco níveis seriam cosméticos — humanos não distinguem com fiabilidade cinco categorias de risco sob pressão de dia de jogo. Quatro é o conjunto mínimo que separa o sinal «devias pensar nisso» do sinal «devias agir» sem perder a baseline «ok, ainda sem sinal».

Conservador por desenho

O conservadorismo aqui é uma escolha de engenharia precisa. Aparece em três pontos:

Loss assimétrica. A loss de treino penaliza falsos negativos com 7× o peso dos falsos positivos. O número não é arbitrário; vem de um rácio aproximado de custo entre «jogador fora 4 semanas» e «jogador descansou um dia extra».
Drift de limiar. Os limiares de watch e elevado derivam para a prudência a meio da época à medida que a fadiga se acumula. Um modelo que usa o mesmo limiar em outubro e em abril ignora biologia conhecida.
Ensemble que preserva o desacordo. Random Forest, Survival Analysis e uma cabeça LSTM de anomalia de carga votam separadamente. Trazemos o desacordo à superfície quando é nítido — três modelos calmos contra um a gritar é em si um sinal que vale a pena mostrar.

O que conservador significa e não significa

Não significa marcar toda a gente a vermelho. Um modelo que grita continuamente é inútil — os clubes ignoram-no em duas semanas, e vimos isso acontecer exatamente com dois sistemas comerciais anteriores. O custo de um sinal ruidoso é real, apenas mais pequeno do que o custo de um sinal perdido.

Significa estar disposto a sinalizar watch num jogador perfeitamente em forma e errar publicamente. O produto gere isto com um painel de atribuição de features: quando o Shield sinaliza watch, o painel mostra a anomalia de carga, a trajetória histórica de pares e a posição na curva de sobrevivência. O sinal é auditável. O viés conservador é auditável. Os clubes podem discuti-lo — e muitas vezes devem.

O que está por trás do nível

O Shield combina três cabeças de modelo, cada uma afinada a uma classe de sinal diferente.

A cabeça de carga é uma LSTM treinada com GPS de sessão onde disponível, e com proxies de player-load derivados de broadcast onde não está. Lê os últimos 21 dias como sequência e sinaliza desvios agudo-crónico nos quais a literatura de ciências do desporto é consistente há vinte anos.

A cabeça de sobrevivência é um modelo de riscos proporcionais de Cox com covariáveis variáveis no tempo: idade, posição, histórico, minutos recentes, intensidade do adversário. Estima a função de hazard para os próximos 90 dias. Trazemos as projeções a 30, 60 e 90 dias separadamente porque o menu de ação é diferente em cada horizonte.

A cabeça de anomalia é uma Random Forest treinada para reconhecer o padrão que precede as lesões da pior classe — não a lesão em si, mas a impressão digital das duas semanas anteriores. É a cabeça com maior probabilidade de discordar das outras. Quando discorda e tem razão, tem razão cedo. Tratamos o desacordo como feature, não como bug.

O que não fingimos

O Shield não é um dispositivo médico. Não substitui o médico do clube, o cientista do desporto ou o responsável de performance. É uma camada de sinal sobre os dados que já existem — proxies de carga via broadcast para todos, GPS e biometria para streams privados opt-in. Está calibrado para ser útil dentro de uma decisão real de terça-feira, não para ganhar uma leaderboard de Kaggle.

Os clubes que tiram mais dele tratam-no como um bom capitão trata um radar: como um input entre vários, com um viés conhecido a falsos positivos e um custo de falso negativo sete vezes pior. É o desenho. O conservadorismo é o ponto.