How we measure “stylistic fit” without overfitting nostalgia
Match clusters players by behaviour, not biography. The math behind why “a left-back like Marcelo” is a useful comparison and how we keep it honest.
By Match Engine team
«Precisamos de um lateral esquerdo como o Marcelo». É uma frase útil e perigosa. Útil porque transmite instantaneamente um perfil que qualquer cabeça futebolística na sala consegue ver. Perigosa porque pode significar cinco coisas diferentes para cinco ouvintes — e, pior, pode não significar nada preciso para um motor de busca.
Match, o nosso motor de recomendação, vive na fronteira entre essas duas verdades. Tem de traduzir a linguagem difusa do operador em rankings rigorosos, comparáveis e defensáveis — sem achatar o que torna um jogador distinto. Eis como o fazemos sem sobreajustar à nostalgia.
O modelo de três camadas
No Scout Atlas, a afinidade estilística não é uma única pontuação de semelhança. É uma pilha de três camadas independentes, cada uma calculada todas as noites, cada uma explicada em português claro junto ao resultado.
Camada 1 — Impressões digitais comportamentais
Para cada jogador com pelo menos 900 minutos de liga nas últimas duas épocas, calculamos um vetor comportamental de 200 dimensões. Não estatísticas em bruto. Derivadas comportamentais: distância de condução progressiva por toque, atividade em zonas defensivas ajustada à força do adversário, frequência de varrimento antes de passes progressivos, distância de recuperação pós-perda.
São as features que sobrevivem à normalização entre ligas. Um jogo de 70 minutos na liga irlandesa não é a mesma tela que um jogo da Premier — por isso normalizamos oportunidades, não resultados. A impressão digital compara comportamento em igualdade de circunstâncias.
Camada 2 — Contexto de papel
«Um lateral esquerdo como o Marcelo» não é apenas uma forma comportamental. É uma forma comportamental num sistema. Etiquetamos cada jogo do nosso corpus com o papel implícito do jogador (lateral invertido, lateral clássico, ala em linha de cinco, central exterior híbrido) usando um classificador de formação baseado em grafos. A semelhança estilística é depois calculada condicionada ao papel — um híbrido do Bayern compara-se com outros híbridos, não com um ala da Atalanta.
Camada 3 — Assinatura de decisão
A terceira camada é a mais experimental e aquela com que estamos mais entusiasmados. Treinamos um modelo sequencial em pontos de decisão etiquetados — receber sob pressão, gatilho de pressão defensiva, arranque em transição — e produzimos uma distribuição de probabilidade sobre classes de decisão para cada jogador. A assinatura de decisão captura o que um jogador tende a fazer quando lhe é dada uma escolha. Dois jogadores com impressões digitais comportamentais idênticas podem ter assinaturas de decisão completamente diferentes, e a assinatura normalmente prevê como o jogador se adapta a um novo sistema.
Três coisas que explicitamente não fazemos
Cada motor de recomendação é moldado pelo que se recusa a fazer. O Match tem três recusas firmes.
- Não treinamos sobre dados privados de clubes membros sem consentimento. As impressões digitais vêm de corpora de open-data e de event data licenciado. Notas privadas, GPS e shortlists dos clubes membros são deles — enriquecem o modelo pessoal do clube, não o inter-clube.
- Não escondemos as ligas que um brief cobriu. Se um brief filtrou às top 5, dizemo-lo em cada resultado. Se um jogador não foi incluído, dizemos porquê (minutos insuficientes, liga ainda não ingerida).
- Não fingimos que um ranking de confiança 60 é um 95. Quando o ensemble discorda — XGBoost gosta do jogador, CatBoost duvida — sinalizamos a variância diretamente. A baixa confiança é, por si, um sinal que vale a pena mostrar.
Como mantemos as comparações honestas
Duas salvaguardas correm ao lado de cada Match score.
A primeira é a correção do enviesamento de sobrevivência. A imprensa do futebol gravita para os vencedores. A semelhança comportamental com um jogador famoso pode ser um proxy perigoso — um excelente filtro para apanhar o génio retrospetivo, um péssimo filtro para prever encaixe futuro. Reequilibramos as coortes de treino para incluir explicitamente o «meio ruidoso» — jogadores que pareciam estrelas e não o vieram a ser.
A segunda é a calibração por coorte. Testamos o modelo não no miúdo mimado da Premier, mas no extremo do Allsvenskan de quem ninguém tinha ouvido falar em 2021 e que agora é titular na Bundesliga. Se o modelo não conseguisse trazê-lo à superfície com alta confiança em 2021, voltamos à prancha. A maior parte dos motores de «semelhança» celebra os jogadores que previu; nós medimo-nos pelos jogadores que nos escaparam.
O que vê realmente no produto
Quando abre um jogador no Scout Atlas, «Pares estilísticos» mostra os seis melhores jogadores do corpus por semelhança combinada impressão digital + papel + decisão, com um detalhe de atribuição de features para cada par: onde a semelhança se concentra, onde diverge. Vê a comparação e os limites da comparação.
«Um lateral esquerdo como o Marcelo» volta a ser útil — mas já não tem de acreditar de olhos fechados. A matemática está na página.
Keep reading
The transfer window is broken — and the tools made it worse
Why a market with €7B annual flow still runs on Excel, WhatsApp, and gut feel. And what changes when the data layer catches up.
Agents as network, not noise
Why filtering agents out is the lazy answer — and what changes when you verify the integrity ones and price out the unverified middle.
If this resonated, the next move is a conversation.
We onboard pilot members on rolling invitation. Send us your hardest question — we’ll send back the live answer.