How we measure “stylistic fit” without overfitting nostalgia

« Il nous faut un latéral gauche comme Marcelo. » C’est une phrase utile et dangereuse. Utile parce qu’elle transmet instantanément un profil que chaque cerveau football de la pièce peut visualiser. Dangereuse parce qu’elle peut signifier cinq choses différentes à cinq auditeurs — pire, elle peut ne rien signifier de précis pour un moteur de recherche.

Match, notre moteur de recommandation, vit à la frontière entre ces deux vérités. Il doit traduire le langage flou de l’opérateur en classements rigoureux, comparables et défendables — sans aplatir ce qui rend un joueur distinct. Voici comment on le fait sans surajuster à la nostalgie.

Le modèle à trois couches

Chez Scout Atlas, l’adéquation stylistique n’est pas un score de similarité unique. C’est une pile de trois couches indépendantes, chacune calculée toutes les nuits, chacune expliquée en français clair à côté du résultat.

Couche 1 — Empreintes comportementales

Pour chaque joueur avec au moins 900 minutes de championnat sur les deux dernières saisons, on calcule un vecteur comportemental à 200 dimensions. Pas des stats brutes. Des dérivées comportementales : distance de conduite progressive par contact, activité en zone défensive ajustée à la force de l’adversaire, fréquence de scanning avant passes progressives, distance de récupération post-perte.

Ce sont les features qui survivent à la normalisation entre championnats. Un match de 70 minutes en championnat irlandais n’est pas la même toile qu’un match de Premier — donc on normalise les opportunités, pas les résultats. L’empreinte compare les comportements à parité.

Couche 2 — Contexte de rôle

« Un latéral gauche comme Marcelo » n’est pas qu’une forme comportementale. C’est une forme comportementale dans un système. On étiquette chaque match du corpus avec le rôle implicite du joueur (latéral inversé, latéral classique, piston en défense à cinq, central excentré hybride) avec un classifier de formation basé sur graphe. La similarité stylistique est ensuite calculée conditionnée au rôle — un hybride du Bayern est comparé à d’autres hybrides, pas à un piston de l’Atalanta.

Couche 3 — Signature de décision

La troisième couche est la plus expérimentale et celle qui nous excite le plus. On entraîne un modèle de séquence sur des points de décision étiquetés — réception sous pression, déclencheur de pressing défensif, lancer en transition — et on produit une distribution de probabilité sur les classes de décision pour chaque joueur. La signature de décision capture ce qu’un joueur tend à faire quand on lui donne le choix. Deux joueurs aux empreintes comportementales identiques peuvent avoir des signatures de décision complètement différentes, et la signature prédit généralement comment le joueur s’adapte à un nouveau système.

Trois choses qu’on ne fait explicitement pas

Chaque moteur de recommandation est façonné par ce qu’il refuse de faire. Match a trois refus fermes.

On n’entraîne pas sur des données privées de clubs membres sans consentement. Les empreintes viennent de corpus open-data et d’event data licencié. Notes privées, GPS et shortlists des clubs membres sont à eux — elles enrichissent le modèle personnel du club, pas le modèle inter-clubs.
On ne cache pas les championnats couverts par un brief. Si un brief a filtré aux 5 grands, on le dit sur chaque résultat. Si un joueur n’a pas été inclus, on dit pourquoi (minutes insuffisantes, championnat pas encore ingéré).
On ne fait pas passer un classement à 60 de confiance pour un 95. Quand l’ensemble est en désaccord — XGBoost aime un joueur, CatBoost doute — on signale la variance directement. La basse confiance est en soi un signal qui mérite d’être montré.

Comment on garde les comparaisons honnêtes

Deux garde-fous tournent à côté de chaque score Match.

Le premier est la correction du biais de survie. La presse football gravite vers les gagnants. La similarité comportementale avec un joueur célèbre peut être un proxy dangereux — un excellent filtre pour repérer le génie rétrospectif, un mauvais filtre pour prédire l’adaptation future. On rééquilibre les cohortes d’entraînement pour inclure explicitement le « milieu bruyant » — des joueurs qui ressemblaient à des stars et ne le sont pas devenus.

Le second est la calibration par cohorte. On teste le modèle non sur le chouchou de la Premier League, mais sur l’ailier d’Allsvenskan dont personne n’avait entendu parler en 2021 et qui est aujourd’hui titulaire en Bundesliga. Si le modèle n’aurait pas pu le faire remonter avec haute confiance en 2021, on retourne à la planche à dessin. La plupart des moteurs de « similarité » célèbrent les joueurs qu’ils ont prédits ; nous nous mesurons aux joueurs que nous avons manqués.

Ce que vous voyez vraiment dans le produit

Quand vous ouvrez un joueur dans Scout Atlas, « Pairs stylistiques » montre les six meilleurs joueurs du corpus par similarité combinée empreinte + rôle + décision, avec un détail d’attribution de features pour chaque paire : où la similarité se concentre, où elle diverge. Vous voyez la comparaison et les limites de la comparaison.

« Un latéral gauche comme Marcelo » redevient utile — mais vous n’avez plus à le croire sur parole. La math est sur la page.