What it costs to scout 90 minutes in three

« IA gratuite » est un slogan marketing. Vision n’est pas gratuit. Regarder 90 minutes de match, ingérer le feed broadcast, faire tourner la détection, le tracking, la pose, les têtes d’action, la ré-identification et produire un rapport structuré de 500 mots — ça coûte de vraies minutes GPU et de la vraie électricité. La question intéressante n’est pas si ça coûte quelque chose. C’est combien, et quel devrait être le bon objectif de coût.

Notre objectif est simple : moins qu’un café par match. Pas gratuit. Pas héroïque. Moins que l’expresso que le recruteur aurait acheté à la place.

Ce qui tourne dans la pipeline

Un seul match passe par six étapes. Chacune a une vraie facture GPU attachée.

Ingestion et pré-traitement. Tirer le feed broadcast, transcoder vers un format interne uniforme 1080p / 25fps, écarter les replays évidents. Lié au CPU avec un petit assist GPU pour le transcode. Pas cher.
Détection. YOLOv11 sur chaque frame. Le coût dominant sur le GPU. Optimisé avec TensorRT, batch agressif, tourne à ~3× le temps réel sur une L4.
Tracking. ByteTrack, sur les sorties de YOLO. Surtout CPU, mais le mouvement de données importe. On le co-localise avec la détection pour éviter le round trip.
Pose. YOLOv8-Pose, uniquement sur les joueurs trackés dans la moitié active. Sauter la moitié inactive est un gain significatif — environ 40 % des frames.
Têtes d’action et tactique. Une pile CNN+LSTM pour la classification d’action, un petit GNN pour la formation. Pas cher en GPU ; coûteux en ingénierie.
Ré-ID et rapport. Réseau Siamese pour la ré-identification de joueurs à travers les coupes caméra ; générateur de prose structurée pour le rapport de 500 mots. La seule call à un LLM dans la pipeline est le générateur de rapport, et elle est petite et courte.

Combien ça coûte, honnêtement

Sur une seule instance L4, end-to-end Vision traite un match de 90 minutes en environ 25–32 minutes de GPU, selon la densité d’action et combien du frame est occlus. Au prix spot d’une L4 dans notre région par défaut, cela situe le coût GPU par match entre 0,20 € et 0,45 €. Ajoutez le stockage, l’egress d’ingestion et la call LLM pour le rapport, et on est de manière fiable sous 1 € tout compris.

C’est sous le seuil de l’expresso. Le coût est réel, mais du genre de réel qui scale : le match marginal est bon marché, le modèle ne devient pas plus cher avec le temps, et le volume de reporting par match est stable autour de ~500 mots.

Ce que « gratuit » coûterait vraiment

On pourrait pousser le coût par match plus bas avec trois mouvements évidents : distillation, quantization et frame skipping agressif. Chacun est un vrai levier, avec une vraie facture.

Distillation. Un YOLO-Nano teacher → student fait baisser le coût de détection de ~35 %. Le prix : deux semaines d’entraînement et ~3 % de rappel sur les cas d’objets petits — surtout le ballon partiellement occlus par un défenseur. On le fera probablement. On ne fera pas semblant que c’est gratuit.
Quantization en INT8. Encore ~25 % de latence en moins sur la détection. Perte de qualité négligeable sur notre set de calibration. Déjà sur la roadmap ; retenu par le fait que l’écosystème YOLO a encore des cas limites en INT8 qu’on n’a pas débuggés.
Frame skipping. Traiter une frame sur trois, interpoler le reste avec une tête d’optical flow. Le plus gros gain unique, et aussi le plus gros risque qualité — une frame manquée est un tir manqué, et les tirs sont pourquoi quelqu’un regarde.

Chacun nous rapproche de « un thé par match ». Aucun ne nous amène au gratuit. On se méfie de tout vendor dont la réponse à l’économie GPU est un confiant « zéro ».

Pourquoi l’objectif de coût importe

L’objectif de coût façonne le produit. À 0,50 € par match, Vision est quelque chose qu’on lance sur chaque cible prioritaire chaque semaine sans demander la permission. À 5 € par match, Vision est une ligne budgétaire qui demande une raison. À 50 € par match, Vision est une pièce marketing qui existe mais qu’on n’allume jamais.

On choisit l’objectif délibérément. Le produit doit être du genre qu’un recruteur lance pour la même raison qu’il ouvrirait un clip — parce que le coût marginal est suffisamment petit pour que l’hésitation ne soit pas une feature. Si on manquait l’objectif de coût d’un ordre de grandeur, le produit serait autre. Le recruteur regrouperait, différerait, mettrait en file, trierait. L’économie de la pipeline est l’ergonomie du produit.

Ce qu’on ne fera pas

On ne va pas faire tourner la pipeline au-dessus d’une API « video AI » tierce et facturer un markup. On en a essayé deux en phase prototype. Le coût par match était 12× le nôtre à qualité inférieure, la latence 4×, et le mode d’échec sur broadcasts dégradés était un haussement d’épaules silencieux en JSON. La pipeline propriétaire est plus de travail. C’est aussi la seule façon d’atteindre l’objectif de coût sans mentir dessus.

Notre engagement, tant que ça reste atteignable : un rapport Vision sur n’importe quel match du corpus, pour moins qu’un café. On écrira le moment où ça cessera d’être vrai. D’ici là, lancez plus de Vision.

What it costs to scout 90 minutes in three

Ce qui tourne dans la pipeline

Combien ça coûte, honnêtement

Ce que « gratuit » coûterait vraiment

Pourquoi l’objectif de coût importe

Ce qu’on ne fera pas

The transfer window is broken — and the tools made it worse

How we measure “stylistic fit” without overfitting nostalgia

If this resonated, the next move is a conversation.