What it costs to scout 90 minutes in three

«AI gratis» è uno slogan da marketing. Vision non è gratis. Guardare 90 minuti di partita, ingerire il feed broadcast, far girare detection, tracking, pose, teste di azione, re-identificazione e produrre un report strutturato di 500 parole — costa minuti reali di GPU ed elettricità reale. La domanda interessante non è se costa qualcosa. È quanto, e quale dovrebbe essere il giusto target di costo.

Il nostro target è semplice: meno di un caffè a partita. Non gratis. Non eroico. Meno dell’espresso che l’osservatore avrebbe comprato al posto.

Cosa gira nella pipeline

Una singola partita passa per sei stadi. Ognuno ha una bolletta GPU reale attaccata.

Ingest e pre-processing. Tira il feed broadcast, transcodifica in un formato interno uniforme 1080p / 25fps, scarta i replay più ovvi. CPU-bound con un piccolo assist GPU sul transcoding. Economico.
Detection. YOLOv11 su ogni frame. Il costo dominante sulla GPU. Ottimizzato con TensorRT, batch aggressivi, gira a ~3× tempo reale su una L4.
Tracking. ByteTrack sugli output di YOLO. Per lo più CPU, ma il movimento dei dati conta. Lo co-localizziamo con la detection per evitare il round trip.
Pose. YOLOv8-Pose, solo sui giocatori tracciati nella metà attiva. Saltare la metà inattiva è un guadagno significativo — è circa il 40% dei frame.
Teste di azione e tattica. Una pila CNN+LSTM per la classificazione di azione, una piccola GNN per la formazione. Economico su GPU; costoso in ingegneria.
Re-ID e report. Rete Siamese per la re-identificazione dei giocatori attraverso i tagli di camera; generatore di prosa strutturata per il report da 500 parole. L’unica chiamata a LLM nella pipeline è il generatore di report ed è piccola e corta.

Quanto costa, onestamente

Su una singola istanza L4, Vision elabora end-to-end una partita di 90 minuti in circa 25–32 minuti di GPU, a seconda della densità d’azione e di quanto del frame è occluso. A prezzi spot per una L4 nella nostra regione di default, il costo GPU per partita si colloca fra €0,20 e €0,45. Aggiungi storage, egress di ingest e la chiamata LLM per il report e siamo in modo affidabile sotto €1 tutto compreso.

È sotto la soglia dell’espresso. Il costo è reale, ma del tipo di reale che scala: la partita marginale è economica, il modello non diventa più costoso col tempo, e il volume di reportistica per partita è stabile sui ~500 parole.

Quanto costerebbe davvero «gratis»

Potremmo spingere il costo per partita più in basso con tre mosse ovvie: distillazione, quantizzazione e frame skipping aggressivo. Ognuna è una leva reale, con una bolletta reale.

Distillazione. Un YOLO-Nano insegnante → studente abbatte il costo di detection di ~35%. Il prezzo sono due settimane di training e ~3% di recall sui casi di oggetti piccoli — soprattutto il pallone quando parzialmente oscurato da un difensore. Probabilmente lo faremo. Non fingeremo che sia gratis.
Quantizzazione a INT8. Un altro ~25% di latenza in meno sulla detection. Perdita di qualità trascurabile sul nostro set di calibrazione. Già in roadmap; trattenuta dal fatto che l’ecosistema YOLO ha ancora casi limite a INT8 che non abbiamo debuggato.
Frame skipping. Processa un frame su tre, interpola gli altri con una testa di optical flow. Il singolo guadagno più grande, anche il singolo rischio di qualità più grande — un frame perso è un tiro perso, e i tiri sono il motivo per cui qualcuno guarda.

Ognuna ci avvicina a «un tè a partita». Nessuna ci porta a gratis. Diffidiamo di qualunque vendor la cui risposta all’economia GPU sia uno «zero» convinto.

Perché conta il target di costo

Il target di costo plasma il prodotto. A €0,50 a partita, Vision è una cosa che fai girare su ogni obiettivo prioritario ogni settimana senza chiedere il permesso. A €5 a partita, Vision è una voce di budget che richiede una motivazione. A €50 a partita, Vision è un pezzo di marketing che non si accende mai.

Scegliamo il target deliberatamente. Il prodotto deve essere del tipo che un osservatore lancia per lo stesso motivo per cui aprirebbe una clip — perché il costo marginale è abbastanza piccolo da rendere l’esitazione non una feature. Se sbagliassimo il target di costo di un ordine di grandezza, il prodotto sarebbe un altro. L’osservatore aggregherebbe, rinvierebbe, accoderebbe, triagherebbe. L’economia della pipeline è l’ergonomia del prodotto.

Cosa non faremo

Non faremo girare la pipeline sopra un’API «video AI» di terzi caricando un markup. Ne abbiamo provate due in fase di prototipo. Il costo per partita era 12× il nostro a qualità inferiore, la latenza era 4×, e il modo di fallimento sui broadcast degradati era una scrollata di spalle in JSON silenziosa. La pipeline di proprietà è più lavoro. È anche l’unico modo di centrare il target di costo senza mentirci sopra.

Il nostro impegno, finché resta raggiungibile: un report Vision su qualunque partita del corpus, a meno di un caffè. Scriveremo il momento in cui smetterà di essere vero. Fino ad allora, fai girare più Vision.

What it costs to scout 90 minutes in three

Cosa gira nella pipeline

Quanto costa, onestamente

Quanto costerebbe davvero «gratis»

Perché conta il target di costo

Cosa non faremo

The transfer window is broken — and the tools made it worse

How we measure “stylistic fit” without overfitting nostalgia

If this resonated, the next move is a conversation.