What it costs to scout 90 minutes in three
A walkthrough of the Vision pipeline’s GPU economics and why the right cost target is "less than a coffee per match", not "free".
By Vision team
«AI grátis» é uma frase de marketing. O Vision não é grátis. Ver 90 minutos de jogo, ingerir o feed broadcast, correr deteção, tracking, pose, action heads, re-identificação e produzir um relatório estruturado de 500 palavras — custa minutos reais de GPU e eletricidade real. A pergunta interessante não é se custa alguma coisa. É quanto, e qual deve ser o objetivo de custo correto.
O nosso objetivo é claro: menos do que um café por jogo. Não grátis. Não heroico. Menos do que o expresso que o olheiro teria comprado em vez disso.
O que corre na pipeline
Um único jogo passa por seis fases. Cada uma tem uma fatura de GPU real anexada.
- Ingestão e pré-processamento. Puxar o feed broadcast, transcodificar para um formato interno uniforme 1080p / 25fps, descartar os replays óbvios. Dependente de CPU com um pequeno apoio de GPU para o transcode. Barato.
- Deteção. YOLOv11 sobre cada frame. O custo dominante na GPU. Otimizado com TensorRT, batch agressivo, corre a ~3× tempo real numa L4.
- Tracking. ByteTrack, sobre os outputs do YOLO. Maioritariamente CPU, mas o movimento de dados importa. Co-localizamos com a deteção para evitar o round trip.
- Pose. YOLOv8-Pose, apenas em jogadores trackeados na metade ativa. Saltar a metade inativa é um ganho significativo — cerca de 40% dos frames.
- Cabeças de ação e tática. Uma pilha CNN+LSTM para classificação de ação, uma GNN pequena para formação. Barato em GPU; caro em engenharia.
- Re-ID e relatório. Rede Siamese para re-identificação de jogadores entre cortes de câmara; gerador de prosa estruturada para o relatório de 500 palavras. A única chamada a LLM na pipeline é o gerador de relatório, e é pequena e curta.
Quanto custa, honestamente
Numa única instância L4, end-to-end o Vision processa um jogo de 90 minutos em aproximadamente 25–32 minutos de GPU, dependendo da densidade de ação e de quanto do frame está ocluído. A preço spot de uma L4 na nossa região por defeito, isto coloca o custo de GPU por jogo entre €0,20 e €0,45. Some armazenamento, egress de ingestão e a chamada a LLM para o relatório, e estamos confiavelmente abaixo de €1 tudo incluído.
Está abaixo do limiar do expresso. O custo é real, mas do tipo de real que escala: o jogo marginal é barato, o modelo não fica mais caro com o tempo, e o volume de reporte por jogo é estável em ~500 palavras.
Quanto «grátis» realmente custaria
Podíamos empurrar o custo por jogo para mais baixo com três jogadas óbvias: destilação, quantização e salto agressivo de frames. Cada uma é uma alavanca real, com uma fatura real.
- Destilação. Um YOLO-Nano professor → aluno baixa o custo de deteção em ~35%. O preço são duas semanas de treino e ~3% de recall em casos de objetos pequenos — sobretudo a bola quando parcialmente ocluída por um defesa. Provavelmente vamos fazer. Não vamos fingir que é grátis.
- Quantização para INT8. Outros ~25% de latência fora da deteção. Perda de qualidade negligenciável no nosso conjunto de calibração. Já está no roadmap; está retido pelo facto de o ecossistema YOLO ainda ter casos limite em INT8 que não desbugámos.
- Salto de frames. Processar cada terceiro frame, interpolar os restantes com uma cabeça de optical flow. O maior ganho único, e também o maior risco de qualidade — um frame perdido é um remate perdido, e os remates são por que se está a ver.
Cada uma aproxima-nos de «um chá por jogo». Nenhuma nos leva ao grátis. Estamos cautelosos com qualquer fornecedor cuja resposta à economia de GPU seja um confiante «zero».
Porque o objetivo de custo importa
O objetivo de custo molda o produto. A €0,50 por jogo, o Vision é algo que corre em cada alvo prioritário todas as semanas sem pedir autorização. A €5 por jogo, o Vision é uma linha de orçamento que requer uma razão. A €50 por jogo, o Vision é uma peça de marketing que existe mas nunca é ligada.
Escolhemos o objetivo deliberadamente. O produto tem de ser do tipo que um olheiro corre pela mesma razão que abriria um clipe — porque o custo marginal é suficientemente pequeno para que a hesitação não seja uma feature. Se falhássemos o objetivo de custo numa ordem de grandeza, o produto seria outro. O olheiro agruparia, adiaria, faria fila, triaria. A economia da pipeline é a ergonomia do produto.
O que não vamos fazer
Não vamos correr a pipeline em cima de uma API «video AI» de terceiros e cobrar um markup. Tentámos duas na fase de protótipo. O custo por jogo era 12× o nosso a qualidade inferior, a latência era 4× e o modo de falha em transmissões degradadas era um encolher de ombros silencioso em JSON. A pipeline própria é mais trabalho. É também a única forma de cumprir o objetivo de custo sem mentir sobre ele.
O nosso compromisso, enquanto se mantiver alcançável: um relatório Vision sobre qualquer jogo do corpus, por menos do que um café. Vamos escrever o momento em que isso deixar de ser verdade. Até lá, corra mais Vision.
Keep reading
The transfer window is broken — and the tools made it worse
Why a market with €7B annual flow still runs on Excel, WhatsApp, and gut feel. And what changes when the data layer catches up.
How we measure “stylistic fit” without overfitting nostalgia
Match clusters players by behaviour, not biography. The math behind why “a left-back like Marcelo” is a useful comparison and how we keep it honest.
If this resonated, the next move is a conversation.
We onboard pilot members on rolling invitation. Send us your hardest question — we’ll send back the live answer.