What it costs to scout 90 minutes in three

«AI grátis» é uma frase de marketing. O Vision não é grátis. Ver 90 minutos de jogo, ingerir o feed broadcast, correr deteção, tracking, pose, action heads, re-identificação e produzir um relatório estruturado de 500 palavras — custa minutos reais de GPU e eletricidade real. A pergunta interessante não é se custa alguma coisa. É quanto, e qual deve ser o objetivo de custo correto.

O nosso objetivo é claro: menos do que um café por jogo. Não grátis. Não heroico. Menos do que o expresso que o olheiro teria comprado em vez disso.

O que corre na pipeline

Um único jogo passa por seis fases. Cada uma tem uma fatura de GPU real anexada.

Ingestão e pré-processamento. Puxar o feed broadcast, transcodificar para um formato interno uniforme 1080p / 25fps, descartar os replays óbvios. Dependente de CPU com um pequeno apoio de GPU para o transcode. Barato.
Deteção. YOLOv11 sobre cada frame. O custo dominante na GPU. Otimizado com TensorRT, batch agressivo, corre a ~3× tempo real numa L4.
Tracking. ByteTrack, sobre os outputs do YOLO. Maioritariamente CPU, mas o movimento de dados importa. Co-localizamos com a deteção para evitar o round trip.
Pose. YOLOv8-Pose, apenas em jogadores trackeados na metade ativa. Saltar a metade inativa é um ganho significativo — cerca de 40% dos frames.
Cabeças de ação e tática. Uma pilha CNN+LSTM para classificação de ação, uma GNN pequena para formação. Barato em GPU; caro em engenharia.
Re-ID e relatório. Rede Siamese para re-identificação de jogadores entre cortes de câmara; gerador de prosa estruturada para o relatório de 500 palavras. A única chamada a LLM na pipeline é o gerador de relatório, e é pequena e curta.

Quanto custa, honestamente

Numa única instância L4, end-to-end o Vision processa um jogo de 90 minutos em aproximadamente 25–32 minutos de GPU, dependendo da densidade de ação e de quanto do frame está ocluído. A preço spot de uma L4 na nossa região por defeito, isto coloca o custo de GPU por jogo entre €0,20 e €0,45. Some armazenamento, egress de ingestão e a chamada a LLM para o relatório, e estamos confiavelmente abaixo de €1 tudo incluído.

Está abaixo do limiar do expresso. O custo é real, mas do tipo de real que escala: o jogo marginal é barato, o modelo não fica mais caro com o tempo, e o volume de reporte por jogo é estável em ~500 palavras.

Quanto «grátis» realmente custaria

Podíamos empurrar o custo por jogo para mais baixo com três jogadas óbvias: destilação, quantização e salto agressivo de frames. Cada uma é uma alavanca real, com uma fatura real.

Destilação. Um YOLO-Nano professor → aluno baixa o custo de deteção em ~35%. O preço são duas semanas de treino e ~3% de recall em casos de objetos pequenos — sobretudo a bola quando parcialmente ocluída por um defesa. Provavelmente vamos fazer. Não vamos fingir que é grátis.
Quantização para INT8. Outros ~25% de latência fora da deteção. Perda de qualidade negligenciável no nosso conjunto de calibração. Já está no roadmap; está retido pelo facto de o ecossistema YOLO ainda ter casos limite em INT8 que não desbugámos.
Salto de frames. Processar cada terceiro frame, interpolar os restantes com uma cabeça de optical flow. O maior ganho único, e também o maior risco de qualidade — um frame perdido é um remate perdido, e os remates são por que se está a ver.

Cada uma aproxima-nos de «um chá por jogo». Nenhuma nos leva ao grátis. Estamos cautelosos com qualquer fornecedor cuja resposta à economia de GPU seja um confiante «zero».

Porque o objetivo de custo importa

O objetivo de custo molda o produto. A €0,50 por jogo, o Vision é algo que corre em cada alvo prioritário todas as semanas sem pedir autorização. A €5 por jogo, o Vision é uma linha de orçamento que requer uma razão. A €50 por jogo, o Vision é uma peça de marketing que existe mas nunca é ligada.

Escolhemos o objetivo deliberadamente. O produto tem de ser do tipo que um olheiro corre pela mesma razão que abriria um clipe — porque o custo marginal é suficientemente pequeno para que a hesitação não seja uma feature. Se falhássemos o objetivo de custo numa ordem de grandeza, o produto seria outro. O olheiro agruparia, adiaria, faria fila, triaria. A economia da pipeline é a ergonomia do produto.

O que não vamos fazer

Não vamos correr a pipeline em cima de uma API «video AI» de terceiros e cobrar um markup. Tentámos duas na fase de protótipo. O custo por jogo era 12× o nosso a qualidade inferior, a latência era 4× e o modo de falha em transmissões degradadas era um encolher de ombros silencioso em JSON. A pipeline própria é mais trabalho. É também a única forma de cumprir o objetivo de custo sem mentir sobre ele.

O nosso compromisso, enquanto se mantiver alcançável: um relatório Vision sobre qualquer jogo do corpus, por menos do que um café. Vamos escrever o momento em que isso deixar de ser verdade. Até lá, corra mais Vision.

What it costs to scout 90 minutes in three

O que corre na pipeline

Quanto custa, honestamente

Quanto «grátis» realmente custaria

Porque o objetivo de custo importa

O que não vamos fazer

The transfer window is broken — and the tools made it worse

How we measure “stylistic fit” without overfitting nostalgia

If this resonated, the next move is a conversation.