What it costs to scout 90 minutes in three
A walkthrough of the Vision pipeline’s GPU economics and why the right cost target is "less than a coffee per match", not "free".
By Vision team
«AI gratis» es un eslogan de marketing. Vision no es gratis. Mirar 90 minutos de partido, ingerir el feed de retransmisión, correr detección, tracking, pose, cabezas de acción, re-identificación y producir un informe estructurado de 500 palabras — cuesta minutos reales de GPU y electricidad real. La pregunta interesante no es si cuesta algo. Es cuánto cuesta y cuál debería ser el objetivo de coste correcto.
Nuestro objetivo es claro: menos que un café por partido. No gratis. No heroico. Menos que el espresso que el ojeador habría comprado en su lugar.
Qué corre en el pipeline
Un único partido pasa por seis etapas. Cada una tiene una factura de GPU real adjunta.
- Ingesta y preprocesamiento. Trae el feed de retransmisión, transcodifica a un formato interno uniforme 1080p / 25fps, descarta los repeats obvios. Atado a CPU con un pequeño asist GPU para transcodificar. Barato.
- Detección. YOLOv11 sobre cada frame. El coste dominante en GPU. Optimizado con TensorRT, batch agresivo, corre a ~3× tiempo real en una L4.
- Tracking. ByteTrack sobre las salidas YOLO. Mayoritariamente CPU, pero el movimiento de datos importa. Lo colocalizamos con la detección para evitar el round trip.
- Pose. YOLOv8-Pose, solo sobre jugadores trackeados en la mitad activa. Saltarse la mitad inactiva es una ganancia significativa — son aproximadamente el 40% de los frames.
- Cabezas de acción y táctica. Una pila CNN+LSTM para clasificación de acción, una GNN pequeña para formación. Barato en GPU; caro en ingeniería.
- Re-ID e informe. Red Siamese para re-identificación de jugadores a través de cortes de cámara; generador de prosa estructurada para el informe de 500 palabras. La única llamada a LLM del pipeline es el generador de informe y es pequeña y corta.
Cuánto cuesta, honestamente
En una sola instancia L4, Vision procesa de extremo a extremo un partido de 90 minutos en aproximadamente 25–32 minutos de GPU, dependiendo de la densidad de acción y de cuánto del frame está ocluido. A precio spot de una L4 en nuestra región por defecto, eso sitúa el coste de GPU por partido entre 0,20 € y 0,45 €. Suma almacenamiento, egress de ingesta y la llamada al LLM para el informe, y estamos por debajo de 1 € todo incluido de manera fiable.
Eso es por debajo del umbral del espresso. El coste es real, pero del tipo real que escala: el partido marginal es barato, el modelo no se pone más caro con el tiempo, y el volumen de reporte por partido es estable en ~500 palabras.
Qué costaría realmente «gratis»
Podríamos empujar el coste por partido más abajo con tres movimientos obvios: destilación, cuantización y salto agresivo de frames. Cada uno es una palanca real con una factura real.
- Destilación. Un YOLO-Nano profesor → estudiante baja el coste de detección un ~35%. El coste son dos semanas de entrenamiento y ~3% de recall en casos de objetos pequeños — sobre todo el balón cuando un defensor lo tapa parcialmente. Probablemente lo haremos. No fingiremos que es gratis.
- Cuantización a INT8. Otro ~25% menos de latencia en detección. Pérdida de calidad despreciable en nuestro set de calibración. Ya está en el roadmap; lo retiene el hecho de que el ecosistema YOLO tiene aún casos esquina en INT8 que no hemos depurado.
- Salto de frames. Procesa cada tercer frame, interpola el resto con una cabeza de optical flow. La mayor ganancia de un solo paso, y también el mayor riesgo de calidad — un frame perdido es un disparo perdido, y los disparos son por lo que la gente mira.
Cada uno nos acerca a «un té por partido». Ninguno nos lleva a gratis. Desconfiamos de cualquier proveedor cuya respuesta a la economía de GPU es un confiado «cero».
Por qué importa el objetivo de coste
El objetivo de coste da forma al producto. A 0,50 € por partido, Vision es algo que corres en cada objetivo prioritario cada semana sin pedir permiso. A 5 € por partido, Vision es una partida de presupuesto que requiere una razón. A 50 € por partido, Vision es una pieza de marketing que nunca se enciende.
Elegimos el objetivo deliberadamente. El producto tiene que ser del tipo que un ojeador corre por la misma razón por la que abriría un clip — porque el coste marginal es lo bastante pequeño como para que la duda no sea una feature. Si falláramos el objetivo de coste por un orden de magnitud, el producto sería otro. El ojeador agruparía, aplazaría, encolaría, triaría. La economía del pipeline es la ergonomía del producto.
Lo que no haremos
No vamos a correr el pipeline encima de una API «video AI» de terceros y cobrar un margen. Probamos dos en la fase de prototipo. El coste por partido era 12× el nuestro a menor calidad, la latencia era 4× y el modo de fallo en retransmisiones degradadas era un encogimiento de hombros JSON silencioso. El pipeline propio es más trabajo. Es también la única forma de cumplir el objetivo de coste sin mentir sobre él.
Nuestro compromiso, mientras siga siendo alcanzable: un informe Vision de cualquier partido del corpus, por menos que un café. Escribiremos el momento en que eso deje de ser cierto. Hasta entonces, corre más Vision.
Keep reading
The transfer window is broken — and the tools made it worse
Why a market with €7B annual flow still runs on Excel, WhatsApp, and gut feel. And what changes when the data layer catches up.
How we measure “stylistic fit” without overfitting nostalgia
Match clusters players by behaviour, not biography. The math behind why “a left-back like Marcelo” is a useful comparison and how we keep it honest.
If this resonated, the next move is a conversation.
We onboard pilot members on rolling invitation. Send us your hardest question — we’ll send back the live answer.