How we measure “stylistic fit” without overfitting nostalgia

“Marcelo gibi bir sol bek lazım.” Hem yararlı hem tehlikeli bir cümle. Yararlı, çünkü odadaki her futbol beyninin gözünde anında bir profil canlandırıyor. Tehlikeli, çünkü beş farklı dinleyiciye beş farklı şey ifade edebilir — daha kötüsü, bir arama motoruna kesin hiçbir şey ifade etmeyebilir.

Öneri motorumuz Match, bu iki gerçeğin sınırında yaşıyor. Belirsiz operatör dilini titiz, karşılaştırılabilir, savunulabilir sıralamalara çevirmek zorunda — bir oyuncuyu özel kılan şeyi düzleştirmeden. Nostaljiyi aşırı uydurmadan bunu nasıl yapıyoruz.

Üç katmanlı model

Scout Atlas’ta stil uyumu tek bir benzerlik puanı değil. Her gece hesaplanan, her biri sonuca düz Türkçeyle eşlik eden üç bağımsız katmandan oluşan bir yığın.

Katman 1 — Davranışsal parmak izi

Son iki sezonda en az 900 lig dakikası olan her oyuncu için 200 boyutlu bir davranışsal vektör hesaplıyoruz. Ham istatistik değil. Davranışsal türevler: temas başına ileri sürüş mesafesi, rakip gücüne göre ayarlanmış savunma bölgesi etkinliği, ileri paslar öncesi tarama sıklığı, top kaybı sonrası geri dönüş mesafesi.

Bunlar ligler arası normalize edildiğinde hayatta kalan özellikler. İrlanda Premier Lig’indeki 70 dakikalık bir maçla Premier League maçı aynı tuval değil — bu yüzden sonuçları değil, fırsatları normalize ediyoruz. Parmak izi, eşit koşullarda davranışı karşılaştırıyor.

Katman 2 — Rol bağlamı

“Marcelo gibi bir sol bek” yalnızca bir davranışsal şekil değil. Bir sistem içinde bir davranışsal şekil. Korpusumuzdaki her maçı, oyuncunun ima edilen rolüyle (ters bek, klasik bek, beşli savunmada kanat beki, hibrit geniş stoper) graf-tabanlı bir formasyon sınıflandırıcısı kullanarak etiketliyoruz. Stil benzerliği sonra rol koşullu hesaplanıyor — yani Bayern hibridi diğer hibritlerle karşılaştırılır, Atalanta kanat bekiyle değil.

Katman 3 — Karar imzası

Üçüncü katman en deneysel olan ve en heyecan duyduğumuz. Etiketlenmiş karar noktalarında — baskı altında topu alma, savunma baskısı tetikleyici, transition yayı — bir dizi modeli eğitiyoruz ve her oyuncu için karar sınıfları üzerinde bir olasılık dağılımı üretiyoruz. Karar imzası bir oyuncunun seçim verildiğinde ne yapma eğiliminde olduğunu yakalıyor. Aynı davranışsal parmak izine sahip iki oyuncu tamamen farklı karar imzalarına sahip olabilir ve imza genellikle oyuncunun yeni sisteme nasıl uyum sağlayacağını öngörür.

Açıkça yapmadığımız üç şey

Her öneri motoru, yapmayı reddettiği şeyle şekillenir. Match’in üç kesin reddi var.

İzinsiz özel üye-kulüp verisi üzerinde eğitim yapmıyoruz. Parmak izleri kamuya açık open-data korpuslarından ve lisanslı olay verisinden geliyor. Üye kulüplerin özel notları, GPS’i ve kısa listeleri onların — kulübün kişisel modelini zenginleştirir, kulüpler-arası modeli değil.
Bir brief’in kapsadığı ligleri saklamıyoruz. Brief top 5’e filtrelendiyse, bunu her sonuçta söylüyoruz. Bir oyuncu dahil edilmediyse, nedenini söylüyoruz (yetersiz dakika, henüz alınmamış lig).
60-güvenli bir sıralamayı 95’miş gibi göstermiyoruz. Ensemble anlaşamadığında — XGBoost bir oyuncuyu beğendi, CatBoost emin değil — varyansı doğrudan işaretliyoruz. Düşük güven kendi başına işaretlenmesi gereken bir sinyal.

Karşılaştırmaları nasıl dürüst tutuyoruz

Her Match puanının yanında iki güvence çalışıyor.

Birincisi hayatta kalan yanlılığı düzeltmesi. Futbol medyası kazananlara çekilir. Ünlü bir oyuncuyla davranışsal benzerlik tehlikeli bir vekil olabilir — geçmiş dehayı yakalamak için harika bir filtre, gelecekteki uyumu öngörmek içinse zayıf. Eğitim kohortlarını “gürültülü orta”yı içerecek biçimde yeniden dengeliyoruz — yıldız gibi görünmüş ama olamamış oyuncuları da açıkça dahil ediyoruz.

İkincisi kohort kalibrasyonu. Modeli Premier League altın çocuğu üzerinde değil, 2021’de kimsenin duymadığı, şimdi Bundesliga’da düzenli olan Allsvenskan kanat oyuncusu üzerinde test ediyoruz. Eğer model 2021’de onu yüksek güvenle yüzeye çıkaramayacaksa, çizim tahtasına dönüyoruz. Çoğu “benzerlik” motoru öngördüğü oyuncuları kutlar; biz kendimizi kaçırdığımız oyuncularla ölçüyoruz.

Üründe asıl ne görüyorsunuz

Scout Atlas’ta bir oyuncuyu açtığınızda, “Stilistik benzerler” korpusumuzdaki en üst altı oyuncuyu, parmak izi + rol + karar benzerliği bileşik puanına göre, her çift için bir özellik atıf dökümüyle gösteriyor: benzerliğin nerede yoğunlaştığı, nerede ayrıştığı. Karşılaştırmayı ve karşılaştırmanın sınırlarını görüyorsunuz.

“Marcelo gibi bir sol bek” yeniden yararlı hâle geliyor — ama artık inanmak zorunda değilsiniz. Matematik sayfanın üzerinde.