長篇引言:什麼是「預期進球數」,什麼是「真實射門得分率」
在我之前的文章中,幾乎每一篇與數據有關的,都會提到一個數據——「真實射門得分率」,評論區也有朋友問我這個數據究竟是怎麼回事,我也有心做個科普。這其實涉及到一個問題:
如何量化球員射門能力?一直以來,媒體對該問題始終採取一種極為簡單粗暴的方式:看進球數。進球數數據雖然簡單,但存在檔次差別之時仍舊很有意義。然而問題在於:我們無法從進球數當中,看出每次射門的難度如何,因而也就不清楚球員每次射門「克服難度」的能力。舉例來說,下面兩個進球,顯然難度上大有差別,但在傳統標準中,它們的價值是一樣的,都是1個進球:
當然,媒體會通過諸如「十佳球」之類的節目,給予謝爾維的世界波更高讚許。但每一腳射門的難度可能都存在差異,我們簡單評選出10個,甚至100個「絕妙好球」,對于衡量大樣本下多名球員的射門表現,遠遠不夠。而且我們不清楚一名球員打進一腳世界波之餘,又轟出了多少打空了的射門,或者附帶了多少「保姆球」。因此,最好的方法,其實是量化每一腳射門的難度,從而給予射門質量本身更公正的評價。好消息是,我們擁有」預期進球「(Expected Goal,一般縮寫為」XG「)這個數據。
事實上,這早就不是什麼新鮮數據了,微博上很多博主甚至會在賽後第一時間更新每場比賽兩隊的預期進球數,當然他們大多會將之翻譯成「進球預期值」(不過我自己看不出兩種譯法之間有什麼本質差別)。其實這個數據存在很多版本,不同數據公司的算法存在細微差別,而且絕大多數具體算法是不公布的。微博上大多用的是Between the post網站的算法,其兄弟網站11tegen11則給出了一個大致的方向:它參考了射門位置(包括距離和角度)、射門前的傳球情況(是否為傳中、經過了多少腳傳球、是否是斷球後立即發起的進攻)、持球操作情況(是否經歷了過人、是否過掉了守門員、是否屬於OPTA界定的「絕佳機會」)等等因素,結合最近幾十萬次射門,用大數據計算出「在射門發生之前,這次射門的進球概率」——注意,是射門發生之前,換言之,它量化的是「射門難度」。比如剛才給出的兩個進球:凱恩的門前補射,預期進球是0.77,而謝爾維的世界波,預期進球只有0.07。
當然,作為一個「射門前」的數據,預期進球數沒法考慮一些意外情況,比如下面這球,由於防守方封堵特別嚴密,預期進球數只有0.01,但皮球反彈之後的詭異路線,竟然在門將毫無反應的情況下,飛向橫梁:
話說到這裡,我們其實根本不用去糾結「沒有公開的算法是否可信」這個問題,因為有可能即便數據公司想告訴你具體公式,他們也做不到——這種大數據算法有可能根本就沒法形成一個具體公式。當這個數據產生之後,我們所要做的,是思考它究竟怎麼用。其實它「量化射門難度」的根本性質,已經給我們指出了使用方向:有了難度量化,那麼就一定有「克服難度能力」的量化,我們只需要在樣本足夠大的情況下,用每次射門的實際進球數同預期進球數做差,就可以得出一個球員「對射門難度的修正能力」。
因此,我自己得出了一個「真實射門得分率」的概念——之所以起這麼個名字,純粹是因為我不知道如何給它命名而已。其公式是:「真實射門得分率=(實際進球數-預期進球數)/射門數*100%」。由於每次射門的實際進球數只有0和1兩種可能性,而預期進球數,即便我們取小數點後兩位,也有99種可能,因此這個算法中最大的變量在於預期進球數。顯然,少量高難度射門造成的影響不會太大,然而一旦打進就是巨大加成;反過來說,總是進一些保姆球或者點球,那麼最終真實射門得分率也不會太高。
當然,除了數量極少可以忽略的烏龍球之外,射門其實是足球場上取得進球的唯一方式;而足球又沒有24秒規則,比賽雙方的進攻機會很可能是不對等的,因此,開發出更多射門也很重要。對射手來說,產量與質量是最好能夠兼顧的兩個維度。所以,我們在進行量化時,也要注意射門次數的疊加——注意,對一個優秀射手來說,多射門是好的,儘管我們沒法量化「產量」與「質量」之間的關係。此外,還有一個重要因素是「出場時間」。
接下來,我們用3張散點圖,簡單明了的看看本賽季英超(16輪)、西甲(15輪)與意甲(15輪),誰最能射。樣本選擇wyscout給出的射門榜前30。
第一張圖,告訴你英超誰最能射
(橫軸為每90分鐘射門次數,縱軸為真實射門得分率,圓點越大,代表出場時間越長)
英超其實大家普遍開火權都不是太多,最多的阿圭羅,每90分鐘射門不過4.14次。整個聯賽中,最能兼顧射門產量與質量的,還是瓦爾迪。嚴格來說此人射門並不十分頻繁,只不過真實射門得分率達到了誇張的16.54%(上賽季的梅西不到8%),當然這個數據肯定會回調,但即便大幅下降,也仍舊是一個極高的數字。加上其目前總出場時間長達1547分鐘,最終累積出高達17個進球,也就不難理解了。
值得注意的是縱軸最頂端的阿里和謝爾維,他們能出現在這個榜單中,很大程度上是小樣本、低門檻的情況下,導致的數據「失真」。謝爾維打到現在射門只有19次,阿里更少,只有12次。極少數射門轟進一兩個難度較大的,對真實射門得分率的加成實在太過恐怖。比如下面兩球,阿里和謝爾維的射門,預期進球分別只有0.15和0.07:
當然,這樣的進球,尤其是謝爾維的進球,很難長期得到延續。當然還有一種可能是,謝爾維接下來很少射門,那麼他的真實射門得分率就會一直停留在一個極高的水準上;但是,30輪候我們再去看,很可能二人會因為進球數太少,直接被排除在考量範疇之外。
此外這裡要提醒大家兩點:其一,最終決定進球數的,不僅僅是射門準星與開火權,第三個變量「出場時間」也很重要;其二,我們這個圖針對的僅僅是射門量化,諸如持球推進、過人、傳球等等進攻環節,並不在考慮範圍之內。這兩點其實存在一個共同的典型案例,就是孫興慜。韓國天王每90分鐘射門次數與真實射門得分率其實比之上賽季都有所下降,而射門難度則基本持平。真正導致這賽季輸出增加的,是他作為絕對主力,本賽季出場時間暴漲;同時,他所扛起的大量持球推進重任,則又與本圖無關。
第二張圖,告訴你西甲誰最能射
(橫軸為每90分鐘射門次數,縱軸為真實射門得分率,圓點越大,代表出場時間越長)
西甲方面,梅西毫無疑問一枝獨秀,產量最高之餘,連質量都是榜單中的第2名。這其中由以其18.00%的真實射門得分率最為恐怖——剛才我們提到謝爾維憑藉少數射門打出超高的真實射門得分率,也不過19.16%而已,要知道,梅西的射門數可是2倍於謝爾維的。
事實上,梅西最終以一球優勢力壓本澤馬暫居西甲射手榜首位,憑藉的正是真實射門得分率上的巨大優勢——二人每90分鐘射門數相差無幾且分居西甲前2位,出場時間上本澤馬則大幅領先,梅西純粹是高難度射門的把握度更高。
其實梅西此前儘管射門準星也不錯,但也不至於高到這個程度。這兩年之所以突然之間扶搖直上,原因我在《數據告訴你,梅西在轉型後的升華》一文中已經說過,梅西這兩年精進了禁區前的射門和任意球,尤其是後者,每打進一個都是巨大加成。比如下面這兩球,預期進球數分別只有0.07和0.05,顯然對梅西的真實射門得分率加成極大:
另外值得關注的是蘇亞雷斯與本澤馬。兩人單位時間內的開火頻率與射門準星相差不多,導致二人進球數差3個的主要原因在於,本澤馬出場時間比蘇亞雷斯多出300分鐘。但如果我們對比二人進5年來的數據,就會發現他倆其實是一個上行,一個下行。我們把二人近4年來的數據做成散點圖,分別做一分析:
(橫軸為每90分鐘射門次數,縱軸為真實射門得分率,圓點越大,代表出場時間越長)
顯然,總體而言蘇亞雷斯確實是在衰退的,15-16賽季是其兼顧「質」、「量」的典範,那個賽季MSN組合也算得上風光無限。而隨著內馬爾出走,蘇亞雷斯的所能夠獲得的射門機會直線下降,其自身的射門準星,即便不看數據,這兩年的回調也是看得見的。事實上相對而言,他在本賽季還算是狀態有所回升,這也是場面上看得見的。
(橫軸為每90分鐘射門次數,縱軸為真實射門得分率,圓點越大,代表出場時間越長)
本澤馬的情況則不同,此人同樣在15-16賽季達到兼顧質與量的巔峰,然而隨即便迅速滑落,尤其是17-18賽季,他飄在外面搞什麼「策應」寧死不進禁區的做法,其實是連球隊帶自己一塊坑,要知道當時貝爾已經失去主力位置,C羅一個人在禁區內孤立無援,本澤馬再「拉空禁區」已經毫無意義。加之本身就不擅遠射,最終射門次數與射門準星創下「雙低」。然而本澤馬的聰明之處就在於十分擅長做自我總結,自18-19賽季起,他仿佛一夜之間意識到「我是中鋒」,結合C羅離隊的契機打開封印,一個勁往禁區裡鑽,禁區內觸球頻率創下新高的同時,也把射門產量與質量通通打了上去。
此外還有一個人必須要提一句的人——格裡茲曼。格裡茲曼此前幾個賽季一直是真實射門得分率方面的超級大神,放眼世界足壇,恐怕沒人比格裡茲曼更理解「中產高效」這句話的含義。此人幾乎不會嘗試任何難度極大的射門,但中等難度的射門一旦放在眼前,基本上手到擒來,鴨子煮到三成熟就覺不會再讓它飛走。然而本賽季環境突變,格裡茲曼動輒在左邊路靠著不很擅長的爆發力討生活,在要求他用左腳維持超高的真實射門得分率已經有些強人所難。饒是如此,此人打出5.07%的真實射門得分率,倘若能維持到賽季結束,也依然是一個不錯的數據了。
第三張圖,告訴你意甲誰最能射
(橫軸為每90分鐘射門次數,縱軸為真實射門得分率,圓點越大,代表出場時間越長)
意甲方面,目前自能兼顧產量與質量的無疑是射手榜上的頭名因莫比萊,他在縱軸上看上去不那麼領先,純粹是因為特奧和若奧·佩德羅在小樣本下打出了過高的準星而已。而且,因莫比萊和瓦爾迪相似的一點是是出場時間不少,開火權、準星與時間3個維度共同作用之下,打出超高的進球數也就自然不在話下了。此人遠射不多,射門分布多在禁區之內,原本這對於真實射門得分率的累積並不十分有利,畢竟所有的射門距離球門都很近,意味著預期進球數會提升。但因莫比萊本賽季有一項絕活是:善於在封堵之下射門,這對於真實射門得分率的正面加成不容忽視。比如下面這球,預期進球數只有0.11:
另一個焦點人物自然是C羅。我知道他目前的境況不是很好,從圖上看,這賽季他在聯賽中的表現也確實有些「高產低效」,真實射門得分率甚至已經跌入負值。這裡必須要說的是,儘管偶爾來上一兩腳遠射,對真實射門得分率不會產生太大影響,但如果如此嘗試多了,累計起來就會成為相當大的負面因素。本賽季C羅的射門選擇確實顯得有些不太合理,遠射實在是太多了些。這裡我們給出C羅本賽季到目前為止,聯賽中的射門分布圖:
實話實說,這裡面的遠射實在太多了些,有的甚至分布在邊路,這些選擇確實是有待商榷的。像下面這兩腳射門,預期進球數分別只有0.02甚至0.00(對你沒看錯)。的確,一旦打進的話加成極大;但偶爾為之沒問題,嘗試的太多就是另一回事了:
其實C羅蠻可以主動做一些調整,比如多去門前搶點——千萬不要小看了門前搶點對真實射門得分率的積累作用,要知道,決定每次射門預期進球數的不僅僅是距離球門的距離,角度以及接到傳球的方式甚至射門部位,都會產生極大影響。下面這球雖然距離球門很近,但防守球員的對抗幹擾結合角度封堵,加之又是邊路傳中和頭球(通常這兩個元素會被認為不很利於進球),最終與其進球數只有0.09。C羅打進了,那就是巨大加成:
當然,我不是說一名球員的存在應該為某一項高階數據服務,而是說:這腳射門既然被一個參考過去幾十萬次射門的大數據算法界定為進球概率只有區區9%,那就說明這種射門的難度其實非常大。而C羅恰恰又非常擅長此道。那麼,他更為合理的做法顯然是充分發揮長處,多去門前搶點。
不過,需要注意的是,C羅最近幾年的生涯呈現出極為詭異的走勢,似乎年過而立之後,他開始有意調整自己在一個賽季中的體能分配——聯賽開局階段,C羅的射門準星基本沒好過,後面會有所回調;更重要的是,他在歐冠當中的表現,要比聯賽好得多。我們把C羅最近5個賽季以來聯賽和歐冠上的真實射門得分率,做成柱狀圖進行對比:
說實話,C羅歐冠和聯賽上的差別真不是一星半點的大。這裡我不想用什麼「關鍵時刻大心臟」之類毫無十幾根據的詞彙去描述,因為一來聯賽同樣關鍵,二來我們沒有球員身體激素分泌數據,根本沒有研究球員心態變化的一手資料,三來如果將所謂的關鍵時刻全部篩選出來,樣本會小到失去量化意義。此時去談心態,連隔岸觀火多算不上。我只能根據這個履歷去猜測:或許C羅本賽季依舊能夠打出歐冠與聯賽上的巨大反差。
事實上我們不管如何分析,都一定要注意一個客觀事實:一個將所有球員都放在一起進行比較的數據模型,是不會考慮球員年齡的。C羅馬上就要35歲了,倘若我們把這個年齡段的球員全部集中起來考核,大概率是我們連一張豐滿的圖都做不出來,因為多數人在這個時候,想進入榜單都是一件難事。其實我們每個人都知道,自己總有一天會老;會從一個熱血青年,變成看著下一代茁壯成長,然後擦擦汗悶頭繼續工作,為老婆孩子多掙上百十塊錢,將年輕時的諸多夢想暫時壓抑起來——我們會老,職業生涯更短的運動員,為何不會?
所以,我一方面相信C羅一定能適當的把射門準星調回來,另一方面也清楚的知道,有些事其實可以用來研究,可以用來珍惜,但不太適合用來「黑」。我的偶像勞爾,在35歲的時候,已經去卡達踢球了。