國際足聯將本賽季的夏季轉會期延續到10月5日,可截止目前大多數歐洲豪門仍然沒有太大的消息,雖然這是受今年全球疫情影響,但是在所有普通球迷心中,每個夏季的焦點永遠都是球隊的引援動態。為此,我們不妨採用因子與聚類分析相結合的方法對豪門俱樂部的有意球員進行排序和分類,分析結果顯示各個球員差異明顯,試圖尋找各個球隊最適合引援的球員。
歐冠作為世界足球最高水平的比賽,基本可以明顯代表各個球員的能力與類型。因此,本文根據《轉會市場》等歐洲權威足球網站數據,對豪門意向球員在歐戰賽場及各自聯賽的數據進行採集,結合對各隊的綜合數據分析,找到符合各隊水平和特徵球員。
特別強調:
通過數據進行因子與聚類分析,找出各個球員的特徵,確實便於更好的定位球員在球隊中的位置,找到可以提高球隊競爭力的球員。但是,數據建模只有有限的參考價值,因為球員的個人因素如:球員國籍,球員醜聞,球員個人目標定位(或期望值),球員傷病史及嚴重程度等等,這些都是沒有參考數據的。但是,這些不可控因素,都會讓球員的轉會結果出現很大偏差,這也是建模最難的地方。雖然有參考價值,但是仍然會有很大的誤差空間。因此,統計的結果會有相對寬泛的誤差空間。
所以,本文以純能力和綜合數據為核心考量,球員轉會身價及年薪這些成本因素不作年化成本計算,大家可以從自己的主觀角度根據轉會新聞對此進行判斷。同樣,本文也不會對球員及所處球隊的競訓水平進行計算和參考,因為即便天賦再高的球員,長期和不在同一水平的球員一起訓練,也會導致與期望值有巨大偏差。
這樣的例子有很多,90年代西班牙最初被譽為「金童」的球員並非勞爾,而是畢爾巴鄂以忠誠著稱的格雷羅,但是堅決不離隊最終的結果也使他無法更上一層樓,最終淪為眾人。同樣,當初被眾多豪門搶購的特謝拉,初登中超的第一個賽季幾乎是帶著球隊和恆大爭冠的水平,最後也逐漸淪為普通中超球星。諸如此類還有很多,這些都屬於題外話。
下面,本文開始言歸正傳,不喜勿噴。
球員評價模型
1、指標體系的建立數據來源
球場上反映球員素質的因素繁多且複雜,對其進行研究時,首先要構建其指標體系,建立其指標體系應遵守完備性,綜合性,科學性,簡潔性,動態性和可操作性原則。本文採用綜合評價指標對拜仁轉會市場的9名有意向球員中8名(不包含佩裡西奇)、還有轉會市場上球迷們普遍關注的14名球員們的素質進行分析,依據whoscored等七家權威網站的數據,選取了12個具體指標的球員素質評價體系,這些指標包括:X1(身高),X2(出場時間),X3(總進球),X4(黃牌),X5(助攻),X6(射門),X7(傳球),X8(傳中),X9(搶斷),X10(越位),X11(犯規),X12(被侵犯),X13(關鍵傳球),X14(解圍)。
2、球員素質評價集成模型
因子分析是通過對原始數據相關係數內部結構的研究,將多個指標轉化為少量互相不相關且不可觀測的隨機變量(即因子),以提取原有指標的絕大部分的信息的統計方法。因子分析首先將原始數據標準化處理,建立相關係數矩陣並計算其特徵值和特徵向量,接著從中選擇特徵值大於等於1的特徵值個數為公共因子數,或者根據特徵值累計貢獻率大於80%來確定公共因子,求得正交或斜交因子載荷矩陣,最後計算公因子得分和綜合得分。
聚類分析是統計學所研究的「物以類聚」問題的一種方法,能夠將一批樣本數據(或變量)按照它們在性質上的親疏程度在沒有先驗知識的情況下自動進行分類。根據分類對象的不同,聚類分析分為R型和Q型兩種.R型聚類分析用於指標聚類,Q型聚類分析中度量數據之間的親疏程度沒有給定分類的標準,也沒有給出所有數據分成幾類,而要求比較客觀地從數據自身出發進行分類.類與類之間的親疏程度度量方法有最短距離法、最長距離法、中間距離法、重心法、類平均法、離差平方和法等。
本文首先採用因子分析對19個球員的素質進行分析,可以獲得19個球員素質各因子和綜合因子得分與排名。儘管從因子分析結果可以反映19名球員的素質排名的先後順序,但未能對其進行層次劃分。因此,本文通過Q型聚類進行分析進一步得到層次分類,在因子分析和聚類分析的基礎上,集成分析出球員素質結果。
因子分析過程
下面,我們以拜仁為例,結合拜仁本賽的綜合數據,參考的球員對象分別為拜仁《轉會市場》緋聞對象:阿倫-希基、貝萊林、布羅佐維奇、卡馬文加、扎哈、喬爾吉尼奧·魯特、德斯特、阿隆斯(特別提醒:拜仁已經宣布不會買斷佩裡西奇),加上今夏深陷轉會市場已轉會或仍未轉會的參考球員:哈弗茨、範德貝克、託納利、德佩、蘇亞雷斯、維納爾杜姆、烏帕梅卡諾、凱塔、希克、格魯伊奇、馬拉約爾、希克。參考對象不只局限於拜仁目標引進的邊鋒、中場、右邊後衛,無傳聞和已轉會對象僅因數據提取作為參考。
本文使用的是spss軟體作為統計分析軟體工具,調用spss中因子分析程序對14個指標的原始數據進行標準化處理,並得到各指標之間的相關係數矩陣R(表1:相關性矩陣)。
通過結合球隊數據處理,得到相關係數矩陣P值均<0.05,表明指標間存在較強相關性,可用因子分析進行精簡,KMO值為0.686,Bartlett球形檢驗顯著水平<0.0001,表明樣本個數充足,相關係數矩陣非單位陣,故可以實施因子分析,指標共同度表明,所有指標共同度均值>0.8,即表明公共因子的可解釋性強,因子分析球員素質的數據適用性較好,累計貢獻率如表2(因子貢獻率),可見主成分得到的前4個因子為綜合因子,提取了77.261%球員數據信息,因此提取前4個主因子。
公共因子與原有變量指標之間的關聯程度由因子載荷值體現,由於初始因子載荷矩陣結構不夠簡明,各個因子的含義不突出。為此採用方差最大法,使各個變量在某個因子上產生較高的載荷,而在其餘因子上載荷較小。經過6次綜合拜仁本賽季綜合數據迭代收斂,得到旋轉後因子載荷矩陣,如表3(旋轉前後因子載荷矩陣)。
表3中第一個公共因子F1在X5(助攻),X8(傳中),X12(被侵犯),X13(關鍵傳球)這4個變量上的載荷值都比較大,上述指標是進攻型中場球員的核心指標,表示球員在進攻中的輔助水平,將其命名為進攻輔助因子。第一個公共因子對全部初始變量的方差貢獻率為34.055%,是符合拜仁戰術進攻效果的重點考慮方面。
第二個公共因子F2在X3(總進球),X6(射門),X10(越位)這3個變量上的載荷值比較大,上述指標是前鋒球員的核心指標,表示球員在進攻中的能力,將其命名為進攻因子。第二個公共因子對全部初始變量的方差貢獻率25.158%,是符合弗裡克對球員位置安排方面的重點考慮。
第三個公共因子F3在X2(出場時間),X7(傳球),X9(搶斷),X14(解圍)這4個變量上的載荷值比較大,上述指標是防守球員的核心指標,表示球員的攔截和防守能力,將其命名為防守攔截因子。第三個公共因子對全部開始變量的方差貢獻率為10.689%,為次重點考慮方面,主要原因是拜仁的高位逼搶戰術幾乎平均於每個位置。
第四個公共因子F4在X1(身高),X4(黃牌),X11(犯規)這3個變量的載荷值比較大,上述指標為球員身體與比賽風格的核心指標。表示球員在比賽中的踢球習慣與風格,將其命名為風格因子。第四個公共因子對全部開始變量的方差貢獻率為7.359%,為最後考慮方面。畢竟,拜仁不是弱隊,戰術犯規在弗裡克接手後絕大多數時間內幾乎無用。
通過因子分析,將14個指標變量降維成4個公共因子,如表4(因子命名結果)所示:
根據因子載荷矩陣寫出F1,F2,F3的因子得分表達式為:
F1=-0.678X1+0.266X2+0.134X3-0.406X4+0.735X5+0.477X6+0.417X7+0.878X8-0.199X9+0,.025X10-0.150X11+0.562X12+0.900X13-0.587X14;
F2=-0.048X1-0.001X2+0.921X3-0.359X4+0.322X5+0.760X6-0.351X7+0.029X8-0.365X9+0.843X10+0.181X11-0.095X12+0.246X13-0.227X14;
F3=0.088X1+0.928X2-0.188X3-0.062X4+0.166X5-0.096X6+0.730X7+0.120X8+0.734X
9-0.286X10+0.017X11+0.357X12+0.143X13+0.554X14;
F4=0.208X1-0.017X2-0.062X3+0.627X4-0.085X5-0.035X6-0.034X7-0.054X8+0.112X9
+0.093X10+0.856X11+0.538X12-0.082X13+0.083X14;
最後由各個因子方差貢獻率佔4個因子方差貢獻率的比重作為權重進行加權匯總,得到各個球員的綜合得分F,即:
F=(28.275×F1+19.861×F2+18.344×F3+10.781×F4)/77.261
因子分析結論
代入各式子,得到各個球員的綜合評價的指標F的得分,以這個綜合得分大小排序,就可以得到球員適合拜仁的素質排名,如表5(素質因子得分,排名結果):
根據各個球員的因子得分,排名結果得出以下結論:
上表中4個公共因子得分和因子綜合得分越大,說明球員的助攻能力,得分能力,防守能力和風格優勢越高,綜合競爭越強。從綜合得分看來,哈弗茨、範德貝克、布羅佐維奇、烏帕梅卡諾這4名球員在平均水平之上,其他在平均水平之下。結合拜仁現有陣型配置考慮,範德貝克應該是最適合拜仁引援對象。(註:本文不進行聚類分析)
通過指標特徵,利用matlab軟體在因子分析的基礎上選擇標準歐氏距離(內平均法)作分析。拜仁三個位置分類的引援順序分別是:中場:布羅佐維奇,託納利,維納爾杜姆,凱塔,格魯伊奇;邊後衛:德斯特,阿隆斯,貝萊林;邊鋒:德佩,扎哈,卡馬文加,馬拉約爾。兩位在拜仁《轉會市場》列表上的無名小將希基和喬-魯特沒有一線隊引進價值。而通過因子分析結果,將球員分為 3 個層次。第一個層次的四名球員因子得分在 1.15289——0.22118;第二個層次的因子得分在 1.04285——0.01186;第三個層次的因子得分在-0.20559—— -0.90669。通過因子分析結果可知,各個球員的素質是拜仁發展的重要指標,上述排名結果表明,助攻型中場球員對拜仁貢獻作用明顯。
當然,我們也必須指出,球員對應球隊所形成的數據結果,絕不可以一概而論的轉化到其他球隊。筆者非數據統計專業人士,有所紕漏也是在所難免。同樣,相信還記得十年前貝尼特斯在利物浦排首發故事的球迷,都知道全靠大數據是不可信的。但從僅供參考的角度,作為普通球迷的我們,可以列入自己「鍾意對象」進行計算,也是可以適用於任何人主隊的。在國際足壇,這也是很多球隊助教幫助主教練考察球員的參考方式之一。
題外話:無論如何,拜仁至少應該滿足弗裡克基本的引援要求。