數說足球:以拜仁為例 通過大數據模型分析引援契合度!

2020-11-30 李巴喬

國際足聯將本賽季的夏季轉會期延續到10月5日,可截止目前大多數歐洲豪門仍然沒有太大的消息,雖然這是受今年全球疫情影響,但是在所有普通球迷心中,每個夏季的焦點永遠都是球隊的引援動態。為此,我們不妨採用因子與聚類分析相結合的方法對豪門俱樂部的有意球員進行排序和分類,分析結果顯示各個球員差異明顯,試圖尋找各個球隊最適合引援的球員。

歐冠作為世界足球最高水平的比賽,基本可以明顯代表各個球員的能力與類型。因此,本文根據《轉會市場》等歐洲權威足球網站數據,對豪門意向球員在歐戰賽場及各自聯賽的數據進行採集,結合對各隊的綜合數據分析,找到符合各隊水平和特徵球員。

特別強調:

通過數據進行因子與聚類分析,找出各個球員的特徵,確實便於更好的定位球員在球隊中的位置,找到可以提高球隊競爭力的球員。但是,數據建模只有有限的參考價值,因為球員的個人因素如:球員國籍,球員醜聞,球員個人目標定位(或期望值),球員傷病史及嚴重程度等等,這些都是沒有參考數據的。但是,這些不可控因素,都會讓球員的轉會結果出現很大偏差,這也是建模最難的地方。雖然有參考價值,但是仍然會有很大的誤差空間。因此,統計的結果會有相對寬泛的誤差空間。

所以,本文以純能力和綜合數據為核心考量,球員轉會身價及年薪這些成本因素不作年化成本計算,大家可以從自己的主觀角度根據轉會新聞對此進行判斷。同樣,本文也不會對球員及所處球隊的競訓水平進行計算和參考,因為即便天賦再高的球員,長期和不在同一水平的球員一起訓練,也會導致與期望值有巨大偏差。

這樣的例子有很多,90年代西班牙最初被譽為「金童」的球員並非勞爾,而是畢爾巴鄂以忠誠著稱的格雷羅,但是堅決不離隊最終的結果也使他無法更上一層樓,最終淪為眾人。同樣,當初被眾多豪門搶購的特謝拉,初登中超的第一個賽季幾乎是帶著球隊和恆大爭冠的水平,最後也逐漸淪為普通中超球星。諸如此類還有很多,這些都屬於題外話。

下面,本文開始言歸正傳,不喜勿噴。

球員評價模型

1、指標體系的建立數據來源

球場上反映球員素質的因素繁多且複雜,對其進行研究時,首先要構建其指標體系,建立其指標體系應遵守完備性,綜合性,科學性,簡潔性,動態性和可操作性原則。本文採用綜合評價指標對拜仁轉會市場的9名有意向球員中8名(不包含佩裡西奇)、還有轉會市場上球迷們普遍關注的14名球員們的素質進行分析,依據whoscored等七家權威網站的數據,選取了12個具體指標的球員素質評價體系,這些指標包括:X1(身高),X2(出場時間),X3(總進球),X4(黃牌),X5(助攻),X6(射門),X7(傳球),X8(傳中),X9(搶斷),X10(越位),X11(犯規),X12(被侵犯),X13(關鍵傳球),X14(解圍)。

2、球員素質評價集成模型

因子分析是通過對原始數據相關係數內部結構的研究,將多個指標轉化為少量互相不相關且不可觀測的隨機變量(即因子),以提取原有指標的絕大部分的信息的統計方法。因子分析首先將原始數據標準化處理,建立相關係數矩陣並計算其特徵值和特徵向量,接著從中選擇特徵值大於等於1的特徵值個數為公共因子數,或者根據特徵值累計貢獻率大於80%來確定公共因子,求得正交或斜交因子載荷矩陣,最後計算公因子得分和綜合得分。

聚類分析是統計學所研究的「物以類聚」問題的一種方法,能夠將一批樣本數據(或變量)按照它們在性質上的親疏程度在沒有先驗知識的情況下自動進行分類。根據分類對象的不同,聚類分析分為R型和Q型兩種.R型聚類分析用於指標聚類,Q型聚類分析中度量數據之間的親疏程度沒有給定分類的標準,也沒有給出所有數據分成幾類,而要求比較客觀地從數據自身出發進行分類.類與類之間的親疏程度度量方法有最短距離法、最長距離法、中間距離法、重心法、類平均法、離差平方和法等。

本文首先採用因子分析對19個球員的素質進行分析,可以獲得19個球員素質各因子和綜合因子得分與排名。儘管從因子分析結果可以反映19名球員的素質排名的先後順序,但未能對其進行層次劃分。因此,本文通過Q型聚類進行分析進一步得到層次分類,在因子分析和聚類分析的基礎上,集成分析出球員素質結果。

因子分析過程

下面,我們以拜仁為例,結合拜仁本賽的綜合數據,參考的球員對象分別為拜仁《轉會市場》緋聞對象:阿倫-希基、貝萊林、布羅佐維奇、卡馬文加、扎哈、喬爾吉尼奧·魯特、德斯特、阿隆斯(特別提醒:拜仁已經宣布不會買斷佩裡西奇),加上今夏深陷轉會市場已轉會或仍未轉會的參考球員:哈弗茨、範德貝克、託納利、德佩、蘇亞雷斯、維納爾杜姆、烏帕梅卡諾、凱塔、希克、格魯伊奇、馬拉約爾、希克。參考對象不只局限於拜仁目標引進的邊鋒、中場、右邊後衛,無傳聞和已轉會對象僅因數據提取作為參考。

本文使用的是spss軟體作為統計分析軟體工具,調用spss中因子分析程序對14個指標的原始數據進行標準化處理,並得到各指標之間的相關係數矩陣R(表1:相關性矩陣)。

(相關性矩陣)

通過結合球隊數據處理,得到相關係數矩陣P值均<0.05,表明指標間存在較強相關性,可用因子分析進行精簡,KMO值為0.686,Bartlett球形檢驗顯著水平<0.0001,表明樣本個數充足,相關係數矩陣非單位陣,故可以實施因子分析,指標共同度表明,所有指標共同度均值>0.8,即表明公共因子的可解釋性強,因子分析球員素質的數據適用性較好,累計貢獻率如表2(因子貢獻率),可見主成分得到的前4個因子為綜合因子,提取了77.261%球員數據信息,因此提取前4個主因子。

(因子貢獻率)

公共因子與原有變量指標之間的關聯程度由因子載荷值體現,由於初始因子載荷矩陣結構不夠簡明,各個因子的含義不突出。為此採用方差最大法,使各個變量在某個因子上產生較高的載荷,而在其餘因子上載荷較小。經過6次綜合拜仁本賽季綜合數據迭代收斂,得到旋轉後因子載荷矩陣,如表3(旋轉前後因子載荷矩陣)。

(旋轉前後因子載荷矩陣)

表3中第一個公共因子F1在X5(助攻),X8(傳中),X12(被侵犯),X13(關鍵傳球)這4個變量上的載荷值都比較大,上述指標是進攻型中場球員的核心指標,表示球員在進攻中的輔助水平,將其命名為進攻輔助因子。第一個公共因子對全部初始變量的方差貢獻率為34.055%,是符合拜仁戰術進攻效果的重點考慮方面。

第二個公共因子F2在X3(總進球),X6(射門),X10(越位)這3個變量上的載荷值比較大,上述指標是前鋒球員的核心指標,表示球員在進攻中的能力,將其命名為進攻因子。第二個公共因子對全部初始變量的方差貢獻率25.158%,是符合弗裡克對球員位置安排方面的重點考慮。

第三個公共因子F3在X2(出場時間),X7(傳球),X9(搶斷),X14(解圍)這4個變量上的載荷值比較大,上述指標是防守球員的核心指標,表示球員的攔截和防守能力,將其命名為防守攔截因子。第三個公共因子對全部開始變量的方差貢獻率為10.689%,為次重點考慮方面,主要原因是拜仁的高位逼搶戰術幾乎平均於每個位置。

第四個公共因子F4在X1(身高),X4(黃牌),X11(犯規)這3個變量的載荷值比較大,上述指標為球員身體與比賽風格的核心指標。表示球員在比賽中的踢球習慣與風格,將其命名為風格因子。第四個公共因子對全部開始變量的方差貢獻率為7.359%,為最後考慮方面。畢竟,拜仁不是弱隊,戰術犯規在弗裡克接手後絕大多數時間內幾乎無用。

通過因子分析,將14個指標變量降維成4個公共因子,如表4(因子命名結果)所示:

(因子命名結果)

根據因子載荷矩陣寫出F1,F2,F3的因子得分表達式為:

F1=-0.678X1+0.266X2+0.134X3-0.406X4+0.735X5+0.477X6+0.417X7+0.878X8-0.199X9+0,.025X10-0.150X11+0.562X12+0.900X13-0.587X14;

F2=-0.048X1-0.001X2+0.921X3-0.359X4+0.322X5+0.760X6-0.351X7+0.029X8-0.365X9+0.843X10+0.181X11-0.095X12+0.246X13-0.227X14;

F3=0.088X1+0.928X2-0.188X3-0.062X4+0.166X5-0.096X6+0.730X7+0.120X8+0.734X

9-0.286X10+0.017X11+0.357X12+0.143X13+0.554X14;

F4=0.208X1-0.017X2-0.062X3+0.627X4-0.085X5-0.035X6-0.034X7-0.054X8+0.112X9

+0.093X10+0.856X11+0.538X12-0.082X13+0.083X14;

最後由各個因子方差貢獻率佔4個因子方差貢獻率的比重作為權重進行加權匯總,得到各個球員的綜合得分F,即:

F=(28.275×F1+19.861×F2+18.344×F3+10.781×F4)/77.261

因子分析結論

代入各式子,得到各個球員的綜合評價的指標F的得分,以這個綜合得分大小排序,就可以得到球員適合拜仁的素質排名,如表5(素質因子得分,排名結果):

(素質因子得分,排名結果)

根據各個球員的因子得分,排名結果得出以下結論:

上表中4個公共因子得分和因子綜合得分越大,說明球員的助攻能力,得分能力,防守能力和風格優勢越高,綜合競爭越強。從綜合得分看來,哈弗茨、範德貝克、布羅佐維奇、烏帕梅卡諾這4名球員在平均水平之上,其他在平均水平之下。結合拜仁現有陣型配置考慮,範德貝克應該是最適合拜仁引援對象。(註:本文不進行聚類分析)

通過指標特徵,利用matlab軟體在因子分析的基礎上選擇標準歐氏距離(內平均法)作分析。拜仁三個位置分類的引援順序分別是:中場:布羅佐維奇,託納利,維納爾杜姆,凱塔,格魯伊奇;邊後衛:德斯特,阿隆斯,貝萊林;邊鋒:德佩,扎哈,卡馬文加,馬拉約爾。兩位在拜仁《轉會市場》列表上的無名小將希基和喬-魯特沒有一線隊引進價值。而通過因子分析結果,將球員分為 3 個層次。第一個層次的四名球員因子得分在 1.15289——0.22118;第二個層次的因子得分在 1.04285——0.01186;第三個層次的因子得分在-0.20559—— -0.90669。通過因子分析結果可知,各個球員的素質是拜仁發展的重要指標,上述排名結果表明,助攻型中場球員對拜仁貢獻作用明顯。

當然,我們也必須指出,球員對應球隊所形成的數據結果,絕不可以一概而論的轉化到其他球隊。筆者非數據統計專業人士,有所紕漏也是在所難免。同樣,相信還記得十年前貝尼特斯在利物浦排首發故事的球迷,都知道全靠大數據是不可信的。但從僅供參考的角度,作為普通球迷的我們,可以列入自己「鍾意對象」進行計算,也是可以適用於任何人主隊的。在國際足壇,這也是很多球隊助教幫助主教練考察球員的參考方式之一。

題外話:無論如何,拜仁至少應該滿足弗裡克基本的引援要求。

相關焦點

  • AI足球大數據爬蟲分析(golang)
    項目地址https://gitee.com/aoe5188/foot 項目簡介 foot-parent 是一個集足球數據採集器,簡單分析的項目. 程序採用golang開發,項目模塊化結構清晰完整,非常容易入手並進行二次開發分析. AI球探為程序全自動處理,全程無人為參與幹預足球分析預測程序.
  • 巴薩引援又落空!德甲強力中衛做出未來選擇:今夏願加盟拜仁
    據法國媒體「足球市場」以及《隊報》聯合消息,RB萊比錫的法國中衛烏帕梅卡諾是今夏轉會市場的紅人,包括巴薩、阿森納、拜仁等多家豪門都對烏帕表達意向,而烏帕本人也做出了自己的選擇,那就是加盟拜仁。而據《Foot Mercato》消息稱,烏帕梅卡諾傾向於留在德國發展,拜仁自然而然就成為了最好的下家。《Foot Mercato》表示,儘管有多家歐洲頂級俱樂部表達了興趣,但烏帕梅卡諾更希望留在德國,加盟拜仁。烏帕梅卡諾已經向在拜仁效力的法國球員進行了諮詢,科曼則當起了遊說先鋒官的角色,盡力說服前者加盟球隊。
  • 盤點巴薩近年五大失敗引援,庫鳥領銜,「香球王」「戈球王」在列
    梅西和阿比達爾爆發口水戰其實自從巴託梅烏成為巴薩主席之後,巴薩的商業價值得到了不斷的開發,球隊市值和利潤也是不斷上升,但是回歸到足球方面,巴薩高層的一些做法尤其是引援操作卻很讓人摸不著頭腦。尤其是自從內馬爾離隊之後,巴薩開始在轉會市場就開啟了「剁手模式」,不斷地籤下球員,球員轉會費也是水漲船高,像是1.6億籤下庫蒂尼奧、1.25億籤下登貝萊、1.2億籤下格裡茲曼等等,但是近年巴薩的引援卻沒有幾筆稱得上是成功引援。
  • 一文看懂德甲夏窗引援:投入五大聯賽最少 中超舊將或成最佳
    不過提前半年就確定引進的格雷茨卡由沙爾克04零價來投,其實這理應是一筆6000-8000萬級的交易,但拜仁方面通過聰明的運營省下了一大筆轉會費。再就是拜仁從MLS溫哥華白帽挖來加拿大天才邊鋒阿方索-戴維斯,不過球員要幫助溫哥華白帽打完2018賽季,2019年初才會正式加盟拜仁。也就是說,截至目前拜仁夏窗投入只有1000萬歐元,不過他們撈到至少7000萬級的新援。
  • 數極客新版發布,已擁有15種用戶行為數據分析模型
    作為行業領先的用戶行為分析廠商,數極客也在傾力踐行增長黑客和數據驅動增長策略,在同業其他廠商花費數萬元獲取一個付費客戶時,數極客用不到友商1%的成本獲得大量客戶,這也使得數極客可以為客戶提供更高性價比的產品。數極客通過專業的數據驅動增長和數據分析師團隊提供深入諮詢和培訓服務,幫助客戶完成在線開通服務,達成數據驅動增長目標。
  • 「德甲」賽事分析:霍芬海姆vs拜仁慕尼黑
    聯賽:德甲比賽隊伍:霍芬海姆vs拜仁慕尼黑比賽時間:9-27 21:30北京時間9月27號21點30分,德甲第二輪將迎來「南部之星」拜仁慕尼黑的精彩比賽,拜仁將客場挑戰霍芬海姆,本場賽事拜仁還能輕鬆擊敗對手在連勝之路一路高歌嗎?
  • 從英國足球的發展歷史看職業足球俱樂部所有制的衍生
    以歐洲55個會員國家或地區的頂級聯賽俱樂部為例,我們根據歐足聯2018-19賽季的官方數據,就公司化的比例,分析得出下表:那可能有人說,這是歐洲才有的問題。還是看數據。根據國際足聯、CIES和我們調研的情況,還有很多驚奇的發現。如來自南美的巴西、阿根廷的所有的職業俱樂部都姓「公」。(下圖為阿根廷河床)。
  • 弗格森坦言曼聯籤他是災難,拜仁出道卻接過小貝戰袍,丟車也離奇
    相信對英格蘭足球稍有了解的朋友,應該都不難發現一個頗為獨特的現象。大凡英格蘭的頂級球員,少有投奔德甲聯賽的先例。而他,也談不上是投奔,乾脆就是在拜仁慕尼黑青訓營中出道的。偏偏此人身上的故事極多,拜仁出道卻接過小貝戰袍,弗格森坦言曼聯籤他是災難,丟車也離奇:哈格裡夫斯的父母都是英國人,但是因為其在加拿大出身的緣故,所以他擁有著雙重國籍,為他日後有資格代表英格蘭國家隊出戰埋下了伏筆。而在他17歲那年,他就離開了加拿大,加入了德甲班霸拜仁慕尼黑的青訓營。
  • 什麼是數據分析的漏鬥模型?
    漏鬥模型,不僅僅是一個模型,更是一種可以普遍適用的方法論,或者說是一種思維方式。本文主要談談漏鬥模型的本質、漏鬥模型案例分析以及如何繪製漏鬥模型。漏鬥模型關於漏鬥模型,我認為本質是分解和量化。為什麼這麼說,這裡以營銷漏鬥模型舉慄。
  • 羅馬體育總監蒙奇在意甲的引援策略為什麼會失敗
    本文我們將試圖通過分析對比蒙奇在羅馬和塞維亞的引援策略來找出他在意甲失敗的原因。蒙奇是如何進行球員招募的在數據分析之前,我們先設定一些假設條件:當一個球員被租借出去然後被永久性地籤下時,我們會把它看作是永久性的轉會,並把租借費和轉會費的總價作為最終的轉會價格。當我們統計每個球員上場時間的百分比時所涉及到的比賽僅為聯賽。
  • DOT模型助力大數據分析軟體開發
    本次大會以「海量數據掘寶」為主題,吸引了來自世界各地的一千餘名關注Hadoop的專家、開發者和使用者。【點擊查看IT168視頻直播專題】  本次大會上,美國俄亥俄州立大學計算機科學與工程系系主任張曉東老師介紹了用於開發大數據分析軟體的DOT開發模型,IT168記者就此進行採訪。
  • 坦言拜仁不一定能戰勝巴薩
    這其中蘇亞雷斯就表示巴薩那天的狀態並不好,拜仁的狀態很出色,由於新的規則兩個隊都在適應,然而拜仁顯然是更加適應的一方,他們配得上勝利,蘇亞雷斯還表示如果是雙回合的比賽那麼巴薩不一定會被拜仁淘汰,然而一切都過去了。
  • OB體育大數據足球籃球賽事數據_API接口調用-體育大數據
    比分數據OB體育 針對直播賽事提供比賽基礎數據,比分更新速度優於電視直播。合作方可通過此版塊數據為平臺的球迷提供實時賽況賽果播報。即時數據提供全球超過 1000 個賽事的即時比分、半場/完場比分、賽程/賽果列表等實效性高的數據項目。
  • 統計與數據科學方差分析簡介(以疫情為例)
    基本上,ANOVA是通過比較兩種類型的變異,即樣本均值之間的變化以及每個樣本內部的變化來實現的。下面的公式表示單向Anova測試統計數據.方差分析公式F統計量(也稱為F比)的結果允許對多組數據進行分析,以確定樣本之間和樣本內部的差異。
  • 董希淼:大數據能為宏觀經濟分析做什麼
    來源:證券日報我們正身處大數據時代。基於研究的視角,大數據時代不但大大地拓寬了信息來源,而且提高了獲取信息的時效性,為宏觀經濟分析提供強大的支持,或將改變宏觀經濟研究範式。宏觀經濟研究的基礎是真實可靠的數據,如何提升統計數據的準確性和時效性是全世界面臨的共同難題。以人口統計為例,我國現行的人口統計調查方法體系是以經常性的人口抽樣調查為主體,以人口普查為基礎,重點調查等為補充的多種方法的運用。
  • 講真的,萊萬獲得金球獎比拜仁獲得歐冠的意義都要大
    第六座世界足球先生、金球獎以及金靴獎,而在這一年,梅西也正好是32歲的年齡。可到了今年之時,聯賽的掉隊導致皇馬超車奪冠,歐冠無論是對陣那不勒斯還是在可能晉級之後要面對的拜仁或切爾西,似乎對於梅西的巴薩來講都非易事。因此,可以更加肯定的說,想要爭奪第七座金球獎的梅西,錯失了今年之後,以後的難度也會越來越大了!!!
  • 歐冠大巴黎拜仁會師決賽 子彈哥神預言兩場3球完勝
    買橘時刻,子彈哥又雙叒叕精準預見拜仁穿盤!收米路上我和你,什麼才算是驚喜?給眾星友翻譯翻譯:驚喜就是歐冠半決賽兩場一模一樣的比分,子彈哥歐冠前瞻大巴黎完勝之後,昨晚在直播間再放大招,送上021競彩『讓負』真香定律!
  • 常見的大數據分析模型有哪些
    提到數據分析,肯定要提到數據分析模型,在進行數據分析之前,先搭建數據分析模型,根據模型中的內容,具體細分到不同的數據指標進行細化分析,最終得到想要的分析結果或結論。
  • 後防支柱拜仁送
    後防支柱拜仁送 北京時間1月9日,西班牙媒體《阿斯報》分析預測了皇馬在2022年可能會組成的豪華陣容。其中,姆巴佩、哈蘭德和卡馬文加等天才球星悉數在列。
  • 如何用線性回歸模型做數據分析?
    編輯導語:在日常工作中,很多時候都會用到數據分析的方法,線性回歸模型看起來非常簡單,但實際上它的十分重要;本文作者分享了關於如何用線性回歸模型做數據分析的方法,我們一起來學習一下。