摘 要: 運用數據爬取工具對B站遊戲排行榜單進行爬取,針對遊戲評分的影響因素提出假設並建立模型,通過頻數分析和回歸分析分別對熱度榜,B指榜,期待榜數據進行分析後建立回歸方程。
關鍵詞: 數據挖掘;統計分析;遊戲排行
1. 課題背景
1.1國產遊戲發展現狀和問題
中國遊戲市場受益於國內電信設施的全面鋪開,經歷了之前十年的爆發式增長期與遊戲商業模式創新期。2019年,遊戲市場整體競爭越來越激烈。國內遊戲行業用戶的規模進入穩定發展之階段,2019年較上年僅增加 0.1 億人,同比增長2.5%,其增長速度增速明顯放緩。以國內遊戲行業當前的整體現狀來看,頭部企業的競爭激烈,騰訊及網易成為我國遊戲產業雙雄,且其優勢呈現出滾雪球式地增長趨勢,主要是得益於這兩家企業已有的優勢地位及上市過程中積累的大量資金。遊戲行業的高額利潤使得產業內競爭非常激烈,各廠商與同行業對手陸續在遊戲設計、服務創新、產品創新以及營銷投放上競爭。我國遊戲市場的進入壁壘很高,嚴重限制了新廠商的參加以及老廠商的退場。昂貴的研發成本讓各家遊戲廠商在追逐高額利潤的過程中付出了高額的資金成本,因此產生了資金壁壘,限制了有創新能力的小型廠商進入,阻礙了充分競爭,行業內部難以注入新鮮血液,對尚不成熟的國內遊戲市場的發展造成了不利影響。1.2研究動機
B站作為內容廣度包含 ACG 文化、多種亞文化、泛二次元文化和三次元主流文化等多種文化交融的年輕人社區,它擁有著眾多類別的業務板塊,其早在2013年就開設了遊戲中心,2018年與日本GREE社合作成立公司開展手遊業務。B站在遊戲方面的策略,不像常規公司自己製作遊戲,自己發行,而是以遊戲內容聯結用戶,根據每款遊戲的特性向特定用戶進行內容定製,從而滿足用戶的多元需求。最知名的例子即為2016 年遊戲 Fate/Grand Order,它作為 B 站遊戲尷尬處境的破局者,拉開了B站遊戲發行策略變化的序幕,從專注發行二次元核心向遊戲,開始逐漸向更多泛二次元用戶擴散。作為涉足遊戲行業較早的一家網站,B站也擁有著自己的網遊和遊戲社區,本研究主要針對現階段B站遊戲板塊排行榜的數據分析國產遊戲的排行與地位。本文將通過數據挖掘工具以及計量方法對榜單上各遊戲數據進行統計分析,總結變量並找出一些重要變量之間的關係,作出模型並驗證假設找出更受喜愛的遊戲類型。2.數據獲取與預處理
2.1數據收集
遊戲排行榜分為四類,分別是熱度榜,期待榜,口碑榜以及B指榜,通過使用爬蟲工具軟體——集搜客來定義規則爬取網頁數據,首先通過集搜客瀏覽器打開即將要爬取數據的網址,點擊上方「定義規則」,創建任務名稱查重後可以使用,新建整理箱用來存儲抓取內容。選擇第一塊區域作為第一個樣例複製映射,而後選擇第二塊作為第二個映射,點擊測試查看預爬取結果,之後點擊存規則和爬數據,在DS打數機中爬取該頁數據,如下圖所示:圖1 定義規則界面
在下載路徑查看導出的xml文件後回到任務管理中心導入,作為xls格式文件導出來。如此可收集到四個榜單的Excel數據表格,如下圖所示:圖2 初始數據
2.2 數據預處理
得到的四個榜單的數據已按相應的權重排序好不需要再做其餘的賦值,而其中有一些數據在分析中是用不到的,剔除冗餘數據後得到了四個統計分析用到的表格數據:表1 各榜單數據類別
對榜單上的標籤數據進行匯總,整理到txt中,在集搜客的分詞和分類檢索平臺導入數據,篩選詞語後得到選詞結果,生成有遊戲類別的詞雲圖如下:由此可見,在B站遊戲排行榜上角色扮演類網遊最受歡迎,其次是養成、策略與動作類,但這並不排除現處於熱門角色扮演類遊戲(如賽博朋克2077)剛上線階段。
3.實證分析
3.1 研究模型與假設
本文的研究目的包括驗證期待榜的預約人數對遊戲評分的影響以及B指榜的B站指數對遊戲評分的影響。針對以上研究目的,結合相關資料調查,本文提出個研究假設,並通過數據分析對假設進行檢驗。首先描述B指榜單上的遊戲數據,該榜單包括國產和國外等一系列近年來知名度較高的端遊和手遊,在榜共有49條有效數據,其中18條為國外遊戲,31條為國產遊戲。B站指數是根據該款遊戲在B站社區以及各板塊的討論熱度進行計算得到的數值,受遊戲時間熱度的影響,存在某些遊戲口碑評價兩極化而導致討論熱度上升的情況,並不能代表該類遊戲的評分隨著指數正相關變化。根據篩選詞語的結果可看出,角色扮演類遊戲居多且大部分都位於榜單上方,從總體上看,某些類型的遊戲更受玩家歡迎,遊戲類別對玩家對遊戲的評分具有一定影響。因此本文提出以下假設:H1:在B指榜單中,B站指數和遊戲評分有顯著相關性。具體來說,B指數綜合了熱度和口碑等不同的屬性,一方面在遊戲初始上線時討論話題度較高,玩家的期待值也較高,自然評分也隨著B指數上升。另一方面,在遊戲熱度沉澱一段時間後,玩家們對遊戲的態度逐漸穩定,也包括一些劇情類遊戲之後的發展導致玩家們的「反水」,從而出現大量低分,因此B指數和遊戲分數會發生相應變化。其次,期待榜單代表B站遊戲玩家對國產遊戲的期望值,有還未正式上線的國產遊戲的數據,包括遊戲預約人數和評分,遊戲評分由於是通過之前內測或體驗其他形式一些玩家提前接觸到遊戲而獲得的,因此只做參考。遊戲上線之前玩家通過了解遊戲內容類型以及玩法預先判斷是否符合自身興趣,從而得到初始期望值。而且預約人數的多少可能會對遊戲的評分產生影響,預約人數越多代表有更多的人想要或者已經體驗到這類遊戲,評分就更趨近於真實值。因此本文提出以下假設:H2:在期待榜單中,遊戲類型和預約人數作為影響因素對遊戲評分產生影響。遊戲類型是熱門類型,遊戲評分越高(H2a);遊戲預約人數越多,遊戲評分越低(H2b)。圖4 研究模型
3.2數據分析
將整理後的Excel表格導入到SPSS中進行以下分析:(1)熱度榜單遊戲類型的頻數分析。首先對熱度榜的50條數據的標籤進行頻數分析,觀察哪些遊戲類型更受歡迎。得到結果如下:表2 遊戲類型頻數表
圖5 頻數柱狀圖
由圖可知,熱度榜上排名前三的遊戲類型為:角色扮演,卡牌,養成。類型頻數是否會對遊戲評分和熱度產生影響需要後續分析。自變量「B站指數」和因變量「評分」的一元線性回歸方程為:y=8.127-0.327x,結果如下表所示:表3 一元線性回歸方程方差分析表
經方差分析 F = 5.645,P < 0.05,回歸方程較為顯著。B站指數對遊戲評分有負面影響,說明B站討論話題度越高,遊戲評價偏向負面可能性越大,即H1成立。自變量「預約人數」「標籤」和因變量「評分」的二元線性回歸方程為:y=8.948-0.472x_1+0.152x_2,結果如下表所示:表4 二元線性回歸方程方差分析表
4.結果與探討
通過以上分析結果可看出,國產遊戲在榜單上佔據著重要地位且話題熱度居高不下,然而國外遊戲帶給國產遊戲市場的衝擊力依然很強。如《賽博朋克2077》近些天來在各平臺話題熱度很高,B站相關視頻播放量已達到幾百萬,許多熱愛賽博朋克風格的遊戲玩家們對該款遊戲的期望值很高,以至於該遊戲截至數據獲取時位於期待榜單和B指榜單的首位。隨著越來越多人親身體驗到這款遊戲,口碑逐漸趨於兩極化,評分也從一開始高分接近於平均分數。經過分析還觀察到,那些上線時間很久且話題熱度越高的遊戲評分越低,如王者榮耀。這表明玩家對遊戲的熱愛度始終不減,儘管後期遊戲機制的改動更新與玩家希望的差別很大。再如榜單上更受歡迎的是一些特定類型的遊戲,其餘類型很難達到滿意度的突破。國產遊戲在國內仍然擁有很廣闊的市場,同時也給眾多遊戲運營商提供思考。本文在得出結果同時也存在著不足,一方面由於數據採集量不多而帶來一定分析的局限性,另一方面在統計分析的結果中沒有得到預先非常顯著的效應,可能是由於回歸分析用到的數據量不足以及分析方法的局限,而且還有諸多額外因素需要被考慮到,因此在未來的研究中希望有更全面更深層的分析結果。國產遊戲市場充斥著風險和機遇,優秀的網遊以及單機遊戲層出不窮,出海是近些年乃至未來一段時間中國遊戲行業的關鍵詞,特別是在被迫「內卷」中積攢了相當豐富的競爭經驗的國產遊戲,遊戲廠商應憑藉敏銳的洞察力、卓越的創新力與務實的執行力在行業中抓住機遇,打破「不出海就出局」的局面。通過利用優秀傳統文化紮根於本土市場,打造本土優勢IP,扶持中小遊戲企業,加強遊戲產業規模效應,加大專業人才培養力度,破除人才流動障礙,鼓勵遊戲人才流動,加強政府部門的指導與服務,通過科學的產業支持政策,開始為遊戲產業改進位度和加強宏觀指導與服務。希望越來越多的國產遊戲被市場以及資本所看好,逐漸湧現出更多優勢。
參考文獻:
[1] 甄家澤.中國遊戲產業發展研究[J].現代營銷,2020(11):222-223.
[2] 王志慧,王夢華,李森.基於亞馬遜連衣裙銷售策略的商務智能研究[J].市場周刊,2018(03):74-75.
[3] 賀伶俐.國產遊戲,契機與分野[J].產城,2020(11):80-81.
[4] 潘丹,熊江媛.基於逐步回歸方法下400米決賽成績的分析研究[J].湖北師範大學學報,2020,4(40):77-83.
註:本文為2020-21-1學期《商務智能技術與應用》結課作業。
更多請參考:
教學日記:商務智能課學習資料匯總篇(Python)
能動性學習教學方法探索與實踐--《商務智能》授課記錄與總結(2020)
其他作業
商務智能結課作業展示
其他相關資料
教學日記