基於數據挖掘的B站國產遊戲排行分析

2021-02-15 用數說

摘 要: 運用數據爬取工具對B站遊戲排行榜單進行爬取,針對遊戲評分的影響因素提出假設並建立模型,通過頻數分析和回歸分析分別對熱度榜,B指榜,期待榜數據進行分析後建立回歸方程。

關鍵詞: 數據挖掘;統計分析;遊戲排行

1. 課題背景

1.1國產遊戲發展現狀和問題

中國遊戲市場受益於國內電信設施的全面鋪開,經歷了之前十年的爆發式增長期與遊戲商業模式創新期。2019年,遊戲市場整體競爭越來越激烈。國內遊戲行業用戶的規模進入穩定發展之階段,2019年較上年僅增加 0.1 億人,同比增長2.5%,其增長速度增速明顯放緩。以國內遊戲行業當前的整體現狀來看,頭部企業的競爭激烈,騰訊及網易成為我國遊戲產業雙雄,且其優勢呈現出滾雪球式地增長趨勢,主要是得益於這兩家企業已有的優勢地位及上市過程中積累的大量資金。遊戲行業的高額利潤使得產業內競爭非常激烈,各廠商與同行業對手陸續在遊戲設計、服務創新、產品創新以及營銷投放上競爭。我國遊戲市場的進入壁壘很高,嚴重限制了新廠商的參加以及老廠商的退場。昂貴的研發成本讓各家遊戲廠商在追逐高額利潤的過程中付出了高額的資金成本,因此產生了資金壁壘,限制了有創新能力的小型廠商進入,阻礙了充分競爭,行業內部難以注入新鮮血液,對尚不成熟的國內遊戲市場的發展造成了不利影響。

1.2研究動機

B站作為內容廣度包含 ACG 文化、多種亞文化、泛二次元文化和三次元主流文化等多種文化交融的年輕人社區,它擁有著眾多類別的業務板塊,其早在2013年就開設了遊戲中心,2018年與日本GREE社合作成立公司開展手遊業務。B站在遊戲方面的策略,不像常規公司自己製作遊戲,自己發行,而是以遊戲內容聯結用戶,根據每款遊戲的特性向特定用戶進行內容定製,從而滿足用戶的多元需求。最知名的例子即為2016 年遊戲 Fate/Grand Order,它作為 B 站遊戲尷尬處境的破局者,拉開了B站遊戲發行策略變化的序幕,從專注發行二次元核心向遊戲,開始逐漸向更多泛二次元用戶擴散。作為涉足遊戲行業較早的一家網站,B站也擁有著自己的網遊和遊戲社區,本研究主要針對現階段B站遊戲板塊排行榜的數據分析國產遊戲的排行與地位。本文將通過數據挖掘工具以及計量方法對榜單上各遊戲數據進行統計分析,總結變量並找出一些重要變量之間的關係,作出模型並驗證假設找出更受喜愛的遊戲類型。

2.數據獲取與預處理

2.1數據收集

遊戲排行榜分為四類,分別是熱度榜,期待榜,口碑榜以及B指榜,通過使用爬蟲工具軟體——集搜客來定義規則爬取網頁數據,首先通過集搜客瀏覽器打開即將要爬取數據的網址,點擊上方「定義規則」,創建任務名稱查重後可以使用,新建整理箱用來存儲抓取內容。選擇第一塊區域作為第一個樣例複製映射,而後選擇第二塊作為第二個映射,點擊測試查看預爬取結果,之後點擊存規則和爬數據,在DS打數機中爬取該頁數據,如下圖所示:

圖1 定義規則界面

在下載路徑查看導出的xml文件後回到任務管理中心導入,作為xls格式文件導出來。如此可收集到四個榜單的Excel數據表格,如下圖所示:

圖2 初始數據

2.2 數據預處理

得到的四個榜單的數據已按相應的權重排序好不需要再做其餘的賦值,而其中有一些數據在分析中是用不到的,剔除冗餘數據後得到了四個統計分析用到的表格數據:

表1 各榜單數據類別

對榜單上的標籤數據進行匯總,整理到txt中,在集搜客的分詞和分類檢索平臺導入數據,篩選詞語後得到選詞結果,生成有遊戲類別的詞雲圖如下:

由此可見,在B站遊戲排行榜上角色扮演類網遊最受歡迎,其次是養成、策略與動作類,但這並不排除現處於熱門角色扮演類遊戲(如賽博朋克2077)剛上線階段。

3.實證分析

3.1 研究模型與假設

本文的研究目的包括驗證期待榜的預約人數對遊戲評分的影響以及B指榜的B站指數對遊戲評分的影響。針對以上研究目的,結合相關資料調查,本文提出個研究假設,並通過數據分析對假設進行檢驗。首先描述B指榜單上的遊戲數據,該榜單包括國產和國外等一系列近年來知名度較高的端遊和手遊,在榜共有49條有效數據,其中18條為國外遊戲,31條為國產遊戲。B站指數是根據該款遊戲在B站社區以及各板塊的討論熱度進行計算得到的數值,受遊戲時間熱度的影響,存在某些遊戲口碑評價兩極化而導致討論熱度上升的情況,並不能代表該類遊戲的評分隨著指數正相關變化。根據篩選詞語的結果可看出,角色扮演類遊戲居多且大部分都位於榜單上方,從總體上看,某些類型的遊戲更受玩家歡迎,遊戲類別對玩家對遊戲的評分具有一定影響。因此本文提出以下假設:H1:在B指榜單中,B站指數和遊戲評分有顯著相關性。具體來說,B指數綜合了熱度和口碑等不同的屬性,一方面在遊戲初始上線時討論話題度較高,玩家的期待值也較高,自然評分也隨著B指數上升。另一方面,在遊戲熱度沉澱一段時間後,玩家們對遊戲的態度逐漸穩定,也包括一些劇情類遊戲之後的發展導致玩家們的「反水」,從而出現大量低分,因此B指數和遊戲分數會發生相應變化。其次,期待榜單代表B站遊戲玩家對國產遊戲的期望值,有還未正式上線的國產遊戲的數據,包括遊戲預約人數和評分,遊戲評分由於是通過之前內測或體驗其他形式一些玩家提前接觸到遊戲而獲得的,因此只做參考。遊戲上線之前玩家通過了解遊戲內容類型以及玩法預先判斷是否符合自身興趣,從而得到初始期望值。而且預約人數的多少可能會對遊戲的評分產生影響,預約人數越多代表有更多的人想要或者已經體驗到這類遊戲,評分就更趨近於真實值。因此本文提出以下假設:H2:在期待榜單中,遊戲類型和預約人數作為影響因素對遊戲評分產生影響。遊戲類型是熱門類型,遊戲評分越高(H2a);遊戲預約人數越多,遊戲評分越低(H2b)。

圖4 研究模型

3.2數據分析

將整理後的Excel表格導入到SPSS中進行以下分析:(1)熱度榜單遊戲類型的頻數分析。首先對熱度榜的50條數據的標籤進行頻數分析,觀察哪些遊戲類型更受歡迎。得到結果如下:

表2 遊戲類型頻數表

圖5 頻數柱狀圖

由圖可知,熱度榜上排名前三的遊戲類型為:角色扮演,卡牌,養成。類型頻數是否會對遊戲評分和熱度產生影響需要後續分析。自變量「B站指數」和因變量「評分」的一元線性回歸方程為:y=8.127-0.327x,結果如下表所示:

表3 一元線性回歸方程方差分析表

經方差分析 F = 5.645,P < 0.05,回歸方程較為顯著。B站指數對遊戲評分有負面影響,說明B站討論話題度越高,遊戲評價偏向負面可能性越大,即H1成立。自變量「預約人數」「標籤」和因變量「評分」的二元線性回歸方程為:y=8.948-0.472x_1+0.152x_2,結果如下表所示:

表4 二元線性回歸方程方差分析表

 

經方差分析 F = 9.146,P < 0.01,回歸方程非常顯著。未上線的遊戲類型對評分有正面影響,說明特定類型的遊戲明顯更受玩家歡迎;預約人數對遊戲評分有負面影響,說明預約的玩家對遊戲的期待值較高,而體驗到遊戲後實際情況和期望形成較大落差,從而有大量負面評價產生,即H2),H2b成立。

4.結果與探討

通過以上分析結果可看出,國產遊戲在榜單上佔據著重要地位且話題熱度居高不下,然而國外遊戲帶給國產遊戲市場的衝擊力依然很強。如《賽博朋克2077》近些天來在各平臺話題熱度很高,B站相關視頻播放量已達到幾百萬,許多熱愛賽博朋克風格的遊戲玩家們對該款遊戲的期望值很高,以至於該遊戲截至數據獲取時位於期待榜單和B指榜單的首位。隨著越來越多人親身體驗到這款遊戲,口碑逐漸趨於兩極化,評分也從一開始高分接近於平均分數。經過分析還觀察到,那些上線時間很久且話題熱度越高的遊戲評分越低,如王者榮耀。這表明玩家對遊戲的熱愛度始終不減,儘管後期遊戲機制的改動更新與玩家希望的差別很大。再如榜單上更受歡迎的是一些特定類型的遊戲,其餘類型很難達到滿意度的突破。國產遊戲在國內仍然擁有很廣闊的市場,同時也給眾多遊戲運營商提供思考。本文在得出結果同時也存在著不足,一方面由於數據採集量不多而帶來一定分析的局限性,另一方面在統計分析的結果中沒有得到預先非常顯著的效應,可能是由於回歸分析用到的數據量不足以及分析方法的局限,而且還有諸多額外因素需要被考慮到,因此在未來的研究中希望有更全面更深層的分析結果。國產遊戲市場充斥著風險和機遇,優秀的網遊以及單機遊戲層出不窮,出海是近些年乃至未來一段時間中國遊戲行業的關鍵詞,特別是在被迫「內卷」中積攢了相當豐富的競爭經驗的國產遊戲,遊戲廠商應憑藉敏銳的洞察力、卓越的創新力與務實的執行力在行業中抓住機遇,打破「不出海就出局」的局面。

通過利用優秀傳統文化紮根於本土市場,打造本土優勢IP,扶持中小遊戲企業,加強遊戲產業規模效應,加大專業人才培養力度,破除人才流動障礙,鼓勵遊戲人才流動,加強政府部門的指導與服務,通過科學的產業支持政策,開始為遊戲產業改進位度和加強宏觀指導與服務。希望越來越多的國產遊戲被市場以及資本所看好,逐漸湧現出更多優勢。

參考文獻:

[1] 甄家澤.中國遊戲產業發展研究[J].現代營銷,2020(11):222-223.

[2] 王志慧,王夢華,李森.基於亞馬遜連衣裙銷售策略的商務智能研究[J].市場周刊,2018(03):74-75.

[3] 賀伶俐.國產遊戲,契機與分野[J].產城,2020(11):80-81.

[4] 潘丹,熊江媛.基於逐步回歸方法下400米決賽成績的分析研究[J].湖北師範大學學報,2020,4(40):77-83.

註:本文為2020-21-1學期《商務智能技術與應用》結課作業。

更多請參考:

教學日記:商務智能課學習資料匯總篇(Python)

能動性學習教學方法探索與實踐--《商務智能》授課記錄與總結(2020)

其他作業

商務智能結課作業展示

其他相關資料

教學日記

相關焦點

  • 數據挖掘入門:校園數據的分析與挖掘
    方案簡介:在學生數據量劇增以及教育目標日趨複雜的情況下,僅用人工來分析學生數據是不現實的,藉助SPSS統計分析和數據挖掘工具對大量學生數據進行深層次分析,可以挖掘出學生各項數據中隱藏的重要信息。建議進行的數據挖掘主題如下:3.1.1、優質生源錄取的影響因素分析
  • 遊戲運營案例來深入淺出數據分析&挖掘
    這裡分享三個案例來說明:案例1:開寶箱活動分析案例2:兩次召回活動優化對比案例3:利用數據挖掘預測DAU收益數據分析&挖掘數據分析並非信手拈來的,數據分析是有其一定的框架可遵循的。同時,結合遊戲的付費數據,同期遊戲日均首日分別為300和240,可以看到第二期活動從營收上的確是要高於第一期活動的。我們剛剛看到召回活躍度的對比,召回玩家的活躍度是第二期更好的,從充值和資源消耗來說,也是第二期更好一些。分析到這裡的時候,我們其實基本可以下結論,第二期的召回活動效果是優於第二期召回活動的。
  • 基於代理IP的挖掘與分析
    關於代理IP的挖掘與分析,個人的一些分析與總結。1. 思路1、獲取代理地址2、對獲取的代理地址進行驗證,提取出真實可用的代理地址3、代理指紋的提取與自動化挖掘代理4、根據IP的相關信息進行排序:存活時間。存活時間較長的IP一般為固定的IP5、數據分析與利用 a.
  • 教育大數據:考核評價數據分析、挖掘與應用
    高校應建設基於大數據的教學分析與質量監控系統,在考核評價數據挖掘利用方面進行重點研究,開展精準化的學習診斷、分析和績效評估,進而對教育教學工作給予客觀科學的評價和指導。《教育大數據:考核評價數據分析、挖掘與應用》著者團隊長期致力於研究挖掘考核評價數據的深層價值,從一門課程、一個專業、一類群體、一所學校的視角,深入解析考核評價數據分析挖掘的系統設計、模型構建、算法驗證、拓展應用的全過程,旨在提供一些可操作、可移植、可推廣的典型應用案例。
  • 基於文本挖掘的學習分析應用研究
    目前,已有不少研究將文本挖掘引入教育領域中,輔助文本內容研究,實現面向學習者行為的文本數據挖掘,支持學習設計和評估反饋。在查閱國內外著名文獻資料資料庫基礎上,本文嘗試運用文獻分析法對基於文本挖掘的學習分析應用研究的現狀進行綜述和梳理,具體情況如下:對於國內研究,文獻分析的主要來源是「中國知網」學術文獻庫中的相關文獻。
  • 基於電子病歷(EMR)的大數據知識挖掘
    編輯導語:隨著網際網路的不斷發展,網際網路醫療信息化也不斷完善,如今電子病歷也已經廣泛運用了,用帳號進行登錄有助於病例的查找;本文作者分享了關於基於電子病歷(EMR)的大數據知識挖掘,我們一起來學習一下。
  • 一文理清:大數據、數據挖掘、數據分析、數理統計之間的關係
    基於大數據的數據分析方法的理論基礎是數據挖掘和分布式計算原理。大數據具有海量、快速、多樣化和有價值四個方面的重要特徵,其海量特性使得數據分析時不可能用單臺機器完成而是需要多臺機器同時運算,也就是所謂的分布式運算。
  • 基於SPSSMODELER軟體的數據挖掘培訓課程
    基於SPSSMODELER軟體的數據挖掘培訓課程如果你是傳統市場研究
  • 小叮噹數據挖掘(一):初識數據挖掘
    文本挖掘 (新聞組, email, 文檔資料)流數據挖掘(Stream data mining)IBM Surf-Aid 將數據挖掘算法用於有關交易的頁面的Web訪問日誌, 以發現顧客喜愛的頁面, 分析Web 銷售的效果
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • 曙光為企業深度挖掘數據資產提供分析平臺
    這導致數據中心無法對海量非結構化數據進行有效存儲、處理及分析,以及提供大數據環境下全訪問、全類型的數據存儲及處理服務和為企業數據資產深度分析挖掘提供數據支撐。為解決以上問題,曙光開發了基於大數據技術的全業務統一數據中心數據分析平臺,以充分發揮大數據技術在數據存儲、並行計算、大規模數據分析挖掘、線性擴展、全類型數據支撐等方面的優勢。
  • 數據分析和數據挖掘的區別——Smartbi
    但是某些數據對各自的企業是否有用,是否重要,這就需要判斷,這也就逐漸形成數據分析這個行業,但是初入數據行業的小白估計還不清楚數據分析和數據挖掘,Smartbi知道會有很多人混淆這兩者,所以現在就來為各位講講這兩者的區別。
  • 深入淺出:如何從0開始學習大數據挖掘分析?
    文章梳理了學習大數據挖掘分析的思路與步驟,給大家提供一些參考,希望能夠對你有所幫助。最近有很多人諮詢,想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據挖掘分析的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • 基於真實用戶評論的14本最佳數據挖掘書籍
    您不僅將學習如何改善業務利益相關者與數據科學家之間的溝通,而且還將學習如何智能地參與公司的數據科學項目。您還將發現如何分析數據,並充分理解數據科學方法如何支持業務決策。該指南還可以幫助您了解當今使用的許多數據挖掘技術。
  • 遊戲行業的大數據分析應用
    我做數據分析,和教數據分析的方法,是像遊戲策劃一樣理解遊戲,然後用excel分析。只要懂加減乘除,集合這些概念,最多用一點線性相關,和聚類分析。但是核心是懂遊戲。其中有一個我以前認識,多聊了兩句,他也覺得自己用建模,挖掘這樣的辦法,適合在有大量遊戲的公司,對所有遊戲做一些通用的東西,起到一些幫助(這件事的關鍵是遊戲項目組要有足夠的數據意識,否則沒法配合),而在單個遊戲的改進上,確實起不到多大作用。 數據挖掘之類的方法在遊戲項目中少有有效應用,核心原因還是單個遊戲都太小,用不起很專業的。
  • 2013年國產武俠類單機遊戲大作排行
    自從1995年7月10日,《仙劍奇俠傳DOS版》上市後,中國遊戲界開始掀起了國產武俠單機遊戲的熱潮,玩家們看到原來我們自己也可以製作出PC GAME,所以之後中國國產優秀武俠遊戲便層出不窮。
  • 分析數據預測未來?數據挖掘絕不是大公司的專利
    無偏見的去分析數據及推測結果 軟體會忠誠和自動的執行分析,即使發生以下兩種情況: 數據分析出的推論與專家預期相反 基於大量的觀察以及源數據推測出的結論遠低於專家期望 4.
  • 「大數據分析」深入淺出:如何從零開始學習大數據分析與挖掘
    最近有很多人想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據分析與挖掘的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • 乾貨 | 當前流行的教育數據挖掘與學習分析工具
    年來,為進行教育數據挖掘(EDM)、學習分析(LA)研究,國內外的研究者研發了大量的工具。本文將重點介紹一些對教育數據挖掘和學習分析感興趣的研究人員使用的最廣泛、最容易訪問和最強大的工具。首先是三種非常適合數據的操作、清理及創建的工具:Microsoft Excel、Google Sheets和EDM工作檯。接下來討論Python和SQL在編程中所扮演的角色。
  • 如何學習基於SPSS Modeler的數據挖掘
    什麼樣的數據、要透過什麼樣的方法,才能快速且實時的轉變成決策時有用的信息,是現代企業所面臨最迫切性的問題。數據挖掘(Data Mining)無疑是解決這些問題最有效的途徑。從現有的大量數據中,擷取不明顯、之前未知、可能有用的知識。