日前,網易杭州研究院執行院長汪源應邀出席了在上海舉辦的WAW大會。面向近400位與會者,汪源首次深入解密了網易在大數據分析領域的發展歷程。
作為國內最早誕生的網際網路公司之一,網易在過去十餘年的產品研發、孵化和運維過程中,各個部門對數據有著不同且繁雜的需求。而如何把這些繁雜的需求用統一的手段來解決,網易在大數據分析方面同樣進行了十餘年的探索,並自去年開始通過「網易雲」將這些能力開放出來,推出了一系列面向B端企業客戶的雲服務產品。
從起步到整合,「平臺化」讓網易大數據分析進入全新階段
「如何梳理數據、處理數據、提高數據分析的效率,這是網易一直思考的問題。」為此,汪源將網易大數據分析之路劃分為的初步階段、起步階段和整合階段。
在2008年之前的初步階段中,網易和國內的大部分公司一樣,使用傳統的方法進行數據統計。2009和2010這兩年的起步階段可以說是網易大數據分析的「初體驗」,當然,這也與網易及國內整體網際網路行業的快速發展密切相關。據汪源介紹道,正是因為面對海量的業務數據,網易開始嘗試引入Hadoop等成熟的開源技術來解決數據存儲和計算的瓶頸。
從2011年開始,針對在前一階段中數據格式不規範、產品接入成本高、計算任務不穩定等突出問題,網易開始走上大數據分析的整合階段,其中最顯著的變化便是整合、規範各類採集機制、指標體系等等,將數據分析「工具化」,以適應產品、設計、運營和市場等不同場景。
在經歷全面整合的階段之後,「儘管將數據分析進行『工具化』,問題依舊無法全部解決,個性化的數據需求以及靈活的多維分析難以完全滿足,數據分析的「平臺化」開始被提出並讓網易的大數據分析進入了全新的階段。」汪源介紹說。
十年磨一劍,平臺化產品逐漸成型
2014年以來,網易開始加速大數據分析的平臺化發展,以提高數據獲取速度,提升數據分析效率,更快發揮數據價值。汪源在現場著重向與會人員介紹的「網易猛獁」與「網易有數」兩大數據分析平臺就是在這個階段逐漸成型的。
對於很多企業而言,大數據雖然看起來很美,卻又面臨著數據孤立,需求反饋周期長的問題。汪源介紹說,「網易猛獁大數據平臺可以實現從各種不同數據源提取數據,同步到內核存儲系統,同時對外提供便捷的操作體驗」。據悉,現在每天約有130億條數據進入網易猛獁平臺,經過數據建模和清洗,進行數據分析預測。
網易的另一大數據分析平臺,網易有數則可以極大簡化數據探索,提高數據可視化方面的效率,提供靈活報表製作等,以幫助分析師專注於自己的工作內容。此外,網易有數在二維空間通過綜合運用分區塊、顏色、大小等標識,展示多維數據,推動數據文化落地,有利於管理層和業務人員的自助分析。
未來設想:融合大數據處理平臺
在演講最後,汪源對未來大數據平臺進行了展望。他認為,從網易大數據分析發展歷程的第三階段開始,抽象數據的層次已經很高。進入第四個階段,網易希望能夠開發出更基礎的大數據處理平臺。
大數據分析面臨著各種挑戰,既有集成、計算和分析等老問題,同時也有新的挑戰,諸如數據量多樣性、數據類型多樣性、需求多樣性等等。面對這些問題,汪源對網易大數據分析平臺未來的解決方案做了設想:「回歸到計算機軟硬體設計的基礎,各類計算機應用場景,總線和組件的標準是統一的。從底層基礎開始,設計大數據平臺的數據集成、計算和分析,開發出融合大數據處理平臺,從而滿足未來遇到的各種個性化的數據分析需求。」
網易云:網易技術服務能力的全面開放
從網易大數據發展的歷程來看,基於杭州研究院10年的技術積累,網易已經具備了成熟的網際網路產品技術體系,並且有力的支撐了網易雲音樂、雲課堂、易信、LOFTER、公開課等產品的發展。
汪源表示,網易雲將會把這些能力開放出來,提供給更多的用戶使用。比如網易易盾作為網易雲推出的極速智能反垃圾雲服務,其依託的便是網易的大數據和雲計算服務,提供文本過濾、圖片識別、語音分析、視頻檢測等服務,幫助企業和開發者實現對垃圾有害信息的實時過濾、精準攔截。
除了網易易盾,從去年開始,以網易技術服務能力的全面開放為初衷,網易雲還陸續發布了網易雲信(即時通訊雲服務)、網易七魚(全智能雲客服)、網易視頻雲、網易蜂巢(容器雲)、網易雲捕(質量跟蹤平臺)一系列的產品,並從研發雲、運營雲、運作雲的角度對雲服務進行了重新的劃分。不難想像,隨著網易在雲計算、大數據等方面的研發積累日漸成熟,將會有更多樣的雲服務出現。