星環科技創始人兼CTO孫元浩
《三體》中,由於太陽系受到未知文明的打擊而降維消失,地球人類僅剩的最後兩人乘 「星環號」 曲率引擎驅動飛船離開太陽系,從而保存了地球文明。在2013年的上海,一幫研究大數據的專家攜手創辦了一家叫「星環」的公司,致力於在大數據時代打造一艘高速的航空母艦。這不是巧合,創始人兼CTO孫元浩正是因為讀了《三體》,才定下了這個名字。
星環科技的核心團隊來自於英特爾的研發團隊,是國內最早的大數據Apache Hadoop發行版團隊,從2009年起即開始致力於大數據平臺軟體的自主創新和開發;彼時,基於Apache Hadoop開源技術的數據管理及分析平臺提供商Cloudera剛成立一年,如今,Cloudera在「福布斯2016全球最佳雲計算公司100強」中排名第五。
國際舞臺新玩家
在「Gartner 2016年數據倉庫及數據管理解決方案魔力象限」中,星環科技登上最具遠見象限,且是唯一上榜的中國廠商。讓星環科技與與老大哥Cloudera並肩而立的功臣產品Transwarp Data Hub (TDH)是基於Apache Hadoop和Apache Spark的分布式內存分析引擎和實時在線大規模計算分析平臺。目前星環TDH已經在恆豐銀行等多個領域有替代傳統技術數據倉庫的落地案例。
2015年,星環科技的TDH4.0版本全面通過了TPC-DS 100T的99項測試。TPC-DS是TPC(事務處理性能委員會)評測決策支持系統的測試基準。這個測試集包含了對大數據集的統計、報表生成、聯機查詢、數據挖掘等複雜應用,與真實場景非常接近,是難度較大的一個測試集,也是目前業界公認的數據倉庫測試準則。到目前為止,能夠通過100T測試的廠商寥寥無幾。孫元浩介紹,TDH相比開源Hadoop版本有10~1000倍的性能提升,可以處理GB到PB級別的數據。
「星環號」之所以能帶著人類逃離太陽系,是因為其實現了超光速飛行;星環科技希望建立數據時代的裡程碑,則要努力突破大數據存儲、計算和管理的性能極限。事實上,較早啟用大數據技術的金融業,其數據量在100TB至1PB級別;數據量級龐大的電信業,其數據量已經達到了PB級。比起數據爆炸的速度,目前的大數據處理技術還在追趕中,即便是百倍的提升,也只是一個開端。
開闢無人區
如今舉國都在數據化,基於業務差異,不同行業對大數據分析的需求各有側重,孫元浩分析,後Hadoop時代又回到了解決大數據的4個V上,即數據量(Volume)、數據類型(Variety)、速度(Velocity)和價值(Value)。
同時TDH支持R語言無縫對接並提供圖形化界面,使得寧波風電能通過R語言進行數據挖掘,並能直接調用星環科技TranswarpR的機器學習算法庫,降低了業務人員學習時間成本。孫元浩表示,幾年前大家開始關注機器學習領域,相比傳統利用人工經驗去設定並驗證模型和規則,利用機器學習的方法分析大數據更準確。
隨著大數據應用的發展,最終各行業都會將重心放在挖掘數據背後的價值上。目前走在前列的,當屬2016年的當紅炸子雞金融業。孫元浩介紹,星環科技提供的深度學習已經在金融領域中幫助客戶利用大數據做營銷、風險分析、預測壞帳,等等。
對於大數據的未來,孫元浩認為有四個發展方向:第一,替代資料庫方面,主要是用新的引擎來處理大規模數據,大量的用戶數據仍然是結構化數據;第二,處理非結構化數據,這塊主要用到深度學習來處理圖像、語音、人機互動等;第三,實時計算,主要是流計算——如何將批處理和事件處理兩個模型融合起來,在非常短的延時內完成複雜事務處理;第四,數據挖掘和數據分析的工具,目的是將機器學習和深度學習變得普及化。這也是星環科技深挖的領域。
孫元浩介紹,大數據應用產業鏈大致可分為四層:大數據平臺基礎軟體層、工具層、應用層和專業服務層;星環科技將專注於前兩層。後兩層的行業屬性較強,他表示,目前大數據的行業應用解決方案稀缺,很適合新玩家們作為入口一展身手。
作者 | 王眾