一文看懂2016年大數據版圖

2021-02-25 大數據D1net

點擊上方藍色字體關注。

您還可以搜索公眾號「D1net」選擇關注D1net旗下的各領域(雲計算,數據中心,大數據,CIO,企業協作,網絡數通,信息安全,企業移動應用,系統集成,伺服器,存儲,呼叫中心,視頻會議,視頻監控等)的子公眾號。

=======

在喜新厭舊的技術初創企業界,已有 3年 歷史 「大數據」 聽起來似乎已經過氣了。雖然 Hadoop 在 2006年 已經出來,但 「大數據」 這個概念大概是在 2011 到 2014年 左右才真正火起來的。也就是在這段時間裡,至少是在媒體或者專家眼裡,「大數據」 成為了新的 「金子」 或者 「石油」。然而,至少在我跟業界人士交談中,大家越來越感覺到這項技術已經在某種程度上陷入了停滯。2015年 可能是數據領域的那些酷小子轉移興趣,開始沉迷於 AI 以及機器智能、深度學習等許多相關概念的年份。

拋開不可避免的炒作周期曲線態勢不管,我們的 「大數據版圖」 已經進入第 4 個年頭了,趁這個時候退一步來反思一下去年發生了什麼,思考一下這個行業的未來會怎樣是很有意義的。

那麼 2016年 大數據到底還算不算個 「東西」 呢?我們不妨探討一下。

企業技術=艱苦工作

大數據有趣的一點在於,它不再像當初經歷過那樣有可能成為炒作的題材了。

經過炒作周期後仍能引起廣泛興趣的產品和服務往往那些大家能夠接觸、可以感知,或者與大眾相關聯的:比如移動應用、社交網絡、可穿戴、虛擬實境等。

但大數據基本上就是管道設施的一種。當然,大數據為許多消費者或商業用戶體驗提供了動力,但它的核心是企業技術:資料庫、分析等,這些東西都是在後端運行的,沒幾個人能看得見。就像在那個世界工作的任何人都知道那樣,用一個晚上的時間就想適應企業端的新技術是不可能的。

大數據現象在早期主要是受到了與一批骨幹網際網路公司(尤其是 Google、Facebook、Twitter 等)的共生關係的推動,這些公司既是核心大數據技術的重度用戶,同時也是這些技術的創造者。這些公司突然間面對著規模前所未有的龐大數據時,由於本身缺乏傳統的(昂貴的)基礎設施,也沒有辦法招募到一些最好的工程師,所以只好自己動手來開發所需的技術。後來隨著開源運動的迅速發展,一大批此類新技術開始共享到更廣的範圍。然後,一些網際網路大公司的工程師離職去創辦自己的大數據初創企業。其他的一些 「數字原生」 公司,包括嶄露頭角的獨角獸公司,也開始面臨著網際網路大公司的類似需求,由於它們自身也沒有傳統的基礎設施,所以自然就成為了那些大數據技術的早期採用者。而早期的成功又導致了更多的創業活動發生,並獲得了更多的 VC 資助,從而帶動了大數據的起勢。

快速發展了幾年之後,現在我們面臨的是更加廣闊、但也更加棘手的機遇:讓中等規模到跨國公司級別的更大一批企業採用大數據技術。這些公司跟 「數字原生」 公司不一樣的是,他們沒有從零開始的有利條件。而且他們失去的會更多:這些公司絕大部分的現有技術基礎設施都是成功的。那些基礎設施當然未必是功能完備的,組織內部許多人也意識到對自己的遺留基礎設施進行現代化應該是早點好過晚點,但他們不會一夜間就把自己的關鍵業務取代掉。任何革命都需要過程、預算、項目管理、試點、局部部署以及完備的安全審計等。大企業對由年輕的初創企業來處理自己基礎設施的關鍵部分的謹慎是可以理解的。還有,令創業者感到絕望的是,許多(還是大多數?)企業仍頑固地拒絕把數據遷移到雲端(至少不願遷移到公有雲)。

還需要理解的另一個關鍵是:大數據的成功不在於實現技術的某一方面(像 Hadoop 什麼的),而是需要把一連串的技術、人和流程糅合到一起。你得捕捉數據、存儲數據、清洗數據、查詢數據、分析數據並對數據進行可視化。這些工作一部分可以由產品來完成,而有的則需要人來做。一切都需要無縫集成起來。最後,要想讓所有這一切發揮作用,整個公司從上到下都需要樹立以數據驅動的文化,這樣大數據才不僅僅是個 「東西」,而且就是那個(關鍵的)「東西」。

換句話說:有一堆艱苦的工作要做。

部署階段

所以,這就是在經過幾年引人矚目的初創企業如雨後春筍冒頭,VC 投資頻等頭條後,我們開始步入大數據的部署期和早期成熟期的原因。

更有前瞻性的大公司(姑且稱之為傳統技術採用周期的 「早期採用者」)在 2011 到 2013年 間開始實驗大數據技術,推出了若干的 Hadoop 試點計劃(往往是因為趕時髦)或者嘗試一些點方案。他們招募了各種各樣此前並不存在的崗位(如 「數據科學家」 或 「首席數據官」)。他們進行了各種努力,包括吧全部數據都堆到一個數據容器(「data lake」),然後希望緊跟著就會發生奇蹟(往往不會)。他們逐步建設自己的內部能力,試驗了各種供應商,從試點計劃到生產中的局部部署,然後到現在爭論要不要全企業鋪開(全範圍鋪開實施的情況還很罕見)。許多情況下,他們正處在這樣一個重要的拐點上,即經過大數據基礎設施的數年建設後,能夠展示的成果還不多,至少在公司內部的商業用戶看來是這樣的。但是大量吃力不討好的工作已經做完了,現在開始進入到有影響力的應用部署階段了。只是從目前來看,這種建構在核心架構之上的應用數量還不成比例。

接下來的一波大公司(稱之為傳統技術採用周期的 「早期多數使用者」)大多數時候對大數據技術是持觀望態度的,對於整個大數據方面的東西,他們還在心存一定程度困惑中觀望。直到最近,他們還在指望某個大型供應商(比如 IBM)會提供一個一站式的解決方案,不過現在看來這種情況近期內並不會出現。他們看待這個大數據版圖的態度是心懷恐懼,在想自己是不是真的需要跟這一堆看起來並沒有什麼不同的初創企業合作,然後修補出各種解決方案。

生態體系正在成熟

與此同時,在初創企業 / 供應商這一塊,整個第一波的大數據公司(2009 至 2013年 間成立的那批)現在已經融了數輪的資金,企業規模已經得到了擴大,並且從早期部署的成功或失敗中學到了東西,現在他們已經能夠提供更成熟的、經受過考驗的產品了。少數一些已經成為了上市公司(包括 2015年 上市的 HortonWorks 和 New Relic),而有的(比如 Cloudera、MongoDB 等)融資已經達上億美元了。

這個領域的 VC 融資活動仍然很有生氣,2016年 的前幾周我們見證好幾輪相當可觀的後期階段大數據融資事件:DataDog(9400 萬美元),BloomReach(5600 萬美元),Qubole(3000 萬美元),PlaceIQ(2500 萬美元)等。2015 大數據初創企業拿到的融資額達到了 66.4 億美元,佔整個技術 VC 總融資額額 11%。

併購活動則開展得中規中矩(自從上一版大數據版圖發布以來完成了 34 項併購,具體可參見附註)

隨著該領域的創業活動持續進行以及資金的不斷流入,加上適度的少量退出,以及越來越活躍的技術巨頭(尤其是 Amazon、Google、IBM),使得這個領域的公司日益增多,最後匯成了這幅 2016 版的大數據版圖。

顯然這張圖已經很擠了,而且還有很多都沒辦法列進去(關於我們的方法論可以參見附註)

在基本趨勢方面,行動開始慢慢從左轉到右(即創新、推出新產品和新公司),從基礎設施層(開發者 / 工程師的世界)轉移到分析層(數據科學家和分析師的世界)乃至應用層(商業用戶和消費者的世界),「大數據原生應用」 已經在迅速冒頭—這多少符合了我們原先的一些預期。

大數據基礎設施:仍有大量創新

Google 由 Cutting 和 MikeCafarella 主導的關於 MapReduce 和 BigTable 的論文(Hadoop 的基礎)問世已有 10年 了,在這段時間裡,大數據的基礎設施層已經逐漸成熟,一些關鍵問題也得到了解決。

但是,基礎設施領域的創新仍然富有活力,這很大程度上是得益於可觀的開源活動規模。

2015年 無疑是 Apache Spark 之年。自我們發布上一版大數據版圖以來,這個利用了內存處理的開源框架就開始引發眾多討論。自那以後,Spark 受到了從 IBM 到 Cloudera 的各式玩家的擁護,讓它獲得了可觀的信任度。Spark 的出現是很有意義的,因為它解決了一些導致 Hadoop 採用放緩的關鍵問題:Spark 速度變快了很多(基準測試表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100 倍),更容易編程,並且跟機器學習能夠很好地搭配。

除了 Spark 以外,還出現了其他的一些令人興奮的框架,比如 Flink、Ignite、Samza、Kudu 等,這些框架的發展勢頭也很好。一些思想領袖認為,Mesos(數據中心資源管理系統,把數據中心當作一臺大計算資源池進行編程)的出現也刺激了對 Hadoop 的需求。

即便在資料庫的世界裡,新興的玩家似乎也越來越多。多到市場已經難以承受的地步,這裡發生了很多令人興奮的事情,從圖形資料庫(如 Neo4j )的成熟,到專門資料庫的推出(如統計時序資料庫 InfluxDB),乃至於 CockroachDB 的出現(受 Google Spanner 靈感啟發誕生的融合了 SQL 與 NoSQL 長處的新型資料庫)。數據倉庫也在演變(如雲數據倉庫 Snowflake)。

大數據分析:現在跟 AI 結合了

大數據分析過去幾個月出現的一股趨勢是,越來越關注利用人工智慧(形式和風格各異)來幫助分析大規模的數據,從而獲得預測性的洞察。

其實最近出現復興的 AI 很大程度上算是大數據的產物。深度學習(最近受到關注最多的 AI 領域)背後的算法基本上是幾十年前就誕生了的,但直到最近能夠以足夠便宜、足夠快速地應用到大規模數據之後才發揮出了它的最大潛能。AI 與大數據之間的關係如此緊密,以至於業界專家現在認為 AI 已經令人懊惱地 「與大數據陷入了熱戀當中」。

不過反過來,AI 現在也在幫助大數據實現後者的承諾。分析對 AI/ 機器學習越來越多的關注也符合大數據下一步演進的趨勢:現在數據我都有了,但究竟從中能得到什麼樣的洞察呢?當然,這件事情可以讓數據科學家來解決,從一開始他們的角色就是實現機器學習,否則的話就得想出模型來發現數據的意義。但是機器智能現在正在逐漸發揮輔助數據科學家的作用—只需要倒騰數據,新興的產品就能從中提煉出數學公式(如 Context Relevant)或者自動建立和推薦最有可能返回最佳結果的數據科學模型(如 DataRobot)。一批新的 AI 公司提供的產品能夠自動識別像圖像這樣的複雜實體(如 Clarifai、Dextro),或者提供強大的預測性分析(如 HyperScience)。

同時,隨著基於無監督學習的產品的傳播和改善,看看它們與數據科學家之間的關係如何演變將非常有趣—將來這兩者是敵還是友呢?AI 當然不會很快取代數據科學家的位置,但預計會看到數據科學家通常執行的更簡單一點的工作越來越多的自動化,從而可以極大提高生產力。

但不管怎樣,AI/ 機器學習絕不是大數據分析唯一值得關注的趨勢。大數據 BI 平臺的普遍成熟及其日益增強的實時能力也是一個令人興奮的趨勢(如 SiSense、Arcadia Data 等)。

大數據應用:真正的加速

隨著一些核心基礎設施的挑戰得到解決,大數據應用層正在快速構建。

在企業內部,已經出現了各種工具來幫助跨多個核心職能的企業用戶。比方說,銷售和營銷的大數據應用通過處理大規模的內外部數據來幫助找出哪位客戶可能會購買、續約或者流失,且速度越來越實時化。客服應用幫助個性化服務。人力應用幫助找出如何吸引和挽留最好的員工等。

專門的大數據應用幾乎在任何一個垂直行業都有出現,從醫療保健(尤其是基因組學和藥物研究)到金融、時尚乃至於執法(如 Mark43)。

有兩個趨勢值得強調一下。

首先,這些應用很多都是 「大數據原生」 的,本身都是依託在最新的大數據技術基礎上開發的,代表了一種客戶無須部署底層大數據技術即可利用大數據的有趣方式—因為那些底層技術已經是打包的,至少對於特定功能來說是這樣的。比方說,ActionIQ 就是在 Spark 基礎上開發的(或者說是 Spark 的一個派生),所以它的客戶能夠在營銷部門利用 Spark 的威力而不需要自己部署 Spark,這種情況下是沒有 「裝配線」 的。

其次,AI 在應用層也有很強大的存在。比方說,在貓捉老鼠的安全領域中,AI 被廣泛用來對付黑客,實時識別和對抗網絡攻擊。去年已經出現了一個 AI 驅動的數字助手行業,支持從任務自動化到會議安排(如 x.ai)以及購物等幾乎一切事情。這些解決方案對 AI 的依賴程度不一,從幾乎 100%自動化到 「有人參與」 等情況各不相同,但是可以明確的是,人的能力在 AI 幫助下得到了增強。

結論

從很多方面來看,我們仍然處在大數據現象的早期發展階段。儘管已經花費了數年時間,但減少基礎設施來存儲和處理大規模數據還只是第一階段。AI/ 機器學習已經成為大數據應用層的一股迅猛趨勢。大數據與 AI 的結合將會推動很多行業的驚人創新。從這個角度來說,大數據的機會也許要比大家想像的還要大。

然而,隨著大數據繼續走向成熟,這個術語本身可能會消失,或者變得太過時以至於沒有人會再使用這個詞。這就是成功賦能技術令人諷刺的命運歸宿—由於技術的廣泛傳播,然後到達無所不在的地步,最後被人熟視無睹。

附註:

1)由於不可能把大數據的所有公司都列到圖表上,所以我們只能按照一定原則篩選部分公司出來,篩選原則一是進行過 1 輪或多輪 VC 融資的初創企業,二是把一些我們特別感興趣的較早期初創企業列進去。


2)值得注意的收購包括 Revolution Analytics(微軟 2015年1月 收購),Mortar(DataDog2015年2月 收購),Acunu 和 FoundationDB(2015年3月 被蘋果收購),AlchemyAPI(2015年3月 被 IBM 收購),Amiato(2015年4月 被 Amazon 收購),Next Big Sound(2015年5月 被 Pandora 收購),1010Data(Advance/Newhouse 2015年8月 收購),Boundary(BMC 2015年8月 收購),Bime Analytics(Zendesk 2015年10月 收購),CleverSafe(IBM 2015年10月 收購),ParStream(2015年11月 被思科收購),Lex Machine(2015年11月 被 LexisNexis 收購),DataHero(2016年1月 被 Cloudability 收購)。

(來源:36氪)

相關焦點

  • 2017年大數據版圖
    而大數據在幾年前經歷的泡沫正在無可爭議地轉移到人工智慧身上,過去幾個月AI所經歷的共同意識「大爆炸」與大數據當年相比甚至有過之而無不及。從2013開始製作大數據版圖的Matt Turck剛剛發布了最新的2017年大數據版圖,我們一起來看看在這個領域有哪些最新趨勢和玩家的分布情況。
  • 2017大數據版圖
    從2013開始製作大數據版圖的Matt Turck剛剛發布了最新的2017年大數據版圖,我們一起來看看在這個領域有哪些最新趨勢和玩家的分布情況。企業預算:一切向錢看從2016年的情況來看,財富1000強公司已經在紛紛增加預算用於升級核心基礎設施以及分析,其關鍵的關注點正是大數據技術。分析機構IDC預計大數據和分析市場將從2016年的1300億美元增長到2020年的超過2030億美元。
  • 2016全球大數據戰略版圖剖析(8):數據資源/API篇
    【數盟致力於成為最卓越的數據科學社區,聚焦於大數據、分析挖掘、數據可視化領域,業務範圍:線下活動、在線課程、獵頭服務、項目對接】
  • 2017大數據版圖,大數據與AI乃至於雲計算結合已是大勢所趨
    從2013開始製作大數據版圖的Matt Turck剛剛發布了最新的2017年大數據版圖,我們一起來看看在這個領域有哪些最新趨勢和玩家的分布情況。企業預算:一切向錢看從2016年的情況來看,財富1000強公司已經在紛紛增加預算用於升級核心基礎設施以及分析,其關鍵的關注點正是大數據技術。分析機構IDC預計大數據和分析市場將從2016年的1300億美元增長到2020年的超過2030億美元。而且財富1000強公司裡面的許多買家在大數據技術方面正在變得越來越嫻熟、越來越目光敏銳。
  • 2017大數據版圖:大數據、AI與雲計算結合已是大勢所趨
    而大數據在幾年前經歷的泡沫正在無可爭議地轉移到人工智慧身上,過去幾個月AI所經歷的共同意識「大爆炸」與大數據當年相比甚至有過之而無不及。從2013開始製作大數據版圖的Matt Turck剛剛發布了最新的2017年大數據版圖,我們一起來看看在這個領域有哪些最新趨勢和玩家的分布情況。
  • 2017大數據版圖最新發布:新趨勢和新玩家
    從2013開始製作大數據版圖的Matt Turck剛剛發布了最新的2017年大數據版圖,我們一起來看看在這個領域有哪些最新趨勢和玩家的分布情況。分析機構IDC預計大數據和分析市場將從2016年的1300億美元增長到2020年的超過2030億美元。而且財富1000強公司裡面的許多買家在大數據技術方面正在變得越來越嫻熟、越來越目光敏銳。這些公司過去幾年做了很多功課,正在進入全面部署階段。這種情況不僅發生在技術導向型的公司,在很多行業都是如此。
  • 獨家:深度解讀2016大數據版圖(1)
    上圖是2016大數據版圖英文完整版。為了使大家更好的了解和分析行業現狀,我們整理出了對應公司的中文介紹,以饗讀者。本次介紹的公司為如圖所示的部分公司,請悉知:IBM InfoSphere 平臺提供了數據整合、數據倉庫、主數據管理、大數據和信息治理等解決方案。2011年5月,IBM正式推出InfoSphere大數據分析平臺。這是目前業界唯一的專門針對大數據分析的平臺產品。目前業內主流的做法是在已有產品中嵌入一些大數據功能。
  • 深度解讀2016大數據版圖(2):數據處理與存儲篇
    DTCC2016大會的票價壕無人性?為了更好的使大家了解行業現狀,我們整理出了2016大數據版圖英文對應公司的中文介紹,以饗讀者。若與前文重複,則不再列出。本次介紹的公司為如圖所示的部分公司,請悉知:7.
  • 一文看懂電子電路圖
    文 | 傳感器技術電路圖是人們為了研究和工程的需要,用約定的符號繪製的一種表示電路結構的圖形。通過 電路圖可以知道實際電路的情況。這樣,我們在分析電路時,就不必把實物翻來覆去地琢磨,而只要拿著一張圖紙就可以了。在設計電路時,也可以從容地紙上或電腦上進行,確認完善 後再進行實際安裝,通過調試、改進,直至成功。
  • 一文看懂顯示關鍵材料之玻璃基板
    、日本旭硝子、電氣硝子、安瀚視特等幾大廠商,而歐洲多是與日本廠家合作,份額尚不足1%。,1907年成立至今超過一百年。1991年成立於日本,2000年在臺灣設立臺灣板保玻璃股份有限公司與在新加坡設立分公司,2002年在韓國設立分部。主營業務:所提供的產品為NA-32SG/LC30,0.7mm~0.3mm。所提供的產品皆可以應用於所有LCD相關產品如:LCD TV、Note Book、Desktop Monitor以及所有需顯示裝置之3C產品。
  • 2016全球大數據戰略版圖剖析:架構篇(上)
    版權聲明上圖是2016大數據版圖英文完整版。
  • 一文看懂晶圓廠相關的工藝、技術和其他
    圖8到這裡看懂了麼?沒看懂就翻回去多看幾次。但有一點需要強調的是,雖然工藝現在已經到了14nm,10nm,7nm甚至有廠商在測試5nm。但這個寬度不會無限的縮小。全球晶圓廠營收排行根據IC Insights早前發布的最新一版 2016 McClean Report研究報告,2015年全球晶圓代工廠(包括純晶圓代工服務業者以及IDM廠商的代工業務)排行榜。
  • 【盤點】一文看懂光載無限CDN:十年徵途從未停歇 華麗蛻變初心不改
    光載無限是世紀互聯集團成立20周年特意推出的戰略品牌,使命是打造「更加開放和具有創新活力的新一代網絡空間基礎設施」,定位是將傳統CDN在中間一公裡的優勢推廣到最後一公裡。在價值觀上,光載無限始終將客戶利益放在第一位,即主動服務,成就客戶。
  • 一文看懂機器視覺晶片
    圖像處理算法一開始應用應該是採用伺服器的軟體算法來完成,隨著網際網路技術的不斷成熟,會擴展到雲端計算來完成,但是這樣對於網絡帶寬要求非常大,對於雲伺服器的計量量要求也非常高。筆者估計,視頻圖像處理技術算法的大規模產業化應用,必然是需要專業的晶片來完成,該晶片就是機器視覺(CV)晶片。晶片方式一定是能夠降低成本,同時提高運算能力。
  • 貿澤電子設計圈(2016年-2017年)
    2016-11-24電機控制中的MOSFET和IGBT基礎知識(下)淺談藍牙低功耗(BLE)的幾種常見的應用場景及架構(科普類乾貨)器件"終有一死",或因壽命,或因壓力2016-11-25贊!科學家測量石墨的室溫超導相變知識分享:一文看懂OLED生產技術為什麼讓光線更彎就可以把電路傳輸速度提高千倍?
  • 2016年大數據發展趨勢預測(30PPT)
    關於轉載授權大數據文摘作品,歡迎個人轉發朋友圈,自媒體、媒體、機構轉載務必申請授權,後臺留言「機構名稱+文章標題+轉載」,申請過授權的不必再次申請,只要按約定轉載即可,但文末需放置大數據文摘二維碼。大數據文摘編輯素材來自:BDTC2015中國大數據技術大會主辦單位:中國計算機學會(CCF)承辦單位:CCF大數據專家委員會協辦單位:中國科學院計算技術研究所、北京中科天璣科技有限公司、CSDN回復「2016趨勢」可得全版PPTBDTC2015中國大數據技術大會於12月10日在北京召開,會上,啟明星辰公司副總裁
  • 一文看懂集成學習(詳解 bagging、boosting 以及他們的 4 點區別)
    現實生活中,大家都知道「人多力量大」,「3 個臭皮匠頂個諸葛亮」。而集成學習的核心思路就是「人多力量大」,它並沒有創造出新的算法,而是把已有的算法進行結合,從而得到更好的效果。(所有模型的重要性相同)舉例:在 bagging 的方法中,最廣為熟知的就是隨機森林了:bagging + 決策樹 = 隨機森林《一文看懂決策樹(3個步驟+3種典型算法+10個優缺點)》《一文看懂隨機森林(4個步驟+4種方式評測+10個優缺點)》Boosting
  • 一文看懂掩模版產業鏈(建議轉發收藏)
    在平板顯示掩膜版領域,Omdia2021年7月研究報告顯示,2016年至2019年全球平板顯示掩膜版的市場規模增長較為迅速,2019年全球平板顯示掩膜版的市場規模約為1,010億日元,2016年全球平板顯示掩膜版的市場規模約為671億日元,2016年至2019年的年均複合增長率達14.58%。
  • 一文幫你看懂VR/AR,教你洞察趨勢,抓住紅利
    從近5年的Google Trend去看VR/AR領域的關注度(見下圖)可以看到行業的幾大熱點:1)2012年4月,谷歌公布Google Glass原型;2)2014年3月,Oculus公布DK2開發工具包;3)2015年1月,微軟公布AR產品HoloLens;4)2016年3月,HTC宣布Vive頭盔正式上市。
  • 一文看懂新媒體5G革命 | 容億分享
    白皮書下載方式見文末!迅猛發展的新媒體業務2011年到2017年,媒體行業的發展迅猛,年複合增長率14.2%,產業體量已經達到1.9萬億。其中,廣播電視等傳統媒體在媒體總產業體量的新媒體業務分析佔比從2011年起逐年下降,目前已低至13%。