12月20日,在騰訊2020 Techo Park開發者大會大數據專場上,騰訊雲大數據產品總經理聶晶對數據倉庫近30年發展歷程做出總結,並分享了他對目前行業的認知以及未來發展的判斷。聶晶表示,在當前技術環境變化飛速,單一主體企業難以應對數據倉領域爆發式發展挑戰,騰訊雲希望通過開放開源的生態給用戶帶來更為透明和精細化的技術和產品服務,助力企業生產力加速提升。
數據倉庫從1991年被正式提出,歷經近30年的發展歷程,企業對數據倉庫的重要性感知愈加強烈,同時數據倉庫在企業端越來越走向成熟和理性。
「企業不再停留在數據集合的高效存儲和運算,越來越聚焦於數據的場景化應用創新和數據價值釋放的最終目的,這也是數據倉庫的真正目的所在」聶晶強調。
隨著企業關注價值點的變化及構建主體趨向於一線業務團隊的趨勢,也帶來了企業數據倉庫構建敏捷度的更高要求。基於雲計算實現分鐘級構建和擴展的雲原生數據倉庫設施,因為其技術先進性和交付模式的先進性,成為了當前數據倉庫技術的技術核心。
在這一過程中,伴隨當前技術持續爆炸式演進,僅依賴企業自有IT能力已經越來越難於應對當前和未來的挑戰,如何有效藉助於外部資源高效的迎接未來的技術挑戰,成為企業IT技術團隊長期而持續的技術難點。
聶晶介紹,作為一個開放的雲廠商,騰訊雲結合騰訊數據技術實踐、開源技術組織和商業化技術合作夥伴能力,在雲端提供了涵蓋Hadoop、ES、MPP數倉在內的,豐富易用、開源開放的開箱即用數據基礎設施和數據工具,可以幫助企業快速構建安全、穩定、可擴展、可高效運營的數據IT架構。
同時,聶晶判斷在未來五年內,將會有85%以上的企業將會把企業數據倉庫轉移到雲端,數據倉庫的雲端構建將會成為企業的第一優選。他表示,面對需求爆發式的增長,騰訊雲更希望是以一個開放開源的生態,從技術、產品和市場的開放來服務好用戶。
在技術上的開源開放方面,騰訊雲協同開源社區提供開放的技術體系,並通過開源的方式將自己的技術反哺給社區。通過數據產品和市場開源開放做到數據商業化公司的產品與原廠的產品同等市場地位。同時,騰訊也希望將服務市場開放更合作夥伴和開發者,讓大家都能發揮自己的能力。
最後他總結,「我們也希望基於這樣更開源開放的生態,用戶可以享受更為透明和精細化的產品和服務的能力,帶來更大的生產紅利。」
以下為騰訊雲大數據產品總經理聶晶演講實錄:
大家好,我是來自騰訊雲大數據團隊的聶晶。北京今天天很冷,非常感謝大家花費寶貴的周末時間來到我們techo的大數據專場。也非常希望大家在這樣一個平臺上暢所欲言,能有所收穫。
今天咱們回歸到數倉這個發展接近30年的話題,這算是一個老話題,但今年突然大家討論非常多。在海外有近千億美金市值的數倉技術公司成功上市、在國內也有越來越多的新創技術公司和實力雄厚的技術公司進入到這個領域。
除開行業和資本的熱度之外,我們也看到從1991年數倉正式被提出以來,經過接近30年的發展歷程,企業對數據倉庫的重要性感知也愈加強烈。在當前, 95%成熟型企業已經構建了完備的企業數據倉庫架構,並且在持續依託雲計算技術和大數據技術進行技術架構演進;80%的雲端初創型企業開始把數倉決策業務前置,作為初創期與業務平臺同期構建,以提升初創型企業數據驅動業務的敏捷度。甚至,我們看到部分企業在數倉這裡的投入最高可以達到30%以上,這在1991年的數倉史前時代是幾乎不可以想像的景象。
在過去30年的數據倉庫發展之路中,數據規模和價值密度的變化激發了數倉產業的本質性革新。
隨著30年的行業演進,小型機為代表的第一代單一傳統關係資料庫技術已經無法適應這個時代;因此,在技術領域持續湧現出了MPP數倉、SQL On Hadoop、ELK這樣的優秀新興技術,組成了第二代數倉技術的百花齊放時代,這個階段中,我們也看到他們的發展歷程中呈現了融合式演進趨勢,催生著數倉技術的劇烈化學反應;隨著數據倉庫在企業端越來越走向成熟和理性,企業不再停留在數據集合的高效存儲和運算,更越來越聚焦於數據的場景化應用創新和數據價值釋放的最終目的,因為這才是數據倉庫的真正目的之所在。
隨著企業關注價值點的變化及構建主體趨向於一線業務團隊的趨勢,也帶來了企業數據倉庫構建敏捷度的更高要求。傳統數倉耗時數月的構建效能在數倉發展30年後的今天,越來越成為企業的瓶頸;基於雲計算實現分鐘級構建和擴展的雲原生數據倉庫設施,因為其技術先進性和交付模式的先進性,成為了當前數據倉庫技術的技術核心。
如何高效構建與運營一個穩定、可擴展的數據倉庫是當前企業在構建數倉中遇到的第一個初始挑戰,這是對企業當前IT技術能力和運營能力的初始挑戰,以前更多客戶會採用商業化產品和服務來應對這個挑戰,但隨著雲計算的發展,當前更多客戶會願意用雲所提供的開箱即用的數倉產品和服務來應對第一個階段的挑戰。
隨著數據每年三倍,甚至五倍的高速增長下,企業發現當前急待通過新技術、新商業模式解決當下和未來的成本挑戰,在傳統IT架構下降低IT綜合的效果較為局限;如何消減倍增數據規模下的成本增速,成為一個精細化運營企業無法迴避的話題。雲端數據IT設施的新技術、新產品、新服務模式越來越成為企業數據IT成本節約的新動能。
接下來,企業進入到數據價值獲取階段,部分企業鑑於對數據業務的場景化理解力局限性,難於有效結合自有企業數據業務進行數據價值創新探索;在構建完數據基礎架構的企業,越來越希望向企業組織提供到平民化的數據創新力,讓企業全員都能夠參與到無限制探索數據業務創新,讓數據資產真正成為成熟業務的助推劑。事實上,企業更容易忽視的是,在當前技術持續爆炸式演進中的,僅依賴企業自有IT能力,已經越來越難於應對當前和未來的挑戰,如何有效藉助於外部資源高效的迎接未來的技術挑戰,成為企業IT技術團隊長期而持續的技術難點。
單一主體的企業難於應對數倉領域的爆發式發展挑戰;但我們也深知,一個脫離於生態的雲廠商也難於有效幫助到雲端的企業客戶應對這樣的未知挑戰。
作為一個開放的雲廠商,騰訊雲結合騰訊數據技術實踐、開源技術組織和商業化技術合作夥伴能力,在雲端提供了涵蓋Hadoop、ES、MPP數倉在內的,豐富易用、開源開放的開箱即用數據基礎設施和數據工具,可以幫助企業快速構建安全、穩定、可擴展、可高效運營的數據IT架構。同時開放雲生態的技術能力也將有足夠能力保障好企業未來數據技術演進中的技術安全性問題。
同時,在雲端提供的數據產品帶有極強的雲特性,越來越多企業通過大數據存算分離、算力融合、負載彈性擴展等產品/技術策略來持續不斷的優化數據倍速增長中的綜合IT成本。開放雲生態中的客戶技術實踐、解決方案合作夥伴的商業化服務都將能將數據價值創新的技術、經驗、商業模式,通過騰訊雲培訓及技術沙龍平臺,傳導到生態中的每一位參與者,雲端企業可以以此作為數據價值創新過程中的催化劑,真正實現企業的數據價值轉換。我們也認為,在未來五年內,將會有85%以上的企業將會把企業數據倉庫轉移到雲端,數據倉庫的雲端構建將會成為企業的第一優選。
今天,我們在這裡發布一個重磅的開源開放的數據生態戰略。這個數據生態戰略包含三個層面的內容。
第一個是我們技術上的開源開放。包含騰訊自有技術與商業化公司和開源組織的技術共享與協同。其中有類似Angle這樣的優秀技術貢獻到社區,也有類似Ozone這樣的開源技術的騰訊側深度技術參與。
第二個是我們產品生態上的開放。我們將會為新創公司和商業化公司的臻選數據產品和服務提供到與自研產品同等的市場地位。讓我們的客戶享受到更為豐富和優秀的數據產品和服務。
第三個是我們服務生態的開放。我們希望服務市場也開放給我們的合作夥伴和開發者,讓大家都能發揮自己的能力服務好我們的用戶。我們的用戶也能因為這個開源開放的生態,享受到更為透明和精細化的產品和服務能力所帶來的的生產力極大提升的紅利。