華為全面啟動數據基礎設施戰略,開源數據虛擬化引擎HetuEngine

2020-12-05 華為

11月19日,華為在深圳舉辦2019全球數據基礎設施論壇,面向鯤鵬計算產業, 宣布全面啟動數據基礎設施戰略,並開源數據虛擬化引擎HetuEngine(河圖引擎),希望讓夥伴像使用「資料庫」一樣使用「大數據」,讓數據治理、使用更簡單。

這是繼今年9月基於「鯤鵬+昇騰」雙引擎全面啟航計算戰略後,華為從數據角度對計算戰略的再度闡述。華為數據基礎設施戰略圍繞數據「採-存-算-管-用」的全生命周期,詮釋了華為通過提供融合、智能、開放的數據基礎設施,使能各行各業客戶釋放數據價值,讓智能無所不及。

華為Cloud & AI產品與服務總裁侯金龍在大會上發表主題演講

以下是侯金龍演講全文

女士們、先生們、朋友們,大家上午好!歡迎大家來到深圳,參加首屆全球數據基礎設施論壇。

人類正邁入萬物互聯的智能時代,而數據將成為智能世界的關鍵生產資料。今天,我分享的主題是《打造「融合、智能、開放」數據基礎設施,攜手邁入智能時代》。

構建萬物互聯的智能世界

華為公司的願景與使命是:「把數字世界帶入每個人、每個家庭、每個組織,構建萬物互聯的智能世界」。在智能世界,算力成為新生產力,數據成為新生產資料,「5G、AI、雲」成為新生產工具,將使能千行百業邁入智能時代。

兩個月前,華為在全聯接大會上發布了「一雲兩翼雙引擎」的鯤鵬計算產業布局,基於「鯤鵬+昇騰」雙引擎,全面啟航計算戰略,為世界提供最強算力。

「一雲」是指華為雲,是生態夥伴發展的黑土地。「兩翼」是指智能計算和智能數據。數據作為鯤鵬產業中的關鍵一翼,華為將圍繞數據構建端到端的能力,包括存、算、用的能力,通過5G+雲+AI能力,打造「融合、智能、開放」的數據基礎設施,釋放數據價值,讓智能無所不及!

智能世界,從數據管理走向數據運營

首先,數據將驅動客戶體驗。當你打開一個App,就會收到你感興趣的內容推送。精準推送的背後,其實就是數據在驅動。比如快手,每天產生1.2億個內容標籤與用戶畫像實時匹配,數據運營實現內容精準推送。

其次,在企業經營活動中,數據驅動企業生產決策。以大港油田為例,在經歷了50年持續開採後,面臨資源枯竭、產量下降的挑戰。2019年以來,大港油田採用華為大數據和AI技術,利用測井曲線,結合經驗模型生成了每口井的孔隙度、滲透率,找到了更多的新的油氣層。通過數據運營,為長期穩產500萬噸提供了決策支撐。

最後,我介紹下數據驅動企業流程簡化。華為每年有近300萬人次出差,以前出差涉及考勤、機票、酒店,包括報銷等十幾個申請流程,現在只需要一個流程就可以真正實現「說走就走」。這是每天45萬次後臺數據關聯碰撞的結果。數據運營,實現「讓數據多跑路,員工少跑腿」。

智能世界,需求與資源存在巨大落差

隨著5G、AI和雲的普及,數據量正以驚人的速度增長:從1080P到4K、8K,視頻數據量將提升40倍,從4K到4K VR要增加6倍以上;未來每輛自動駕駛汽車每天就會產生高達64 TB數據;深圳一個城市有超過200萬攝像頭,每天將產生80 PB數據,平均保存30天,大家希望保存更長時間;大量的數據過去只需存幾天,現在需要保存幾個月甚至永久保存。

根據預測,全球數據量將從2018年的33 ZB快速增長到2025年的180 ZB。但是,產生的數據中僅有不到2%被保存,而被保存的數據中僅有不到10%被應用。

這些海量數據的增長背後是需要海量存儲和計算的資源,數據增長是無限的,而存儲資源卻是有限的。

數據全生命周期,每比特價值最大,每比特成本最優

我們希望對數據的採、存、算、管、用實施端到端的整合和優化,讓數據在全生命周期內更好用,數據的每比特發揮價值最大,數據的每比特成本最優!

打造「融合、智能、開放」數據基礎設施

為實現這個追求,華為打造融合、智能、開放的數據基礎設施,讓數據系統從孤立走向融合,從複雜走向智能,從封閉走向開放:

通過「打破數據處理與數據存儲的邊界」,實現數據高效共享和分析,降本增效。通過「AI+存儲+雲」,實現數據全生命周期內智能管理和智能運營,讓存儲越用越快,價值越來越大。通過「數據虛擬化引擎」,統一SQL語法,像使用資料庫一樣使用大數據。融合:使用極簡

數據應用的核心包括存儲和分析。煙囪式IT業務系統帶來兩個問題:存的時候會產生多個冗餘副本,且數據無法流動,存儲成本高;分析的時候會導致大量數據搬遷,分析效率低。

通過10餘年技術積累和創新,華為在存儲、資料庫和大數據技術上實現了一系列突破,通過打破4堵牆,讓數據的每比特發揮價值最大,數據的每比特成本最優。

打破存儲內部系統牆:通過一套架構實現生產、分析、備份、歸檔的統一管理,一份數據在各個系統中平滑流動,減少拷貝,TCO降低30%以上。打破資料庫與存儲鏈路牆:通過算子下推實現近數據計算,減少存儲層與計算層之間的數據交換,數據訪問和處理性能提升2倍。打破大數據與存儲配置牆:通過存算分離實現資源靈活配置,計算不足擴計算,存儲不足擴存儲 。並通過彈性EC、數據縮減技術減少冗餘,整體TCO降低30%以上。打破資料庫與大數據協同牆:通過協同分析實現數據零搬遷,資料庫和大數據共享一份數據,分析效率提升100%。智能:體驗極致

過去,主要依靠人來完成設備配置和運維,運維人員經驗和能力的高低決定了管理效率的優劣。華為基於AI晶片、存儲和華為雲的三層架構,通過雲上訓練和雲下推理,讓系統越用越快、越用越省。

依託昇騰處理器的AI能力,自動學習和識別IO流,提升Cache預取命中率,系統整體性能提升20%。依託鯤鵬處理器的多核算力,根據不同的數據類型,實時優化數據縮減算法,TCO降低25%。結合華為雲自身大規模運維運營經驗,當前可以實現提前14天預測硬碟故障,提前60天預測性能瓶頸,提前365天預測容量不足,其中30%的故障可以自我修復。開放:開發極簡

隨著業務類型日益增多,大量業務需要跨平臺、跨數據源協同分析。這種場景下,最突出的3個問題是:找數難、取數難、用數難。

找數難:傳統企業數據類型越來越多,結構化、半結構化、非結構化數據並存,缺少統一數據目錄和全局數據視圖,要在眾多異構數據源中找到特定數據,好比大海撈針。取數難:一個典型的分析業務通常依賴跨地域跨平臺數據協同,需要從多個業務系統獲取數據,這要經過多部門間協調、核實才能獲取。用數難:多業務分析需要多引擎協同,這將依賴多種數據訪問技術,就需要開發人員掌握多種開發工具和語言,從而導致開發門檻變高,開發周期變長。為了屏蔽數據類型差異、地域差異、語法差異,讓數據治理簡單,使用簡單,華為推出了「河圖引擎」。

HetuEngine,從「大數據」走向「大資料庫」

我們將數據虛擬化引擎命名為河圖,就是屏蔽數據基礎設施的複雜度,讓開發者像使用資料庫一樣使用大數據,復用現有的生態、工具和技能,提升開發效率2到10倍。「大禹得河圖後始見清明」,傳說中,大禹通過河圖掌握河流山川複雜的地形地貌,順利完成治水大業。

河圖引擎,就是要讓數據治理簡單,使用簡單,更方便的挖掘數據價值。它具備4個核心能力:

一個目錄:通過元數據在線感知,構建1000+異地異構數據源全局虛擬數據視圖,打破數據孤島,數據全局可視,解決企業找數難問題。一個入口:通過開放的連接框架、5000節點SQL引擎,實現30種異地異構數據源統一SQL訪問,秒級獲取,數據全局可得,解決企業取數難問題。一份數據:通過CarbonData技術,實現一份數據多場景分析,多應用共享,數據零搬遷,數據全局可用,解決企業用數難問題。統一安全:通過細粒度動態授權、敏感數據自動感知技術,實現異地異構數據源集中式安全配置與管控,數據全局可控,數據授權時間從天到秒,解決企業數據安全與合規問題。開源河圖引擎HetuEngine

為了更好地發展數據產業,今天我宣布開源河圖引擎,開源版本的河圖引擎叫openHetu,將於2020年6月上線。我們將開源內核,開發者可以基於開原始碼進行定製,包括數據源擴展、SQL執行策略等,實現應用快速對接,提升開發效率。

平臺+生態,攜手邁入智能時代

華為始終踐行「平臺+生態」策略,通過硬體開放,軟體開源,使能夥伴,共建開放、繁榮的鯤鵬計算產業生態,共同邁入智能時代。

謝謝大家!

相關焦點

  • 為了攀登數據產業的「奧林帕斯山」,華為做了兩個決定
    2019下半年,「禁令」之下的華為戰鬥力驚人。一方面,華為5G在全球高歌猛進,截至10月中旬已獲得65份5G網絡建設商業合同,5G基站出貨已達到40萬站;另一方面,華為還在9月份首次發布了計算戰略,拿出了「一雲兩翼雙引擎+開放的生態」的戰略布局,還「順便」發布了全球最快AI訓練集群……可謂聯接與計算「兩開花」!
  • 華為全面啟航計算戰略:「鯤鵬+昇騰」雙引擎、硬體開放、軟體開源...
    HUAWEI CONNECT 2019第二天,華為基於「鯤鵬+昇騰」雙引擎正式全面啟航計算戰略,宣布開源伺服器作業系統、GaussDB OLTP單機版資料庫,開放鯤鵬主板,擁抱多樣性計算時代。華為通過硬體開放、軟體開源、使能合作夥伴,共同開拓萬億級的計算產業大藍海。
  • 華為雲GaussDB亮相DTCC2020,全面釋放數據新動力
    華為雲資料庫攜手優秀客戶和合作夥伴發表了重要主題演講,分享了華為雲GaussDB在核心技術創新、行業實踐、生態建設等方面內容,積極打造開源開放生態和優秀解決方案,加速金融政企數位化轉型,並在會上榮獲兩項榮譽獎項。
  • 華為:伺服器作業系統EulerOS和資料庫GaussDB宣布開源
    藍鯨TMT頻道9月19日訊,今日,華為在第四屆華為全聯接大會期間宣布,華為伺服器作業系統EulerOS和資料庫作業系統Gauss開源。華為Cloud&AI產品與服務總裁侯金龍還透露,華為正在與中標紅旗、武漢深之度等公司籌備開源社區,並將在12月31號之前上線。
  • 新基建遇上「開源」 計算產業迎來新的「板塊運動」
    其中,開源作業系統軟體既是數位化轉型的承接者,又是各方雲服務提供商逐鹿的獵場。時代變局之下,企業級市場佔比超過80%的開源作業系統軟體領域,正在發生新的「板塊運動」。當新基建遇上「開源」對現代社會來說,大規模基礎設施是發展的底座。
  • 新基建遇上「開源」?計算產業迎來新的「板塊運動」
    其中,開源作業系統軟體既是數位化轉型的承接者,又是各方雲服務提供商逐鹿的獵場。時代變局之下,企業級市場佔比超過80%的開源作業系統軟體領域,正在發生新的「板塊運動」。當新基建遇上「開源」對現代社會來說,大規模基礎設施是發展的底座。
  • 中國工程院高文院士:為什麼中國要打造自己的 AI 開源開放生態?
    本次大會以「平臺築基、標準張脈、開源賦能」為主題,邀請了來自百度、騰訊、華為、鵬城實驗室、小米、微眾銀行等公司的產業界專家,與高文院士、黃鐵軍教授等多位學術界領袖,圍繞「AI 開源基礎設施及環境」、「深度學習與強化學習」、「聯邦學習與開源數據湖」、「5G+AI+AVS 及全國 AI 大賽」、「AI 開源教育與治理」、「Open Source Community Leadship」六大主題坐而論道,共同探討人工智慧的邊界和方向
  • 華為欽州雲數據地址_華為雲伺服器怎麼連接雲資料庫 - CSDN
    可以看到,早在2017年3月,錦州市就與華為展開雲計算、大數據產業的戰略合作。目前,依託華為雲計算平臺,錦州市50餘家部委辦局、100多個業務系統,實現政務數據統一雲化管理。這些項目包括:安徽朗坤與錦州農業農村局合作的現代農業新城項目;景域驢媽媽集團與錦州文化旅遊廣電局合作的旅遊產業發展戰略合作項目;翰林經緯科技與錦州衛健委合作的區域醫療聯合體項目;思路創新與錦州生態環境局合作的環保大數據平臺項目……由此可見,雲計算、大數據產業已成為了錦州實現質量發展的重要引擎,為錦州經濟結構調整和產業轉型升級提供了有力的支撐
  • 從GaussDB到無限想像:開發者眼中的2019數據變局
    或許可以這樣理解,能夠解決這三大挑戰的數據基礎設施產品,是智能開發時代必不可少的基石,也是數據產業走向下一產業階段的必經之路。而在開發者的立場上,最關注的顯然是走向AI紀元的資料庫產品何時能夠誕生,是否能真實支撐起現實產業場景裡的開發需求。這樣的思慮下,GaussDB如約而至。
  • 星環科技與華為籤署大數據領域合作備忘錄 共建數據基礎設施
    來源:證券時報證券時報記者梅雙5月20日記者獲悉,在華為第17屆全球分析師大會上,星環科技與華為就數據存儲與大數據領域的產業合作正式籤署備忘錄,圍繞星環科技大數據平臺與華為海量數據存儲進行聯合解決方案開發
  • 新一代雲基礎設施性能測試基準11.5分,意味著什麼?
    首發陣容11.5分的價值新一代雲基礎設施性能基準測試,選擇易捷行雲+華為鯤鵬作為首發陣容,作為參與「雲基礎設施性能基準測試」的首個雲平臺廠商,易捷行雲基於鯤鵬測試環境的雲平臺以首次性能基準分數11.5分作為階段性參照係數,為今後各雲計算廠商參與「雲基礎設施性能基準測試」提供技術經驗參考和技術水準導向的階段性基準指標,為用戶選擇雲平臺提供重要的數據基準參考依據
  • 華為靖江雲計算數據中心上線
    「雲匯靖江·數贏未來」華為靖江雲計算數據中心上線發布儀式昨日舉行,這標誌著靖江市雲計算和大數據產業邁出了堅實一步。靖江市委書記趙葉,華為公司副總裁、華為政企雲總裁楊瑞凱,江蘇省廣電有線信息網絡股份有限公司副總經理錢進共同啟動華為靖江雲計算數據中心。
  • 雲引擎 承未來 解析華為CE12800系列交換機
    此外,CE12800系列還具備業界領先的CLOS交換架構和工業級的可靠性,以及嚴格的前後風道設計,並支持全面的虛擬化能力和豐富的數據中心特性。而作為新一代核心交換機,CE12800系列還採用了多種綠色節能創新技術,大幅降低了設備能源消耗。
  • 華為與星環科技籤署生態合作備忘錄,共建數據基礎設施
    【環球網智能綜合報導】在華為第17屆全球分析師大會期間,華為與星環科技就數據存儲與大數據領域的生態合作正式籤署備忘錄,圍繞華為海量數據存儲與星環大數據平臺進行聯合解決方案開發、市場培育和產業推進,共建數據基礎設施。
  • 背後的力量 華雲數據助力中科院蘇州納米所搭建新一代IT基礎設施平臺
    根據中國科學院調整科技布局的規劃,面向國際科技前沿、國家戰略需求與未來產業發展,開展相關領域基礎性、戰略性、前瞻性研究。建設公共技術平臺,為我國現代製造業與高新技術產業發展不斷提供新的知識與技術,發揮國家研究機構的骨幹與引領作用。
  • 數據中心向虛擬化的平滑過渡解決方案
    在一個典型的數據中心中,相比真正較少的需求,提供更多的伺服器和存儲設備是非常常見的事情。這樣做的目的在於處理未來可能出現的高峰負載時段、滿足高可用性以及災難恢復的需求。這樣就會導致昂貴資源的巨大浪費。實際上,伺服器使用率通常都會低於25%,這也就是為什麼伺服器虛擬化在過去的幾年中發展極快的原因。
  • 騰訊雲首次披露虛擬化技術發展線路圖,看好輕量級虛擬化的潛力
    早在2013年,騰訊雲基於對虛擬化技術未來發展方向的判斷,放棄當時的主流XEN虛擬化技術,在業界率先擁抱開源的KVM技術,並將其不斷演進。 近日,騰訊雲虛擬化技術負責人陳立東,首次向外界詳細披露其在虛擬化技術上的技術演進路線。 虛擬化到底是什麼?
  • 星環科技+鯤鵬:乘風破浪的大數據生態
    星環科技聯合創始人、副總裁朱珺辰介紹說,鯤鵬、中軟國際與星環科技一起構成了大數據的朋友圈——鯤鵬提供最底層的算力基礎設施、星環科技提供大數據平臺,中軟國際提供上層的應用解決方案。星環科技採取「平臺+生態」的戰略思想,促使全棧全場景解決方案滲透至各個領域,加速釋放企業數據價值。三者之所以共同發力大數據生態,最終目的是要服務於企業的數位化轉型。
  • 讓基礎設施研究變得更可見--- 清華大學數據科學研究院大數據基礎...
    【51CTO.com原創稿件】信息技術與經濟社會的交匯融合引發了數據迅猛增長,數據已經成為國家基礎性戰略資源,大數據正日益對全球生產、流通、分配、消費活動以及經濟運行機制、社會生活方式和國家治理能力產生重要影響。