千億級數據毫秒響應,為什麼它最有機會幹掉傳統數據存儲模式?

2020-12-16 獵雲網

【獵雲網(微信:ilieyun)北京】6月19日報導(文/呂夢)

近兩年,大數據作為重要資源被提上國家戰略。今年兩會,馬化騰、雷軍、丁磊、張近東等網際網路企業的全國兩會代表委員就關於大數據戰略、數字經濟發展積極獻策。

此外,國家發改委還在近期刊發了關於2020年發展數字經濟的八大舉措。

例如「實體經濟數位化融合;促進數據要素流通;發展新型基礎設施」等,以鼓勵傳統產業加快數位化轉型,推進前沿信息技術在各場景的融合應用。

海量的數據是政務管理、企業數位化轉型的核心生產因素,但現階段,真正被有效儲存、使用的數據還不到10%。如何喚醒大量「沉睡的」數據並從中尋找、分析有價值的信息,促進業務發展,無疑是一個巨大挑戰。

「4G時代,大數據更多是服務IT基礎建設成熟行業的頭部客戶,離個人還有一定距離。5G的到來和國家進一步提出深化大數據的發展,更多中小型企業對於數據採集、存儲、治理、分析和挖掘的需求也在快速增加。」

在睿帆科技大數據科學家、雪球資料庫總架構師李求實博士看來,行業頭部企業數據每年以PB級甚至上百PB爆炸式增長,催生了對於PB級數據量在線或實時數據分析的處理能力的需求

關於PB級數據,美國未來學家雷·庫茲韋爾有過一個形象的比喻:如果人類功能記憶的容量預計在1.25個TB,那麼800個人類記憶才相當於1個PB。

面對龐大的數據量,很多企業早期主要通過抽樣數據來獲取結論。

李博士告訴「獵雲網」,這種方法的弊端在於「抽樣之後的數據變成了百萬級或千萬級,是原始數據的一個子集,和實際情況會有很大偏差,導致根據樣本得出的結論可靠性大大降低。」

為了追求數據的準確性,有的企業不得不降低數據處理的實時性,採用離線處理的方式。但數據的價值就在於其時效性,越早分析越能得到快速準確的反饋或響應,並及時利用結論指導後續的業務工作。

此時,一款針對海量數據進行毫秒級在線即席查詢分析的資料庫就顯得尤其關鍵——它甚至決定了企業是否能以比競爭對手更低的成本、更快的速度解決問題,構建起核心競爭力

滿足大數據量查詢的穩、準、快

過去十年,業內一直推崇的分布式計算平臺是Apache基金會旗下的Hadoop。2009年,Hadoop將1TB數據的排序時間縮短到了62秒,從此名聲大噪。

它也憑藉其高可靠性、高可擴展性、高容錯性和低成本成為當今大數據領域運用最多、範圍最廣的技術平臺,被雅虎、FaceBook、last.fm等眾多公司應用。

李博士介紹,由於Hadoop的設計初衷是針對存儲和分析離線大數據,因此無法提供便捷高效的數據交互、多維分析、快速查詢服務。

「雖然產生了諸多如Spark、Impala、Drill等SQL on Hadoop項目來優化Hadoop在服務效率上的短板,但由於這些項目仍然基於Hadoop底層機制,所以無法從根本上解決這些問題。」

為了幫助企業做到穩、準、快的實現海量數據的調用需求,掌握PB級數據核心處理技術的大數據產品及解決方案供應商睿帆科技,在原有的零距大數據中臺的基礎上,自研了一款具有千億級數據毫秒查詢速度的分布式分析型資料庫雪球DB。

「雪球」的特點主要在於列式存儲,向量化執行引擎,高可靠的集群架構以及數據自動均衡、實現副本異步拷貝的能力

來源:睿帆科技

首先,與行式存儲將每一行的數據連續存儲不同,列存是連續存儲每一列的數據。

它的優勢是在數據讀取時,只需要讀取參與計算的列,這極大降低了IO的消耗,加快了查詢速度。與此同時,同一列中的數據屬於同一類型,這使得列式存儲可對數據進行高達十倍甚至數十倍的壓縮,這節省了存儲空間和成本消耗,非常適合大數據查詢分析和高並發查詢。

其次,雪球DB還實現了向量化執行引擎,對內存中的列式數據,一個批次調用一次指令(而非每一行調用一次),不僅減少了函數調用次數,而且可以充分發揮指令的並行能力,大幅縮短了計算耗時。相當於讓數據處理的效率有了幾何倍的提升。

此外,雪球DB通過Share-nothing節點方式,消除了主節點性能瓶頸,大幅提升集群性能。

「Share-nothing說白了就是什麼任何東西都不共享,好處就在於通過硬體設備的疊加,就可以完成性能的線性疊加。而傳統的關係型資料庫會共享一定的設備,因此會擁有疊加瓶頸,使其疊加效率非常低。」李博士表示。

而針對傳統分布式系統宕機過程中造成各節點內數據分布不均衡的問題,睿帆科技開發了「應對節點宕機時的負載均衡優化」專利技術。

來源:睿帆科技

理想狀態下,每個節點的計算量是同等的,否則工作量較大的節點將決定整體任務的完成時間,比負載平衡所用的時間大大延長。而一旦所有工作都集中在某一個或某幾個機器上,並行優勢也將無從體現。

通過先進的Hash隨機算法,雪球DB能夠在一個節點宕機時自動均衡各節點內數據分布,保證各節點磁碟佔用相對均衡,避免雪崩效應。同時,雪球DB支持多副本備份,可以在不同的節點上維護相同的數據。當前節點如果發生故障,則自動切換由備份副本提供服務。

這些核心特點使得「雪球」在根本上解決了Hadoop體系交互複雜、效率低下的問題,滿足了海量數據在線交互、多維分析和高效查詢,確保數據分析結果更真實。

可見,正如李博士所提到的,雪球DB是基於高並發環境下、千億級數據毫秒級查詢所研發的資料庫

「產品剛研發出來時,我們對於實際測試結果還是很興奮的。但合作夥伴試用後反饋效果一般,和其他資料庫產品差不多,都是在幾十毫秒左右。後來發現,他們只是拿『雪球』在做少量並發的常規數據查詢。但當對方內部系統升級,上線了很多新功能,數據量和並發數呈幾何性增長時,雪球DB和其他資料庫對比,性能優勢就顯現出來了,在海量數據高並發、多條件等苛刻場景下的測試,結果比原有資料庫快了幾個數量級。」

這家公司後來與睿帆建立了長期合作,其用戶覆蓋近億,單日增量數據超過1PB,在雪球DB的PB級聯機分析能力下,根本上解決了數據不及時、查詢延遲高、分析維度受限等問題,大幅提高了服務效率。

疫情期間,某通信運營商就通過雪球DB解決了海量多種類型數據如何及時、高效地處理和分析的問題。

來源:睿帆科技

「為了輸出潛在2B人員名單、分析疫情趨勢、建立駐留人員熱點區域圖,需要對海量數據進行調取分析。放在過去,需要大量的人工排查,耗時耗力。但通過我們毫秒級在線分析模型,幾分鐘就能調出結果。」李博士提到。

或者在公共安全領域,面對多警種的數據內容,以千億級數據毫秒查詢速度,結合睿帆科技其他產品能夠將視頻、音頻、文檔、圖標等結構化非結構化數據進行實時分析可視化決策,實現警情態勢的全局把控。

在原版雪球DB的基礎上,睿帆科技還針對小B客戶開發了「輕量版」。後者可以只在一臺機器上運行,不支持分布式和磁碟複製,削減了部分功能從而進一步降本增效。

李博士告訴「獵雲網」,由於大部分中小企業的數據調用需求受時間、季節的影響,比如銷售淡旺季、疫情關鍵節點等,因此針對這類客戶主要採用aPaaS模式,以公司的另一款產品零距大數據中臺作為最下層依託,與雪球相結合推出一整套解決方案——由於零距大數據中臺「低代碼+圖形化」的界面,因此可以極大地降低客戶使用門檻。

大數據經濟真正的價值,在於普惠中小企業

隨著信息技術和人類生活的深度融合,以及網際網路、移動網際網路和物聯網的快速發展,各行各業的數據呈爆發增長態勢。來自IDC的數據顯示,全球的數據量2020年將達到40ZB(1ZB=1024EB,1EB=1024PB),如果換算成128G iPad的高度,可以達到地球到月球距離的6.6倍。

龐大的數據量也催生了數據存儲更多、更快、更穩定的需求。由於數據量的增長速度遠遠超存儲設備本身能力的增長,原有的存儲設備,甚至整個存儲架構都需要不斷擴容和升級。

也使得大數據存儲技術在數據存儲的成本、數據讀寫能力以及數據自動備份安全性等方面,都面臨很大的挑戰。

但這些痛點並不能僅僅通過硬體和存儲陣列本身存儲能力的提升來解決。

在傳統的關係型資料庫無法滿足海量數據的存儲處理需求的情況下,以阿里巴巴為首的網際網路企業最早開啟了「去IOE化」的歷程。

在此之前,阿里主要使用的是IBM、惠普的小型機,存儲設備主要是EMC的產品,和部分戴爾存儲設備;資料庫都是Oracle的。但在電子商務業務的爆發式增長下,原有的技術架構和成本阻礙了業務發展。

所謂去IOE化,其實就是集中式部署(IOE架構)很難適應網際網路大規模應用對擴展性的要求,因此用分布式架構系統替代了集中式架構商用系統,進而有了分布式資料庫的產生。

「IOE時代,數據通常存儲在IOE的硬體設備中,」李博士提到,「當數據量增加時,就會通過堆砌IOE的硬體設備來實現存儲任務。由於IOE的軟硬體相互配合,成本也會水漲船高。」

但這套解決方案並非適用於所有公司。阿里的「去IOE」從2010年開始共耗時三年,前後投入近1.7萬名技術員工。遷移之後,系統的維護和運營成本的耗費也十分高昂,比如為了重新架構全新的運維體系,僅X86伺服器就花了1.5萬臺,以替代原來的幾百臺小型機的系統。

來源:圖蟲

對於大多數具有成本壓力的中小企業,睿帆科技推出了一站式解決方案,它由零距大數據中臺為底層依託,再附加雪球DB和少量語料即可完成文本識別的大禹中文智慧文本平臺,三大產品組合形成了覆蓋結構化、非結構化、半結構化數據的整套系統。

這套系統所有的產品都支持PB級以上的數據處理能力,同時還能支撐起產品對於性能和承壓性需求。

這種PB級+低代碼+數據中臺的組合可以讓中小型企業以相對較低的成本用上大數據產品。」在李博士看來,這才是大數據經濟真正的價值,即幫助更多傳統中小型公司通過對大數據的精細化管理,提升企業工作效率,實現轉型升級。

睿帆科技成立於2015年,這期間,李博士和團隊見證了大數據應用不斷向產業網際網路延伸的趨勢,與此同時,華為、阿里等大廠也推出了自家的私有雲解決方案和大數據解決方案,和創新型公司共同搶食大數據服務市場。

「巨頭的加入驗證了行業的潛力,同時起到了一定的『鯰魚效應』。」李博士認為,未來大公司的入局需要用更辯證的眼光來看待,一方面,未來的市場格局,普惠性的項目更多是交給巨頭來做,他們有充足的資源和資本;此外,如金融、安防等垂直細分市場可以交給睿帆科技這樣的技術型創新企業,「我們會深耕在我們已經布局的、擅長的,已經形成行業競爭壁壘的PB級大數據領域。

相關焦點

  • 睿帆科技:千億級數據毫秒響應的雪球資料庫
    2009年,Hadoop將1TB數據的排序時間縮短到了62秒,從此名聲大噪。它也憑藉其高可靠性、高可擴展性、高容錯性和低成本成為當今大數據領域運用最多、範圍最廣的技術平臺,被雅虎、FaceBook、last.fm等眾多公司應用。
  • 微秒級數據處理,華為雲存儲的「快」節奏
    既然網絡已經能夠提供微秒級的應用,那麼對於存儲介質來說也必須迎合這種發展趨勢,才能夠最大限度地發揮系統效能。於是,才有了剛剛我們介紹的華為雲存儲All-Flash戰略,它的出現將傳統意義上的「慢車」——存儲和網絡大大提速,並與計算一起,構成了數據處理邁向智能時代的「三駕馬車」。
  • 河南移動的MPP大數據平臺對象存儲實踐
    統一DPI系統在該業務的數據處理上,客戶過去採用MR+HiveSQL+HDFS+Flum傳統架構進行支撐。目前,客戶已採購1.5PB存儲容量…02現有的數據應用問題今天,企業數據呈指數級增長,基於海量數據的分析、挖掘數據價值成為運營商和企業用戶的常態化選擇。
  • JAVA 經典面試題:ES如何做到億級數據查詢毫秒級返回?
    ,做到毫秒級數據查詢呢?hbase 的特點是適用於海量數據的在線存儲,就是對 hbase 可以寫入海量數據,但是切記不要做複雜的搜索,做一些根據 id 或者範圍進行查詢的簡單操作就可以了。最好的做法就在在 JAVA 程序中就將關聯關係做好,然後再存入到elasticsearch中,這樣查詢出來的數據就是關聯好的數據了,這樣做性能會好很多。溫馨提示:不要考慮用 es 做一些它不好操作的事情。
  • 基於新型存儲的大數據存儲管理
    如果採用傳統資料庫管理系統(database management system, DBMS)的集中式數據存儲方式,大數據存取性能就會受到極大的影響。Hadoop技術雖然提供了對大規模數據的快速、低成本存儲和管理,但它是一個離線、批量的數據處理系統,對於實時數據處理與分析的支持較弱,難以滿足許多應用的要求。例如,在城市公共安全中,通常要求能夠對高達每秒幾千幀的高清監控視頻流進行實時處理與分析。
  • 經典面試題:ES如何做到億級數據查詢毫秒級返回?
    但如果是走 filesystem cache,是走純內存的,那麼一般來說性能比走磁碟要高一個數量級,基本上就是毫秒級的,從幾毫秒到幾百毫秒不等。這裡有個真實的案例。某個公司 es 節點有 3 臺機器,每臺機器看起來內存很多,64G,總內存就是 64 * 3 = 192G。
  • PB級數據持久化緩存系統——lest
    這種方式同步量是最少的,50%,假設你是一臺變三臺,那麼動的數據就是66.7%。如果大家是使用Hash,我建議大家用2*數字的擴容方式會比較好。數據存儲下來之後,我們就需要同步,我們有組的標籤,同組之內可以數據同步,相互備份,它是沒有Slave的,全部都是主。這裡會牽扯到版本問題,我們後面會講到。
  • 邊緣計算已經發生在二級市場的傳統數據中心
    邊緣計算已經出現,但卻發生在一個被忽視的領域——在二級市場的傳統數據中心內。此外,微型邊緣數據中心(例如在蜂窩基站基礎的邊緣)將為延遲提供微不足道的增量收益,實際上在大型地理區域部署基礎設施時會帶來重大的操作和技術障礙。5G的影響首先從5G開始,看看它將如何影響網絡延遲以及在哪裡部署基礎設施的決策。毫無疑問,5G的廣泛應用將對現代網際網路的發展產生重要影響。
  • 數據存儲、人工智慧和IO模式
    它可以是圖像、視頻、音量、數字或幾乎任何數據的組合。 人們需要大量的數據。此外,其數據必須非常多樣化,並為每個輸入提供廣泛的信息。例如,確定某人是男性還是女性的簡單面部識別需要超過1億張圖像。 輸入數據能夠以各種方式進行存儲,從簡單的csv文件中獲取真正少量的輸入數據,以便了解深度神經網絡(DNN)的資料庫,以及包含圖像的資料庫。
  • 大數據基礎設施論壇(下):存儲、計算、架構在大數據中的應用
    2014中國大數據技術大會14日下午大數據基礎設施論壇上,北京卓越訊通科技有限公司CEO賴兆紅,希捷資深架構師郝繼玖,Memblaze 技術顧問劉愛貴,DELL資深解決方案經理尹玉峰,阿里巴巴資深技術專家強琦,亞信大數據平臺研發部經理田毅,AMD中國研究院研究員谷俊麗分別從存儲、架構、計算等方面介紹了在大數據中的應用與實踐。
  • python爬蟲數據數據存儲csv模式
    Python 爬蟲的數據存儲模式有很多中,有json,mongodb,mysaql,csv,我本人了解這幾個比較常用的。我們從最容易了解的csv開始。CSV(comma-separated values,逗號分隔值)是存儲表格數據的常用文件格式。Microsoft Excel 和很多應用都支持 CSV 格式,因為它很簡潔。
  • NAS數據遷移到對象存儲太麻煩?90分鐘納管1000萬文件了解一下
    一、對象存儲成為海量數字底座首選  移動網際網路和物聯網等技術把我們帶入海量數據時代,數據終端呈現指數級增長,數據的類型和數量越來越多。在企業內部,新增數據中超過80%都是非結構化數據。  IT初期規劃中,由於數據規模較小,企業往往採用NAS存儲非結構化數據。
  • 華為雲CTO張宇昕首次解密:從毫秒進入微秒時代的華為雲存儲為何越...
    「最後一公裡」的挑戰,也是指隨著人工智慧(AI)、VR/AR、5G、自動駕駛等技術和應用的發展,雲存儲面臨著海量數據存儲、數據實時性、以及智能應用等挑戰。圍繞著「最後一公裡」的挑戰,華為雲日前在成都發布了雲存儲All-Flash戰略,力在推動雲存儲從毫秒走向微秒時代,同時還推出了該戰略的首個落地產品——全新一代極速IO雲硬碟。
  • 萬億數據下的多維實時分析系統,如何做到亞秒級響應
    2.實時數據分析平臺的話,事業群內部提供了準實時數據查詢的功能,底層技術用的是Kudu+Impala,Impala雖然是MPP架構的大數據計算引擎,並且訪問以列式存儲數據的Kudu。但是對於實時數據分析場景來說,查詢響應的速度和數據的延遲都還是比較高,查詢一次實時DAU,返回結果耗時至少幾分鐘,無法提供良好的交互式用戶體驗。
  • 如何解決大規模非結構化數據的存儲挑戰
    存儲技術也在不斷發展,有了正確的存儲系統和實踐方法,就可以有效地處理非結構化數據。  下面,我們將對關於存儲非結構化數據的五個常見問題進行解析。從分解這些問題所帶來的挑戰,到哪種系統最適合存儲它,希望本文能夠對消除您對於存儲非結構化數據的困惑,並幫助您的組織最大限度地利用這些數據。
  • 數據存儲的趣事
    為什麼像物理和化學這樣基礎學科如此重要呢?這篇文章或許可以給出一些答案。隨著更新、更好、更快的存儲介質的到來,一個字節的數據能夠以多種不同的方式進行存儲。字節是數字信息的單位,通常指八位,比特位是一個信息單位,可以表示為0或1,表示邏輯狀態。讓我們跟隨時光的腳步簡單地走一走,先了解一下比特和字節的起源。
  • IDC數據中心與分布式存儲
    網際網路數據中心(Internet Data Center)簡稱IDC,就是利用已有的網際網路通信線路、帶寬資源,建立標準化的電信專業級機房環境,為企業、政府提供伺服器託管、租用以及相關增值等方面的全方位服務。它為操作和維護提供設施基礎,並為集中收集、存儲、處理和發送數據的設備提供相關服務。
  • 從大數據的發展史,看數據中臺的核心價值
    但為什麼要做中臺、好處是什麼、能給企業帶來什麼價值、是不是所有公司都適合做數據中臺,這是隨之而來的問題。01大數據發展的歷史上個世紀90年代開始出現數據倉庫概念,他幫助企業做出經營分析決策。進入網際網路時代後,數據規模前所未有的快速增長:例如:抖音、微信,每天都在產生千億級的用戶行為數據,同時數據結構也在變得複雜多樣化,有結構化、非結構化、半結構化的數據產生;例如:app、web的埋點數據、後臺日誌數據。這些特點都是傳統數據倉庫所難以承載的。
  • 2毫秒/5毫秒/CRT顯示器哪個更強
    本文的目的主要是想通過實際的對比測試,來觀察2毫秒和5毫秒灰階響應的液晶顯示器在遊戲中的實際顯示表現,以及2毫秒灰階響應液晶和傳統CRT液晶在遊戲中的實際差異到底會有多大。二、延時的解決方案——RTA(響應時間加速)  近日,我們PConline評測室就收到了來自三星官方送測的新款22英寸寬屏液晶——三星 2253BW。
  • 華雲數據:超融合好用不貴,如何選
    隨著以雲計算、大數據、移動互聯和社交媒體為代表的IT第三平臺的快速發展,企業業務和產生的數據量都在呈幾何級數增長,不同數量級的數據存儲和處理需求驅動著基礎設施的變革,作為承載整體業務運營的信息化體系亟待升級,超大規模的數據中心在快速增長。對於企業CIO而言,最嚴峻的挑戰不僅來自於應用和數據層面,還有超大規模數據中心擴容成本及維護複雜度。