挖掘未來「鑽石礦」,睿帆科技如何用好資料庫這把利器?

2020-12-18 donews

文章經授權轉自公眾號:獵雲網(ID:ilieyun)作者:小樹

21世紀的「鑽石礦」是什麼?「大數據。」

近年來,大數據因其在社會生產、流通、分配、消費活動以及經濟運行機制等方面發揮著重要的作用,一直被認為是「未來的新石油」。今年,國家發改委重點指出,擴大投資,新基建是重點,制定加快新型基礎設施建設和發展的意見,實施全國一體化大數據中心建設重大工程,大數據戰略已上升為國家戰略高度,積極落實推進大數據發展政策。

被上升到國家戰略的大數據,行業市場廣闊。去年中國信息通信研究院在發展白皮書中提到,,綜合國內外環境、新興技術發展等多種因素,測算2018年我國大數據產業增速約為15%,產值達到5405億元。

賽迪數據也曾顯示,2018年中國大數據產業規模為4384.5億元,同比增長23.5%;到2021年,中國大數據產業規模將超過8000億元。

市場廣闊的背後,大數據被有效儲存、使用的情況卻不容樂觀,甚至只有10%的利用率,如何喚醒大量「沉睡的」數據並從中尋找、分析有價值的信息,促進業務發展,無疑是一個巨大挑戰。

機遇與挑戰並存,隨著5G時代的到來,各行各業各領域數據化、信息化之後產生的數據呈現井噴式增長,推動著大數據的蓬勃發展。此外,人工智慧、數據中臺等新技術新概念的興起,也推送了大數據產業的轉型和融合。

目前,行業頭部企業數據每年以PB級甚至上百PB爆炸式增長,催生了對於PB級數據量在線或實時數據分析的處理能力的需求。如何存儲,使用這些數據,成為SAAS賽道上,各個大數據服務商需要深思的問題。

極速的交互查詢引擎

睿帆科技就是這些大數據服務商的其中之一,如何存儲、利用大數據,從一開始睿帆科技就思考的很清晰。

睿帆科技的創始團隊發現,面對龐大的數據量,很多企業早期主要通過抽樣數據來獲取結論。抽樣之後的數據變成百萬級或千萬級,是原始數據的一個子集,和實際情況會有很大的偏差,導致根據樣本得出的結論可靠性大大降低。

為了追求數據的準確性,有的企業不得不降低數據處理的實時性,採用離線處理的方式,但是數據的價值就在於其時效性,越早分析越能得到快速準確的反饋和響應,並及時利用結論指導後續的業務工作。

此時,一款針對海量數據進行實時即席查詢分析的資料庫就顯得尤其關鍵,它甚至決定了企業是否能以比競爭對手更低的成本,更快的速度解決問題,構建起核心競爭力。

對此,睿帆自研了一款分布式分析型資料庫雪球DB。

雪球DB是一款純列式資料庫,提供海量結構化數據存儲和高並發查詢。針對此前採用離線手段提高數據的準確性,卻失去了時效性的痛點,雪球DB則提供PB級數據聯機分析處理,實現高吞吐即席查詢(Ad-hoc)和多維分析場景。

雪球DB對於上述痛點,各個擊破。總的來說,雪球DB打破了傳統架構的讀寫瓶頸,實現海量數據的簡單查詢可以在毫秒級返回查詢結果。

簡單來說,雪球DB的特點就是:快速、穩定、易用。滿足了海量數據的實時交互式查詢需求。但做到這些並不是一件容易的事情,雪球DB從研發到第一版正式推出,花了近5年的時間。到了2019年6年,睿帆科技正式推出雪球DB 1.0版本。

雪球DB通過列式存儲、向量化執行方式,達到單表千億級數據簡單查詢響應時間在毫秒級別,能夠高效、極速,支持多並發即席查詢。雪球DB可以為數據保留多個副本,並對數據的多個副本之間自動進行同步,保證數據安全。另外,還具備海量數據的實時加載以及索引、數組及嵌套等功能。

雪球DB的定位一開始並不清晰,「在最開始研發的時候,我們主要是為了解決如何快速響應交互式查詢的問題,但是後來我們其實是開發出了一款通用的OLAP產品數據倉庫,進而解決了交互式查詢的問題。」睿帆科技CTO王雪博士回憶道。

作為一款通用的OLAP產品數據倉庫,雪球DB主要有兩個兩個使用場景,一種是作為通用的OLAP資料庫來使用,另一種就是極致快速響應交互式查詢引擎。但最終,在長期的摸索中,雪球DB的產品定位越發清晰,「我們其實就想把雪球DB作為一個極速的交互查詢引擎來使用。」王雪告訴獵雲網。

今年10月份,睿帆科技正式推出雪球DB 2.0版本。「和第一版雪球DB相比,新版雪球DB在易用性、可拓展性上做了增強。」王雪談到。

具體而言,「雪球DB」的特點主要在於列式存儲,向量化執行引擎,去中心化的集群架構以及數據自動均衡、副本同步拷貝的能力。

列式存儲,相比於行式存儲將每一行的數據連續存儲不同,列存是連續存儲每一列的數據。

它的優勢是在數據讀取時,只需要讀取參與計算的列,這極大降低了IO的消耗,加快了查詢速度。與此同時,同一列中的數據屬於同一類型,這使得列式存儲可對數據進行高達十倍以上的壓縮,這節省了存儲空間和成本消耗,非常適合大數據查詢分析。

向量化執行引擎,對內存中的數據,一個數據集調用一次指令(而非每一行調用一次),不僅減少了函數調用次數,而且可以充分發揮指令的並行能力,大幅縮短了計算耗時。相當於讓數據處理的效率有了幾何倍的提升。

應對節點宕機時的負載均衡優化,是睿帆開發的一項專利技術,主要是針對傳統分布式系統節點宕機時可能造成剩餘節點負載不均的問題。雪球DB能夠根據系統整體容量自動地生成和配置副本策略,使得雪球DB能夠在一個節點宕機時,保證剩餘各節點負載相對均衡,避免雪崩效應。雪球DB可以在不同的節點上維護相同數據的多個副本。如果當前節點發生故障,則自動切換由其副本提供服務。

這些核心特點使得「雪球DB」在根本上解決了交互式查詢在數據量大的時候效率低下的問題,滿足了海量數據在線交互、多維分析和高效查詢,確保數據分析結果更真實。「快。」王雪用一個字總結了雪球DB新版本的特點,「加載數據快,查詢數據快,實時更新也快,和其他傳統數據廠商相比,一個快字可以涵蓋雪球DB所有的特點。」

「實時性、高效性、承壓性」

目前,雪球DB2.0版本已經在電信、軌交、安防、大型公共工程等領域使用,針對大型公共工程場景,王雪談到了兩個具體的場景案例。

大型公共工程是一個比較典型的場景,它每天產生的數據量不大,數據通過實時消息隊列接入實時流引擎進行處理,處理之後的數據進入到NoSQL資料庫中供給用戶進行實時交互式查詢。NoSQL資料庫無法支撐複雜的SQL查詢,且無法對接報表製作工具,相比NoSQL資料庫,雪球DB則既可以響應用戶的複雜實時SQL查詢,也可以實時加載和更新數據。

另外一個比較典型的場景在於安防場景,客戶使用雪球DB進行碰撞多維分析。具體來說,就是從雪球DB裡面執行兩個查詢生成兩個數據集合,並對這兩個數據集合進行並、交、差、補的集合運算得出結果。

在採訪中,王雪博士還透露了雪球DB 3.0版本將會在明年推出。相比於雪球DB 2.0版本而言,3.0版本的雪球DB將支持OLAP和OLTP雙引擎,可以滿足不同的場景。

OLTP資料庫可滿足交易型操作,保證操作的事務性,而OLAP資料庫則專門設計用於支持複雜的分析操作,可以根據分析人員要求快速、靈活地進行大數據量的複雜查詢處理,並且以一種直觀而易懂的形式將查詢結果提供給決策人員。

舉例來說,電信場景下對交互查詢實時性、高效性、複雜性的要求,OLAP引擎則更為適用。

雪球DB 3.0版本和2.0版本將是兩個獨立並行的產品。未來,雪球DB 3.0版本除了已經覆蓋的場景外,還會拓展到金融領域。

談及雪球DB的未來,王雪表示,雪球DB一方面會和大數據生態圈裡面的其他產品做成集合,即與睿帆的另外三款產品成一套組合拳,由零距大數據中臺作為「低代碼」+「數據中臺」的最下層依託,附加極速查詢的分布式分析型資料庫雪球DB與少量語料即可完成文本識別的大禹中文智慧文本平臺,形成了覆蓋結構化、非結構化、半結構化數據的一整套系統。這套系統所有的產品都支持PB級以上的數據處理能力,這使得產品的性能和承壓性更強。

另外一個方向即將服務產品化,換句話說就是雲化,「雪球DB要上雲,但是上雲也需要解決一些問題,這些問題我們已經在逐步的解決過程之中。」王雪談到。

特別聲明:本文為合作媒體授權DoNews專欄轉載,文章版權歸原作者及原出處所有。文章系作者個人觀點,不代表DoNews專欄的立場,轉載請聯繫原作者及原出處獲取授權。(有任何疑問都請聯繫idonews@donews.com)

相關焦點

  • 世界上唯一開放的鑽石礦公園,美國本地知名,鑽石數量有點驚人!
    尤其是女性,對於能夠佩戴的美麗的金屬更是極為關注,比如今天我們要說的鑽石。對於鑽石的價值,至今還沒有一個確切的說法,尤其是在近幾年網友對於鑽石稀有度的猜疑,要知道鑽石礦還是相對性並不稀少的,只不過由於其個人的壟斷,導致在市面上的比較稀少,又被商人賦予獨特的含義,所以價格才如此高昂。
  • 玩MC時萌新第一次挖到鑽石該怎麼用?我教你無限複製鑽石
    萌新第一次遇到了鑽石,請問該怎麼用才是最划算的辦法?相信這種類型的問題,大家一定不少見過,在《我的世界》這款遊戲之中,鑽石可以說是一個非常珍貴的物品了,而且能夠找到的機率非常稀有,對於萌新而言,遇到鑽石的機率和中彩票是差不多的。那麼今天我就和大家說一說這個話題,順便教給大家一些有關於遊戲的小知識!
  • 《我的世界》萌新看過來 老MC教你如何快速挖到鑽石!
    鑽石恆久遠 一顆永流傳。。。眾所周知鑽石是遊戲中最稀有的礦石,合成物品的效果也是非常好,所有玩家都想要得到,但是它的產量真是少得可憐。今天小編就來告訴大家如何找到更多的鑽石並把它們帶回去成為一個鑽石王老五。
  • 數據挖掘如何建模?
    圖:數據挖掘系統結構圖,來源於網絡 原則上講,數據挖掘可以應用於任何類型的信息存儲庫及瞬態數據,如資料庫、數據倉庫、數據集市、事務資料庫、空間資料庫、工程設計數據
  • 俄羅斯鑽石礦曝光 全球最名貴鑽石盤點
    「珀匹蓋」的鑽石又被稱為「衝擊鑽石」,是類似隕石一樣的物體撞擊現有鑽石礦後形成的產物。它的硬度是普通寶石的兩倍,因此在工業和科研方面的應用價值特別高。上周末,俄羅斯官員與媒體會面時表示,政府將允許位於該礦附近的新西伯利亞地質與礦物學研究院的科學家揭開這個寶藏神秘的面紗。  新西伯利亞地質與礦物學研究院院長說,新資源可能會對寶石市場產生較大衝擊。
  • 鑽石的產地有哪些,哪裡產的鑽石最好?
    波札那的鑽石來自露天開採的金伯利巖,巨大的礦山有orapa巖筒(1967年)、letihakena巖筒(1977年)和jwaneng鑽礦(1982年),在世界上的鑽石產地分布圖上,三個礦的總產量在1989年超過1500萬克拉。
  • 我的世界:如何快速獲得鑽石套?用一塊錢就可以,就怕錯過機會了
    MC中的鑽石套裝還是很珍貴的,作為強大且霸氣的防具,是很多的MC玩家追求的目標,有一些「非洲玩家」玩了一年的MC都沒有湊齊鑽石套裝。附魔之後的鑽石套裝簡直是生存模式裡最強大的鎧甲,還可以加上傀儡組件,將鑽石套裝變為全新的傀儡套裝,穿上後體型可以變成原來的兩倍,還可以增加攻擊力。
  • 如何依靠科技創新實現更大找礦突破?山東有答案了
    24日,省政府新聞辦召開新聞發布會,介紹山東找礦突破戰略行動有關情況。科技創新是推動地質調查事業持續發展的動力源泉。請問,在找礦突破行動中,地質科技取得了哪些新進展?下步山東如何依靠科技創新實現更大的找礦突破?省自然資源廳進行了解答。
  • 我的世界:紫水晶礦洞在哪?詳解1.17水晶的奧秘,鐵鎬就能挖掘!
    不過這是基於1.17的首個快照20w45a,未來是否生成上有變化,還很難說。突破這三層方塊,玩家才能進入到水晶洞的內部。所以當你發現這三種任意一種方塊,意味著附近就會有水晶礦洞。僅以目前而言,無論是凝灰巖,還是方解石,又或者紫水晶方塊,目前在此快照下它們並無實際用途,都只是用來裝飾性的方塊,多用於建築。
  • 我的世界:紫水晶礦洞在地下幾層?詳解1.17水晶的奧秘,鐵鎬就能挖掘!
    紫水晶礦只會誕生在《我的世界》地下一種極為罕見的「紫水晶洞」內,這是未來獲取水晶唯一且僅有的方式。不過這是基於1.17的首個快照20w45a,未來是否生成上有變化,還很難說。 罕見的生成:水晶洞也會偶爾且非常罕見的生成在「海平面」上方;
  • 以色列,鑽石恆久遠又如何?
    本文轉自【周末畫報】;時至今日,以色列的支柱產業之一 ——鑽石產業依然無法全面復工復產。疫情加速了向數字平臺過渡的速度,這個古老的產業終於迎來了首個線上交易平臺。但長遠來看,這只是第一步,如何順應時代潮流成長、變化、革新是每個業內人士都必須認真思考的問題。
  • 我的世界:出生自帶火柴盒,鑽石礦遍地是,這些特性你可能沒見過
    哈嘍大家好,我是地瓜,歡迎來到地瓜的遊戲世界!大家都知道,MC裡面的特性詩,都已經有很長很長了,不過千萬不要想著讓地瓜背下來,這是我不可能完成的事情!地面就能看到鑽石礦,開採不需要用鐵鎬!現在的鑽石珍貴嗎?還是很珍貴的。地瓜當年第一次挖到鑽石礦,開心地跳了起來!不過現在的礦石,都已經分好了生成的層數了,鑽石礦也是在比較下面才能挖到,而且還必須用鐵鎬才能開採!
  • Filecoin主網上線時間定檔,選擇金薩挖掘「頭礦」寶藏
    Filecoin主網上線時間定檔,選擇金薩挖掘「頭礦」寶藏 今日,Filecoin官方宣布Filecoin將在三周內逐步進入主網,在10月19日至10月23日將舉行為期一周的Filecoin啟動活動。
  • 5G時代的智慧能源躍進,中礦柏睿打通智慧礦山的任督二脈
    根據國務院發展研究中心,目前網際網路技術與能源產業鏈已實現逐步融合,伴隨信息數據價值的深度挖掘,使得不同能源業態之間的壁壘逐漸被打破,能源產業數位化轉型也將迎來更多挑戰與機遇。"智慧"先行,"家裡有礦"已不是硬核資本礦山作為能源產業最根基的存在,其信息化水平已較為成熟,但從礦山自動化到數字礦山,再到如今的智慧礦山,數智化時代有關未來礦山建設與實現方式的概念正在不斷被刷新,這也給礦山產業未來的發展提出了新的課題。一個"智能化"時代的到來,總是伴隨著承上啟下的轉型與過渡。
  • 微生物分類學研究利器:模式微生物基因組資料庫
    並且集合了數據搜索下載,新種鑑定,基因組拼接與注釋等在線分析工具,為全球各個保藏中心和廣大分類學家提供一個分類學研究的利器。如果想查詢這16702個有效發表物種名稱的16s rDNA 基因序列,可以通過點擊主頁左側Data→16S rDNA sequences進行全部的查詢。資料庫還利用打分程序,對多條序列進行了質量評估,為研究人員推薦最佳質量序列。
  • 我的世界鑽石怎麼挖?學會這幾個小技巧,再也不缺鑽石用
    在我的世界這款遊戲中,生存、推進遊戲進度最重要的一環,便是挖礦。而我的世界中有很多種礦物,其中有些礦物很容易獲得,如煤炭、鐵一類,這些礦物遍布著整個地圖,幾乎從地表向下挖就可以挖到很多。還有一些礦物相對來說比較難以挖到,如鑽石、綠寶石。
  • 【訪談】未來國內鋁土礦市場走向 進口礦現狀、特點及優勢 __上海...
    伴隨我國鋁土礦高度依賴進口的現狀逐步顯現,未來鋁土礦的發展之路該怎麼走,如何減少進口鋁土礦的風險,又如何科學合理地開發利用資源等熱點話題成為了業內關注的重點。在剛剛落下帷幕的2020年(第一屆)中國鋁產業鏈高質量發展峰會後,記者採訪了高朗國際實業有限公司首席工程師、教授級高工溫金德。
  • 收割數百億,騙了全世界,鑽石值錢的「智商稅」,你還要交多久?
    但這一切都隨著一座鑽石礦的發現而改變了,1870年,一位南非的農夫從幾個小孩口中發現了一個巨大的鑽石礦,其中最大的金伯利鑽石礦坑,深度達1100米,可供5000名挖掘工同時挖掘,直到最後被挖空關閉前,僅這一個礦坑就產出了整整3噸的鑽石。
  • 我的世界:你掌握好紅石科技了嗎?科技先鋒的基本功技能,要學!
    在《我的世界》中,我們可以在地下挖到各種各樣的礦石,稀有的鑽石、珍貴的各種寶石等,都是我們想要的,在這各種各樣的礦石中,有一種礦石,代表著MC中的頂尖科技,那就是紅石礦。紅石礦出現在地下十六層以下,我們使用鐵質以上品質的鎬子可以挖掘紅石礦,一塊紅石礦可以獲得1-4個紅石粉。
  • 兵器少女如何獲取鑽石及鑽石的三種作用
    兵器少女如何獲取鑽石及鑽石的三種作用。兵器少女是一款以近未來科技與魔法結合的世界背景為主題的冒險手遊,遊戲內擁有超百位特色迥異的美少女戰士將同你一起開啟一段冒險旅程!宏大的劇情,全3D超清畫質,聯合漫畫家傾情打造,360度全景伸縮視角,展現炫麗的魔幻世界;百位女武神驚豔上陣,組建宇宙最強後宮團!