英特爾、第四範式聯合研究成果入選國際頂會VLDB,傲騰持久內存加持...

2021-01-10 DOIT

近日,英特爾與第四範式聯合實驗室以及新加坡國立大學的最新聯合研究成果——基於英特爾傲騰持久內存的特徵工程內存資料庫,被國際頂級資料庫學術會議VLDB(Very Large Data Base)作為常規研究論文錄取。VLDB與SIGMOD並稱為資料庫業界的兩大最頂級學術會議,收錄研究機構以及工業界在資料庫領域最前沿、最頂級的研究成果。英特爾與第四範式此次合作錄取的論文以解決在線預估系統的業務需求和痛點為目的,針對如何設計底層資料庫組件來高效支撐萬億維稀疏特徵在線預估系統,以及如何基於英特爾傲騰持久內存進一步解決業務和系統設計的痛點等兩方面進行創新性設計和全面優化。

如今,越來越多的企業意識到了AI在企業經營、決策中的重要作用,AI迎來了落地應用爆發期。作為AI落地的關鍵組件,超高維在線預估系統基於實時提取的超高維特徵和預先訓練的模型對業務數據進行實時評估,因而被廣泛應用在欺詐交易識別、個性化推薦等在線實時推理業務場景中。

為了支撐高性能的實時特徵存取需求,業界誕生了諸多實時內存資料庫。然而,伴隨著業務的持續擴張和數據量的指數級增長,實時內存資料庫所存在的潛在弊端與風險使其難以高效、低成本的滿足不斷增長的業務硬實時需求:

· 高性能特徵存取對計算資源消耗巨大:為了保障線上服務的性能,特徵工程內存資料庫對內存的容量要求極高,企業通常需要配備20-30臺機器以滿足高性能計算需求所需的內存容量,總體擁有成本(TCO)居高不下。

· 服務中斷恢復所需周期長,嚴重影響企業線上服務質量:企業線上服務對服務質量的要求極高,然而通常情況下服務中斷(軟硬體錯誤宕機、例行維護等)往往需要幾個小時的恢復時間,業務長時間掉線嚴重影響線上服務質量。

· 長尾延遲:使用基於內存的特徵工程資料庫保障了線上服務的高性能,但是數據備份依然會落盤到性能較差的外存儲設備上,導致某些場景出現長尾延遲,嚴重影響服務質量。

為解決以上問題,第四範式自主研發了實時特徵工程內存資料庫FEDB(Feature Engineering Database)。作為面向AI硬實時場景的分布式特徵資料庫,FEDB所具備的高效計算、讀寫分離、高並發、高性能查詢等特性,使得特徵工程的效率和性能達到最大化。

在充分發揮FEDB價值的基礎上,第四範式引入英特爾® 傲騰™持久內存技術,以及創新性的持久化數據結構,全面支撐AI硬實時、低成本、高計算性能等需求的實現。雙方基於英特爾® 傲騰™持久內存,使用App Direct Mode,開發優化持久化數據結構,完全摒棄了FEDB原有的基於外存儲設備的數據持久化架構,不僅充分利用了持久內存大容量、持久性的特性,而且將持久化操作帶來的性能損耗降至最小。

該工作主要的創新性優化技術包括」持久化智能指針」以及利用原子操作」持久化比較並交換」(Atomic Persistent Compare-And-Swap」)的解決方案。一方面,持久化智能指針巧妙地利用了64位作業系統中64位寬指針不被使用的低4位來標記目標地址的數據是否已持久化;另一方面,針對」比較並交換操作」(CAS),傳統指令缺少持久化語義,因而無法在持久內存中直接作為帶有持久化特性的原子操作來使用的難點,雙方引入了新的」讀前持久化」(flush-before-read)概念,利用持久化智能指針,保證」持久化比較並交換」 (Persistent CAS)正確性的同時,最大化減少持久化帶來的性能損耗。

此項工作的研究成果表明,基於英特爾® 傲騰™持久內存的FEDB可有效滿足企業超高維稀疏特徵在線預估場景的需求,在保證線上推理服務超高性能的同時,大幅降低了企業AI整體投入成本,提升了線上服務的質量,進一步掃清了企業AI規模化應用的障礙。

· 英特爾® 傲騰™持久內存的加持滿足特徵工程資料庫對大內存的需求。下圖顯示了在論文實驗中使用的機器配置,在10TB數據的業務場景中,基於持久內存的FEDB的硬體成本僅為基於純內存版本的41.6%。

硬體成本比較(10TB業務數據)

· 在服務中斷情況下實現數據快速恢復,服務恢復時間減少99.7%,全面降低對線上服務質量的影響。如在論文中描述的結果(見下圖,PA-FEDB為基於持久內存優化的FEDB,D-FEDB為內存版本的FEDB),在實際業務場景中,其數據恢復時間從原來的六個小時縮短至一分鐘左右。

數據恢復時間比較:持久內存(PA-FEDB)vs. 純內存(D-FEDB)

· 基於英特爾® 傲騰™持久內存進行持久化數據結構設計的FEDB捨棄了原有純內存方案以及基於外存儲設備的備份機制,實現了長尾延遲(TP-9999)接近20%的改善(見下圖,PA-FEDB為基於持久內存優化的FEDB,D-FEDB為內存版本的FEDB )。

長尾延遲TP-9999比較 : 持久內存(PA-FEDB)vs. 純內存(D-FEDB)

未來,英特爾與第四範式聯合實驗室還將在軟硬一體技術、面向AI的高性能計算等方面展開深入合作,結合英特爾領先的軟硬體產品以及第四範式在AI領域的深厚積累、研發優勢,推動AI技術的創新和落地,加速企業規模化AI應用進程,共同引領AI產業化發展。

未經允許不得轉載:DOIT » 英特爾、第四範式聯合研究成果入選國際頂會VLDB,傲騰持久內存加持 優化萬億維特徵在線預估系統

相關焦點

  • 英特爾宣布明年推出二代傲騰 持續內存&存儲創新
    介質的傲騰數據中心級持久內存(代號APECHE PASS)、傲騰SSD,基於3D QLC NAND顆粒的SSD以及將這兩種完全不同存儲介質封裝在一塊板卡上的傲騰內存H10。為了進一步擴大傲騰的產能,英特爾決定在其位於新墨西哥州RioRancho的工廠開設一條新的傲騰技術開發線。      眾所周知,3D XPoint介質的特性使得傲騰數據中心級持久內存高性能、低延遲、大容量以及持久性幾大優勢與生俱來。這便引得筆者猜測,相比一代傲騰數據中心級持久內存,二代傲騰數據中心級持久內存恐怕也將在這幾個特性的某一方面或某幾方面升級。
  • 伏羲聯合實驗室新成果 平安雲-浪潮推出基於英特爾傲騰持久內存的...
    近日,浪潮與平安雲聯合構建了高性價比的推薦系統建設方案,以搭載了英特爾傲騰持久內存(Optane PMem)的浪潮伺服器為數據高效處理和存儲的基石,以平安雲Redis雲服務的形式為高效平臺,面向金融、醫療健康、汽車服務、房產服務、智慧城市五大生態圈提供更高效、更低成本的內容推薦解決方案。
  • 英特爾發布全新一代內存和存儲產品
    為進一步推動內存和存儲創新,英特爾宣布推出兩款新的傲騰固態盤產品,即全球運行速度最快的數據中心固態盤英特爾®傲騰™固態盤P5800X,以及能夠為遊戲和內容創作提供高性能和主流生產力,面向客戶端的英特爾®傲騰
  • 英特爾推6大硬核新品!第二代至強、傲騰內存、革新FPGA組團來了
    、英特爾傲騰數據中心級持久內存、英特爾固態盤數據中心產品家族、英特爾乙太網800系列等產品。該產品工藝和架構本質上還是基於14nm Skylake-SP,但是核心數量翻番,並支持傲騰數據中心級持久內存,加強了對AI、5G應用的支持。
  • 好未來技術成果論文入選國際教育測量學頂會NCME 2020
    兩篇學術論文同時入選教育測量領域的國際頂級會議,體現出國際學術界對好未來在教育測量和認知測評領域學術研究和應用實踐的認可。入選國際頂會,認知科學實踐獲學術認可美國國家教育測量委員會(NCME)是美國全國性的教育測評行業協會,其參與制定的《教育與心理測量標準》是國際上測量教育教學成果的最高標準之一,對教育行業評測標準的制定有著深遠影響。
  • 「金牌」英特爾加持 助企業打造千變萬化的雲
    除了技術創新,英特爾和阿里雲在產品化和規模化商業部署上也有一系列合作成果,從0到1的階段,領航員計劃(Navigator Program)在傲騰持久內存上共創架構級優化,孵化出了ECS內存增強型實例和Tair SCM實例兩款新產品,從1到100的階段,數字革新加速計劃(Digital transformation acceleration program)可以為對新產品感興趣
  • 當英特爾已成高性能代名詞,深信服存儲如何讓強者至強
    當有強大硬體平臺的英特爾與有深厚軟體技術積累的深信服合作,聯手推出英特爾精選解決方案,作為軟硬體聯合創新的又一創舉,這次又會釋放出怎樣的價值呢?基於深信服HCI&SDS的英特爾精選解決方案:為優秀加冕英特爾精選解決方案是英特爾推出的一系列解決方案。
  • 基於深信服HCI&SDS的英特爾®精選解決方案,實現性能無憂,數據增值
    深信服科技股份有限公司副總裁陳彥彬、英特爾市場營銷集團副總裁張怡幡、英特爾公司市場營銷集團副總裁兼中國業務總經理王稚聰、深信服科技股份有限公司新IT業務總經理張強等八位大咖共同出席此次活動見證了方案的發布。作為雙方合作成果的「承載者」,深信服企業級分布式存儲EDS的高性能版本同樣在此次活動「首發」,為用戶數據中心存儲提供更多選擇。
  • 只有手掌大小DIY主機 搭雷電3和傲騰內存
    去年隨著「吃雞」的大IP效應,可以說讓臺式主機再一次進入到了主流視角,所以我們也看到了各種臺式設備在市場中爭奇鬥豔,而對於消費者來說最為看重的其實只有兩點,一個是性能、另一個則是體積,為什麼會把體積加入進來呢?因為大家都知道如今高房價愈發催生了所謂的蝸居、雀巢,而臺式主機向來以體積大著稱,所以大家在選購時很多時候會被體積牽絆。
  • 閃騰更名傲騰 英特爾黑科技對誰最有用
    1970年,英特爾推出1.024比特動態Ram 1103的時候,其主打業務並非是現在的處理器。而在1971年推出第一個微處理器4004之後,英特爾才逐漸成為人們現在所認識的這個英特爾。
  • 英特爾Rob Crooke:2019,拓展內存和存儲新疆界
    我們即將發布英特爾傲騰數據中心級持久內存,對此我們倍感興奮。這款內存將用在數據中心級的下一代英特爾至強處理器上,以重塑內存和存儲的層級結構,使得持久的、大規模內存更靠近處理器。因此,我們不僅是在創造全新的內存和存儲技術,我們還在顛覆整個市場。以客戶需求為中心以客戶需求為中心意味著我們利用最新技術幫助客戶解決他們的挑戰。
  • 最全傲騰內存電腦選購攻略 一步到位_Intel筆記本電腦_筆記本導購...
    而傲騰內存的作用正是解決了速度與容量之間的難題,簡單來說的話,傲騰內存是一種基於3D Xpoint存儲介質而打造的,幫助硬碟提升速度的緩存設備。傲騰是其品牌名稱,3D Xpoint是這種存儲設備的存儲介質,與我們熟知的NAND具有相同的意義。
  • 英特爾進擊新能源發電,看AI如何預測風力發電功率
    大規模新能源併入電網會給系統的穩定運行以及電力調度帶來巨大挑戰。 如何將通過大規模新能源發出來的電接入電網高效輸送並使用,成為一大難題。 因此,新能源功率的準確預測正是解決上述困難的有效方法之一。
  • 英特爾Rich Uhlig:將研究重點聚焦在後疫情時代需求
    為此,英特爾研究院的700餘位研究人員正通過跨多個學科領域的專業知識加強研究,這樣的時刻也讓我們進一步聚焦亟需創新的領域,進行有原則的創新。 英特爾近期發布了2030年全球影響力目標,凸顯了人們迫切需要通過技術和數字就緒計劃擴大發展機會。在科技研究的幫助下,我們擁有前所未有的機會,可以在全球範圍內實現社會層面的變革。
  • 第四範式入圍Forrester機器學習平臺Wave 位列前列
    近日,國際知名市場研究公司Forrester發布了《Forrester WaveTM:Predictive Analytics And Machine Learning In China, Q4 2020》(簡稱PAML)報告。
  • 第四範式陳雨強:提高機器學習維度的兩大法寶
    第四範式聯合創始人、首席研究科學家陳雨強受邀出席,並發表了主題演講、分享了機器學習在工業界應用發展的新思考。    第四範式聯合創始人、首席研究科學家陳雨強於全球機器智能峰會(GMIS 2017)發表演講陳雨強認為,過去五年,人工智慧在工業界的火熱程度正以指數的方式增長,而「VC維」便是衡量人工智慧應用水平的關鍵。