英特爾和第四範式聯合研究成果入選國際頂會VLDB

2021-01-11 通信世界網

通信世界網消息(CWW)近日,英特爾與第四範式聯合實驗室以及新加坡國立大學的最新聯合研究成果——基於英特爾®傲騰™持久內存的特徵工程內存資料庫,被國際頂級資料庫學術會議VLDB(Very Large Data Base)作為常規研究論文錄取。VLDB與SIGMOD並稱為資料庫業界的兩大最頂級學術會議,收錄研究機構以及工業界在資料庫領域最前沿、最頂級的研究成果。英特爾與第四範式此次合作錄取的論文以解決在線預估系統的業務需求和痛點為目的,針對如何設計底層資料庫組件來高效支撐萬億維稀疏特徵在線預估系統,以及如何基於英特爾®傲騰™持久內存進一步解決業務和系統設計的痛點等兩方面進行創新性設計和全面優化。

如今,越來越多的企業意識到了AI在企業經營、決策中的重要作用,AI迎來了落地應用爆發期。作為AI落地的關鍵組件,超高維在線預估系統基於實時提取的超高維特徵和預先訓練的模型對業務數據進行實時評估,因而被廣泛應用在欺詐交易識別、個性化推薦等在線實時推理業務場景中。

為了支撐高性能的實時特徵存取需求,業界誕生了諸多實時內存資料庫。然而,伴隨著業務的持續擴張和數據量的指數級增長,實時內存資料庫所存在的潛在弊端與風險使其難以高效、低成本的滿足不斷增長的業務硬實時需求:

- 高性能特徵存取對計算資源消耗巨大:為了保障線上服務的性能,特徵工程內存資料庫對內存的容量要求極高,企業通常需要配備20-30臺機器以滿足高性能計算需求所需的內存容量,總體擁有成本(TCO)居高不下。

- 服務中斷恢復所需周期長,嚴重影響企業線上服務質量:企業線上服務對服務質量的要求極高,然而通常情況下服務中斷(軟硬體錯誤宕機、例行維護等)往往需要幾個小時的恢復時間,業務長時間掉線嚴重影響線上服務質量。

- 長尾延遲:使用基於內存的特徵工程資料庫保障了線上服務的高性能,但是數據備份依然會落盤到性能較差的外存儲設備上,導致某些場景出現長尾延遲,嚴重影響服務質量。

為解決以上問題,第四範式自主研發了實時特徵工程內存資料庫FEDB(Feature Engineering Database)。作為面向AI硬實時場景的分布式特徵資料庫,FEDB所具備的高效計算、讀寫分離、高並發、高性能查詢等特性,使得特徵工程的效率和性能達到最大化。

在充分發揮FEDB價值的基礎上,第四範式引入英特爾®傲騰™持久內存技術,以及創新性的持久化數據結構,全面支撐AI硬實時、低成本、高計算性能等需求的實現。雙方基於英特爾®傲騰™持久內存,使用App Direct Mode,開發優化持久化數據結構,完全摒棄了FEDB原有的基於外存儲設備的數據持久化架構,不僅充分利用了持久內存大容量、持久性的特性,而且將持久化操作帶來的性能損耗降至最小。

該工作主要的創新性優化技術包括「持久化智能指針」以及利用原子操作「持久化比較並交換」(Atomic Persistent Compare-And-Swap")的解決方案。一方面,持久化智能指針巧妙地利用了64位作業系統中64位寬指針不被使用的低4位來標記目標地址的數據是否已持久化;另一方面,針對「比較並交換操作」(CAS),傳統指令缺少持久化語義,因而無法在持久內存中直接作為帶有持久化特性的原子操作來使用的難點,雙方引入了新的「讀前持久化」(flush-before-read)概念,利用持久化智能指針,保證「持久化比較並交換」(Persistent CAS)正確性的同時,最大化減少持久化帶來的性能損耗。

此項工作的研究成果表明,基於英特爾®傲騰™持久內存的FEDB可有效滿足企業超高維稀疏特徵在線預估場景的需求,在保證線上推理服務超高性能的同時,大幅降低了企業AI整體投入成本,提升了線上服務的質量,進一步掃清了企業AI規模化應用的障礙。

- 英特爾®傲騰™持久內存的加持滿足特徵工程資料庫對大內存的需求。下圖顯示了在論文實驗中使用的機器配置,在10TB數據的業務場景中,基於持久內存的FEDB的硬體成本僅為基於純內存版本的41.6%。

硬體成本比較(10TB業務數據)

- 在服務中斷情況下現數據快速恢復,服務恢復時間減少99.7%,全面降低對線上服務質量的影響。如在論文中描述的結果(見下圖,PA-FEDB為基於持久內存優化的FEDB,D-FEDB為內存版本的FEDB),在實際業務場景中,其數據恢復時間從原來的六個小時縮短至一分鐘左右。

數據恢復時間比較

持久內存(PA-FEDB)vs. 純內存(D-FEDB)

- 基於英特爾®傲騰™持久內存進行持久化數據結構設計的FEDB捨棄了原有純內存方案以及基於外存儲設備的備份機制,實現了長尾延遲(TP-9999)接近20%的改善(見下圖,PA-FEDB為基於持久內存優化的FEDB,D-FEDB為內存版本的FEDB)。

長尾延遲TP-9999比較

持久內存(PA-FEDB)vs. 純內存(D-FEDB)

未來,英特爾與第四範式聯合實驗室還將在軟硬一體技術、面向AI的高性能計算等方面展開深入合作,結合英特爾領先的軟硬體產品以及第四範式在AI領域的深厚積累、研發優勢,推動AI技術的創新和落地,加速企業規模化AI應用進程,共同引領AI產業化發展。


相關焦點

  • 藍迪國際智庫研究成果入選CTTI來源智庫年度精品成果
    12月22日,南京大學、光明日報社舉辦的「2018中國智庫治理暨思想理論傳播高峰論壇」在南京召開,在論壇上發布的多項研究成果中,藍迪國際智庫研究成果成功入選中國智庫索引(CTTI)2018年度精品成果。
  • 小白世紀入選英特爾AI百佳創新激勵計劃第四期
    2020年12月9日,全球最大的半導體晶片製造商英特爾(Intel)公布了AI百佳創新激勵計劃第四期創新團隊名單,經過層層篩選和嚴格把關,16家優秀的創新團隊從上百個團隊中脫穎而出,項目涵蓋金融、工業製造、醫療等多個領域,並隨著項目的不斷發展,更多行業領軍企業加入該計劃,進一步拓展英特爾人工智慧創新生態,深入各行業各場景中,深入推動人工智慧的技術發展和突破,加速智能應用落地
  • 匯集智力資源 服務「一帶一路」——藍迪國際智庫研究成果入選CTTI...
    12月22日,南京大學、光明日報社舉辦的「2018中國智庫治理暨思想理論傳播高峰論壇」在南京召開,在論壇上發布的多項研究成果中,藍迪國際智庫研究成果成功入選中國智庫索引(CTTI)2018年度精品成果。
  • 雲知聲- CMU 合作論文入選全球 AI 頂會 NeurIPS 2020
    在官方公布的論文入選名單中,雲知聲與 CMU (卡內基梅隆大學)張坤教授團隊等合作的針對機器學習典型的無監督領域自適應問題論文《Domain Adaptation As a Problem of Inference on Graphical Models》,憑藉基於數據驅動的圖模型框架解決方案的創新研究成功入選,彰顯了雲知聲在人工智慧與機器學習原創技術領域的持續創新能力。
  • AI4DB|6大主題帶你一覽VLDB 2020研究趨勢
    ,xn)的聯合概率分布,表示為P(x) = P(x1) P(x2|x1) · · · P(xn|x1, . . . , xn−1);其次,為了支持任意範圍查詢,他們基於DAR模型估計的概率在第一個列的查詢範圍裡抽取樣本行,再在這些行上DAR模型迭代推導剩餘範圍查詢的選擇度。 3.
  • 第四範式論文獲《Nature Commuciations》收錄
    近日,國際頂級學術期刊《Nature Communications》收錄了一篇人工智慧×生物化學的論文——《Discovering de novo peptide substrates for enzymes using machine learning》,該論文提出了利用機器學習方法研究生物化學的方法和成果
  • 微軟《第四範式:數據密集型科學發現》中文版發布
    而早在大數據流行之前微軟就開始對之加以研究和利用,微軟研究院的部分基礎研究通過基於雲的大數據處理和分析完成,並基於及與其它高校、科研機構的相關合作成果,彙編了《第四範式:數據密集型科學發現》論文集的英文版。這對於發掘研究人員新的科研方式、加速科學發現,以及實現消費者與數據間更自然的交互等方面都將產生重要影響。
  • 好未來測量技術論文再次入選國際教育測量學頂會NCME 2021
    自2020年以來,好未來連續兩屆入選教育測量領域的國際頂級會議。這不僅體現出好未來在教育測量算法研發的前沿性,也反映出國際學術權威機構對好未來在該領域進行學術研究和探索實踐的認可。  測量技術受國際學術認可美國國家教育測量委員會(NCME)是美國全國性的教育測評行業協會。其參與制定的《教育與心理測量標準》是國際上測量教育教學成果的最高標準之一,對教育行業評測標準的制定有著深遠影響。
  • 中國晶片企業新紀錄:阿里平頭哥三篇論文入選國際頂級會議ISCA2020
    今天,計算機體系結構頂會ISCA 2020公布了論文入選結果,平頭哥三篇論文入選,創國內晶片企業紀錄。據悉,平頭哥入選的三篇論文分別展示了平頭哥半導體在玄鐵910處理器、計算存儲一體化及AI硬體基準測試等方面的研究成果。ISCA是計算機體系結構領域最權威的會議之一,包括谷歌、英特爾、英偉達等企業在ISCA上發表的多項研究成果都已在半導體行業廣泛應用。
  • 阿里雲:大數據時代比較教育研究範式的轉型
    大數據時代的到來使得科學研究範式發生了變革。美國學者吉姆·格雷(Jim Gray)提出了科學研究的第四範式,即數據密集型科學研究(Data-intensive Science Discovery)。
  • 騰訊TDSQL全時態資料庫系統論文入選VLDB
    VLDB是國際數據管理與資料庫領域頂尖的學術會議之一,這是繼去年騰訊TDSQL相似度計算的論文被VLDB錄用後,騰訊TDSQL再一次邁進VLDB殿堂。 騰訊科技訊 當地時間2019年8月26至30日,VLDB 2019會議在美國加利福尼亞召開,騰訊分布式資料庫TDSQL與中國人民大學最新聯合研究成果被VLDB 2019接收並將通過長文形式發表。VLDB是國際數據管理與資料庫領域頂尖的學術會議之一,這是繼去年騰訊TDSQL相似度計算的論文被VLDB錄用後,騰訊TDSQL再一次邁進VLDB殿堂。
  • 我校顏雲輝教授團隊的研究成果入選國際知名期刊的Popular Articles
    近日,東北大學機械工程與自動化學院顏雲輝教授團隊的研究成果「An End-to-end Steel Surface Defect Detection Approach via Fusing Multiple Hierarchical Features」入選國際儀器儀表類知名期刊《
  • 藝術教育研究的新視野與新範式
    ①  但是,與21世紀國際藝術教育研究成果相比較,我國的藝術教育研究還存在一定的距離,特別是缺乏原創性或突破性成果。首先,從研究課題上看,國際藝術教育研究在哲學層面,特別是在與21世紀技能相連接方面已取得突破性進展,而我國這方面的研究卻比較薄弱。
  • 馬克思主義中國化研究範式的前提和核心
    但由於價值理念、研究視角不同等各原因,不同的馬克思主義中國化研究範式先後出場。深刻理解馬克思主義中國化這個核心概念,需要提煉馬克思主義中國化的科學內涵和不同研究範式的共性,在凝聚共識的基礎上進一步規範和創新馬克思主義中國化的研究範式。 一、科學分析馬克思主義中國化研究範式的邏輯前提 馬克思主義中國化的科學內涵到底是什麼?
  • 特別策劃|新科學研究範式下的學術期刊出版趨勢研究
    摘  要技術變革、研究範式的轉變等深刻影響著學術出版的發展。本文通過分析國際學術出版領域的優秀實踐,研究了新科學研究範式下的學術期刊出版的未來趨勢。研究表明:開放科學環境下的學術期刊出版呈現出新的轉變態勢。首先,角色轉變。學術期刊將成為科學家、基金項目、出版物等主體的連接中心,更多地引導驅動創新過程。其次,範式轉變。
  • 《第四範式:數據密集型科學發現》中文版圖書正式發布
    全書以吉姆·格雷提出科學研究第四範式的著名演講開篇,邀請國際著名科學家對數據密集型科學發現的理念、應用和影響進行了全面分析。此次發布的中文版,由中國科學院副秘書長潘教峰、中國科學院國家科學圖書館張曉林等翻譯,由科學出版社出版。
  • 紮實推進文學研究範式拓展
    第四,所謂的「學科」很大程度上從屬於大學建制。不言而喻,作為現代教育與研究的專門機構,大學乃是現代性的產物。對於知識的生產、貯存、傳承與傳播,大學擁有無可比擬的效力。現代學術體系對於文學研究的學科定位,與大學的認可和支持密不可分。正如馬克思所言,「哲學家們只是用不同的方式解釋世界,而問題在於改變世界」。相似地,文學研究亦非學院圍牆內部的「知識空轉」。
  • 經濟學研究範式的理性思辨
    雖然為了各自所持的立場和認知,規範性研究和實證研究曾有過激烈的論爭,但最終並沒有得出一致性意見,反而是這一議題被擱置下來,經濟學研究按照自己固有的規律不斷地向前發展。而且,西方典型的宏觀經濟學研究範式和微觀經濟學研究範式也出現了理論上一體化的趨勢。
  • ...清華大學技術創新研究中心承辦的《國際創新研究學報(英文)》創刊
    《國際創新研究學報(英文)》創刊封面。該刊主編由清華經管學院教授、清華大學技術創新研究中心主任陳勁擔任。陳勁教授長期致力於技術創新管理與科技政策研究,先後深入研究自主創新、開放式創新、全面創新、協同創新等理論範式,是國內外自主創新、協同創新領域的領先研究者之一。
  • 京東數科16篇論文入選國際頂會AAAI 2021 包括社交推薦等研究領域
    【TechWeb】1月8日消息,近日,國際人工智慧領域頂級學術會議AAAI2021(第35屆AAAI)論文收錄結果出爐,其中,京東數科16篇論文入選,其研究方向包含了聯邦學習、對抗學習、深度學習、序列推薦、社交推薦、圖神經網絡、風險管理的反因果推斷,以及智能城市領域的時空AI等尖端技術領域。