大數據基礎設施論壇(下):存儲、計算、架構在大數據中的應用

2020-12-14 CSDN技術社區

【CSDN現場報導】2014年12月12-14日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中科院計算所與CSDN共同協辦,以推進大數據科研、應用與產業發展為主旨的 2014中國大數據技術大會 (Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數據學術會議在北京新雲南皇冠假日酒店盛大開幕。

2014中國大數據技術大會14日下午大數據基礎設施論壇上,北京卓越訊通科技有限公司CEO賴兆紅,希捷資深架構師郝繼玖,Memblaze 技術顧問劉愛貴,DELL資深解決方案經理尹玉峰,阿里巴巴資深技術專家強琦,亞信大數據平臺研發部經理田毅,AMD中國研究院研究員谷俊麗分別從存儲、架構、計算等方面介紹了在大數據中的應用與實踐。

北京卓越訊通科技有限公司CEO賴兆紅髮表了主題為「構建低延時大數據系統平臺」的演講。


他表示在大數據中,很重要的因素是時間驅動,數據量、價值和數據多樣性都和時間都緊密相關。而大數據的速度快慢涉及很多層面,包括數據產生、數據傳輸、數據處理等快慢,這其中都會有時延的問題,所以時延是一個鏈條問題,存在於整個數據生命周期,包括採集、網絡傳輸、存儲、處理和結果數據獲取,而並非某一個環節。「過去幾年,基於Hadoop 等技術推動了大數據產業,但是低時延的核心技術並沒有什麼改變,低時延是一個latency chain。」他說道。

關於如何構建低延時大數據系統,他提出了以下幾點建議:1. 基於FPGA的高速採集和 InfiniBand;2. 用UDP multiple lines 的傳輸方式;3. RDMA/Kernel;4. bypass 降低網絡延時;5. Persistency 通過網絡cloud ack方式;6. 減少context switch;7. 設計lock-free data queue;8. 內存地址as hash。

希捷資深架構師郝繼玖分享的主題是「OCP中的存儲」。


他介紹了自從2013年10月以來OCP存儲工作組在存儲領域的工作和相關的成果;針對未來OCP存儲發展方向,討論在乙太網存儲,高密度存儲和冷存儲方面的一些新的特性和未來的發展;分享OCP存儲論壇相關的資源,簡述OCP相關的測試認證流程和協作流程。

Memblaze技術顧問劉愛貴帶來了主題為「快閃記憶體原理和大數據應用方法」的演講。


快閃記憶體作為一種革新性的存儲技術,由於其超高的性能和成本的不斷下降,快閃記憶體已經成為數據中心不可或缺的技術元素。他表示儘管Nand Flash本身不是一個非常可靠的東西,但也有其鮮明的特點和優勢。他強調了Nand Flash 的錯誤模型,這個特性可以幫助用戶預測發生的錯誤類型,據悉目前只有Nand Flash有此功能。此外,他也介紹了ECC糾錯,RAID保護、Read retry、Wear Leveling(磨損均衡)和Garbage Collection等技術。關於如何選擇SSD,劉愛貴建議從容量/IOPS/帶寬、Latency/Jitter、寫壽命、功耗/散熱和成本或性價比等因素進行考量。

戴爾資深解決方案經理尹玉峰主要介紹了與大數據並行發展的基礎架構。


他分享了幾組數據:成人擁有的平均數字設備在43.臺,85%的數據來自新的數據類型,數據每五年增長10倍,37.5%的企業承認數據分析成為他們最大的挑戰…在這樣的3V的大數據時代,什麼樣的基礎架構才能滿足這樣的需求呢?儘管目前CPU、內存和網絡性能不斷提升,同時存儲容量也出現了增長……但應用的速度並未跟上步伐,為此尹玉峰也是介紹了融合架構以及其如何解決這些問題。

阿里巴巴資深技術專家強琦帶來了對阿里實時計算平臺的解析。


他表示阿里實時計算底層是一個增量交互式計算平臺,它建立了一個通用增量交互式的計算框架,在此之上構建了算子層(類似Spark算子)和SQL層,同時引入內存snapshot來解決性能問題,利用checkpoint來保證容錯的問題。並且解決了複雜的多流join問題,在出現嚴重傾斜的情況下,來避免性能和系統雪崩。有趣的是在增量計算框架下實現的機器學習和MPP會具備實時的交互式的體驗。我們引入了多種索引技術,來加速計算,並引入了多項技術來克服adhoc的長尾query。在阿里雙11所有媒體看到的實時大屏之外,幾乎涵蓋了集團內部所有bu的內部運營,業務所涉及到的實時計算指標。這些job每秒中都在不斷更新最新的計算。集群每秒處理數據超過千萬,並且能線性擴展;克服了嚴重的數據傾斜的網絡抖動。千億規模的數據計算可在毫秒級別解決。目前已經對外開放了分析資料庫服務ads,後續我們將不斷與外部客戶分享我們的基礎設施。

亞信大數據平臺研發部經理田毅分享的主題是Spark技術研究與實踐。


他介紹了為什麼選擇Spark,Spark的實踐分享,使用Spark的建議。他表示Apache Spark作為新一代大數據分析平臺,以全能分析聞名,可以在單個軟體棧內混合批處理、流式計算、以機器學習為代表的迭代型計算、關係查詢、交互式查詢、圖計算等多種分析範式,是搭建一體化大數據流水線的極佳選擇。他舉了個例子,當集群規模較小, Spark最大並發任務數不到300, 同時Hbase操作平均不到150,Hbase單次request處理時間1-2ms, 每秒處理700(單線程),說明機器數量有限時,有限的任務並行度會限制Hbase的吞吐能力。

AMD中國研究院研究員谷俊麗帶來的議題是基於開發標準OpenCL的深度學習研究與探索。


她表示,目前深度學習模型層數已經疊加到了24層。接著她談到深度學習訓練過程分為兩種,一種是有監督的訓練,比如數據加了標籤,計算機知道正確答案。一種是無監督訓練,只有數據,沒有標籤,不知道正確答案。無監督訓練是對Big Data很有實用價值了,例如海量的實時數據,不可能都加上精準的標籤。如果不加標籤,機器就可以識別,那我們周圍的世界機器就可以理解和認知了,就達到了人工智慧的目的。目前,無監督學習還是一個待研究的問題,還未解決。不過基於DNN的強大識別能力,最新的研究結果層出不窮,截止今天DNN已經橫掃計算機視覺領域了。

更多精彩內容,請關注直播專題 2014中國大數據技術大會(BDTC)  ,新浪微博 @CSDN雲計算 ,訂閱CSDN大數據微信號。

本文為CSDN原創文章,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)

相關焦點

  • 大數據學習:大數據平臺架構的組成
    大數據平臺是什麼?有哪些組成?01、大數據平臺是指以處理海量數據存儲、計算及不間斷流數據實時計算等場景為主的一套基礎設施。02典型大數據平臺架構由上到下,可分為三個部分:數據搜集、數據處理、數據輸出與展示。
  • 基於新型存儲的大數據存儲管理
    由於快閃記憶體性能總體優於磁碟,因此這種以快閃記憶體作為虛擬內存的架構理論上在大數據應用場景下性能優於傳統的DRAM+磁碟的架構。  對於大數據處理而言,基於PCM的主存擴展總體上比基於快閃記憶體的主存擴展更具可行性。同時,由於大數據時代數據一般需要分布式存儲與計算,因此在文件管理上還需要考慮對分布式環境的支持。因此,需要結合新型存儲架構和分布式環境的需求,研究新型的大數據文件系統。該方向的一些研究要點包括以下幾方面。
  • 【BDTC 2015】大數據基礎設施分論壇:解讀大數據系統、平臺與基準...
    2015中國大數據技術大會第二天的大數據基礎設施分論壇中,來自阿里雲、Hulu、北京憶恆創源、阿里巴巴、企事錄以及中科院計算所的技術專家分享了大數據基礎設施從設計、搭建到平臺測試標準各個方面的技術關鍵點、實際問題和解決方法。
  • PPIO姚欣:數據在邊緣大量產生,架構正在走向邊緣計算
    在下午的「助力數字經濟,共譜數據安全——區塊鏈大數據論壇」 上,PPIO 聯合創始人姚欣帶來題為《從大數據到邊緣計算淺談分布式存儲落地》的演講。他表示,今天我們要走向一個去中心化的時代,我們要走向一個分布式的時代,為什麼呢?是因為數據在邊緣大量的產生,我們也需要把我們的計算和存儲放在邊緣,這樣才能適應數據處理越來越高速,越來越低延遲的需求。
  • 解讀主流大數據架構
    以 Hadoop 為首的大數據平臺來替換傳統數據倉庫平臺簡要的說下分布式計算平臺比傳統構建在商業資料庫平臺上的數據倉庫的優勢:2.1 分布式計算:通過將數據計算分配到離數據最近的存儲節點上,使得並行計算成為可能。
  • 浪潮計算+大數據 克服大數據「摩擦力」
    【IT168 資訊】「計算+」是浪潮集團副總裁王恩東在2015年浪潮信息全國合作夥伴大會(IPF15)上首次提出的新業務戰略,指出了在物理世界信息化、信息世界智能化的發展趨勢下,計算重心正在向後端轉移,對後端計算能力提出了新的需求和挑戰,融合架構將是應對這一挑戰的最佳選擇。
  • 大數據架構流程圖
    流程圖來源:ioDraw.com大數據管理數據處理過程圖大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察力。大數據處理的主要流程包括數據收集、數據存儲、數據處理、數據應用等主要環節。隨著業務的增長,大量和流程、規則相關的非結構化數據也爆發式增長。平臺數據架構流程圖標準大數據平臺架構,標準大數據平臺架構,大數據平臺架構,數據倉庫,數據集市,大數據平臺層級結構,數據挖掘,舉報,包含該模版的分享。
  • 電信行業大數據應用的後盾 MPP架構資料庫技術
    電信行業作為國家重點行業,引領著IT技術的發展方向和潮流,在高並發業務處理、海量數據分析等領域有著迫切需求,而MPP資料庫技術作為未來主流的資料庫技術,通過分布式並行計算、動態擴展等技術,能夠在大規模事務處理和大數據分析等多種場景,滿足電信業務需求,提升電信行業的服務支撐能力,真正實現低成本、大容量、高性能和高彈性。
  • 大數據的左膀右臂!
    發展成熟的虛擬化和有著廣闊前景的雲計算,將成為大數據價值實現的左膀右臂。面對海量數據的增長,傳統架構雖然能夠進行擴充,但它卻面臨著不能實現水平橫向擴展的局限性,傳統的IT架構和數據處理方式無法有效地應對大數據環境。數據的存儲、計算、管理、分析等節點都需要適應大數據需求的方案,同時也要滿足性能上的擴展。因此,基於數據中心的IT基礎設施,也必將從傳統的數據中心邁向雲數據中心轉型。
  • 新基建概念下的大數據中心建設思路
    大數據中心為何會入圍新基建?我們又該如何理解新基建概念下的大數據中心?隨著大數據中心建設項目的增多,如何讓其發揮更大的價值?大數據中心需具備四大能力隨著消費網際網路的成熟,產業網際網路的興起,5G移動通信的推廣,以及企業的數位化、智能化轉型的深入開展,全球數據量呈現出海量聚集、爆發增長的特點。工信部總工程師張峰曾透露,全球數據總量每年增長50%。
  • 廣醫二院陸慧菁:三層數據服務架構下的大數據管理與應用
    在2020年新冠疫情的推動下,醫療大數據共享和利用的價值進一步凸顯,越來越多的醫療機構正在形成「大數據已成為支撐臨床業務和學科發展的戰略資源」的共識。數據管理與應用在醫院信息化建設與規劃中的重要性也與日俱增,特別是如何從資源的角度充分利用數據,成為近年來醫療行業信息化探討的熱點話題。
  • 大數據平臺架構:數據平臺建設的幾種方案
    數據平臺其實在企業當中一直都是存在的,但是進入到數據爆發式增長的大數據時代,傳統的企業級資料庫,在滿足數據管理應用上,並不能完全滿足各項需求。 對於企業而言,基於大數據背景下的企業數據管理應用,也需要更加符合需求的數據平臺建設方案。
  • 一文讀懂數據平臺、大數據平臺、數據中臺
    5、大數據平臺:個性化、多樣化數據,以處理海量數據存儲、計算及流數據實時計算等場景為主的一套基礎設施,使用大數據平臺,企業可以比競爭對手更快地作出數據驅動的決策,更快地推出適應客戶需求的產品。大數據平臺 1.0 時期,其實就是我們通常所看到的國內「傳統大數據平臺」的概念,此時的大數據平臺是以處理海量數據存儲、計算及流數據實時計算等場景為主的一套基礎設施,以 Hadoop、Spark、Hive 等作為大數據基礎能力層,在大數據組件上搭建包括數據分析,機器學習程序等 ETL 流水線,以及包括數據治理系統、數據倉庫系統、數據可視化系統等核心功能。
  • 河南移動的MPP大數據平臺對象存儲實踐
    這一解決方案導致:在應用端,無法實現多種數據融合分析,多並發能力不足查詢效率不高;在存儲端,計算存儲緊耦合不夠彈性,出現存儲訪問瓶頸,無法支持海量數據的按需擴展;以及更複雜的運維,更高的建設成本,逐漸難以滿足海量日誌分析的需求。
  • 七牛雲數據科學系列論壇嘉賓馬洪賓:大數據分析的雲原生趨勢
    七牛雲「雲加數據,智驅未來」數據科學系列論壇嘉賓馬洪賓:大數據分析的雲原生趨勢  9 月 10 日晚,七牛雲主辦的「雲加數據,智驅未來」數據科學系列論壇如期舉行。在直播中,Kyligence 創始合伙人 & 研發副總裁馬洪賓為我們帶來了主題為《大數據分析的雲原生趨勢》的精彩分享。
  • 數據湖 VS 數據倉庫之爭?阿里提出大數據架構新概念:湖倉一體
    而數據倉庫優先的設計,更加關注的是數據使用效率、大規模下的數據管理、安全/合規這樣的企業級成長性需求。數據經過統一但開放的服務接口進入數據倉庫,數據通常預先定義 schema,用戶通過數據服務接口或者計算引擎訪問分布式存儲系統中的文件。
  • 大數據分析工具大匯總
    Joyent:JoyentHadoop是一個基於ApacheHadoop項目大數據託管環境雲的解決方案。提供數據存儲服務獲取、分析和訪問任何數據格式、數據管理服務以處理、監控和運行Hadoop及數據平臺服務安全、存檔和規模一致的可用性。Google:Hadoop在谷歌的雲平臺上使用開源的ApacheHadoop谷歌計算引擎的虛擬機。
  • 大數據系統計算技術展望
    2  大數據系統計算技術現狀與問題  大數據計算平臺是大數據的硬體與系統基礎,對大數據的所有分析與處理都需要在高性能的計算平臺上進行;共性技術是大數據分析與處理的知識與技術基礎,所有的大數據系統都涉及數據採集、傳輸、存儲、處理和分析過程中的多項共性的技術;典型的應用可以用來驗證計算平臺和共性技術的可行性與執行效率,並為相近應用的研發提供借鑑。
  • 雲計算大數據數字娛樂行業應用論壇:移動與數據的無限可能
    本次會議以技術、應用、創新、標準、國際交流為方向,共設置了近20個分論壇,特邀了十大院士與百餘位企業一線實踐者,共同技術把脈雲計算及大數據發展趨勢,深入探討雲計算大數據在生產環境中的核心技術、實踐經驗、革新方向與國際標準等。5月23日下午,雲計算大數據數字娛樂行業應用論壇順利召開。
  • 2009(第四屆)教育信息存儲暨數據管理與虛擬化應用研討會(廣州站...
    2009教育信息存儲大會暨數據管理與虛擬化應用研討會國內圖書館2.0的進展與發展  PPT下載 楊新涯 重慶大學圖書館副館長 14:20-14:40 強大的存儲基礎架構打造數據中心標準化