【CSDN現場報導】2014年12月12-14日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中科院計算所與CSDN共同協辦,以推進大數據科研、應用與產業發展為主旨的 2014中國大數據技術大會 (Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數據學術會議在北京新雲南皇冠假日酒店盛大開幕。
2014中國大數據技術大會14日下午大數據基礎設施論壇上,北京卓越訊通科技有限公司CEO賴兆紅,希捷資深架構師郝繼玖,Memblaze 技術顧問劉愛貴,DELL資深解決方案經理尹玉峰,阿里巴巴資深技術專家強琦,亞信大數據平臺研發部經理田毅,AMD中國研究院研究員谷俊麗分別從存儲、架構、計算等方面介紹了在大數據中的應用與實踐。
北京卓越訊通科技有限公司CEO賴兆紅髮表了主題為「構建低延時大數據系統平臺」的演講。
他表示在大數據中,很重要的因素是時間驅動,數據量、價值和數據多樣性都和時間都緊密相關。而大數據的速度快慢涉及很多層面,包括數據產生、數據傳輸、數據處理等快慢,這其中都會有時延的問題,所以時延是一個鏈條問題,存在於整個數據生命周期,包括採集、網絡傳輸、存儲、處理和結果數據獲取,而並非某一個環節。「過去幾年,基於Hadoop 等技術推動了大數據產業,但是低時延的核心技術並沒有什麼改變,低時延是一個latency chain。」他說道。
關於如何構建低延時大數據系統,他提出了以下幾點建議:1. 基於FPGA的高速採集和 InfiniBand;2. 用UDP multiple lines 的傳輸方式;3. RDMA/Kernel;4. bypass 降低網絡延時;5. Persistency 通過網絡cloud ack方式;6. 減少context switch;7. 設計lock-free data queue;8. 內存地址as hash。
希捷資深架構師郝繼玖分享的主題是「OCP中的存儲」。
他介紹了自從2013年10月以來OCP存儲工作組在存儲領域的工作和相關的成果;針對未來OCP存儲發展方向,討論在乙太網存儲,高密度存儲和冷存儲方面的一些新的特性和未來的發展;分享OCP存儲論壇相關的資源,簡述OCP相關的測試認證流程和協作流程。
Memblaze技術顧問劉愛貴帶來了主題為「快閃記憶體原理和大數據應用方法」的演講。
快閃記憶體作為一種革新性的存儲技術,由於其超高的性能和成本的不斷下降,快閃記憶體已經成為數據中心不可或缺的技術元素。他表示儘管Nand Flash本身不是一個非常可靠的東西,但也有其鮮明的特點和優勢。他強調了Nand Flash 的錯誤模型,這個特性可以幫助用戶預測發生的錯誤類型,據悉目前只有Nand Flash有此功能。此外,他也介紹了ECC糾錯,RAID保護、Read retry、Wear Leveling(磨損均衡)和Garbage Collection等技術。關於如何選擇SSD,劉愛貴建議從容量/IOPS/帶寬、Latency/Jitter、寫壽命、功耗/散熱和成本或性價比等因素進行考量。
戴爾資深解決方案經理尹玉峰主要介紹了與大數據並行發展的基礎架構。
他分享了幾組數據:成人擁有的平均數字設備在43.臺,85%的數據來自新的數據類型,數據每五年增長10倍,37.5%的企業承認數據分析成為他們最大的挑戰…在這樣的3V的大數據時代,什麼樣的基礎架構才能滿足這樣的需求呢?儘管目前CPU、內存和網絡性能不斷提升,同時存儲容量也出現了增長……但應用的速度並未跟上步伐,為此尹玉峰也是介紹了融合架構以及其如何解決這些問題。
阿里巴巴資深技術專家強琦帶來了對阿里實時計算平臺的解析。
他表示阿里實時計算底層是一個增量交互式計算平臺,它建立了一個通用增量交互式的計算框架,在此之上構建了算子層(類似Spark算子)和SQL層,同時引入內存snapshot來解決性能問題,利用checkpoint來保證容錯的問題。並且解決了複雜的多流join問題,在出現嚴重傾斜的情況下,來避免性能和系統雪崩。有趣的是在增量計算框架下實現的機器學習和MPP會具備實時的交互式的體驗。我們引入了多種索引技術,來加速計算,並引入了多項技術來克服adhoc的長尾query。在阿里雙11所有媒體看到的實時大屏之外,幾乎涵蓋了集團內部所有bu的內部運營,業務所涉及到的實時計算指標。這些job每秒中都在不斷更新最新的計算。集群每秒處理數據超過千萬,並且能線性擴展;克服了嚴重的數據傾斜的網絡抖動。千億規模的數據計算可在毫秒級別解決。目前已經對外開放了分析資料庫服務ads,後續我們將不斷與外部客戶分享我們的基礎設施。
亞信大數據平臺研發部經理田毅分享的主題是Spark技術研究與實踐。
他介紹了為什麼選擇Spark,Spark的實踐分享,使用Spark的建議。他表示Apache Spark作為新一代大數據分析平臺,以全能分析聞名,可以在單個軟體棧內混合批處理、流式計算、以機器學習為代表的迭代型計算、關係查詢、交互式查詢、圖計算等多種分析範式,是搭建一體化大數據流水線的極佳選擇。他舉了個例子,當集群規模較小, Spark最大並發任務數不到300, 同時Hbase操作平均不到150,Hbase單次request處理時間1-2ms, 每秒處理700(單線程),說明機器數量有限時,有限的任務並行度會限制Hbase的吞吐能力。
AMD中國研究院研究員谷俊麗帶來的議題是基於開發標準OpenCL的深度學習研究與探索。
她表示,目前深度學習模型層數已經疊加到了24層。接著她談到深度學習訓練過程分為兩種,一種是有監督的訓練,比如數據加了標籤,計算機知道正確答案。一種是無監督訓練,只有數據,沒有標籤,不知道正確答案。無監督訓練是對Big Data很有實用價值了,例如海量的實時數據,不可能都加上精準的標籤。如果不加標籤,機器就可以識別,那我們周圍的世界機器就可以理解和認知了,就達到了人工智慧的目的。目前,無監督學習還是一個待研究的問題,還未解決。不過基於DNN的強大識別能力,最新的研究結果層出不窮,截止今天DNN已經橫掃計算機視覺領域了。
更多精彩內容,請關注直播專題 2014中國大數據技術大會(BDTC) ,新浪微博 @CSDN雲計算 ,訂閱CSDN大數據微信號。
本文為CSDN原創文章,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)