訊飛百度阿里360深度學習大神論道DL與HPC

2021-02-14 程序人生

深度學習三巨頭Yann LeCun、Yoshua Bengio和Geoffrey Hinton於2015年5月底發表於《Nature》雜誌的綜述文章「Deep Learning」表明,深度學習算法已經成為解決各種行業問題、賦予應用智能的關鍵技術之一,即便從整個自然科學界來看,深度學習對人類未來的發展也是影響深遠。

當然,Yoshua Bengio也在最近的博文中表示,AI光靠幾個媒體明星是遠遠不夠的,需要成千上萬科學家和工程師的工作,才能達成更大的進步並實現更多的應用。在深度學習領域,我們平日關注的更多是在算法層面,但其實行業巨頭一直默默在做的,還包括了底層計算系統的設計和優化。



深度學習的潛力

CNN(Convolutional Neural Network)在視覺識別、物體檢測、音頻處理領域的進展已是眾所周知,Google、微軟、Facebook、百度在這方面發布了無數成果,他們在ImageNet挑戰上你追我趕破記錄的速度也讓媒體目不暇接,而Face++、格靈深瞳、圖普科技這樣的創業團隊也都在通過使用CNN提升視覺識別精度作為核心競爭力。

在語音識別領域,RNN處理序列數據的優勢也不難理解。不管是百度,還是科大訊飛,都已經通過LSTM模型降低語音識別的錯誤率,百度最新公布的普通話識別率是96%,訊飛則實現了12種方言的成功識別。

視覺、語音的成果讓機器能夠看懂、聽懂人類的世界,改變人機互動的模式,所以國內外的科技公司紛紛組建深度學習實驗室,從學術界或者其他公司聘請來各路大神領導研究。再不濟的,也要和研究實力較強的高校開展合作。不過,Yann LeCun、Yoshua Bengio還對未來深度學習帶來的NLP革命表示期待。LeCun已經選擇了問答和自然語言對話系統作為下一個重點。

其實,京東已經用深度學習做一些NLP相關的工作。藉助京東DNN實驗室開發的基於DNN的自動應答系統,京東上線了JIMI智能客服機器人來代替部分人工服務。其中,DNN的主要作用是命名實體識別和用戶意圖識別,通過SGD和word2vec的結合來訓練模型,NER相比傳統的CRF方法有6個百分點的提升。目前,京東在探索用RNN來提升效果。當然,微軟、百度的機器翻譯,也屬於深度學習在NLP領域的最新進展。

借鑑神經科學的深度學習,也反哺了生物科學領域。在兩個多月之前,原華大基因CEO王俊宣布辭職,轉攻人工智慧和基因測序的結合。他曾經介紹華大基因的小米種植技術,基於對基因的了解,對大數據的收集和對深度學習模型的訓練,預測小米的成長情況,準確性可以達到90%。

醫學圖像分析和藥物研發也是深度學習大神們的興趣點。此外,氣象、城市交通、空氣品質的預測,都有很多機構在進行採用深度學習技術的探索。


深度學習的硬體難題

我們知道,人工神經網絡理論其實在上個世紀80年代就已經出現,但因為實現難度一直被未成主流。深度神經網絡之所以能在近年回歸,得益於當前的數據量和計算能力能夠支撐起足夠大的網絡,實現很好的效果。藉助於pre-train和BP算法,深度學習可以讓那些擁有多個處理層的計算模型來學習具有多層次抽象的數據的表示,各層的特徵都不需人工設計,而是使用一種通用的學習過程從數據中學到,並且良好的特徵也不需要大量的工程技術和專業領域知識,所以可用計算能力和數據量的增加很容易帶來精度的提升。

換個角度來說,深度學習可能的一個瓶頸,也就是計算力。在談到深度學習是否會取代傳統機器學習時,京東DNN實驗室首席科學家李成華曾表示,深度學習門檻較高,硬體要求也高。TalkingData CTO肖文峰甚至表示,深度學習為提高精度付出的成本太高,有時候甚至會有數量級的成本增加,這其中也包括了硬體的因素。

回頭來看,Google研究員賈揚清在讀博期間,如果不是獲得NVIDIA捐贈的一塊顯卡,他是否能開發後來廣泛影響學術界和工業界的深度學習開源框架Caffe,也還未可知。

HPC為彌補這個瓶頸帶來了希望,當前的HPC依賴於並行計算,與深度神經網絡模型的運行方式也恰好契合,而浮點運算、矩陣運算能力出色的GPU,也成為加速神經網絡的好選擇。所以,熱衷於深度學習的各大公司都已經在構建自己的高性能計算集群。例如,阿里雲在2015年7月宣布推出基於GPU的高性能計算服務,支持深度學習的應用,隨後迭代出以深度學習為重要特性的DTPAI平臺。阿里雲CTO章文嵩預測,在大數據和深度學習的刺激之下,GPU高性能計算將成為雲技術的下一次爆發點。

在最近的百度世界大會上,百度高級副總裁王勁在接受採訪時確認了百度正在運行一個基於FPGA加速的百度大腦版本,CSDN之前的文章《深度學習成長的煩惱》中對此已有說明。在此之前,我們已經知道百度在ImageNet挑戰中取得的成績離不開其超級計算機Minwa(36個伺服器節點,每個節點2個六核Xeon E5-2620和4個NVIDIA Tesla K40m GPU)。同時,微軟也在嘗試採用FPGA加速神經網絡,這說明,巨頭們對通過硬體平臺的強化來提升神經網絡效果的渴望可謂「慾壑難填」。

騰訊方面,其Mariana Cluster,也是基於GPU集群進一步提升模型規模和訓練性能。另據李成華透露,京東也正在搭建一個開放計算平臺,採用GPU加速,預計明年會在整個京東大規模運用。至於另闢蹊徑研發的類腦處理器的IBM,那就更不用說了。

對於移動終端、智慧機器人中的深度學習訓練,因為海量數據傳輸的難度,可能依賴於體積微小的神經網絡晶片在本地來為神經網絡加速,但對於承載更多複雜任務的「雲大腦」而言,GPU和FPGA的加速能力才是解決燃眉之急的良藥。目前來看,業界更普遍採用的是GPU,這是因為GPU通用性更強,軟體棧和生態圈完備,NVIDIA、AMD都做了很多相關的努力。不論何種方式,深度學習應用要關注硬體平臺、與HPC結合,則是毫無疑問的。不過,單機多卡、多機多卡的並行計算,要如何做好資源的調度,以及保證梯度或者數據的高效傳遞,這對於大部分的從業者來說,還是相對嶄新的課題。

將於9月24日在北京召開的的2015高性能計算用戶大會(HPCUF2015),同樣也關注了深度學習的應用,並專門設置了一個「深度學習」分論壇。深度學習的先行者,科大訊飛深度學習平臺研發主管張致江,百度科學家、深度學習研究院算法組和自然語言理解組負責人周杰,阿里巴巴計算資深專家王琤,奇虎公司數據挖掘專家王佔一等四位用戶DL專家,將分別分享深度學習在語音識別、網際網路應用、流量識別、視覺識別中的應用,以及HPC如何支持這些應用。浪潮HPC應用研發經理張清則會從高性能計算的角度,帶來「基於HPC的Caffe深度學習平臺」的介紹。

當然,深度學習領域在工業界和學術界的結合從來都是很緊密的。所以,本次大會也請來了深度學習領域知名學者、新加坡國立大學Associate Professor顏水成,發表題為「Deep Learning: from AI to True-AI」的Keynote。另外一位學者是美國伊利諾伊大學香檳分校新加坡高等研究院研究科學家、清華大學2015年中組部青年千人計劃入選者魯繼文,他將闡述「深度度量學習在視覺分析中的應用」。

Yoshua Bengio堅信,只要大家齊心協力,就一定可以通過更為強大的能處理海量數據集的計算機,成規模地增加深度學習的技術和方法,幫助計算機跨越更廣泛的領域,從更多種類的數據來源中學的更快更多,包括那些還未被人類運用的不能被標註的海量數據。所以,如果您想從深度學習技術進展中獲益,不妨關注HPCUF2015。

更多詳情,請猛戳左下角「閱讀原文」吧!

移動一小步,視界大不同!
更多程式設計師技術交流,奇聞軼事,
歡迎掃描下面二維碼下載CSDN Android、iOS移動客戶端。

相關焦點

  • 從ACM班、百度到亞馬遜,深度學習大牛李沐的開掛人生
    「大神」,是很多人對李沐的印象。作為一經推出便大受追捧的 MXNet 深度學習框架的主要貢獻者之一,李沐功不可沒。值得注意的是,這個由 DMLC(Distributed Machine Learning Community)打造的深度學習框架,創建者都是中國人,以陳天奇、李沐、解浚源等為代表。現在,包括 AWS 在內的很多企業都將 MXNet 作為主流支持框架。作為深度學習「大神」,李沐的開掛人生經歷並不被所有人熟知。為了加深大家對李沐的了解,我們對其學習、職業和研究生涯做了一個簡單的總結。
  • 科大訊飛,選了跟阿里、百度、小米相反的那條路
    文 / 華商韜略 曹文密 成立於1999年,科大訊飛是國內最大智能語音技術廠商,2008年在深交所上市,佔有中文語音技術市場超7成市場份額。4月25日,在2018年度的業績說明會上,科大訊飛董事長劉慶峰表示,從來沒把智能音箱作為智能家居的入口,當前主流的巨額補貼推廣模式,訊飛不會跟進。阿里的天貓精靈、百度的小度音箱、小米音箱,巨頭們先後入局,又掀起價格大戰。
  • 百度數據可視化實驗室正式成立,發布深度學習可視化平臺 Visual DL
    百度 ECharts 團隊高級技術經理祖明在知乎專欄中也介紹道,新成立的百度數據可視化實驗室,希望能夠依託完善的產品支撐及豐富的經驗,致力於提供更強大的數據可視化產品、參與數據可視化規範的制定、積極參與可視化基礎知識的推廣、傳播數據可視化學術界及業界的研究成果及解決方案,和廣大夥伴一同推動數據可視化行業的發展。
  • 還在搜狗、百度查單詞?開學沒個訊飛翻譯機會很難過!
    外語水平還停留在上課查單詞的水準上,那麼應對新學期的學習你可能需要一款翻譯產品來助力,小編今天為大家評測一下搜狗翻譯、百度翻譯、訊飛翻譯機2.0,看看哪款更適合愛學習、愛生活、愛旅行的小可愛們!  翻譯精準度大PK,訊飛翻譯機2.0達大學英語六級水平  說到翻譯,那麼精準度是必須嚴格要求的。
  • 科大訊飛套利背後的無奈 18年的技術壁壘已被瓦解?
    百度創始人李彥宏曾經在與科大訊飛董事長劉慶峰的一次談話中評價科大訊飛:你們自然語音技術做得很好,但是我們不會用,百度必須自己做。目前百度的語音識別技術採用了比主流語音識別系統更為簡單有效的方法,通過類似神經網絡的深度學習算法來取代了以往的識別模塊,大大提高了效率。近年來,在智能音箱的熱潮下,國內外網際網路巨頭紛紛推出了相關產品。去年穀歌推出音箱產品Home,今年蘋果發布HomePod,阿里巴巴推出的天貓精靈X1,小米也推出AI音箱。
  • AI翻譯如火如荼 百度科大訊飛等競爭
    種種消息顯示,百度極有可能於近期推出一款手持式智能翻譯硬體,加入科大訊飛(002230,股吧)、分音塔科技等企業開啟的AI翻譯機大戰。  有微博網友透露,百度方面已經在北京語言大學進行了一次非公開的隨機路測,該款設備將配備一鍵翻譯、語種智能識別、自帶WIFI熱點等功能。
  • 騰訊推出機器人翻譯,翻譯將下崗,2018年將迎來BAT和科大訊飛的翻譯...
    其中的實時語音對話功能,能夠為出境旅遊、外語學習、日常工作生活等跨語種交流提實時、準確、快速的同步翻譯服務。從騰訊翻譯君看機器翻譯的突破事實上,在過去兩年,深度學習已經完全改寫了機器翻譯方法。對語言翻譯一無所知的深度學習研究人員正在利用相對簡單的機器學習解決方案,打敗世界上頂級翻譯學家建造的語言翻譯系統。騰訊踩在了技術突破的節點提前進入翻譯賽道。在2016年初,騰訊開始研發AI翻譯產品。但是那個時候,整個機器翻譯技術採用的還是一種叫做SMT的統計機器翻譯技術,其背後的核心算法是基於短語的機器翻譯,錯誤率較高。
  • 一文看懂我國機器翻譯發展情況及BAT、科大訊飛等機器翻譯格局分析
    百度翻譯所研發的深度學習與多種主流翻譯模型相融合的在線翻譯系統以及基於「樞軸語言」等技術,處於業內領先水平,在國際上獲得了廣泛認可,使我國掌握了網際網路機器翻譯的核心技術。此外,百度翻譯還開放了API接口,目前已有超過2萬個第三方應用接入。華為、OPPO、中興、三星等手機廠商,金山詞霸、靈格斯詞霸、敦煌網等眾多產品均接入了百度翻譯API。
  • 資源│機器學習、深度學習、算法工程師等 AI 相關崗位面試需要知識
    目錄面試資料代碼實戰 Pytorch代碼實戰 Tensorflow網課深度學習相關資料註:百度 「如何使用 google 免費 gpu」 ,每個人單卡 14G Telsa T4,需要科學上網https://github.com
  • 翻譯機被百度、訊飛、搜狗盯上,但短期內難以普及
    作者:龔進輝自從2017年人工智慧(AI)上升為國家戰略後,各大科技公司紛紛尋找AI落地場景,除了造車、智能音響兩大熱門場景,翻譯機這一新興市場也成為香餑餑,吸引科大訊飛、網易有道、百度、搜狗等玩家入場,好不熱鬧,均能實現中英、中日、中法、中韓等中文和多語種之間的互譯
  • 深度學習論戰 AI大神們在吵什麼
    這不是論戰的第一回合,1月初,馬庫斯就提出了自己關於深度學習的十大觀點,引得楊立昆直擺手:他說的都不對。究竟是什麼樣的爭議讓AI界的大神們辯論火力如此密集,連戰數日,費勁口舌、逐字力爭呢?深度學習是個「筐」 有人看半滿,有人看半空細讀馬庫斯後來發的這篇萬字長文,可以發現,不少人對他的質疑是:你忽略了深度學習取得的成績、你沒有說深度學習有哪些好處。言外之意,你對深度學習不是「真愛」,對它的好視而不見。
  • 沸騰新十年 | 中國語音產業江湖和科大訊飛的前半生
    直到2012年AlexNet在ImageNet上以巨大優勢奪冠,才興起了深度學習的浪潮,這是後話。回到2009年底,在這一年的NIPS大會上,Hinton和鄧力、俞棟舉辦了一個Workshop,總結了深度學習各種不同的方法在語音識別上的應用。
  • BAT巨頭周鴻禕,鬥遍百度阿里騰訊,360會成為下一個樂視嗎?
    曾經回歸A股並借殼上市的360市值一度達到4500億,而如今卻只剩下了原有的三分之一,一夕之間蒸發3000億,不少網友擔心,360的老總周鴻禕會成為第二個賈躍亭麼? 而後在各項大賽中嶄露頭角獲得西安交大教改班的保送資格,周鴻禕開始真正意義上的學習計算機。1992年本科畢業的周鴻禕被保送西安交大管理學院系統工程系研究生。
  • 為什麼百度輸入法能成為行業標杆,這幾點值得搜狗、訊飛學習
    在輸入法行業裡,最新的調查數據顯示,百度輸入法以43.6%的市場份額超過搜狗43.5%,強勢成為業界第一。尤其是資訊時代快速更迭的今天,大家對手機依賴程度更高,對輸入法的功能需求更為強烈,百度輸入法坐擁3.28億語音用戶規模,成為行業標杆!那麼,它有什麼絕招呢?
  • 進軍搜索的阿里字節華為,能否打破百度360搜狗「三足鼎立」搜索格局?
    這些新變化給傳統的搜索三大品牌——百度、360、搜狗帶來新機遇的同時,或許也將給字節阿里等後入者帶來和這些老牌玩家同臺共舞的新機遇。對於搜尋引擎行業來說,百度、360、搜狗,都有各自的「航母編隊體系」,也就是我們經常說的競爭壁壘和護城河。百度,近年來推出一大批爆款獨立APP作為其系重要「航母編隊」成員,為其搜索服務增添多處流量人口,百度APP、百度好看視頻、百度地圖等APP都是其重要成員之一。
  • 百度深度學習7天打卡營,用Python+AI識別「青你2」高顏值小姐姐
    可以說,深度學習領域紅利巨大,職場天花板高、薪資待遇更高!但是,很多同學都會有這些疑問:「我連 Python 都不會可以入行嗎?」「我適不適合轉行深度學習?」「怎麼樣轉行深度學習?」「轉行深度學習需要哪些入門材料?」......百度作為國內的人工智慧領頭羊企業,百度飛槳致力於讓深度學習技術的創新與應用更簡單。現推出了百度深度學習7日打卡營《Python 小白逆襲 AI 大神》,帶領大家零基礎從 Python 進入人工智慧領域!
  • AI語音第一股:業務遭阿里百度擠壓,三年半虧損近9億_易車網
    規模羸弱的背後是這家企業商業化方向的艱難探索,最初核心的消費級硬體,如智能音箱遭遇阿里、百度、小米等巨頭擠壓,最終雲知聲被迫放棄這一領域,並轉向物聯網市場,同時通過自研晶片加強競爭力。但這也是個巨頭林立的市場,雲知聲未來的挑戰依舊不小。
  • 資源連結|深度學習教程資源整理(伯克利、斯坦福、MIT、阿里、吳恩達)
    dl=0 獻給新手的深度學習綜述https://arxiv.org/pdf/1807.08169v1.pdf深度學習是機器學習和人工智慧研究的最新趨勢之一。它也是當今最流行的科學研究趨勢之一。深度學習方法為計算機視覺和機器學習帶來了革命性的進步。
  • CAMPAIGN主辦的Digital360中國數字節即將回歸
    本屆Digital360數字節由阿里媽媽、好耶集團、利歐數字、小米營銷、分眾媒體、德高中國及蒙彤傳播聯合贊助;網易提供獨家文字直播,即享影像進行獨家圖片直播。 Digital360中國數字節一直致力於為來賓提供一個與品牌營銷專家交流並學習國內最新營銷走向的平臺。
  • 百度發布《深度學習中文教程》!
    這次由多位百度大佬共同開發的——《深度學習中文教程》發布了,神器高層API會貫穿全程,分分鐘讓你技術提高好幾個level。同時開放了7天學習實踐活動,在7天中,你將直接跳過冗長的理論、懵bi~的調試,讓你掌握深度學習任務的通用套路,能夠獨立完成模型搭建、訓練及部署,能解決面試中最常被問到的深度學習任務,理論實戰雙豐收。