探秘百度「硬核」後方:誰撐起百度的超強AI算力?

2021-01-17 智東西

智東西(公眾號:zhidxcom)
文 | 心緣

2017年的一個碧空如洗、清風朗日的早晨,智東西前往百度位於山西省陽泉市的雲計算中心參觀,參觀內容包括整體運營、各大機房伺服器、清潔能源、高效供電方式、自然冷卻等節電技術和人工智慧預測調控等等(探秘百度陽泉雲計算中心:8大機房模組、16萬臺伺服器、20倍交付效率)。

時光荏苒,轉眼間2年已過,經歷一個豬年,陽泉雲計算中心也搖身一變,除了是亞洲單體規模最大的數據中心,還成了春晚搶紅包流暢體驗的大功臣。

為了承擔起春晚紅包的頂級流量,陽泉雲計算中心做了哪些升級?和上一次我們的參觀相比,它又哪些不一樣的亮點呢?雲計算中心如何成為百度AI技術堅實的中流砥柱?帶著這些疑問,智東西和數家媒體一同再次來探訪這個李彥宏花47億蓋的「大房子」。

一、園區佔地約360畝,伺服器裝機能力超28萬臺

說起豬年春晚,想必多數人印象最深的就是瘋狂搶紅包。百度作為央視春晚的c位合作品牌,策劃了一場全民狂歡的「紅包之夜」。這個夜晚,全球觀眾參與百度APP紅包互動次數達到208億次,春晚數據流量為每秒峰值5000萬次,每分鐘峰值10億次。

作為百度春晚活動的主力部隊,陽泉雲計算中心如何實現如此大規模數據的高效協同與調配?懷著好奇,我們探訪了陽泉雲計算中心的內部。

本次來訪剛巧趕上陽泉變天,過了安檢,進入園區,涼風直直往人衣領裡鑽,抬頭正對著的便是陽泉雲計算中心的ECC監控中心。

這裡的中心園區按照設計標準T3+建造,佔地面積約360畝,規劃建築面積超過20萬平方米,而團隊總共只有60餘人。

也就是說,平均每個員工佔地將近6畝、3000+平方米,個頂個的「大地主」。

▲百度雲計算(陽泉)中心園區鳥瞰圖

百度陽泉雲計算中心於2014年9月投入使用,截至4月8日,百度陽泉雲計算中心已安全運行1744天。該數據中心目前已建成投產12萬平方米,採用了百度400多項數據中心、網絡及伺服器專利技術,伺服器裝機能力超過28萬臺。去年1月,該數據中心成為國內首個伺服器規模突破10萬臺的單體數據中心,目前已上線伺服器超過15萬臺。

我們首先來到百度雲計算(陽泉)中心監控中心,一個超大的屏幕上囊括了PUE、網絡架構、暖通架構、電氣架構、告警情況等各種數值圖表。

▲百度雲計算(陽泉)中心監控中心

當時屏幕顯示的PUE(Power Usage Effectiveness,電力使用效率)值已經低至1.062。

PUE值指的是數據中心消耗的所有能源與IT負載消耗的能源之比,是國際上通用的數據中心電力使用效率的衡量指標。PUE值越接近於1,表示一個數據中心的綠色化程度越高。

而據工作人員介紹,2018年陽泉雲計算中心的年均PUE值達到1.09,能源效率國內第一,比全國數據中心平均1.73在基礎設施能效方面提升了88%,目前整個數據中心每年節電2.5億度,相當於13萬戶居民一年的用電量。

作為亞洲單體最強大的算力平臺,陽泉雲計算中心的其他數字也相當亮眼:擁有超過300萬顆CPU核、超過6EB級存儲容量,可存儲的信息量相當於30多萬個中國國家圖書館的藏書總量 (備註:中國國家圖書館是亞洲規模最大、世界第三的國家圖書館) 。

二、硬核實力揭秘,誰撐起了百度大腦

內部探訪,機房自然是最主要的環節。

在參觀天蠍整機櫃伺服器、「冰山」冷存儲伺服器等各種百度自研伺服器後,我們首次踏入百度大腦的核心區域——AI計算集群,能夠為訓練、推理應用提供近百萬級的TFLOPS算力。

▲AI計算集群

1、超級AI伺服器X-MAN 2.0與X-MAN 3.0

當前的AI計算集群由百度自主研發的AI伺服器X-MAN 2.0組成。X-MAN 2.0在2017年上線,支持8卡NVLink高速互聯,是國內首個採用冷板式液體冷卻技術的GPU解決方案,實現了超高的散熱效率,規模應用後,可以全面去除制冷機組,全面實現無冷機運行。

X-MAN經過了三代技術升級。去年12月,百度X-MAN 3.0在加拿大舉行的第32屆NIPS神經信息處理系統大會上揭開神秘面紗。

▲百度X-MAN 3.0

X-MAN 1.0採用的是PCle Fabric技術架構,到X-MAN 2.0升級成NVLink,而X-MAN 3.0的重磅升級則在於多機互聯,採用了硬體系統模塊化、互聯接口標準化、互聯拓撲高靈活性的設計思路,提升了多元化AI加速晶片的兼容性,據悉每秒能完成2000萬億次深度神經網絡計算,極大加快了深度學習模型的訓練速度。

或許等到下一次來參觀數據中心時,我們就能看見X-MAN 3.0的大規模應用。

2、支持100G的AI高速無損網絡互聯技術

陽泉雲計算中心還使用了百度自主研發高性能交換機,提供超大規模的網絡吞吐,支持10G、25G的通用計算網絡接入和100G的AI高速無損網絡互聯技術。

在數據中心外部,百度網絡構建了三個時延圈:從數據中心覆蓋用戶時延不超過30ms,從POP點覆蓋用戶的時延不超過10ms,從CDN覆蓋用戶的時延不超過2ms,確保全國用戶的全面覆蓋和就近接入。

在數據中心內部,百度通過大帶寬、低時延、無損網絡,把數據中心數十萬臺伺服器連接成為一個超級計算機。

3、參與制定國際AI技術標準

除了研發創新的高速互聯、供電、散熱等技術來解決AI硬體加速模塊和系統設計中的硬體挑戰外,百度還積極參與國際AI領域技術標準的制定。

在今年3月美國聖何塞舉辦的2019 OCP全球峰會上,百度宣布與Facebook、微軟聯合制定OAM (OCP Accelerator Module)標準,主要對AI硬體加速模塊、主板、互聯拓撲等制定了相關的基礎規範。

該標準通過模塊化、標準化指導AI硬體加速模塊和系統設計,增強不同AI硬體加速模塊和系統的互操作性,加速新AI硬體加速模塊的大規模落地應用,最終推動AI硬體生態的良性發展。

三、從數據中心到智能雲,撐起AI時代的轉型剛需

經過經年累月AI技術和業務實踐的積累,百度面向企業和個人開發者提供全方位、低門檻的AI服務,其中百度智能雲正是百度決勝AI時代重要組成部分。

1、百度智能云:「ABC」三位一體戰略

百度智能雲是百度旗下面向企業及開發者的智能雲計算服務平臺,是幫助各行業實現智能化升級和轉型的對外一站式服務輸出窗口。

百度智能雲於2015年正式對外開放運營,基於百度18年技術積累,提出ABC(AI、Big Data、Cloud Computing)三位一體發展戰略,要用「最全面最落地的A+最開放最安全的B+持續領先的C」與IoT、區塊鏈、邊緣計算結合。

這一服務體系擁有智能邊緣、雲端全功能AI晶片、安全存儲、一站式解決方案等全面ABC功能,全形態輸出150多項AI能力,9個開源的大數據服務能力,以及10種計算實例、6類網絡組件、3級對象存儲等強大的基礎雲服務能力。

人們耳熟能詳的人臉識別、OCR、圖像識別、語音技術、自然語言處理技術、深度學習等AI能力自是不在話下。

一方面,百度智能云為百度自身業務提供了強大的智能雲計算服務,承載了搜索、百度地圖、小度、Apollo等多款用戶量過億的產品、服務和解決方案;另一方面,百度智能雲還為金融、新零售、新製造等創新行業構建服務。

2、傳統智能化升級的三個實例

百度智能雲ABC已經落地農業加工、鋼鐵、金融、能源、物流、傳媒、氣象、旅遊等多個行業,與山西省政府、首鋼、廣發銀行、新華社、首都機場、中國氣象局、攜程等政府部門和知名企業合作,推動社會一二三產業的智能化變革升級。

在航空領域,百度智能雲與某航司合作,從安檢口的身份驗證、自助值機行李託運到自助登機,通過提供百度人臉識別等技術,幫助實現更便捷高效的自助服務體驗。再加上百度大數據分析採集、百度雲網絡和計算支持的輔助,機場的核心區域流量監控、智慧問詢、兩艙尋人等智慧服務得以實現升級。

在智慧交通領域,百度智能雲與某交警深度合作,將人臉、車輛、地圖等多項能力整合輸出,不僅能實時查詢車輛/車位、費用、基礎設施等信息,還通過車輛軌跡分析、車輛狀態分析、整體綜合分析,實現智慧調度、智慧停車和智能監控功能,最終優化配置城市交通資源,緩解交通堵塞等問題。

在智慧製造領域,百度智能雲與某鋼鐵集團合作,利用智能質檢有效提升良品率,通過車間生產優化提高精度,藉助智能遠程運維提高設備生命……經由對各個細分環節地智能化升級,生產效率得到巨大的提升。

結語:雲計算基礎設施亟待技術創新

在AI時代的賽道上,智能時代的基礎設施建設成為國內外雲巨頭至關重要的競爭力。百度作為提供AI基礎解決方案的主要玩家之一,在自身累積經驗地基礎上,正用領先的AI能力為各行業智能化轉型提供助力。

而隨著越來越多的企業接入網絡,海量數據處理、高速傳輸、節能減排、避免宕機等問題都成為以百度為代表的雲計算提供商必須解決的問題。通用型伺服器等產品越來越難以滿足超大規模數據中心的需求,技術創新和定製化服務已經成為必然趨勢。

相關焦點

  • 探訪百度「最硬核」的大後方—陽泉雲計算中心
    4月8日,記者走進了這個所謂的「百度 AI技術硬核」大後方——亞洲單體規模最大、技術最先進的數據中心——百度陽泉雲計算中心。圖:百度陽泉雲計算中心監控中心從「最硬核」的數字維度整體來看,百度陽泉雲計算中心創新點體現在,已上線伺服器超過15萬臺、年均PUE 低至1.09、超過300萬個CPU核、存儲容量超過了6EB等。
  • 護航百度大腦 百度AI安全版圖亮相百度世界大會2020
    以「萬物智能」為主題,一年一度的百度世界2020大會於9月15日正式揭幕。在百度大腦分論壇上,百度副總裁馬傑發表了題為「智能為腦,安全為本」的主題演講,系統闡述了百度大腦在AI安全領域一系列能力布局和最新進展。
  • 全球AI作業系統暗戰:百度飛槳為中國深度學習撐起天空
    本次會議,百度AI技術平臺體系執行總監、深度學習技術及應用國家工程實驗室副主任吳甜為人工智慧領域展示了重磅升級的「飛槳產業級深度學習開源開放平臺」,及其四大領先技術,並首度發布《百度大腦AI技術成果白皮書》10月20日,第六屆世界網際網路大會2019年度領先科技成果大獎揭曉,百度飛槳入選網際網路領先科技成果。
  • 百度智能雲資助中科院生物物理研究所AI算力,加速新冠病毒藥物篩選
    為了加快新冠肺炎科研步伐,4月21日消息,百度通過公益基金會向中科院生物物理研究所資助AI算力資源,用於支持「針對新冠病毒的藥物篩選」項目的研究,共同推動疫情防控及防治工作。中科院生物物理研究所婁繼忠研究員表示,北京百度公益基金會捐贈的雲服務算力將用來進行新冠病毒的虛擬藥物篩選以及病毒蛋白質的動態分析,結果將為候選藥物的實驗篩選和臨床應用提供有利信息,為中國乃至世界新冠病毒疫情防治提供助力。新冠狀肺炎疫情正在對中國和全球產生巨大影響,更快地在藥物研究方面取得進展對人類具有重要意義。
  • 百度世界2020大會硬核來襲!百度智能語音交互技術重磅迭代
    9月15日,AI領域的行業盛會「百度世界2020」大會於線上隆重召開,一大波硬核技術襲來:百度創始人、董事長兼CEO李彥宏與總臺央視主持人康輝「虛擬人」亮相、顛覆搜索形態的「度曉曉」、沒有駕駛員的「全自動駕駛」、各行各業賦能案例……既有硬核技術,又有「接地氣」的落地應用。
  • 百度AI:深海巨艦加速史
    兩年後,李彥宏用超鏈分析專利,孵化百度。後來的故事大家都知道,前者是全球用戶訪問量最多的網站,而後者,則成為世界上最大的中文搜尋引擎。在中國,百度是為數不多的能夠把一個專有名詞變成動詞的公司之一。2010年以前,百度的技術迭代主要圍繞「搜索框」進行,轉變發生在2009年8月。
  • 百度AI的2020
    ——百度 CTO 王海峰一、AI 新型基礎設施2020年,百度 AI 的四個剪影,描繪出 AI 進入工業化大生產,成為堅實的 AI 基礎設施。1.百度大腦6.0勾勒核心技術自主創新第一個剪影,百度大腦6.0勾勒的核心技術自主創新。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。目前,百度翻譯已形成包括翻譯PC版、翻譯APP、AI同傳會議版、同傳助手以及翻譯開放平臺等豐富產品矩陣,可支持203語種互譯,每天響應超過千億字符的翻譯請求,通過開放平臺支持超過40萬企業和個人開發者,覆蓋30多個行業。憑藉豐富的產品矩陣,以及全球領先的翻譯技術,百度翻譯獲得國家乃至國際的高度評價。百度翻譯的碩果纍纍得益於背後百度大腦的鼎力支持。
  • 百度的AI時空爭奪戰?百度新棋局,整合國民三大空間
    通過百度的世界大會,我們看到了一場圍繞時間、空間的爭奪大戰正在全面啟動,讓我們看到了一個不一樣的百度,觀察百度這些年在人工智慧領域的布局,百度其實正在下一盤大棋,而這盤大棋到底是在做什麼?二、百度AI時空爭奪戰錢景幾何?其實,早在十年前百度就開始布局人工智慧,2010年,人工智慧技術大牛王海峰加入百度,開始整合百度內部零散的AI「萌芽小組」。
  • 讓知識更鮮活 百度百科籤約植物學家顧有容
    從小居住在湖北江漢油田的顧老師,在田野鄉間與各種植物相伴,從那時起就對植物充滿好奇,並一發不可收拾,終將愛好變成了畢生奮鬥的事業:本碩博一路循著植物學專業深造,獲中科院植物學博士學位,如今也在首都師範大學任副教授,從事植物學的教學科研工作。
  • 百度智能雲發布AI質能公式,人類距離AI核爆還有多遠
    百度智能雲發布了完全自主研發的「百度崑崙雲伺服器」等1 8大智能基礎設施新品,與百度智能雲合作的央視網「AI編輯部」、精研科技智能質檢車間、重慶市氣象局智慧氣象系統、國家電網智能客服等項目也紛紛登臺亮相,百度還首推業界首個完整的人工智慧生態聯盟——百度產業智能聯盟。
  • 國家首個人工智慧實驗室成立 百度肩負國家AI使命
    李彥宏對實驗室的揭牌表示熱烈祝賀,他說,百度四年前成立IDL研究室,2年前提出中國大腦的提案,現在承建國家人工智慧工程實驗室。人工智慧是百度核心的核心,百度對人工智慧是嚴肅的。  「我國人工智慧的發展還面臨很多挑戰,缺乏公共的深度學習創新平臺也導致重複造輪子的現象嚴重。
  • 免費計算資源,百度一站式開發平臺:AI Studio零門檻實現AI能力
    2018 年 7 月 4 日-5 日,百度在國家會議中心舉辦第二屆 AI 開發者大會。在今年的開發者大會上,百度發布了 PaddlePaddle3.0,既升級了核心框架,又提供了 EasyDL 快速應用平臺、AutoDL 網絡結構自動化設計,以及 AI Studio 在線實訓平臺。
  • 從ACM班、百度到亞馬遜,深度學習大牛李沐的開掛人生
    ACM班、百度、CMU、亞馬遜,李沐的傳奇人生 使用動手筆記本教授深度學習:https://d2l.ai 使CV / NLP / GNN更容易:https://gluon-cv.mxnet.io,https://gluon-nlp.mxnet.io,https://dgl.ai減少深度學習的機器成本: DL框架:https://.mxnet.io DL編譯器:https://tvm.ai這其中提到的教授深度學習筆記
  • 從艾瑞報告看百度雲智一體化如何破局AI醫療
    02 AI醫療痛點猶存,誰來破局? 儘管在市場需求與政策方向等層面存在利好,但AI+醫療痛點猶存。在全球範圍內,亞馬遜AWS、微軟Azure、IBM、谷歌雲等競爭加劇,在國內,雲計算同樣成為百度、阿里、華為等巨頭輸出 AI 能力的重要通道。雲計算可能是獲取AI能力與算力最快捷的方式。
  • 一文回顧百度人工智慧2020上半年,王海峰:百度AI助力新基建提速
    二、新基建浪潮裡的中堅力量:新基建浪潮中,百度AI是當之無愧的人工智慧基礎設施,為各行各業輸送產業智能化變革的新動能。基於百度大腦AI大生產平臺和百度智能雲,百度業務高質量發展,智能交通、智慧城市、智慧能源、智慧金融、智慧醫療、智能製造等業態加速壯大。
  • 全面AI化的百度地圖 才是百度無人車戰略的大殺器
    Robin乘坐自動駕駛汽車,在北京五環路上跟全球觀眾打了個招呼,這可能是7月5號百度AI開發者大會最讓大家記憶深刻的一幕。Robin駕駛無人車在五環行駛比起陸奇在上海車展宣布要推出Apollo時的低調,這一次,全球首個開放自動駕駛平臺計劃徹底激起了大眾和業界興趣。
  • 三位世界級科學家加盟百度研究院 百度AI「中國速度」再加速
    至此,百度研究院全新升級,建立起包括七位世界級科學家、五大實驗室的「全明星」陣容。  會上,百度副總裁、AI技術平臺體系(AIG)總負責人、百度研究院院長王海峰表示,這是百度研究院新徵程的開始。百度研究院將聚焦前瞻基礎研究,布局百度人工智慧未來發展方向,服務百度作為人工智慧公司的長期發展戰略。
  • 百度為自動駕駛申請多個apollai 商標 ,阿波羅計劃背後的AI技術...
    據網友曝料,「百度申請了多個apollai 商標,新創名詞apollo+ai=apollai」。實際上,在此之前百度也註冊了大量與「Apollo」相關的商標,累計高達220多個,除了Apollo之外,還有「APOLLO GUARDIAN」、「APOLLO CITY」、「APOLLO ZONE」等等,涵蓋第39類、第35類、第37類、第38類、第12類、第41類多個商標類別。而百度之所申請Apollai ,大概跟百度的AI有關。
  • 百度「 AI 抗疫」啟示錄
    李彥宏在開年內部信中說,「很多用戶為百度在抗擊疫情中的努力點讚, 『做有溫度的公司,做敢擔當的百度』———這樣的話,在我心中,比PV,比DAU更重千鈞。」百度地圖:大數據防疫的模板從武漢疫情爆發以來,百度地圖的員工就一直在爭分奪秒,在第一時間上線疫情相關的各類數據和功能。