智東西(公眾號:zhidxcom)
文 | 心緣
2017年的一個碧空如洗、清風朗日的早晨,智東西前往百度位於山西省陽泉市的雲計算中心參觀,參觀內容包括整體運營、各大機房伺服器、清潔能源、高效供電方式、自然冷卻等節電技術和人工智慧預測調控等等(探秘百度陽泉雲計算中心:8大機房模組、16萬臺伺服器、20倍交付效率)。
時光荏苒,轉眼間2年已過,經歷一個豬年,陽泉雲計算中心也搖身一變,除了是亞洲單體規模最大的數據中心,還成了春晚搶紅包流暢體驗的大功臣。
為了承擔起春晚紅包的頂級流量,陽泉雲計算中心做了哪些升級?和上一次我們的參觀相比,它又哪些不一樣的亮點呢?雲計算中心如何成為百度AI技術堅實的中流砥柱?帶著這些疑問,智東西和數家媒體一同再次來探訪這個李彥宏花47億蓋的「大房子」。
一、園區佔地約360畝,伺服器裝機能力超28萬臺說起豬年春晚,想必多數人印象最深的就是瘋狂搶紅包。百度作為央視春晚的c位合作品牌,策劃了一場全民狂歡的「紅包之夜」。這個夜晚,全球觀眾參與百度APP紅包互動次數達到208億次,春晚數據流量為每秒峰值5000萬次,每分鐘峰值10億次。
作為百度春晚活動的主力部隊,陽泉雲計算中心如何實現如此大規模數據的高效協同與調配?懷著好奇,我們探訪了陽泉雲計算中心的內部。
本次來訪剛巧趕上陽泉變天,過了安檢,進入園區,涼風直直往人衣領裡鑽,抬頭正對著的便是陽泉雲計算中心的ECC監控中心。
這裡的中心園區按照設計標準T3+建造,佔地面積約360畝,規劃建築面積超過20萬平方米,而團隊總共只有60餘人。
也就是說,平均每個員工佔地將近6畝、3000+平方米,個頂個的「大地主」。
▲百度雲計算(陽泉)中心園區鳥瞰圖
百度陽泉雲計算中心於2014年9月投入使用,截至4月8日,百度陽泉雲計算中心已安全運行1744天。該數據中心目前已建成投產12萬平方米,採用了百度400多項數據中心、網絡及伺服器專利技術,伺服器裝機能力超過28萬臺。去年1月,該數據中心成為國內首個伺服器規模突破10萬臺的單體數據中心,目前已上線伺服器超過15萬臺。
我們首先來到百度雲計算(陽泉)中心監控中心,一個超大的屏幕上囊括了PUE、網絡架構、暖通架構、電氣架構、告警情況等各種數值圖表。
▲百度雲計算(陽泉)中心監控中心
當時屏幕顯示的PUE(Power Usage Effectiveness,電力使用效率)值已經低至1.062。
PUE值指的是數據中心消耗的所有能源與IT負載消耗的能源之比,是國際上通用的數據中心電力使用效率的衡量指標。PUE值越接近於1,表示一個數據中心的綠色化程度越高。
而據工作人員介紹,2018年陽泉雲計算中心的年均PUE值達到1.09,能源效率國內第一,比全國數據中心平均1.73在基礎設施能效方面提升了88%,目前整個數據中心每年節電2.5億度,相當於13萬戶居民一年的用電量。
作為亞洲單體最強大的算力平臺,陽泉雲計算中心的其他數字也相當亮眼:擁有超過300萬顆CPU核、超過6EB級存儲容量,可存儲的信息量相當於30多萬個中國國家圖書館的藏書總量 (備註:中國國家圖書館是亞洲規模最大、世界第三的國家圖書館) 。
二、硬核實力揭秘,誰撐起了百度大腦內部探訪,機房自然是最主要的環節。
在參觀天蠍整機櫃伺服器、「冰山」冷存儲伺服器等各種百度自研伺服器後,我們首次踏入百度大腦的核心區域——AI計算集群,能夠為訓練、推理應用提供近百萬級的TFLOPS算力。
▲AI計算集群
1、超級AI伺服器X-MAN 2.0與X-MAN 3.0當前的AI計算集群由百度自主研發的AI伺服器X-MAN 2.0組成。X-MAN 2.0在2017年上線,支持8卡NVLink高速互聯,是國內首個採用冷板式液體冷卻技術的GPU解決方案,實現了超高的散熱效率,規模應用後,可以全面去除制冷機組,全面實現無冷機運行。
X-MAN經過了三代技術升級。去年12月,百度X-MAN 3.0在加拿大舉行的第32屆NIPS神經信息處理系統大會上揭開神秘面紗。
▲百度X-MAN 3.0
X-MAN 1.0採用的是PCle Fabric技術架構,到X-MAN 2.0升級成NVLink,而X-MAN 3.0的重磅升級則在於多機互聯,採用了硬體系統模塊化、互聯接口標準化、互聯拓撲高靈活性的設計思路,提升了多元化AI加速晶片的兼容性,據悉每秒能完成2000萬億次深度神經網絡計算,極大加快了深度學習模型的訓練速度。
或許等到下一次來參觀數據中心時,我們就能看見X-MAN 3.0的大規模應用。
2、支持100G的AI高速無損網絡互聯技術陽泉雲計算中心還使用了百度自主研發高性能交換機,提供超大規模的網絡吞吐,支持10G、25G的通用計算網絡接入和100G的AI高速無損網絡互聯技術。
在數據中心外部,百度網絡構建了三個時延圈:從數據中心覆蓋用戶時延不超過30ms,從POP點覆蓋用戶的時延不超過10ms,從CDN覆蓋用戶的時延不超過2ms,確保全國用戶的全面覆蓋和就近接入。
在數據中心內部,百度通過大帶寬、低時延、無損網絡,把數據中心數十萬臺伺服器連接成為一個超級計算機。
3、參與制定國際AI技術標準除了研發創新的高速互聯、供電、散熱等技術來解決AI硬體加速模塊和系統設計中的硬體挑戰外,百度還積極參與國際AI領域技術標準的制定。
在今年3月美國聖何塞舉辦的2019 OCP全球峰會上,百度宣布與Facebook、微軟聯合制定OAM (OCP Accelerator Module)標準,主要對AI硬體加速模塊、主板、互聯拓撲等制定了相關的基礎規範。
該標準通過模塊化、標準化指導AI硬體加速模塊和系統設計,增強不同AI硬體加速模塊和系統的互操作性,加速新AI硬體加速模塊的大規模落地應用,最終推動AI硬體生態的良性發展。
三、從數據中心到智能雲,撐起AI時代的轉型剛需經過經年累月AI技術和業務實踐的積累,百度面向企業和個人開發者提供全方位、低門檻的AI服務,其中百度智能雲正是百度決勝AI時代重要組成部分。
1、百度智能云:「ABC」三位一體戰略百度智能雲是百度旗下面向企業及開發者的智能雲計算服務平臺,是幫助各行業實現智能化升級和轉型的對外一站式服務輸出窗口。
百度智能雲於2015年正式對外開放運營,基於百度18年技術積累,提出ABC(AI、Big Data、Cloud Computing)三位一體發展戰略,要用「最全面最落地的A+最開放最安全的B+持續領先的C」與IoT、區塊鏈、邊緣計算結合。
這一服務體系擁有智能邊緣、雲端全功能AI晶片、安全存儲、一站式解決方案等全面ABC功能,全形態輸出150多項AI能力,9個開源的大數據服務能力,以及10種計算實例、6類網絡組件、3級對象存儲等強大的基礎雲服務能力。
人們耳熟能詳的人臉識別、OCR、圖像識別、語音技術、自然語言處理技術、深度學習等AI能力自是不在話下。
一方面,百度智能云為百度自身業務提供了強大的智能雲計算服務,承載了搜索、百度地圖、小度、Apollo等多款用戶量過億的產品、服務和解決方案;另一方面,百度智能雲還為金融、新零售、新製造等創新行業構建服務。
2、傳統智能化升級的三個實例百度智能雲ABC已經落地農業加工、鋼鐵、金融、能源、物流、傳媒、氣象、旅遊等多個行業,與山西省政府、首鋼、廣發銀行、新華社、首都機場、中國氣象局、攜程等政府部門和知名企業合作,推動社會一二三產業的智能化變革升級。
在航空領域,百度智能雲與某航司合作,從安檢口的身份驗證、自助值機行李託運到自助登機,通過提供百度人臉識別等技術,幫助實現更便捷高效的自助服務體驗。再加上百度大數據分析採集、百度雲網絡和計算支持的輔助,機場的核心區域流量監控、智慧問詢、兩艙尋人等智慧服務得以實現升級。
在智慧交通領域,百度智能雲與某交警深度合作,將人臉、車輛、地圖等多項能力整合輸出,不僅能實時查詢車輛/車位、費用、基礎設施等信息,還通過車輛軌跡分析、車輛狀態分析、整體綜合分析,實現智慧調度、智慧停車和智能監控功能,最終優化配置城市交通資源,緩解交通堵塞等問題。
在智慧製造領域,百度智能雲與某鋼鐵集團合作,利用智能質檢有效提升良品率,通過車間生產優化提高精度,藉助智能遠程運維提高設備生命……經由對各個細分環節地智能化升級,生產效率得到巨大的提升。
結語:雲計算基礎設施亟待技術創新在AI時代的賽道上,智能時代的基礎設施建設成為國內外雲巨頭至關重要的競爭力。百度作為提供AI基礎解決方案的主要玩家之一,在自身累積經驗地基礎上,正用領先的AI能力為各行業智能化轉型提供助力。
而隨著越來越多的企業接入網絡,海量數據處理、高速傳輸、節能減排、避免宕機等問題都成為以百度為代表的雲計算提供商必須解決的問題。通用型伺服器等產品越來越難以滿足超大規模數據中心的需求,技術創新和定製化服務已經成為必然趨勢。