探秘百度陽泉雲計算中心:8大機房模組、16萬臺伺服器、20倍交付效率

2020-11-24 智東西

智東西(公眾號:zhidxcom)
文 | Lina

6月15日,智東西等數家媒體受到百度邀請,前往其位於山西省陽泉市的雲計算中心進行參觀走訪,介紹了有關百度陽泉雲計算中心的整理運營狀況、從供電到散熱的眾多節能技術、各類百度自研的伺服器(「北極」、「冰山」、「鯤鵬」、「X-Man」等)以及百度是如何使用人工智慧對該中心進行預測與調控,做到智能控制、智能運行。

值得一提的是,山西陽泉正是百度創始人李彥宏的家鄉。陽泉雲計算中心位於陽泉經濟開發區東區,從室內坐大巴需要約20分鐘到達。

一、自報家門:8大機房、12萬平米、16萬臺伺服器

根據工作人員介紹,百度陽泉雲計算中心從2012年8月19日奠基開工(當時項目計劃投資47.08億元)2014年開始投入使用,截止至筆者發稿日已經安全工作了1082天了。當初計劃了四期工程,8個機房模組,目前已經完成了三期6個機房的投運,最後一期也在緊張建設,即將投入使用。

陽泉雲計算中心建築面積有12萬平米,擁有400+項專利技術,設計容納16萬臺伺服器,是目前為止是亞洲建成投運的最大數據中心之一,也是百度在全國幾十個大型數據中心中規模最龐大的一個。

同時,陽泉雲計算中心按照T3+標準設計建照,可用性為99.99%+——這句話是什麼意思呢?那就是全年不可用時間不能超過52分鐘。年均PUE1.11(數值越接近1,能效比越高)。而且,雖然位於煤炭大省山西,但陽泉雲計算中心的清潔能源使用比例非常高,目前使用太陽能、風能等清潔能源的佔比達到了20%。

二、進門感嘆:人真少

從大門進去,首先要過安檢並進行登記,陽泉雲計算中心的安全等級比較高。首先映入眼帘的是位於園區中心的一棟橢圓柱形建築,這就是陽泉雲計算中心的ECC監控中心,外圍環繞著編號為D01-D08的8座方形建築,這就是上文提到的8個機房模組。

在園區裡走著,一個最大也是最明顯的感覺就是——沒人。由於數據中心全部採用先進的自動化、智能化控制技術,需要巡視、維護、調控人員極少,每個班組2-3人就可以完成2個模組約3萬平米7*24小時運營。因此諾大一個12萬平米的園區建築裡,基本上很難看到人。

進入中間大樓的ECC監控中心後,可以看到這是一棟寬敞明亮的4層建築,以黃白色調為主,在百度帶領大家參觀的其中一個控制室裡,我們可以看到各個機房的實時參數、監控視頻等信息,涉及機密這裡就不上圖了~

三、重頭戲:機房參觀

好了,接下來就是本次參觀介紹的重頭戲,機房參觀。

在陽泉雲計算中心安裝8個機房模組的伺服器中,包括了各類百度自研的伺服器:如「北極」、「冰山」、「鯤鵬」、「X-Man」等,其中90%以上都是「北極」整機櫃伺服器。

「北極」(天蠍)自研整機櫃伺服器——採用共享電源、共享風扇架構,部件全部標準化、模塊化、一體化,支持40攝氏度環境溫度長期運行。總擁有成本(TCO)降低15%,交付效率提升20倍——這句話更直觀地換算過來什麼意思呢?那就是原先需要1個月上線的伺服器,現在只需要1天。

「冰山」自研高密度存儲伺服器——創新的高密度存儲解決方案,支持儲存池化設計和分層存儲,單臺伺服器可存儲180TB數據,有力地支持了百度的私有雲、公有雲業務。

「鯤鵬」自研高溫伺服器——業界首次規模商用的高溫伺服器(一般伺服器送風溫度是22-24度,鯤鵬可以支持送風溫度達到45度)同時具備耐腐蝕性,與IDC強耦合,徹底實現全自然新風冷卻。

「X-Man」自研AI伺服器——業界首個基於PCIe Fabric架構的16卡GPU伺服器,兼容支持FPGA。支持異構計算資源池化,可擴展到64GPU以上,提供1000TOPS量級計算能力,能夠廣泛應用於語音、圖像、NLP、搜索、無人車加速計算場景。

四、清潔供電與散熱節能

在供電方面,陽泉雲計算中心去除傳統的UPS,首次採用 HVDC offline(高壓直流離線)技術、分布式鋰電池(BBS)供電技術,把供電效率從90%提升到99.5%。陽泉雲計算中心同時也是國內首個採用太陽能光伏發電的數據中心,在頂樓鋪設太陽能光伏面板直接併網發電,直接給伺服器使用,節能的同時還減少汙染物排放。

不過,利用太陽能光伏面板發電的電量佔的還是用電量的少數,陽泉雲計算中心在2017年與電廠籤約的2600萬度風力發電,使得清潔能源的佔比達到20%。

在散熱方面,陽泉雲計算中心96%的時間可以使用室外冷空氣實現免費冷卻,換算過來一年裡有14.6天才需要全部開冷水機組製冷,從而節省了大量的能源。

五、AI在雲計算中心中的應用

一方面,雲計算是AI的底層能力之一,百度陽泉雲計算中心所提供的計算能力可以為用戶提供AI-enable網絡,其中包括基於cookie機器學習模型的IP地理定位、基於交互機日誌的故障預測、業務網絡質量的測量與感知、基於機器學習的攻擊流量監測系統等等。

而另一方面,AI也被應用在了雲計算中心的智能控制、智能運行上。通過採集環境參數、設備功耗、運行模式、動作狀態等參數,再將它們使用AI算法進行計算優化(此處的AI包括HPC、機器學習、深度學習等,解決不同問題會用不同模型,但大部分訓練都是用百度的PaddlePaddle開源平臺)。

通過百度的人工智慧技術,陽泉雲計算中心如今做到智能預警、智能調度、智能運維——而這也是上文提到的園區員工很少的原因之一。預警、調度、運維包括許多方面,以下是工程師介紹的其中三點:

1)自動運營:大幅縮短電力切換時間。當突遇停電時,傳統備用發電機電源切換要15分鐘,但現在通過電力監控系統全自動切換,可以達到分鐘級別的切換速度,最快只需要30秒。

2)智能調度。通常數據中心用電是有波動的,伺服器存在閒時忙時,波峰波谷。為了提高伺服器及機房的利用率,通過AI技術預測對在線業務需求進行預測,通過在線業務及離線業務混布,閒時調度更多離線業務,跑離線計算、訓練模型。

3)智能預測:判斷網絡流量是否異常。用AI模型進行計算、判斷某個流量到底是用戶的正常操作行為還是惡意攻擊流量。

結語:智能時代的基礎建設

在各類科技、IT主題的美劇中(比如《矽谷》),伺服器機房一直是個被人拿來調侃的地方。就連今年蘋果的WWDC的開場視頻也拿一位剛入職的科技宅男坐在伺服器機房裡,無意中碰掉了供電插頭而引發一場動亂的

當下隨著人工智慧與萬物互聯的普及,接入網絡的設備越來越多,數據計算量也越來越大,雲服務、雲計算已經慢慢變成智能時代的下層建築,成為如供水、供電、網絡通信等我們日常生活中不可或缺的基礎設施。

目前,無論是國外的亞馬遜雲、微軟雲、還是國內的阿里雲、百度雲等等,都紛紛繼續著對雲計算數據中心的投入建設,如百度一般,不少公司都是從幾年前就開始布局建設,在近年陸續投建使用,為企業的人工智慧與萬物互聯提供雲服務與雲計算能力。

相關焦點

  • 探訪百度「最硬核」的大後方—陽泉雲計算中心
    4月8日,記者走進了這個所謂的「百度 AI技術硬核」大後方——亞洲單體規模最大、技術最先進的數據中心——百度陽泉雲計算中心。圖:百度陽泉雲計算中心監控中心從「最硬核」的數字維度整體來看,百度陽泉雲計算中心創新點體現在,已上線伺服器超過15萬臺、年均PUE 低至1.09、超過300萬個CPU核、存儲容量超過了6EB等。
  • 探秘百度「硬核」後方:誰撐起百度的超強AI算力?
    智東西(公眾號:zhidxcom)文 | 心緣2017年的一個碧空如洗、清風朗日的早晨,智東西前往百度位於山西省陽泉市的雲計算中心參觀,參觀內容包括整體運營、各大機房伺服器、清潔能源、高效供電方式、自然冷卻等節電技術和人工智慧預測調控等等(探秘百度陽泉雲計算中心:
  • 總投資100億元 伺服器裝機20萬臺 百度將在廣東佛山建兩個雲計算中心
    中國經濟周刊-經濟網訊 9月2日,廣東省佛山市順德區人民政府與百度(中國)有限公司籤署項目投資合作協議。合作協議顯示,百度將在順德區建設人工智慧雲計算產業基地,分別在順德高新區和順德區均安鎮暢興工業園三期各選址100畝地塊投資建設兩個雲計算中心,總投資100億元,伺服器裝機規模達20萬臺,將成為「AI+5G」時代強大的人工智慧基礎設施底座,支撐百度在自然語言處理、深度學習、圖像識別、語音技術和大數據方面應用。
  • 雲計算數據中心和傳統IDC的差異在哪裡
    在設計理念方面,雲計算數據中心(或者說新一代數據中心)更加強調與IT系統協同優化,在滿足需求的前提下,實現整個數據中心的最高效率和最低成本;而傳統數據中心通常片面強調機房的可靠、安全、高標準,但與IT系統相互割裂,成本高昂。   傳統的IDC大致可以分為託管型服務和用戶自主服務兩類模式,一類是伺服器由用戶自己進行購買,期間對設備的監控和管理工作也由客戶自行完成。
  • 【焦點】探秘「內蒙古雲計算大數據創客中心」
    隨著內蒙古雲計算大數據創客中心的開園,對於很多行業而言,機遇與挑戰並存,如何利用這些大規模數據,大數據的價值體現在哪些方面,小編帶您了解……內蒙古首個雲計算大數據創客中心開園 8月18日,內蒙古首個以雲計算為基礎的創客中心在和林縣開園。
  • 雲計算時代,雲伺服器成為伺服器創新的主要形態
    根據Gartner數據,2018年一季度,全球伺服器銷售額是152.5億美元,同比增量為40億美元,雲伺服器銷售額達到20.8億美元,在整體市場的增長貢獻為51.7%。也就是說,在本季度全球市場容量每增長100美元,就有51.7美元來自雲伺服器。多節點雲伺服器在全球增長中扮演了主要角色,已經成為雲時代伺服器創新的主要形態。
  • 河北定興「新基建」跑出加速度:百度雲計算中心項目
    定興「新基建」跑出加速度——在百度雲計算(定興)中心項目工地建設中的百度雲計算(定興)中心項目工地。通訊員李航攝三部室外電梯、四部塔吊同時運轉,不停地向主體建築裡倒運磚、水泥和模板等材料,上百名工人分工合作,在兩棟建築裡同時進行二次結構砌築……4月9日8時許,在定興金臺經濟開發區,總投資20億元的百度雲計算(定興)中心項目工地一片忙碌。「在確保安全和照明的情況下,建模、砌築等作業進行到23時;倒運材料等作業則通宵不停。」
  • ...數據「直轄」慧萬千——寧夏沙漠小城轉型發展雲計算大數據產業...
    內陸腹地、荒山戈壁、強烈日照、刺骨寒風……這些看似制約經濟發展的短板,卻成了中衛市因地制宜發展雲計算和大數據產業的獨有優勢。「內陸腹地等區位特性確保機房安全,荒山戈壁開發後可提供充沛土地資源,年平均氣溫8.8攝氏度是機房冷卻的天然稟賦……」中衛市雲計算和大數據發展局局長馮旭說,中衛綜合優勢突出,落戶的數據企業PUE值低至1.1,處於行業領先水平。
  • 雲計算十年:阿里雲第三代神龍雲伺服器如何挑戰摩爾定律極限
    張獻濤是阿里雲彈性計算產品線負責人,經歷雲計算從無到有、從弱到強,在雲計算一線已經工作15年。過去十年,阿里雲的存儲性能提升了2000倍,網絡性能提升了500倍,整體算力以平均每12個月翻一番的速度增長,向摩爾定律的極限發起挑戰。「十年時間的發展,我們重構了整個計算的服務模式。」張獻濤說。
  • 中興發布E9000刀片伺服器 助力雲計算
    1月15日,中興與英特爾在北京攜手發布新一代超高密刀片伺服器CoCore E9000,其採用的是英特爾E家族中最新一代至強E5-2600系列P處理器,整體機箱高度為10U,可容納16個半高刀片伺服器或8個全高刀片伺服器,每塊計算刀片可支持高達2個2.5英寸SAS/SATA熱插拔硬碟,支持16根DIMM,內存每片最高可達512GB,具有高通訊速率和擴展性,適用於IDC、雲計算、高性能計算應用
  • 百度AI的2020
    另一方面,百度大腦 「軟硬一體 AI 大生產平臺」升級為 AI 新型基礎設施,更高效地支持 AI 工業化大生產,幫助產業智能化發展提速。雲端通用 AI 處理器「百度崑崙1」,已實現量產和應用部署,量產約2萬片,性能相比 T4 GPU 提升1.5-3倍;二代百度崑崙晶片將在2021年上半年量產,與百度崑崙1相比性能將提升3倍。隨著 AI 的普及,安全問題受到多方關注。
  • 雲計算有哪些類型_雲計算的三大核心技術
    這些行業應用具備物理分散邏輯集中的分布式特點,通過雲計算平臺能完成獨立運行、安全運行和整合運行的靈活應用。   通常行業應用往往需要與大數據相結合,而大數據就是雲計算發展到一定階段的必然產物,所以雲計算與大數據在使用過程中並不分家。 成都加米谷大數據培訓機構,大數據開發,數據分析與挖掘。
  • 雲計算數據中心網絡技術全面剖析
    你能想像哪天百度的雲服務提供給總裝研究院去計算個飛彈軌跡,核裂變什麼嘛,完全不可能的事。 最後是多虛一對網絡的需求。在集中雲計算中,伺服器之間的交互流量多了,而外部訪問的流量相對減少,數據中心網絡內部通信的壓力增大,對帶寬和延遲有了更高的要求,自然而然就催生出後面會講到的一些新技術(L2MP/TRILL/SPB等)。
  • 激活智能時代 百度智能雲成了中國新工業革命第一臺落地的「蒸汽機」
    通稿沒有言明,但是,正在興起的第四次工業革命浪潮,是以物聯網、大數據、機器人及AI為代表的數位技術所驅動,不難猜想,AI技術應在其列。  3天後的8月29日,又在同一天,10個國家新一代人工智慧開放創新平臺發布,百度智能雲召開了其史上規模最大的峰會,參與人員高達6500人。
  • 數據中心環境運維的新方式,讓機房溫度可視化
    在這個大數據的時代,數據的可視化不僅體現在數據值本身,更應該通過數據的變化來獲取一些信息。我們今天的主題,機房溫度雲圖,它通過不同的顏色來展示機房機櫃溫度的高低及變化,將之形象化出來,讓人們更加直觀的觀察溫度值的變化。 數據中心運維,喜冷怕熱。
  • 發生在IDC機房的詭異事件—伺服器設備開光
    我們都知道運維是件非常苦逼的差事,早起貪黑,不分晝夜,而且由於伺服器需要24小時運轉,為了保證客戶的網站穩定,颶風科技的運維都是需要留下一兩個人值夜班的。那天正好輪到運維小藍值夜班,他早早的吃了晚飯,和同事們簡單交接之後就開始默默等待著客戶們的如期關愛。六七點的時候還有忙不完的客戶諮詢和安裝維護工作,到了大概8點,小藍處理完了手頭上的事後,消息就再也沒有響起過。
  • 雲計算市場競爭加劇:企查查顯示北京高居第一,領先次名8倍之多
    據中國信通2019年發布的《雲計算發展白皮書》預測,2020~2022年全球雲計算市場將保持16%以上的增速,全球雲計算市場規模總體呈穩定增長態勢,預計到2022年市場規模將超過2700億美元,未來具有較好的發展前景。
  • 雲數據中心不好建設?那是你不知道什麼是最佳顆粒度
    這個道理放到雲計算數據中心的建設上也同樣適用。雲數據中心怎麼樣才能實現完美的運行效率?隨著以網際網路、雲計算和大數據為代表的信息經濟迅速發展,數據中心已成為信息社會重要的關鍵信息基礎設施。那麼,什麼樣的使用模式才能實現堪稱完美的雲計算數據中心運行效率呢?雲計算數據中心的最關鍵指標包含IT效率、電量供應、外電容量使用率、製冷量、冷卻流量及機架空間等資源的使用率,既然如此,那答案其實很簡單--資源使用率與IT負載率匹配。