智東西(公眾號:zhidxcom)
文 | Lina
6月15日,智東西等數家媒體受到百度邀請,前往其位於山西省陽泉市的雲計算中心進行參觀走訪,介紹了有關百度陽泉雲計算中心的整理運營狀況、從供電到散熱的眾多節能技術、各類百度自研的伺服器(「北極」、「冰山」、「鯤鵬」、「X-Man」等)以及百度是如何使用人工智慧對該中心進行預測與調控,做到智能控制、智能運行。
值得一提的是,山西陽泉正是百度創始人李彥宏的家鄉。陽泉雲計算中心位於陽泉經濟開發區東區,從室內坐大巴需要約20分鐘到達。
根據工作人員介紹,百度陽泉雲計算中心從2012年8月19日奠基開工(當時項目計劃投資47.08億元)2014年開始投入使用,截止至筆者發稿日已經安全工作了1082天了。當初計劃了四期工程,8個機房模組,目前已經完成了三期6個機房的投運,最後一期也在緊張建設,即將投入使用。
陽泉雲計算中心建築面積有12萬平米,擁有400+項專利技術,設計容納16萬臺伺服器,是目前為止是亞洲建成投運的最大數據中心之一,也是百度在全國幾十個大型數據中心中規模最龐大的一個。
同時,陽泉雲計算中心按照T3+標準設計建照,可用性為99.99%+——這句話是什麼意思呢?那就是全年不可用時間不能超過52分鐘。年均PUE1.11(數值越接近1,能效比越高)。而且,雖然位於煤炭大省山西,但陽泉雲計算中心的清潔能源使用比例非常高,目前使用太陽能、風能等清潔能源的佔比達到了20%。
從大門進去,首先要過安檢並進行登記,陽泉雲計算中心的安全等級比較高。首先映入眼帘的是位於園區中心的一棟橢圓柱形建築,這就是陽泉雲計算中心的ECC監控中心,外圍環繞著編號為D01-D08的8座方形建築,這就是上文提到的8個機房模組。
在園區裡走著,一個最大也是最明顯的感覺就是——沒人。由於數據中心全部採用先進的自動化、智能化控制技術,需要巡視、維護、調控人員極少,每個班組2-3人就可以完成2個模組約3萬平米7*24小時運營。因此諾大一個12萬平米的園區建築裡,基本上很難看到人。
進入中間大樓的ECC監控中心後,可以看到這是一棟寬敞明亮的4層建築,以黃白色調為主,在百度帶領大家參觀的其中一個控制室裡,我們可以看到各個機房的實時參數、監控視頻等信息,涉及機密這裡就不上圖了~
好了,接下來就是本次參觀介紹的重頭戲,機房參觀。
在陽泉雲計算中心安裝8個機房模組的伺服器中,包括了各類百度自研的伺服器:如「北極」、「冰山」、「鯤鵬」、「X-Man」等,其中90%以上都是「北極」整機櫃伺服器。
「北極」(天蠍)自研整機櫃伺服器——採用共享電源、共享風扇架構,部件全部標準化、模塊化、一體化,支持40攝氏度環境溫度長期運行。總擁有成本(TCO)降低15%,交付效率提升20倍——這句話更直觀地換算過來什麼意思呢?那就是原先需要1個月上線的伺服器,現在只需要1天。
「冰山」自研高密度存儲伺服器——創新的高密度存儲解決方案,支持儲存池化設計和分層存儲,單臺伺服器可存儲180TB數據,有力地支持了百度的私有雲、公有雲業務。
「鯤鵬」自研高溫伺服器——業界首次規模商用的高溫伺服器(一般伺服器送風溫度是22-24度,鯤鵬可以支持送風溫度達到45度)同時具備耐腐蝕性,與IDC強耦合,徹底實現全自然新風冷卻。
「X-Man」自研AI伺服器——業界首個基於PCIe Fabric架構的16卡GPU伺服器,兼容支持FPGA。支持異構計算資源池化,可擴展到64GPU以上,提供1000TOPS量級計算能力,能夠廣泛應用於語音、圖像、NLP、搜索、無人車加速計算場景。
在供電方面,陽泉雲計算中心去除傳統的UPS,首次採用 HVDC offline(高壓直流離線)技術、分布式鋰電池(BBS)供電技術,把供電效率從90%提升到99.5%。陽泉雲計算中心同時也是國內首個採用太陽能光伏發電的數據中心,在頂樓鋪設太陽能光伏面板直接併網發電,直接給伺服器使用,節能的同時還減少汙染物排放。
不過,利用太陽能光伏面板發電的電量佔的還是用電量的少數,陽泉雲計算中心在2017年與電廠籤約的2600萬度風力發電,使得清潔能源的佔比達到20%。
在散熱方面,陽泉雲計算中心96%的時間可以使用室外冷空氣實現免費冷卻,換算過來一年裡有14.6天才需要全部開冷水機組製冷,從而節省了大量的能源。
一方面,雲計算是AI的底層能力之一,百度陽泉雲計算中心所提供的計算能力可以為用戶提供AI-enable網絡,其中包括基於cookie機器學習模型的IP地理定位、基於交互機日誌的故障預測、業務網絡質量的測量與感知、基於機器學習的攻擊流量監測系統等等。
而另一方面,AI也被應用在了雲計算中心的智能控制、智能運行上。通過採集環境參數、設備功耗、運行模式、動作狀態等參數,再將它們使用AI算法進行計算優化(此處的AI包括HPC、機器學習、深度學習等,解決不同問題會用不同模型,但大部分訓練都是用百度的PaddlePaddle開源平臺)。
通過百度的人工智慧技術,陽泉雲計算中心如今做到智能預警、智能調度、智能運維——而這也是上文提到的園區員工很少的原因之一。預警、調度、運維包括許多方面,以下是工程師介紹的其中三點:
1)自動運營:大幅縮短電力切換時間。當突遇停電時,傳統備用發電機電源切換要15分鐘,但現在通過電力監控系統全自動切換,可以達到分鐘級別的切換速度,最快只需要30秒。
2)智能調度。通常數據中心用電是有波動的,伺服器存在閒時忙時,波峰波谷。為了提高伺服器及機房的利用率,通過AI技術預測對在線業務需求進行預測,通過在線業務及離線業務混布,閒時調度更多離線業務,跑離線計算、訓練模型。
3)智能預測:判斷網絡流量是否異常。用AI模型進行計算、判斷某個流量到底是用戶的正常操作行為還是惡意攻擊流量。
在各類科技、IT主題的美劇中(比如《矽谷》),伺服器機房一直是個被人拿來調侃的地方。就連今年蘋果的WWDC的開場視頻也拿一位剛入職的科技宅男坐在伺服器機房裡,無意中碰掉了供電插頭而引發一場動亂的
當下隨著人工智慧與萬物互聯的普及,接入網絡的設備越來越多,數據計算量也越來越大,雲服務、雲計算已經慢慢變成智能時代的下層建築,成為如供水、供電、網絡通信等我們日常生活中不可或缺的基礎設施。
目前,無論是國外的亞馬遜雲、微軟雲、還是國內的阿里雲、百度雲等等,都紛紛繼續著對雲計算數據中心的投入建設,如百度一般,不少公司都是從幾年前就開始布局建設,在近年陸續投建使用,為企業的人工智慧與萬物互聯提供雲服務與雲計算能力。