2019年12月19日,第十四屆中國IDC產業年度大典(IDCC2019)數據中心技術論壇在北京國家會議中心舉行。IDCC2019作為數據中心雲計算產業內知名的盛會以及IDC企業、電信運營商、網際網路、金融、政府和廠商等產業上下遊的高效溝通平臺,與會嘉賓包括政府領導,行業專家和企業代表數千人。 阿里巴巴技術專家任華華在數據中心技術論壇上作了題為《IDC液冷化-正在發生的未來》的演講。
阿里巴巴技術專家 任華華
任華華:大家好!今天為大家分享的主題是《IDC液冷化-正在發生的未來》,所謂的「正在發生」,大家或許已經感受到了,2019年IDC業界的高頻詞「AI」、「5G」、「上雲」中多了一個基礎設施的詞彙那就是「液冷」,ODCC甚至發布了一本業界暢銷書《液冷革命》。為什麼一項冷卻技術會變成IDC業界的熱點呢?讓我們從政策、行業、IT設備以及成本四個維度做一下分析。
政策層面,剛才李潔博士也講到,2018到2019年度IDC相關政策密集發布,2018年9月北京市政府發布新增產業的禁止和限制目錄,全市只允許建設PUE值在1.4以下的雲數據中心;2019年1月上海市經信委發布了指導意見,規定新建網際網路數據中心的PUE值嚴格控制在1.3以下,改建網際網路數據中心的PUE值嚴格控制在1.4以下;2019年4月深圳市發改委發布通知,對於PUE值低於1.25的數據中心新增能源消費量可給予實際替代量40%以上的支持;2019年工信部與國家能源局出臺指導意見,引導大型和超大型數據中心的PUE值不得高於1.4。面對國家、地方、行業不斷出臺的越來越嚴苛的節能要求,數據中心降低PUE已經成為合規的必要條件。
從行業的角度, IDC中國曾發布2018~2023年中國大數據市場規模預測,可以看到中國大數據市場以每年約23%的增速持續增長中,實際上大數據的應用離不開數據中心,企業上雲也離不開數據中心,那麼數據中心市場規模的增長是多少呢?智研諮詢發布了中國IDC市場的規模預測,可以看到2018到2020年間 IDC市場規模雖然增速放緩,但仍維持了25%以上的年持續增長率。
從機型的角度,來自IDC中國的一份報告顯示,2019年第二季度,中國X86伺服器市場的出貨量同比下降了14.6%,市場規模同比下降了9.4%,雲服務提供商和超大規模客戶的採購增長放緩,然而多節點伺服器實現了逆勢增長,2019年Q2出貨量同比增長了33%;引人關注的還有GPU、FPGA和ASIC等AI伺服器,有報告顯示全球AI基礎設施的市場規模在2023年可能達到229億美元。在算力與AI驅動下,大家從左邊的圖片可以看出,無論是CPU還是GPU,設計功耗值都在不斷提高,進而導致單機櫃功耗持續增長,右下角的圖片也可以看到單機櫃功耗的增長趨勢,2015到2019年典型機櫃的功率已經從約12千瓦上升到15千瓦左右,高功耗機櫃的功率也從32千瓦上升到 39千瓦左右。
成本的角度,左邊這張圖是某IDC全生命周期的TCO分布,總電費佔比約65%,初投資和運行電費等分攤到每一年,我們也可以從右下角的圖片看到能源電費的佔比是最大的,有統計顯示,數據中心的總耗電量已經佔到了全球用電量的2%。
從以上的這些分析,我們可以感到產業發展的內在的矛盾,一邊是日益增長的算力需求,另一邊是一線城市的土地、電力資源緊張,一邊是單機櫃的功率密度快速增長,另一邊是PUE要求越來越苛刻,一邊是IDC與雲服務的規模越來越大,另一邊是運營電費成本居高不下;IDC行業呼喚更加節能的、集約的、高效的、普惠的解決方案。
實際上每一個IDC的PUE和運營成本都與氣象區和冷卻解決方案強相關。讓我們通過這張圖片來回顧一下數據中心的能源轉換過程,數據中心本質是電力轉換為算力、算力轉換為IT服務的載體,電力轉化為算力是非常重要的一環,衡量的指標就是業界比較流行的概念PUE。在電氣架構相同的情況下,IDC的PUE和運行成本是由氣象區和冷卻解決方案決定的。舉個例子,這張圖是主流風冷IDC的冷卻解決方案,主要組成元素有風冷伺服器、封閉冷通道,離心式冷水機組、水側的節能器、房間級空調,18度的供水溫度,27度的送風溫度,這樣的冷卻解決方案在全國四大典型氣象區的能耗情況是什麼樣子的呢?我們可以看一下這張圖,在以深圳為代表的華南氣象區,IT能耗佔總能耗的71.4%,冷卻能耗佔到25%,在以上海為代表的華東氣象區,IT能耗佔74%,冷卻能耗佔22%,在以北京為代表的寒冷氣象區,IT能耗佔77%,冷卻能耗佔19%,在以張北為代表的嚴寒氣象區,IT能耗佔80%,冷卻能耗佔16%。
在相同的氣象區採用不同的冷卻解決方案,PUE的差別又是什麼樣子的呢?IDC行業主流的冷卻解決方案大概列舉幾種,有風冷直膨空調、風冷冷水機組搭配乾冷器與房間級的空調、水冷冷水機組搭配板換冷塔與房間級空調、水冷冷水機組搭配板換冷塔與水冷背板,在全國四大典型氣象區的PUE列在這張表格裡。
如果要比較風冷IDC主流的冷卻解決方案與液冷解決方案的能效,第一個紅色圈標註的是風冷IDC的冷卻解決方案在張北、北京、上海、深圳的PUE分別約為1.25、1.30、1.35、1.39,而板換與冷塔搭配單相浸沒液冷在張北和北京可以做到1.09、在上海和深圳約為1.1,與風冷IDC不同的是,採用浸沒液冷,PUE值幾乎不隨氣象區的變化而大幅度波動。
每個IDC的風冷解決方案與單機櫃的熱密度也是強相關的,從圖片中可以看出,隨著單機櫃功耗的增長,冷卻方式從冷熱通道隔離、封閉冷通道、頂置盤管冷卻、機櫃循環冷卻、熱風抽取冷卻、行級內部製冷、背板熱交換逐步過渡到CPU板冷與直接浸沒式液冷。經常有工程師一起討論,為什麼不採用板冷呢?這裡把板冷和浸沒液冷的各個指標放在一張表格上,大家可以看到浸沒液冷在散熱性能、能效、可靠性、噪聲以及運行維護成本方面佔優,大家如果在這兩個冷卻方式的比較和選擇上有什麼疑問,線下可以跟我們的工程師多做交流。
雖然「液冷」在2019年才成為業界的熱點,但是阿里巴巴的液冷實踐從2015年就開始了,並在2018年的7月上線了網際網路行業第一個浸沒液冷的生產集群,規模大概2000臺伺服器,位於張北,這張PPT上可以看到液冷集群的圖片。截至目前集群已經運行了大概一年半,節能效果怎麼樣呢?從線上的監控系統拉取了數據,全年平均PUE值1.09,最低的時候1.07,如果單純比較PUE,浸沒液冷的能效比同氣象區的風冷提升了12.8%,大家也知道,採用了浸沒液冷,IT功耗值是純算力,而風冷場景下IT功耗包含伺服器的風扇,那麼基於純算力的比較,能效可提升21.5%。
在項目研發階段,工程師們提出了問題,電子器件浸泡在液體中可靠性究竟如何?過程中研發工程師查閱了很多資料,一項美國空軍的電子研究項目曾研究過電子器件失效的影響因素,與溫度相關的佔比55%,溼度相關的佔19%,振動相關的佔20%,粉塵相關的佔6%。這裡是現實中某數據中心IT設備的故障率比例,可以看到硬碟的故障率佔比是最高的,佔比71%左右,而硬碟的年故障率與溫度強相關。可以預期液冷場景下,IT設備放置在密閉的容器裡,消除了溫度、溼度、振動、灰塵對電子器件的影響,故障率必然有所下降。線上的監控數據數據表明,在一年半的時間裡,硬碟的故障率下降了50%左右,可靠性符合預期。
液冷IDC同比風冷IDC,由於消除了風扇,噪聲從95dB降低至50dB,大家如果進到液冷的數據中心會感到非常安靜,不像在風冷機房裡非得要大聲說話才能聽得到,因為風扇實在是太吵了。
液冷能為IDC帶來更低的PUE、更高的可靠性、更好的舒適度,但是液冷IDC在設計與交付時也有許多與風冷IDC不同的地方,這裡簡單為大家介紹一下。液冷,首要的自然是液體的選擇,可選的液體類型通常有電子氟化液、礦物油、白油、植物油、矽油等,這些液體在傳熱效率、電絕緣特性、化學穩定性、材料兼容性、可燃性、成本等方面的指標各有差異,大家可以根據自身的業務類型、可用性要求、機型熱密度選擇適合自己的液體。
液冷,第二重要的就是冷卻系統了,由於液體代替了空氣,具有更高的散熱效率,不再需要風冷場景下的大型壓縮式製冷設備,也就是說在液冷的數據中心裡,不再需要大容量的制冷機,也不再需要末端空調,甚至不再需要伺服器風扇,液冷不製冷,只是冷量的搬運工。液冷IDC的PUE能夠降低很大原因是節省了壓縮機的功耗和風扇的功耗。
由於電子器件浸泡在液體裡,液體不斷地循環散熱,那麼必須考慮液體與浸泡器件以及循環管路中所有材料的兼容性。舉兩個例子,大家可以看到左下角這裡,PSU某組件浸泡在液體中質量下降了,什麼原因導致的呢?原因是PVC中的塑化劑溶解於液體中,解決方案是用PTFE或其他兼容性良好的材料替代PVC。某繼電器浸泡在液體中質量上升了,原因是液體漏入裝置,說明該繼電器的密封太差,解決方案是更換密封良好的繼電器。當然了,液體循環系統中所有的線材、管件、密封件、閥門的密封圈、PSU等都需要經過液體的兼容性測試。
除此之外,液冷機櫃為了減少液體的損耗量,還需要針對所有線纜進出容器的位置做密封處理,密封后液體的損耗降低到小於1%。大家從這些布線的圖片中也可以發現液冷場景下的綜合布線天然的標準化,線纜的管理也更加科學合理。
液冷IDC的機櫃是臥式的,IT設備浸泡在液體中,如何進行維護呢?這也是一個經常被問到的問題,阿里巴巴的最佳實踐是針對液冷場景開發適宜的機械臂,來幫助運維工程師起吊設備與日常維護,也開發了補液、抽取液體的移動車,以方便日常運維。
液冷IDC由於取消了大型冷機,全年冷卻塔供冷,監控系統不需要在自然冷卻、部分自然冷卻和完全電製冷三種模式之間做複雜的切換,只需要管控冷卻水系統與液體循環系統,從而大大簡化了運營監控系統。
簡單總結一下液冷將會給IDC交付帶來的變化,非常明顯的一點是風冷IDC與液冷IDC將長期並存,液冷IDC的比例將逐步擴大。有了液冷,IDC的PUE不再隨著氣象區的變化而大幅度波動,選址不必為了PUE與運營成本而優選寒冷氣象區,完全可以根據業務需要進行選址。IDC的某些設計指標也會有所調整,例如液冷區的樓板承重按1.3噸/平方米設計,宜做降板處理,利於敷設管道與線纜。液冷IDC不需要大型冷機,可以輕量化冷站與製冷設施,雖然網絡間與電氣房間仍然需要製冷,但是整體的交付容易模塊化與分期,交付周期縮短。液冷場景下,數據中心驗證測試的腳本、驗收流程、運營習慣都會作相應調整。
液冷除了給單體的數據中心樓帶來變化,也將給IDC產業帶來一些變化,前面講到的政策已經提示了資源流速「剎車」,短平快的時代結束了,比拼實力的慢深重時代已經開始。風冷和液冷將會長期並存,液冷的比例將會逐步擴大。有人說5G第一次帶來IT與CT的融合,事實上液冷將帶來IT設備 Infrastructure與基礎設施Facility的深度融合。IDC分工體系處於再設計的拐點,由於大量冷卻液的應用,液體供應商將成為IDC行業的重要參與者。大容量冷機在IDC產業的份額將會逐步減少,但是由於電氣房間和網絡設備區仍然需要製冷,小型冷源仍然會有增長空間。液冷IDC的整體解決方案,實際上對伺服器、交換機以及數據中心都進行了部分重構,具備端到端全鏈條技術研發與支撐的公司通常是網際網路巨頭和大客戶,可想而知,網際網路巨頭和大客戶仍將是產業的主導者,伴隨著雲計算基礎設施的規模越來越大,產業鏈的垂直整合將成為可能。
那麼第三方的IDC供應商在面臨這樣的產業變革時應該做出哪些調整呢?在新建和改建廠房為IDC時,設計方案儘量地兼容風冷與液冷,例如樓板做降板處理,承重適當留出富裕量。在新建IDC園區時,可以選擇適當比例的樓宇兼容液冷。如果不確定自己的客戶究竟會選擇風冷還是液冷,那麼可以在UPS或者高壓直流之後的IT機房區做毛坯房交付,等到確定了客戶或者客戶選定方案之後,再來做二次深化設計與交付。
大型公共雲採用液冷能夠實現算力的高度集中和可靠節能,那麼邊緣計算的場景適合採用液冷嗎?剛才李潔博士提到邊緣計算模塊是由網絡定義的,特點是低延時、高帶寬,實際上邊緣計算還有一個鮮明的特點是交付快,液冷解決方案非常容易產品化、貨櫃化以及模塊化交付,也同樣適配小型邊緣計算的應用場景。
回顧阿里巴巴自2015年以來的液冷實踐,結合當前的政策、產業、機型的發展趨勢,可以預見,液冷IDC終將成為行業潮流的引領者,託起五彩繽紛的IT應用。在這裡我們也做一下預告,2020年12月,阿里巴巴即將上線整棟液冷數據中心。
接下來有請大家觀看一段液冷集群的視頻,結束我今天的分享。謝謝大家!