DeepMind通過AI為Google全球機房節能15%的新聞有多少可信?

2021-02-13 煉數成金前沿推薦

楊軍 從事大規模機器學習系統研發及應用相關工作

在DeepMind的官網blog裡[3],提到了Google使用DeepMind提供的AI技術,在機房的能耗上獲得了大幅的削減,對應於PUE(Power Usage Effectiveness[19])的減少。具體來說,通過build了一個Machine Learning的模型,對機房的PUE指標[14]趨勢進行預測,從而指導製冷設備的配置優化,減少了閒置的用於製冷的電力消耗。從[3]裡public出的指標來看,這項技術能夠為Google減少15%的數據中心整體耗電量。而從[15]的數據來看,2014年,Google全年的電力消耗已經達到了4,402,836 MWh,這個數字相當於30多萬美國家庭一年的電力消耗。所以15%的整體耗電量節省可以映射成上億美元的資金節省[4](對於這裡節省的具體數字,我會有一些concern,認為實際的電量節省沒有這麼顯著,我結合具體數字,估算的電力節省大約在5百萬美元左右,在文末會有一些對應的細節分析)。 

這是一個看起來很讓人amazing的數字,從[5]裡,能夠看到一些更有趣的數字: 

從2000年到2005年,全美的機房電力消耗累積增加了90%; 

從2005年到2010年,全美的機房電力消耗累積增加了24%; 

從2010年到2014年,全美的機房電力消耗累積只增加了4%。 

而從[7]裡,我們能夠看到,伺服器數量的增長速度可是顯著高於上面的電力消耗增長數字: 

2000年到2005年,伺服器年複合新增率是15%(累積增長率100%); 

2005年到2010年,伺服器年複合新增率是5%(累積增長率27%); 

2010年到2014年,伺服器年複合新增率是3%(累積增長率12%)。 

考慮到每年伺服器的折舊淘汰率,不能簡單地把伺服器數量增長率與機房電力消耗增長率進行對比。不過,還是能夠看到機房電力消耗的增幅持續下降的趨勢要比伺服器數量增幅的下降趨勢更為明顯。這從[7]裡提供的一個關於機房能耗的趨勢圖可以更為直觀地感受到: 

在背後支撐這個現象的,是一系列能耗相關的技術。比如[6]裡提到的製冷技術、低功耗技術的進步、hyper-scale機房替換小機房帶來的運維邊際成本的下降及技術上的改善、雲計算的興起[5][9][10]等等。 

在[8][12]裡也提到了一些Google在機房能耗上的細節工作。 

而除了上面提到的這些有助於減少機房電力消耗的技術以外,Google從14年開始,就已經在嘗試通過Machine Learning的方法[1]來減少機房耗電量,今年DeepMind發布的基於神經網絡模型[3]對機房製冷成本cut-off的實驗數據只是一個具體的use case而已: 

[3]裡所發布的工作是Google Data Center團隊的Jim Gao與DeepMind合作的項目,目前還沒有正式的文獻可供了解其細節。不過Jim Gao從14年就開始嘗試運用Machine Learning技術來改善機房功耗,當時的工作還是發表了一份技術報告[2],裡頭倒是有一些細節可考。 

在[2]裡,使用神經網絡,對PUE進行了回歸建模。 

如果從現在的技術視角來看,[2]裡提出的神經網絡模型並不是很複雜,就是一個由5個等寬(每層50個神經元)隱藏層組成的MLP[16]網絡。Loss Function採取的是Squared Loss(因為建模目標是PUE,這實際上是一個浮點數,所以作為一個Regression Problem來建模),loss的具體數學形式見下圖): 

其中m是樣本的數目,L是神經網絡的層數(包括輸入層和輸出層),h_\theta表徵輸出層的神經元具體數值。在Loss Function裡引入了二範數正則來避免over-fit,所以這裡的Loss Function也是對問題的一個標準的Ridge Regression[18]建模。

輸入由19個浮點特徵組成。訓練樣本由18萬條樣本組成,每條樣本對應於一個5分鐘長度的時間窗口的聚合數據,數據的總時間跨度將近兩年。70%的數據用作訓練集,30%用作驗證集和測試集,為了避免time bias,在切割訓練與測試集之前,對樣本進行了隨機打散。輸入特徵都進行了歸一化,確保都落在了[-1, 1]的區間內(採用的是樸素的min-max歸一化[17])。考慮到這個訓練樣本的規模和模型複雜度,訓練過程在單機就可以完成,並沒有使用GPU,也不需要考慮分布式訓練的需要。 

模型的評估,直接使用了Google某一個真實機房在夏天持續一個月的PUE指標作為target,與模型擬合預測的結果進行了對比: 

模型的mean absolute error是[0.004-0.005, 0.004+0.005],對於1.06的PUE值,相對誤差比例< 0.8%。 

從上面的圖表能夠看到,模型在PUE > 1.14的值域區間的誤差較大,這跟這段區間的累積樣本數量較少有關。

關於這個模型的具體應用場景,可以列舉幾個: 

1.模型可以預測出PUE值與input feature的關係,而這些input feature又來源於物理設備採集的傳感數據,其中有些數據是可以通過參數配置的(比如啟用的制冷機的數目),所以通過這裡的PUE模型,可以指導機房運維人員通過仿真實驗找到更具能耗比的機房配置。 

2.機房升級,需要將原機房的流量打到其他機房,其他機房的製冷系統的工作配置需要進行調整,通過PUE Model,可以幫助找到更優的製冷系統配置調整參數。 

把[2]與[3]結合起來來看,我會有一些有趣的發現: 

I. 在[2]裡給出了Google數據中心的歷史PUE值,我結合[14]的數據做了一下人工validate,數據是能夠對上的,下面提供的就是[14]裡的數據:

而[2]裡提供的數據如下(截止到14年):

我們能夠看到從14年到16年,PUE值幾乎是穩定在1.12,沒有發生比較顯著的變化。 

II. 在[3]裡,claim通過DeepMind與Google Data Center合作,在PUE指標上整體減少了15%。這15個百分點的計算方式就很重要了。 

如果是相對於PUE的絕對值,那麼考慮到PUE的理論最優值是1.0,幾乎可以肯定,這個15%是有問題的(在[3]裡提起到了這裡的PUE reduction是考慮到了製冷以外的能耗以及電力損失等,不過我還是不太認為這裡的15%是相對於1.12的PUE基準值來計算的)。 

如果是相對於PUE裡overhead的部分(從PUE的計算公式,我們可以知道,> 1的那部分都屬於為了供給計算設施的能量所引入的額外消耗,對應於1.12,overhead部分就是0.12),那麼我會覺得更make sense一些。 

按照上面我認為更合理的口徑算法,DeepMind claims的電力節省量大約是: 

0.12 * 0.15 * 4,402,836 MWh([15]裡public出的Google全年的電力消耗) = 79,251 MWh。 

而這部分節省下的電力,如果按照[20]裡的數據,每KWh工業用電的費用是7美分,那麼,對應的費用節省是: 

4402836 * 0.12 * 0.15 * 0.07美元 * 1000 = 5,547,573美元。 

(如果以PUE的絕對數值作為計算基準的話,對應的費用節省是: 

4402836 * 1.12 * 0.15 * 0.07 * 1000 = 51,777,451,倒是勉強能對上過億美元的電費節省的說法) 

看起來還是節省了不少電費,不過跟[4]裡所說的上億美元的節省還是存在較大的出入。 

不過在DeepMind官方站點上,我並沒有看到關於電費節省的具體費用的數字,所以這裡表現出的不嚴謹目前來看還更多是一個媒體的過度解讀。 

最後說說我的一些感受。 

1.關於使用神經網絡對PUE進行回歸建模。 

我個人認為,這更多是一個建模人員的taste問題,並不是說明這個問題場景神經網絡就是最合適的手段,要比shallow model一定要強。比如說,使用GBDT這樣的非線性樹模型,我的直覺是也能獲得相近的預測表現。畢竟,這個場景下的訓練數據並不多,特徵量也比較少,是否能夠充分發揮神經網絡模型的優勢我是存在一定的疑問的。 

2.AI-First 

這一年多來,AI-First類似的字眼在不同的媒體、場合聽到過很多次。Google在說[23]、Baidu在說、微軟也在說[24],我個人的預判是,以machine learning為代表的data-driven策略未來會在更多目前看起來比較傳統的領域裡發揮不可替代的價值。比如機房的耗電節能、故障智能運維[25][27][28]、硬體體系結構設計[22]這種比較傳統的,看起來比較「硬」的領域,未來也許都能夠看到更多AI技術的身影。而隨著IoT技術的進步[26]和網絡互聯帶寬的發展,現實世界會更多、更深層地投影到數字世界,而針對這個數字投影,也會有大量的數據挖掘的工作可做。 

3.雲計算 

雖然我對[4]裡所說的通過AI技術獲得上億美元電費節省的說法存在比較強的疑問,不過我倒是對於[5][9][10]裡提到的以雲計算為基礎,將更多分布式的小規模的機房替換成集中式的hyper-scale機房的作法所能帶來的能源消耗的節省寄予了很高的期望。在[5]裡也有一張很形象的圖說明了把企業辦公工作移入到雲端帶來的能耗收益: 

從社會分工的角度來看,作為基礎設施的計算設備和基礎軟體,通過集約化的方式進行管理,是比較典型的帕累託改進[21]。我個人也很看好,對於基礎性的機器學習和數據處理平臺,通過雲計算的方式來為中小企業提供使用權而非所有權(大企業的case比較特殊,涉及到企業競爭安全的考量,未必適合)。這可能也是Google、Amazon、Microsoft以及阿里在雲平臺乃至雲端數據處理平臺上發力的一個重要動機吧。 

References: 

[1]. Better data centers through machine learning. https://googleblog.blogspot.com/2014/05/better-data-centers-through-machine.html. Google, 2014. 

[2]. Jim Gao. Machine Learning Applications for Data Center Optimization. Google, 2014. 

http://research.google.com/pubs/pub42542.html

[3]. DeepMind AI Reduces Google Data Center Cooling Bill by 40%. https://deepmind.com/blog/deepmind-ai-reduces-google-data-centre-cooling-bill-40/

[4]. Google uses DeepMind AI to cut Data Center Energy Bills. Google uses DeepMind AI to cut data center energy bills

[5]. Google. Data Centers Get Fit on Efficiency. https://green.googleblog.com/2016/06/data-centers-get-fit-on-efficiency.html

[6]. Julie Chao. Data Centers Continue to Proliferate While Their Energy Use Plateaus. http://newscenter.lbl.gov/2016/06/27/data-centers-continue-proliferate-energy-use-plateaus/

[7]. ETA of US. United States Data Center Energy Usage Report. United States Data Center Energy Usage Report

http://eta.lbl.gov/sites/all/files/lbnl-1005775_v2.pdf

[8]. 2009年數據中心能效峰會. https://www.google.com/about/datacenters/efficiency/external/2009-summit.html

[9]. Google Apps Cuts GSA Energy Costs. Google Apps Cuts GSA Energy Costs

[10]. Lawrence Berkley National Laboratory. The Energy Efficiency Potential of Cloud-Based Software: A U.S. Case Study. http://crd.lbl.gov/assets/pubs_presos/ACS/cloud_efficiency_study.pdf

[11]. Google. Efficiency: How We Do It. https://www.google.com/about/datacenters/efficiency/internal/#tab0=0

[12]. Google. The Case of Energy-Proportional Computing. IEEE Computer, 2007. http://research.google.com/pubs/pub33387.html

[13]. Report to Congress on Server and Data Center Energy Efficiency. 2008. Report to Congress on Server and Data Center Energy Efficiency: Public Law 109-431

[14]. Measuring Efficiency. https://www.google.com/about/datacenters/efficiency/internal/index.html#measuring-efficiency

[15]. https://www.google.com/green/bigpicture/references.html

[16]. Multilayer Perceptron. Multilayer perceptron

[17]. Rescaling. Feature scaling

[18]. Ridge Regression. Tikhonov regularization

[19]. Power Usage Effectiveness. Power usage effectiveness

[20]. Average Price of Electricity to Ultimate Customers by End-User Section. EIA - Electricity Data

[21]. Pareto Efficiency. Pareto efficiency

[22]. Tianshi Chen. ArchRanker: A Ranking Approach to Design Space Exploration. ISCA, 2014. 

[23]. Google Blog. This Year’s Founders』 Letter. https://googleblog.blogspot.com/2016/04/this-years-founders-letter.html

[24]. Techcrunch. Microsoft CEO Satya Nadella on How AI Will Transform His Company. Microsoft CEO Satya Nadella on how AI will transform his company

[25]. Daniel Sun. Non-Intrusive Anomaly Detection With Streaming Performance Metrics and Logs for DevOps in Public Clouds: A Case Study in AWS. IEEE Transactions on Emerging Topics in Computing, 2016. 

[26]. Charith Perera. The Emerging Internet of Things Marketplace From an Industrial Perspective: A Survey. IEEE Transactions on Emerging Topics in Computing, 2016. 

[27]. Better Living Through Statistics: Monitoring Doesn’t Have To Suck. https://github.com/jaqx0r/blts

[28]. Intelligent Site Reliability Engineering — A Machine Learning Perspective. http://blog.adnanmasood.com/2016/05/19/intelligent-site-reliability-engineering-a-machine-learning-perspective/

文章來源:大腦模擬

《SPSS數據分析入門與提高》SPSS是基於圖形界面操作,對於沒有編程基礎的用戶來說十分友好,課程將從基礎入手,在學習SPSS的基本操作過程中,結合相應的統計概率知識,讓學員更能掌握數據分析的本質!點擊下方二維碼查看課程詳情


相關焦點

  • DeepMind聲稱通過AI為Google全球機房節能15%的新聞有多少可信度?
    2.機房升級,需要將原機房的流量打到其他機房,其他機房的製冷系統的工作配置需要進行調整,通過PUE Model,可以幫助找到更優的製冷系統配置調整參數。 把[2]與[3]結合起來來看,我會有一些有趣的發現: I.
  • DeepMind深度強化學習實踐:教計算機玩超級馬裡奧(代碼)
    但必須指出,相比谷歌 DeepMind 純粹依靠分數訓練的方法,我的已經不那麼純粹了。此外,我發現瑪麗還有個缺點——他毫不在意死亡,一次一次一次一次……又一次地撞上那些嘍囉。因此,我增加了一條死亡則進行懲罰的設置。有了這些設定以後,根據超級瑪麗這款遊戲的特點,我不斷調整參數,提升表現,比如將第三層卷積層從 64 調整為 128。
  • 【加入星際2徵程】DeepMind星際爭霸2開源機器學習平臺入門
    來源:chris-chris.ai作者:Chris Song編譯:文強【
  • DeepMind丟掉了歸一化,讓圖像識別訓練速度提升了8.7倍 | 已開源
    其中,它們的bottleneck ratio均設置為0.5,且在3 x 3的卷積中,無論信道的數量為多少,組寬都固定為128。傳送門論文地址:https://arxiv.org/abs/2102.06171代碼地址:https://github.com/deepmind/— 完 —本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。量子位「AI社群」招募中!
  • DeepMind在團隊遊戲領域取得新突破,AI和人類一起遊戲真是越來越6了
    不得不說,在看完模擬遊戲的視頻確實覺得挺有意思的,今天人工智慧頭條就為大家介紹這個首款具有「團隊精神」 的智能代理。此外,為了保證遊戲競爭環境的公平,我們的智能體需要以與人類玩家類似的方式體驗 CTF 遊戲世界:即通過觀察圖像的像素流,模擬遊戲控制器並採取相應的行動。
  • Deep Mind不下棋,玩起遊戲來也是666
    遊戲時長為五分鐘,最終擁有旗幟最多的隊伍將獲勝。從多智能代理的角度來看,CTF 既要求玩家們能與己方隊友妥善合作,又要與敵方玩家相互競爭,同時還要靈活應變可能遇到的遊戲風格的轉變。此外,為了保證遊戲競爭環境的公平,我們的智能體需要以與人類玩家類似的方式體驗 CTF 遊戲世界:即通過觀察圖像的像素流,模擬遊戲控制器並採取相應的行動。
  • 不斷發展的 JAX:加速 AI 研究的利器
    文 / David Budden 與 Matteo HesselDeepMind 工程師通過構建工具、對算法進行拓展和創造具有挑戰性的虛擬和物理環境來訓練和測試人工智慧 (AI) 系統,加速我們的研究。作為這項工作的一部分,我們在持續評估機器學習新的庫和框架。
  • DeepPavlov: 強大的聊天機器人和對話系統開源AI庫(附安裝指南)
    DeepPavlov 中有很多很棒的經過預訓練的 NLP 模型。每個模型均由其配置文件確定。可以在 deeppavlov.configs (Python) 的文檔頁面上找到模型列表:from deeppavlov import configs確定了模型(+ 配置文件)後,可以通過兩種方式來訓練、評估模型並進行推斷:文檔頁面http://docs.deeppavlov.ai/en/master
  • 吳恩達Deeplearning.ai最新乾貨
    本文是deeplearning.ai的一篇技術博客,文章指出,對初始化值的大小選取不當,  可能造成梯度爆炸或梯度消失等問題,並提出了針對性的解決方法。初始化會對深度神經網絡模型的訓練時間和收斂性產生重大影響。簡單的初始化方法可以加速訓練,但使用這些方法需要注意小心常見的陷阱。本文將解釋如何有效地對神經網絡參數進行初始化。
  • 推特900贊:開源AI畫出超準街道地圖,全球適用,刷新DeepGlobe最好成績
    訓練用的數據十分龐大,是用航天技術公司Maxar提供的、全球各地的衛星圖像加工而來。要讓神經網絡適應各地的道路差異,加工方法非常關鍵。其實,泰國項目得出的地圖非常完整,又有領域專家把關,Facebook對泰國地圖數據十分自信。但用這些數據訓練的模型,卻在其他地區泛化很差。
  • CSIS發布《Deepfake技術政策簡報》全面梳理應對方案
    網際網路的匿名性加劇了區分網絡信息內容真假的難度,因為人們不知道deepfake的源頭。而且,在網際網路上發布內容並不需要經過任何的審查,也就是說人們可以自由地向上百萬受眾發布不知道真假以及是否可信的內容。Deepfake為那些不靠譜的媒體搞事情提供了極為有利工具。極端組織和專制反對者可以利用deepfake技術來創建惡意內容的音視頻,在輕信或不信任的人中製造不信任和混亂。
  • DeepPavlov:一個面向端到端對話系統和聊天機器人的開源庫
    本文的代碼可以在谷歌 Colab上找到:https://colab.research.google.com/github/deepmipt/dp_notebooks/blob/master/DP_tf.ipynb簡單起見,我們將從對話系統的最基本構成開始介紹。首先,聊天機器人需要理解自然語言中的表達。
  • 數據中心供電系統節能減排設計第四步——引入節能的驗機技術
    但又有幾個能有這樣的條件呢!圖4-20(c)所示是某空管局雷達站60KVAUPS機房用鹽水作假負載的例子。這種假負載好處是集中,佔地面積小,水缸、鹽和水等可以分別運輸。只是這臺設備製造比較費時、費事,實驗做完後無其他用處。另外這些集中負載不能反映出機房機架內的溫度情況。主要是這些功率都白白浪費掉了。
  • Deepfake:一款與核武器同樣危險的軟體工具
    故意造謠再偽裝成「真相」大肆散布的假情報,或者說所謂的「假新聞」,我們已經見識過了。等事實核查員開始闢謠的時候,往往已為時過晚,比如卷進了希拉蕊的「#披薩門」假新聞事件。Deepfake通過生成性對抗網絡(GAN)來利用這一人類認知偏向。GAN中兩個機器學習(ML)模型一決高下,一個在數據集上訓練後生成虛假音視頻,另一個則試圖檢測這些偽造物。
  • AI在這一周學會了很多事,都是什麼? | 一周 AI 頭條
    sid=51568DeepMind要用AI為英國省電 | 節能 |他們希望不投入任何新的基礎設施,只是通過優化手段,幫助英國節省10%的電力使用量。2016年7月,總部位於倫敦的DeepMind通過預測Google數據中心的冷卻系統和控制設備的負載,減少了40%用於冷卻的電量。這一機器學習算法使Google數據中心的總用電量減少了15%。
  • 一套詳細的弱電工程機房建設設計方案,可以參考一下
    2.4.空調系統機房空調、新風、排煙系統,是保證機房設備正常運行,保障檢修人員人身安全,為機房內部提供恆溫、恆溼環境的必要條件。2.4.1.空調系統機房空調系統旨在為設備提供合適的工作環境,為機房保持良好的室溫和溼度,提供恆溫、恆溼的機房環境保障。此機房採用上送風、下迴風方式精確控制機房空間的溫度及溼度。
  • 維諦技術(Vertiv):AI技術開闢數據中心節能革命新戰場
    為了迎合碳中和的國家戰略,實現國家提出的節能減排與碳排量指標,在能源環境領域進行AI節能,便迫在眉睫。特別是數據中心行業,正成為AI節能的重要應用領域。 至於AI對在數據中心領域中又是如何應用?未來對經濟增長有何拉動作用?