百度張家軍:天蠍整機櫃伺服器的實踐與探索

2021-01-08 中國IDC圈

中國IDC圈1月12日,2015年1月7-9日,第九屆中國IDC產業年度大典(IDCC2014)(http://www.idcquan.com/Special/idcc2014/live/)在北京國家會議中心隆重舉行。本次大會由工信部通信發展司、中國信息通信研究院(工信部電信研究院)、雲計算發展與政策論壇、數據中心聯盟指導,中國IDC產業年度大典組委會主辦,中國IDC圈承辦。作為國內IDC行業規模最大、最具權威性和影響力的盛會,此次大會再創輝煌,三天的會議參會人數超過8000人次。

從1月7日到9日連續三天,工信部相關領導、IDC企業、電信運營商、網際網路企業、設備廠商等各行業精英齊聚一堂,以"大變革 新生態"為主題煮酒論道。其中開放數據中心委員會決策委員、百度技術經理張家軍應邀出席本次大會並發表了題為"天蠍整機櫃伺服器的實踐與探索"的演講。

開放數據中心委員會決策委員、百度技術經理張家軍

以下為張家軍演講實錄:

張家軍:大家上午好,非常感謝在座的所有嘉賓和專家,我是百度的張家軍,非常榮幸最後一位發言,希望有機會跟大家共同分享ODCC天蠍項目在過去發展過程中的實踐和我們面向未來存在的一些潛在的機會我們怎麼去看。前面的幾位專家都從數據中心的角度看了各自的看法,我們也是希望站在一個用戶的角度跟大家一起分享一下,站在百度的角度來講,或者站到ODCC聯盟的角度,我們怎麼樣看待數據中心和IDC領域下一步發展的狀況。

這是我們嘗試用一個比較有意思的場景去拍的,是我們機櫃場景的狀況。

天蠍整機櫃最新的版本2.0在百度進行大規模的部署,當然天蠍整機櫃在阿里和騰訊也有大規模的部署。

首先介紹一下開放數據中心委員會,2014年8月29號正式成立,主要負責天蠍伺服器的項目。在天蠍伺服器發展了3年之後,有越來越多的社會團體加入進來,也得到了政府相關部門的關注和重視,所以在天蠍研究院牽頭下我們把各自工作的範疇重新做了整合,希望在這個大的框架下做更多的事情,能夠更好的造福整個行業。開放數據中心委員會的成立主要想做這幾件事情:

第一,希望打造活躍、高效、具有國際競爭力的數據中心生態圈和開放平臺。數據中心也好,IT領域的發展也好,基本上是以美國為馬首是瞻,在這麼多年裡中國整體上還是比較落後,我們希望藉助更多國內自身的用戶和產業共同的結合和碰撞,能夠在這個領域創造出更多好的核心的東西出來。

第二,推動形成伺服器、數據中心等相關行業的統一的行業規範。這也是一個很大的差異。在更多思潮迸發的時代大家都有很多的idea,但是也給產業的供應商帶來很大的困惑,標準的差異化太大了,每一家都有自己的想法,每個客戶都有自己的想法,不利於大規模的推廣,因為每一個差異化都會付出額外的成本。

第三,希望通過開放、協作、創新、共贏的方式促進行業的合作、產業的創新和新技術應用。這是我們的三個願景,也是希望跟在座的各位,跟產業的同仁一起推動中國的數據中心IT產業巨大的變革,這是一個非常好的時機。

基於這三個大的願景我們在整個構架方面,希望把伺服器、數據中心、網絡設備,跟軟體基礎架構相關的更多的東西整合到一個數據中心來,過程中我們要逐步實現三個循環。第一是微循環,實現設備和模塊之間的互動,能夠使得IT設備和數據中心的設備之間有所結合,相互之間形成一個循環。第二是在更大的層面,數據中心自身的層面,數據中心與數據中心中間能夠形成一個互動。第三是打通軟體與硬體,能夠實現上層的應用對下面資源的需求,從需求的角度來講所有的應用對後端的需求是一種資源化的,所以我們怎麼樣構建一個好的資源化的平臺,實現更大的循環。

再看ODCC的發展,其實ODCC之前3年的歷程是天蠍項目3年的歷程。我們在2011年的11月份成立了天蠍項目,當時為什麼叫天蠍項目?因為那個時間點,從大家碰頭到最終實現正好是這個是點,所以就叫做天蠍項目。將來如果有更多的項目,我們可以把12個星座都做完。

天蠍剛開始是百度、騰訊、阿里巴巴三家出於完全自發的方式去協作的,因為我們在過去若干年的發展過程當中遇到了很多問題,一個偶然的機會在一起開會,相關的負責人討論,發現我們有相當大的部分70%、80%碰到的挑戰是非常相似的,就覺得我們是不是可以共同坐下來一起做一些事情。我也有幸成為當時共同創建天蠍項目的負責人之一,我們能 不能把中國自己的組織推起來,首先影響國內的行業和產業,將來有機會可以影響到全球更多的行業用戶。

將近3年的發展,我們經歷了發布天蠍1.0、2.0的版本,啟動了模塊化數據中心,到去年我們有一個非常重大的裡程碑的事件就是跟電信研究院一起把天蠍項目合併到ODCC裡面來。之前的天蠍整個定義是Server相關的,我們有了伺服器設備、網絡設備,還有數據中心和測試,這樣形成一個完整的環節。

主要的決策有決策委員會,中間有顧問和辦公室,下設若干個工作組,每個工作組有自己的專注點。這些都還在演進的過程當中,到現在只有4個多月的時間,但也開展了很多卓有成效的工作,包括推動了天蠍的機櫃,往行業標準化的方向去發展。

在決策委員會裡目前主要的成員是阿里、百度、騰訊、中國電信、中國移動、工信部電信研究院六位成員,有一位顧問會員英特爾。希望未來我們能夠有更多的會員,這是決策會員的名單,截止到目前應該有30-50家相關的其他的普通會員,組織在日趨壯大。

第二,整機櫃伺服器實踐。

什麼是天蠍整機櫃伺服器,跟大家做一個簡單的介紹。為什麼讓大家看視頻,是為了讓大家更好的理解我們為什麼要做整機櫃,它在數據中心裏面是怎麼被應用的。整機櫃目前還是更適合於大規模海量部署的場景,相對也比較多的需求,如果一次買個10臺、8臺的伺服器,或者一年邁個百八十臺伺服器,也沒有自己特定的數據中心場景或者租用一般運營商的機架櫃,在這種場景裡不太適合。

在整機櫃整體的設計上三個核心理念,一是模塊化設計,二是一體化交付,三是自動化管理。剛才給大家看視頻就是為了給大家展示我們設計的東西我們都做到了,實際部署的時候效果非常好。

先說一下一體化交付,給大家看的是我們現場部署視頻的交付,效率非常高,我們現在可以做到一天交付一萬臺伺服器,大概200多個櫃。因為超大數據中心快速的增長對交付能力的需求使得我們必須具備這種能力,而且它的整個交付的效率是非常高的,當天早上200個柜子送過來,到晚上就能夠到業務手裡。2014年我們可以實現比24個小時多一點,一旦機器加電完之後後面就是自動化流程。如果業務需要的話,一天可以拿到一萬臺伺服器。

在模塊化的設計中,核心理念是集中供電、集中散熱、集中管理,這些模塊相對獨立、相對耦合,共同構成一個系統為整個機櫃來服務。

最後是自動化的管理,以機櫃為管理單元。華為的張總提到自動化運維的必要性,包括提出機櫃或者模塊將成為數據中心的一個最小單元,這也是我們之間一致的構想。因為面對一萬臺伺服器一臺一臺去管理的挑戰實在太大了,我們能夠以機櫃為單元進行管理,整個資產的準確性就會非常高。因為機櫃有GPS系統,能夠精確到每一個機櫃在它的生命周期裡在什麼位置,所有的數據都能夠被精確的捕捉到。同時能夠讓供電、散熱集中管理。

經歷了過去3年多的發展,天蠍本身還是取得了非常長足的進步。從成立到第一次發布1.0的機櫃用了差不多5個月的時間,1.0規模部署用了差不多一年的時間,2.0概念提出再到2.0大規模部署也基本上用了一年的時間。

我們用2年時間從200個機櫃的部署到2000個機櫃的部署。為什麼要跟大家分享這個,因為剛開始在行業裡很多人認為百度、阿里、騰訊能夠走到一起是根本不靠譜的,某種程度上是有競爭的,在更多的對行業和產業有利的情景裡面,我們會先把業務放在一邊,希望將數據中心相關的部分進行協作,我們做到了。2000多個機櫃相當於小10萬臺伺服器,這才是剛剛開始,今年和明年會有更大規模的部署,會有更多的機器全部切換到我們的設計裡面來。

2.0整機櫃,我們通過自己技術能力的儲備實現快速迭代、快速儲備。做過硬體設計的朋友會知道,一般跟伺服器、交換機相關的產品,從設計到產品化通常需要18個月左右的時間。對於像這樣的迭代整個的複雜度會更高,所以理論上需要更長的時間,但是我們做到一年的時間實現快速的迭代,等到2.0階段的時候我們實現了標準化的設計,把整個的框架,供電、散熱、管理全部標準化了以後,後面的更新只是做內部的節點和網絡的時候,能夠實現更快的迭代,比如6個月、9個月就可以做產品的迭代,快速的實現為業務服務。

天蠍從1.0到2.0,到現在我們在規劃3.0,過程中我們在設計理念和主要的工作上也做了變更,一路走來雖然我們不斷的在摸索,但是思路還是清晰的。首先設計理念上是做大的結構的創新,之前參考了類似刀片的設計,但實際上這種做法一開始是沒有的,遇到很多的挑戰,比如散熱和安全性的問題。實際證明整個的結構設計給我們帶來了巨大的收益,第一是節能非常的明顯,大家一直在講數據中心要節能,電的消耗是數據中心最大的成本,我們初步估計能節約20%以上的成本,最差也能節約10%,最好的能夠到30%.

交付效率能夠達到10萬臺伺服器。1.0的設計還是多元化比較多,雖然大思路是統一的,未來為了能夠讓它迅速的產業化、標準化,更大規模的推向市場,能夠讓更多用戶無障礙的去用,怎麼把2.0迅速的做起來,有望在2015年發布行業標準。

到3.0我們做什麼,這是今天我要跟大家重點探討的。

這個概念在之前IBM的專家和華為的專家演講裡面都有講到,要經歷一些變化,數據中心最後會變成一個資源池。我們的理解從天蠍的角度來講,3.0做完了結構的統一,即一個解耦合的過程,把電源、風扇、管理等部分解耦合之後開始動內部,內部就是主辦加上CPU、網絡。最先從存儲開始,實現所有資源的池化,一個數據中心所有的資源真的是資源化的。我們今天在IDC裡面看到的是設備不是資源,但業務真正需要的東西不是設備。從需求的資源到今天的設備之間我們想到用解耦合的方式,逐步的實現把存儲、計算、IO分開來,讓它們在更大的範圍內重新整合。一方面能夠實現資源的最大化,大家通常是利用虛擬化來解決資源利用率低的問題,這樣還不夠,我們要更高效更動態的進行擴展。當我缺某個資源的時候,大家可能都有這樣的體會,CPU不夠了,你不能單純的擴展,只能多加幾臺伺服器,但是多加幾臺伺服器帶來的內存和硬碟是你不需要支付的成本,比如當你今天存儲是瓶頸的時候,單機的存儲不能擴容的時候你又得買伺服器。最終的目標就是實現軟體定義整機櫃。

另外一個概念叫做混合可配的機櫃。當我們做到能夠很好的解耦合,能被資源化的時候,混合可配置機櫃就是資源化的東西,可以根本客戶的需求動態的進行調整。在分級的存儲裡面我可以根據我對數據的分析分級的要求加入一些Flash相關的模塊。機器學習和深度學習領域混合計算發揮了很大的作用,我們也會面臨挑戰,如果想在伺服器上隨便加一個CPU卡,功耗就會是很大的問題,插槽的擴展空間也是很大的問題,我們的設計很好的解決這個問題。

混合可配置機櫃的構想是通過資源池化的角度來動態重構機櫃,最終實現整個數據中心就是一個機櫃。通過混合可配置好處是能夠實現IT設備資源化的交付,匹配彈性數據中心的需求,業務能夠動態的調配資源,機櫃就會變成一個最基本的IT的單元。

硬體的優化很快會做到極致,因為整個生產製造業成本已經壓縮到極致,沒有利潤了。這是一個。另外數據中心的能效和PUE的提供方面也會做到極致,這邊的空間非常小了。反過來看,對資源的利用方面還有很大的空間可以做。IBM和華為的兩個專家剛才也提到了數據中心往模塊化的方向去走,更好的跟IT設備端進行結合。我們認為這是一個解耦合與重新耦合的過程,把散熱、供電、管理結合起來,這些東西依然只是為Server服務的,數據中心依然有自己的一套散熱、供電、管理,它們能不能結合起來,把解耦合的東西再和數據中心重新耦合,模塊化的設計已經做到了其中的一部分。之一就是我們可以共享一些硬體的基礎架構,這樣不需要額外的結構上的複雜性和成本的增加。

二是在散熱上,我們通過櫃頂式的散熱方案,傳統的散熱是需要空調末端的,所謂空調末端就是很大的風機去送風,現在可以直接實現固定,當然這裡面需要很好的氣流的規劃和密閉性的處理,今天我們的實踐已經可以做到。

三是在供電上是不是可以做到更好的極致。剛才華為的專家提出來供電PUE從1.8到1.5,極致到什麼程度,不管你研究什麼樣的UPS,高壓直流也好,無非是市電直供,把中間所有的環節都幹掉,這是我們認為的最理想的狀況。今天我們能夠做到的是單路,另外需要一路提供必要的冗餘性和容錯性,我們是不是也可以做到雙路市電直供,我們也可以考慮。做數據中心的同事跟我說你們這麼搞下去,把中間的環節全部幹掉我們就沒有飯吃了。

四是動態控制。全自然風冷卻,不需要額外的製冷,這種情況下無疑它是最高效的。國外Google和Facebook能夠做到PUE1.0了,這也是另外一個極致。過程中有兩個問題需要解決,一是無論你用什麼方式去供電,業務的變化是動態的,對電的消耗其實是不可預測的。今天是IT管自己的,數據中心也是管自己的,基本上今天是可以確保不會出事,但是也要考慮萬一出了事怎麼辦。更好的模型是讓所有後端的供電資源的供給是以IT設備需求來驅動的,這邊業務發生新的變化的時候,會直接反映資源利用率的提升,比如CPU從20%漲到70%了,這個時候就要迅速的聯動。從數據採集、傳輸把所有端的數據,通過一個合理的策略跟傳統的基礎設施進行聯動,控制它,這樣就能實現一個閉環的控制,把這一部分的運維的效率再進一步的提升。

做純自然風冷卻,我們不得不選擇把數據中心建在人口非常密集的地區,即便是北京,到夏天的時候也會有一段時間持續高溫能到35度或38度,這個時候做純自然風的冷卻怎麼辦,你的所有伺服器能不能經受得住。霧霾對數據中心來說有兩樣是非常要命的,一個是粉塵和顆粒,二是腐蝕性的氣體,碳硫氧化物,它們會對設備造成嚴重的腐蝕,帶來的損失是巨大的,要把這個事情搞定就必須解決這兩個問題,我們做了相應的研究,也有一些實踐在往前推。我們認為在未來的發展過程當中,這是另外一個融合的方向。

這是我主要想跟大家分享的內容,用30分鐘的時間分享了天蠍整機櫃發展的歷程,我們做了哪些工作。

相關焦點

  • 從網際網路「巨頭」的選擇看整機櫃伺服器
    整機櫃伺服器的由來與定義  整機櫃伺服器的由來要從「天蠍計劃」談起,什麼是「天蠍計劃」呢?  天蠍計劃是最早由阿里、百度、騰訊三家中國最大的網際網路公司發起,後有中國電信加入,並由英特爾作為技術顧問成立的整機櫃伺服器解決方案項目,先後有多家國內外伺服器廠商參與研發。
  • 浪潮胡雷鈞:5G時代的整機櫃伺服器進化之路
    在由浪潮信息和OCP聯合主辦的OCP China Day上,來自OCP基金會、LinkedIn、百度、Facebook的專家分別介紹了Open19、ODCC天蠍項目、Open Rack 等多種整機櫃伺服器開放標準最新版本的開發工作。由浪潮信息和OCP聯合主辦的OCP China Day前不久5G運營牌照正式發放,中國正式進入了 5G時代。
  • 從浪潮SR看中國整機櫃伺服器標準化之路
    浪潮整機櫃伺服器SR成為此次峰會唯一通過ODCC認證的伺服器,並且現場展示全新的基於JDM模式的冷存儲節點和Purley平臺公板。自2009年,浪潮就開始整機櫃伺服器的研發,至今已佔據國內整機櫃市場超過60%的份額,從浪潮SR系列伺服器的發展歷程就能窺見中國整機櫃伺服器的標準化之路。 一個新興事物在產生之初是沒有標準的,但是一個事物的成熟則需要標準。
  • 從華為、聯想等網際網路巨頭看整機櫃伺服器的來源和發展
    我們對整機櫃租用的認知還停留在抽象名詞——整機櫃伺服器上,更別說整機櫃伺服器的來源了,說起來整機櫃伺服器還是很有來頭的。整機櫃伺服器和阿里、百度、騰訊發起的「天蠍計劃」密切相關,當初BAT發起的「天蠍計劃」初始目的是成立整機櫃伺服器解決方案,之後電信加入,技術顧問來自英特爾。
  • 順應雲計算發展 浪潮發布最全整機櫃伺服器產品
    ——SmartRack整機櫃伺服器產品。目前,由百度、阿里巴巴、騰訊、中國移動、中國電信、工信部電信研究院牽頭髮起,由英特爾擔任技術顧問的開放數據中心委員會(原天蠍聯盟),已經成為全球最領先的整機櫃標準組織。更重要的是,IT巨頭對整機櫃伺服器產品已不再停留在興趣層面,而是已經付諸行動。據透露,國內幾家最大的網際網路企業在2015年採購整機櫃伺服器的比例將佔伺服器採購總量的50%,而且這個比例會逐年增長。
  • 賦能數字普惠金融浪潮整機櫃伺服器助力省級農信IT架構革新
    選擇整機櫃伺服器 走IT融合架構之路為了破解當前數據中心面臨的空間、運維、成本困境,該行提出了新的目標:開發環境伺服器部署密度提高3倍,設備實現統一管理,減少機房運維人員工作量。此外,機房還要儘可能美觀整齊,快速部署,保障業務系統快速上線。
  • SmartRack整機櫃伺服器從BAT走進行業用戶
    (浪潮整機櫃伺服器SmartRack)    最明顯的改善是部署密度。奧鵬教育數據中心最多可為一個機櫃提供12KW的功率,原來採用的機架式1U雙路伺服器電源功率為500W左右,也就是說一個42U高的機櫃最多只能部署24個伺服器節點,造成巨大的空間浪費。
  • 浪潮聯合OCP發布整機櫃伺服器新品
    大會上,浪潮與OCP聯合發布最新OCP標準的整機櫃解決方案,包含5款新品基於OpenRackV2.0標準的機櫃擴展節點,而且還展示了業內符合OCPRedfishProfile規範的OpenBMC版本,為各類數據中心,尤其是大規模、超大規模數據中心,提供了下一代開放技術管理方案。
  • 浪潮整機櫃伺服器SR 作業系統編譯的首選裝備
    傳統是靠刀片伺服器作為主要的編譯機,但是近期國內頂級的手機代工廠開始採用浪潮整機櫃伺服器SR作為系統編譯的主要支撐。是什麼讓他們從傳統刀片轉向整機櫃伺服器?本文將與大家進行探討。多數人將目光投向刀片伺服器和整機櫃伺服器。 性能相當,為何選擇浪潮整機櫃伺服器SR 刀片伺服器、整機櫃伺服器相對於機架伺服器,都有著極大的計算密度和能效比優勢。
  • 開放計算之整機櫃伺服器的前世今生
    以前,5 萬臺伺服器保有量就算大規模,當下幾十萬臺規模的單一數據中心已比比皆是,超大規模數據中心更是達到百萬臺以上。有數據顯示,到2020年,由超大規模數據中心對外提供的服務將達到70%。OCP、ODCC、Open19開放計算社區正是面向數據中心高速發展的需求,優化整體數據中心TCO,解決運維複雜等問題。
  • 數據中心「金屬積木」的巨型伺服器到底長什麼樣
    作為探索市場的一塊敲門磚,SR1.0為下一步浪潮整機櫃伺服器的快速研發打下了堅實的基礎。2011年浪潮整機櫃SR2.0出世,讓越來越多的網際網路廠商開始關注整機櫃。 於是,在2011年11月數據中心領域的科技企業匯聚在一起,構建首個硬體領域的開放計算標準,「天蠍計劃」登上開源歷史舞臺。
  • 即插即用,融合標準伺服器設計,京東智聯雲發布首款整機櫃伺服器
    9月15日-16日,在ODCC 2020開放數據中心峰會上,京東智聯雲重磅發布首款全自主研發、低成本、高可靠2U機架式整機櫃伺服器,以高密度、高效能、低功耗、低成本、易管理、靈活部署等特性,為數據中心提供了新一代開放技術管理方案。
  • 跨越「PUE時代」,高度模塊化 京東智聯雲發布首款自研整機櫃伺服器
    9月15日-16日,在ODCC 2020開放數據中心峰會上,京東智聯雲重磅發布首款全自主研發、低成本、高可靠2U機架式整機櫃伺服器,以高密度、高效能、低功耗、低成本、易管理、靈活部署等特性,為數據中心提供了新一代開放技術管理方案。
  • 百度攜解決方案亮相OCP China Day 開放計算落地
    百度攜整機櫃、OAI等多種解決方案亮相大會,與微軟、浪潮、Facebook、阿里、騰訊等OCP社區領袖企業和數百位參會嘉賓一道,共同探討開放計算在人工智慧、邊緣計算等新興技術領域及未來數據中心基礎設施層面的發展與應用。
  • 百度大數據的應用與實踐
    根據百度多年來在大數據領域的創新與實踐,闡述了大數據驅動搜尋引擎的發展,介紹了百度大數據引擎和行業應用實踐。重點分析了大數據發展的關鍵因素,並提出了大數據和人工智慧是未來信息技術發展的重要方向。  1 引言  隨著移動網際網路、物聯網的快速發展,信息採集成本不斷降低,加速物理世界向網絡空間的量化。
  • 網絡機櫃與伺服器機櫃的區別?
    機櫃有很多種類型,包括網絡機櫃、伺服器機櫃、室外機櫃、電力機箱機櫃和各種非標準機櫃。這些機櫃有不同的功能。不同的機櫃適用於不同的工作場景。然而,許多人不清楚網絡機櫃和伺服器之間的區別。這種情況很容易導致用戶在選擇網絡機櫃時遇到困難,甚至最終選擇不合適的機櫃,給用戶的實際使用帶來巨大的麻煩。網絡機櫃:網絡機櫃包括伺服器機櫃。網絡機櫃不是指特定的機櫃,而是一個通用名稱。根據目前的類型,網絡機櫃包括伺服器機櫃、壁掛式機櫃、網絡機櫃、標準機櫃、智能防護室外機櫃等。容量值介於2U和42U之間。
  • 淺談機架式伺服器的最新應用場景變化
    因此機架伺服器多用於伺服器數量較多的大中型企業使用。  而且伴隨著雲計算的發展,大型網際網路提供商對於機架式伺服器的需求和可定製化出現新的變化。於是網際網路提供商推出了相關的技術標準供伺服器廠商參考,以方便採購部署。國外以Facebook的OCP開放計算項目為代表,國內的則以天蠍計劃為代表。
  • 伺服器機櫃的基本類型及結構有哪些
    隨著計算機產業的突破,機櫃體現出了越來越大的功能。在網絡布線之間的外殼通常使用的,機房,數據室中,控制室,監控室之間的連線。機櫃已經成為計算機行業中不可缺少的用品,在各大機房都能看到各種款式的機櫃,今天我們詳細介紹下伺服器機櫃的基本類型及結構有哪些。