為人工智慧、機器學習和深度學習做好準備的數據中心實踐

2021-02-14 數據中心D1net

點擊上方「藍色字體」,選擇 「設為星標」

關鍵訊息,D1時間送達!

人工智慧、機器學習、深度學習應用的強烈需求對數據中心的性能、可靠性和可擴展性提出了挑戰,尤其是當架構師模仿公共雲的設計以簡化向混合雲和內部部署的過渡時。

GPU(圖形處理單元)伺服器如今很常見,圍繞GPU計算的生態系統正在迅速發展,以提高GPU工作負載的效率和可擴展性。然而在避免存儲和網絡中潛在的瓶頸的同時,也有一些技巧可以很大限度地提高GPU的利用率。

Excelero公司首席技術官Sven Breuner和首席架構師Kirill Shoikhet提供了9個為人工智慧、機器學習和深度學習做好準備的更好實踐。

數據點1:了解目標系統性能、投資回報率和可擴展性計劃。

這樣,他們就可以與數據中心目標相吻合。隨著人工智慧成為核心業務的重要組成部分,大多數組織都從最初的少量預算和少量培訓數據集入手,並為無縫和快速的系統增長在基礎設施方面做好準備。需要構建所選的硬體和軟體基礎設施,以實現靈活的橫向擴展,以避免在每個新的增長階段產生破壞性的變化。數據科學家與系統管理員之間的緊密協作對於了解性能要求,並了解基礎設施可能需要隨著時間的推移而發展而至關重要。

數據點2:評估集群多個GPU系統。

在擁有多個GPU的伺服器中可以在系統內部實現高效的數據共享和通信,並具有成本效益,而參考設計假定將來會在集群中使用,並且在單個伺服器中最多支持16個GPU。多GPU伺服器需要準備好以非常高的速率讀取傳入的數據,以保持GPU滿載運行,這意味著它需要一個超高速網絡連接,一直到培訓資料庫的存儲系統。但是在某個時候,單臺伺服器將不足以在合理的時間內通過不斷增長的培訓資料庫進行工作,因此,在設計中構建共享存儲基礎設施將使得隨著人工智慧、機器學習、深度學習用途的擴展,並更容易添加GPU伺服器。

數據點3:評估人工智慧工作流程各個階段的瓶頸。

數據中心基礎設施需要能夠同時處理人工智慧工作流程的所有階段。對於具有成本效益的數據中心來說,擁有可靠的資源調度和共享概念是至關重要的,因此,當一組數據科學家獲得需要攝取和準備的新數據時,其他人將對其可用數據進行培訓,而在其他地方,先前生成的模型將用於生產。Kubernetes已經成為解決這一問題的主要解決方案,它使雲計算技術在內部部署很容易獲得,並使混合部署變得可行。

數據點4:查看用於優化GPU利用率和性能的策略。

許多人工智慧、機器學習、深度學習應用程式的計算密集型性質使基於GPU的伺服器成為常見選擇。但是,儘管GPU可以有效地從內存加載數據,但是訓練數據集通常遠遠超過內存的容量,並且涉及的大量文件變得更加難以攝取。在GPU伺服器之間以及與存儲基礎設施之間、實現GPU數量與可用CPU功率、內存和網絡帶寬之間的最佳平衡至關重要。

數據點5:支持訓練和推理階段的需求。

在訓練系統「看貓」的一個經典示例中,計算機執行數字遊戲(或更確切地說是GPU)需要看到很多顏色各不相同的貓。由於包含大量並行文件讀取的訪問的性質,NVMe快閃記憶體通過提供超低的訪問延遲和每秒的大量讀取操作很好地滿足了這些要求。在推理階段,其挑戰是相似的,因為對象識別通常實時進行,這是NVMe快閃記憶體還具有延遲優勢的另一個用例。

數據點6:考慮並行文件系統和替代方案。

諸如IBM公司的SpectrumScale或BeeGFS之類的並行文件系統可以幫助有效地處理大量小文件的元數據,並通過在網絡上每秒交付數萬個小文件,從而使機器學習數據集的分析速度提高3到4倍。鑑於訓練數據具有隻讀性,因此在將數據量直接提供給GPU伺服器並通過Kubernetes之類的框架以共享方式共享數據時,也可以完全避免使用並行文件系統。

數據點7:選擇正確的網絡主幹。

人工智慧、機器學習、深度學習通常是一種新的工作負載,將其重新安裝到現有的網絡基礎設施中,通常無法支持複雜計算和快速高效數據傳輸所需的低延遲、高帶寬、高消息速率和智能卸載。基於RDMA的網絡傳輸RoCE(融合乙太網上的RDMA)和InfiniBand已成為滿足這些新需求的標準。

數據點8:考慮四個存儲系統的性價比槓桿。

(1)高讀取吞吐量與低延遲結合在一起,這不會限制混合部署,並且可以在雲平臺或內部部署資源上運行。

(2)數據保護。人工智慧、機器學習、深度學習存儲系統通常比數據中心中的其他系統要快得多,因此在完全故障後從備份中恢復可能會花費很長時間,並且會中斷正在進行的操作。深度學習訓練的只讀特性使它非常適合分布式擦除編碼,在這種存儲中,最高容錯能力已經內置在主存儲系統中,原始容量和可用容量之間的差異很小。

(3)容量彈性可適應任何大小或類型的驅動器,以便隨著快閃記憶體介質的發展和快閃記憶體驅動器特性的擴展,數據中心可以在最重要的情況下最大程度地實現規模化的性價比。

(4)性能彈性。由於人工智慧數據集需要隨著時間的推移而增長,以進一步提高模型的準確性,因此存儲基礎設施應實現接近線性的縮放係數,在這種情況下,每增加一次存儲都會帶來同等的增量性能。這使得組織可以從小規模開始,並根據業務需要無中斷地增長。

數據點9:設置基準和性能指標以幫助實現可擴展性。

例如,對於深度學習存儲,一種度量標準可能是每個GPU每秒處理X個文件(通常為數千或數萬個),其中每個文件的平均大小為Y(從幾十個到數千個)KB。預先建立適當的度量標準有助於從一開始就確定架構方法和解決方案,並指導後續擴展。

(來源:機房360)

如果您在企業IT、網絡、通信行業的某一領域工作,並希望分享觀點,歡迎給企業網D1Net投稿 投稿郵箱:editor@d1net.com

點擊藍色字體關注

企業網D1net旗下信眾智是CIO(首席信息官)的智力、資源分享平臺,也是國內最大的CIO社交平臺。

信眾智讓CIO為CIO服務,提供產品點評、諮詢、培訓、獵頭、需求對接等服務。也是國內最早的toB共享經濟平臺。

同時,企業網D1net和超過一半的央企信息部門主管聯合成立了中國企業數位化聯盟,主要面向各地大型企業,提供數位化轉型方面的技術、政策、戰略、戰術方面的幫助和支撐。

掃描下方「二維」或點擊「閱讀原文」可以查看更多詳情

相關焦點

  • 人工智慧、機器學習和深度學習做好準備的數據中心
    人工智慧、機器學習、深度學習應用程式的密集需求對數據中心的性能、可靠性和可擴展性提出了挑戰,尤其是在IT架構師模仿公共雲的設計以簡化向混合雲和內部部署的過渡時。Excelero公司首席技術官Sven Breuner和首席架構師Kirill Shoikhet分享了9個為人工智慧、機器學習和深度學習準備數據中心的最佳實踐。
  • 機器學習、數據科學、人工智慧、深度學習和統計學之間的區別!
    作者:Vincent Granville,來源:機器之心 在本文中,數據科學家與分析師 Vincent Granville 明晰了數據科學家所具有的不同角色,以及數據科學與機器學習、深度學習、人工智慧、統計學、物聯網、運籌學和應用數學等相關領域的比較和重疊。
  • 人工智慧、機器學習和深度學習的區別?
    如上圖,人工智慧是最早出現的,也是最大、最外側的同心圓;其次是機器學習,稍晚一點;最內側,是深度學習,當今人工智慧大爆炸的核心驅動。五十年代,人工智慧曾一度被極為看好。之後,人工智慧的一些較小的子集發展了起來。先是機器學習,然後是深度學習。深度學習又是機器學習的子集。
  • 人工智慧、機器學習和深度學習的區別是什麼?
    你也許最近經常聽到「人工智慧」和另外幾個詞彙同時出現,特別是「機器學習」和「深度學習」。它們經常被互換使用,儘管它們存在關聯,但其實並非同一事物。  這樣說可能會讓人感到困惑。我們通過一個經典的例子來解釋人工智慧、機器學習和深度學習之間的區別:比較蘋果和橙子。---  人工智慧   ---  從廣義上講,人工智慧描述一種機器與周圍世界交互的各種方式。通過先進的、像人類一樣的智能——軟體和硬體結合的結果——一臺人工智慧機器或設備就可以模仿人類的行為或像人一樣執行任務。
  • 機器喵大作戰 | 解剖人工智慧、機器學習和深度學習
    同時,本書不是割裂講解大數據與機器學習的算法和應用,還講解了其生態環境與關聯內容,讓讀者更全面地知曉淵源與未來,是系統學習大數據與機器學習的不二之選。 推薦語:以降低學習曲線和閱讀難度為宗旨,重點講解了統計學、數據挖掘算法、實際應用案例、數據價值與變現,以及高級拓展技能,清晰勾勒出大數據技術路線與產業藍圖。
  • 人工智慧,機器學習和深度學習之間的差異是什麼?
    人工智慧,機器學習和深度學習都是屬於一個領域的一個子集。但是人工智慧是機器學習的首要範疇。機器學習是深度學習的首要範疇。深度學習是機器學習的一個子集,機器學習是人工智慧的一個子集這個領域的興起應該歸功於深度學習。人工智慧和機器學習這個領域近年來一直在解決一系列有趣的問題,比如從自動化的雜貨店購買到自動駕駛汽車。
  • 人工智慧、機器學習和深度學習的區別和聯繫
    機器學習:一種實現人工智慧的方法機器學習最基本的做法,是使用算法來解析數據、從中學習,然後對真實世界中的事件做出決策和預測。與傳統的為解決特定任務、硬編碼的軟體程序不同,機器學習是用大量的數據來「訓練」,通過各種算法從數據中學習如何完成任務。舉個簡單的例子,當我們瀏覽網上商城時,經常會出現商品推薦的信息。
  • 【科普】人工智慧、機器學習和深度學習有何不同?
    幾乎全球的媒體都在用瘋狂的篇幅來報導這場矚目的人機世紀大戰,而其中「人工智慧、機器學習、深度學習」這三個詞頻頻出現。上面三個詞都是AlphaGo獲勝的緣由。但對很多只是看過幾次報導的人來說,對這三個概念之間的關係,經常傻傻分不清楚!人工智慧、機器學習、深度學習之間,到底有什麼聯繫和區別?
  • 人工智慧、機器學習和深度學習之間的區別和聯繫
    之後,人工智慧的一些較小的子集發展了起來。先是機器學習,然後是深度學習。深度學習又是機器學習的子集。深度學習造成了前所未有的巨大的影響。當然,無限拓展的存儲能力和驟然爆發的數據洪流(大數據)的組合拳,也使得圖像數據、文本數據、交易數據、映射數據全面海量爆發。讓我們慢慢梳理一下計算機科學家們是如何將人工智慧從最早的一點點苗頭,發展到能夠支撐那些每天被數億用戶使用的應用的。
  • 人工智慧、機器學習、深度學習的區別在哪?
    人工智慧、機器學習、深度學習的區別在哪?
  • 人工智慧及機器學習與深度學習揭秘
    深度學習、機器學習、人工智慧,這些代表著未來技術的流行語。在本文中,我們將通過一些真實案例討論機器學習和高階的深度學習。在21世紀技術官社區未來的文章中,我們會持續探討垂直行業人工智慧的應用。當然,本文的目的並不是讓你成為數據科學家,而是讓你更好的理解用機器學習都做什麼。
  • 一篇文章讀懂:人工智慧、機器學習和深度學習的區別
    弱人工智慧有希望取得突破,是如何實現的,「智能」又從何而來呢?這主要歸功於一種實現人工智慧的方法——機器學習。 機器學習:一種實現人工智慧的方法 機器學習最基本的做法,是使用算法來解析數據、從中學習,然後對真實世界中的事件做出決策和預測。
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    原標題:機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用高級研修班通信和信息技術創新人才培養工程項目辦公室 通人辦〔2018〕 第5號 機器學習、深度學習算法原理與案例實踐暨Python
  • 一篇文章分辨人工智慧、機器學習與深度學習
    人工智慧?機器學習?深度學習?安全界用辭令人困惑,了解主要用語真正的意義,方可在信息安全的世界中遊走自如。在熱情的市場營銷人員口中,「人工智慧」、「機器學習」 和 「深度學習」 的定義變得模糊,明確性讓位於增加銷量的需要。
  • 《Deep Learning with Python》第一章 1.1 人工智慧、機器學習和深度學習
    接著解決這幾個問題:目前深度學習能實現什麼?深度學習的意義如何?人類下一步該如何做?你相信關於人工智慧的宣傳嗎?本章介紹人工智慧、機器學習和深度學習相關知識。1.1 人工智慧、機器學習和深度學習首先,當人們討論AI時要清楚談論的是什麼?
  • 企業為人工智慧在數據中心的廣泛應用做好準備了嗎? - 行業動態...
    如今,越來越多的伺服器供應商正在努力地開發由人工智慧驅動的伺服器自動化技術。那麼企業為此準備好了嗎? 「熄燈操作」在數據中心並不是一個新概念,從推出至今已有十多年的歷史了,大多數數據中心由少數工作人員維護和運營,他們的主要工作是管理軟體和修復硬體。
  • 一文講清人工智慧、機器學習和深度學習的區別
    相信大家對人工智慧、機器學習和深度學習三個詞語並不陌生,最近研習社的資產配置系列也曾提及,那你認為,它們是一回事嗎?文章轉自丨PINTEC品鈦原文來自丨blogs.nvidia作者丨Micheal Copeland翻譯丨小羊還記得年初的那場人機大戰嗎?
  • 人工智慧、機器學習、深度學習之間究竟是什麼關係
    人工智慧時代已經到來。超多維所布局的智能計算視覺技術體系,對人工智慧領域聚焦於視覺層面的改變和顛覆。隨著人工智慧熱度的不斷提升,人工智慧、機器學習和深度學習頻頻被提及。今天我們就從行業內的主流觀點出發,淺析一下三者的區別與聯繫。人工智慧是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。
  • 科普|一文看懂人工智慧、機器學習和深度學習的區別
    編者按:我們在進行深度學習課程推廣時,經常有同學會問到這麼一個問題:人工智慧、機器學習和深度學習之間的關係是什麼?
  • 機器學習與人工智慧、深度學習有什麼關係?終於有人講明白了
    下面首先簡要介紹它們的關係,然後講述機器學習的基本概念和模式。「機器學習」「人工智慧」「深度學習」這三個詞常常被人混淆,但其實它們出現的時間相隔甚遠,「人工智慧」(Artificial Intelligence,AI)出現於20世紀50年代,「機器學習」(Machine Learning,ML)出現於20世紀80年代,而「深度學習」(Deep Learning,DL)則是近些年才出現的。