快手將GPU推理在商業化場景全量落地,機器成本優化超20%

2020-11-28 騰訊網

機器之心發布

機器之心編輯部

快手商業化進程開始加速,這對底層計算能力提出挑戰。快手決定將 GPU 推理在商業化場景全量落地。

據官方披露,快手日活已超 3 億,直播日活達 1.7 億 +,快手之夜單場活動快手官方直播間累計觀看總人數就超過 9000 萬。隨著業務規模的不斷擴張,快手商業化進程也隨之加速,單場直播最高成交額 12.5 億,8 月電商訂單總量達 5 億。巨大的商業價值和潛力吸引越來越多的廣告主來到快手做營銷。為了應對日益激增的營銷素材,快手不斷提升底層計算能力,率先將 GPU 推理應用到大規模稀疏場景中,在提高機器性能、節約成本的同時,為廣告主提供了更加有效的營銷效果。

2019 年開始,快手商業化進程開始加快,底層計算能力持續面臨挑戰:

一方面,隨著業務的發展,業務形態越來越豐富,流量越來越高,廣告主對推薦質量的要求越來越高,模型變寬變深,算力的消耗急劇增加;

另一方面,在廣告推薦場景下主要使用 DNN 模型,涉及大量稀疏特徵 embedding 和神經網絡浮點運算。作為訪存和計算密集型的線上服務,在保證可用性的前提下,要滿足低延遲、高吞吐的要求,對單機算力也是一種挑戰。

上述算力資源需求和空間的矛盾,如果不解決好,對業務的發展會帶來很大的限制:在模型加寬加深前,純 CPU 推理服務能夠提供可觀的吞吐,但是在模型加寬加深後,計算複雜度上升,為了保證可用性,需要消耗大量機器資源,導致大模型無法大規模應用於線上。

目前行業比較通用的解決辦法是利用 GPU 來解決這個問題。GPU 本身比較適合高吞吐、對延遲不太敏感的計算任務,在業界應用中,主要用於圖像、語音或者離線訓練等場景。

對於推薦、廣告等場景使用的大規模稀疏模型,我們需要解決如下挑戰:如何在保證可用性、低延遲的前提下,儘可能做到高吞吐,同時還需要考慮易用性和通用性。

業內一般會使用 TensorFlow 進行訓練,在 GPU 場景推理時,則會選擇 TensorFlow 或 TensorRT。對於 TensorFlow 和 TensorRT 的結合,常見的做法是利用開源工具離線將 TensorFlow 模型轉換到 ONNX 模型,然後從 ONNX 模型加載,這引入了更多的中間環節,當 ONNX 不支持 TensorFlow 的某些 Op 時,轉換會失敗。這限制了模型的結構,也導致訓練好的 TensorFlow 模型無法直接以端到端的形式應用於線上。

快手借鑑業界經驗,從實際業務出發,圍繞大規模稀疏模型場景,針對發揮 GPU 算力和 TensorFlow 與 TensorRT 的結合易用性,進行了一系列技術上的探索和嘗試。

融合 CPU、GPU 各自硬體優勢

快手在硬體部署時就充分考慮了硬體特點,融合不同硬體的優勢。在廣告推理場景下,CPU 適合大規模稀疏特徵 embedding訪存密集型任務,GPU 適合進行 DNN 這種大規模浮點運算的計算密集型任務,以此實現 CPU 和 GPU 的高效率配合。

於是,快手從多個業務的推理服務中選取典型的服務,簡化場景,提煉出核心計算過程,嘗試不同的 GPU 卡進行壓測,綜合考慮硬體的特性、成本以及業務的發展情況,確定機型,對齊算力需求和硬體能力。

保證易用性,實現訓練到推理端到端

結合 Tensorflow 的高可擴展性和 TensorRT 的高性能,快手在線進行 TensorFlow 模型到 TensorRT 模型的轉換,基於 TensorRT 推理專用引擎的高性能,加速 DNN 計算,保持 TensorFlow 模型的訓練和在線推理以端到端方式進行。

圖 1. Predict Server 的模型加載和計算流程

計算流水優化,提升硬體利用率

快手利用多 cuda stream,同時運行多個 Compute Engine,增加 GPU 有效工作時間的佔比,使每個 Compute Engine 對應兩條 Cuda stream,優化了 H2D 數據傳輸到 GPU 計算的流水:

圖 2. 多 Cuda Stream、Compute Engine 和計算流水優化

自動對 TF graph 做裁剪,減少重複計算和內存拷貝,不斷優化 CPU 到 GPU 的流水(比如對 user 側 embedding 在卡上展開),達到算力均衡。

圖 3. User 特徵的 GPU 展開

靈活配置,降低成本提升集群算力

為了降低每塊卡的單機成本,快手採用單機雙卡的機型,基於容器化隔離硬體資源,實現靈活分配。為了提高資源的利用率,快手通過 docker 將一臺 GPU 伺服器虛擬化為 2 個實例,通過 cpu manager 降低跨核心調度導致的性能損耗,進而保障服務容器化後的穩定性和性能。

對於大規模稀疏場景,模型佔比中較大的是 EmbeddingTable,可能達到 TB 級規模,單機內存無法容納,所以一般會將部分的 EmbeddingTable 以哈希的形式打散並保存在其他分布式節點上,在線推理時再通過稀疏的特徵拉取參數。但帶寬放大明顯往往最先成為瓶頸,極大地限制了 Predict server(GPU 節點)算力的發揮。

結合場景和模型的特點,快手也進行了針對性的設計和優化。

在推薦廣告場景中,每次請求針對一個 User 和 N 個 Item 進行預估。如果將 Item 的特徵放在分布式節點上進行 embedding 計算,單次的數據通信量相較 User 特徵會被放大 N 倍,通信帶寬會成為 Predict Server 和 Emp Server(分布式計算節點)之間的瓶頸。

快手將 User 特徵的 EmbeddingTable 和 Reduce sum 運算放在 Emp server 上,一方面可以利用相對廉價的 CPU 資源分擔內存和算力需求,另一方面 User 特徵不存在網絡通信放大的問題,對帶寬的壓力要小得多。而將 DNN 等浮點數運算密集的邏輯保留在 PredictServer(GPU 節點)上,這能夠充分利用 CPU 節點,結合 CPU 和 GPU 的優勢,保證大規模模型的線上應用。

圖 4. 分布式 Predict Server

2020 年,GPU 在快手商業化在線服務中實現了 0-1 的突破,GPU 在商業化在線推理服務中全面落地,形成 CPU 和 GPU 的混合集群,根據算力需求匹配機器,實現機器成本優化約 20~30%,在成本不變的情況下,為廣告主提供更加高質量的營銷體驗和收益。

Amazon SageMaker1000元大禮包

ML訓練成本降90%,被全球上萬家公司使用,Amazon SageMaker是全託管機器學習平臺,支持絕大多數機器學習框架與算法,並且用 IDE 寫代碼、可視化、Debug一氣呵成。

現在,我們準備了1000元的免費額度,開發者可以親自上手體驗,讓開發高質量模型變得更加輕鬆。

相關焦點

  • 把視頻玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?
    這裡,快手的廣告推薦離線訓練系統達到了百T數據,百G特徵,1小時以內訓練完成。  將技術落地到手機端,需要基於深度學習的模型壓縮與AutoML,快手利用自創的端到端模型壓縮算法,不僅發表了多篇論文,更是在線上的實際表現中,超越了以往常用的經典算法。
  • 短視頻行業深度報告:快手,「商業化加速」進行時
    1)從毛利率來看,預計業績增長驅動力改變後毛利率將改善,「廣告驅動」 的毛利率大幅高於「直播驅動」:根據我們的測算,從利潤貢獻來看, 直播打賞成本高,毛利率不到 30%,廣告業務毛利可達 80%左右,預 計未來廣告業務收入的提升將釋放更多利潤,推動業績加速;2)從淨 利率來看,預計未來銷售費用率可能降低或大幅釋放利潤,目前市場 對於淨利率的預期相對較為線性,或存在低估其淨利率提升能力的情 況:2020H1
  • 從快手商業化演進看內容變現
    快手的內容商業化之路已經走了好幾年,給外界是「克制」與「提速」糾纏的印象。這種「慢思考,快行動」模式下的快手,為觀察提供了機會,結合快手高管數年間在各類媒體和發布會上的分享,窺見內容變現的行業演進。內容型平臺有三個內生的衝突,是商業化不可迴避的。1、平臺與創作者分蛋糕,是零和博弈在流量變現的思路下,廣告投放的收益在平臺與創作者之間分配,你多了我就少了,平衡感需要拿捏,這也是快手商業化克制的主要原因。
  • 致力於量子計算的商業化,量旋科技努力在超導量子技術上取得突破
    但這兩種技術實現條件較為苛刻:一是需要在超真空和極低溫(接近絕對零度,約零下459華氏度)。的物理狀態下進行,一般只能在專業實驗室內實現;二是離子阱或超導的量子計算機體積過大,成本過高,對於運輸攜帶等租賃設備來說,依然存在優化空間。
  • 快手磁力聚星丁釗:可量化可執行營銷策略再升級 連通品牌主和達人...
    我們希望每一位聚星達人都能夠成為更好的商業化創作者,同時我們也會從客戶營銷需求出發,制定可量化可執行的營銷策略,幫助品牌實現長效營銷。」快手磁力聚星達人運營負責人丁釗 平臺四大維度煥新升級,重塑營銷新體驗 此次磁力聚星從四大維度進行全面升級,包括產品能力、達人商業能力、多元營銷場景以及生態開放。
  • 華為全棧全場景AI助力智能升級,一文看懂企業AI開發路線
    但在企業開發 AI 應用的過程中,經常會遇到準備不足、人才緊缺、開發成本高昂等問題,阻礙著 AI 的落地實踐。  在 2020 年 12 月 20 日 QCon 2020 上海站上,華為雲 AI 首席技術布道師陳亮攜手四位華為 AI 領域博士,帶來「全棧全場景 AI 應用開發實踐」的專題分享。
  • 快手磁力引擎產品再升級,助力教育營銷投放降本增效
    隨著網際網路+教育的深度融合,快手已經成為教育品牌廣告主們不容錯過的營銷陣地。近日,快手官方營銷平臺——快手磁力引擎發布了「教育KEY計劃」, 「教育KEY計劃」,將從打造快手教育產品、研發等專屬能力,探索快手教育生態新思路。其中對教育商業化產品再次進行了升級。
  • 獨家解讀快手商業廣告模型GPU訓練平臺Persia
    【導讀】:近期,快手宣布將在2020年春節前實現3億DAU,快手商業化營收步伐也隨之加速。快手從2018年「商業化元年」開始推行個性化的廣告推薦。截止5月底,快手DAU已經突破2億。隨著用戶和使用時長的迅速增長,為了更好地挖掘海量用戶和實時數據的核心價值,推薦模型需要快速迭代,從而對用戶興趣遷移的做出迅捷的反應。因此,模型訓練效率成為連接商業效率和用戶興趣的關鍵一環。
  • 快手的平衡感:品牌的「品銷合一」
    做一個簡單的對比就能看清楚這種「與眾不同」——如果說場景革命1.0是將傳統的線下與線上商業交易服務從圖文轉向圖文+視頻內容,泛社交特色的場景變為了以微信為代表的窄眾小場景,特點是傳播精準度更高,更有利於打造爆款內容,缺點是商業化很差。
  • CVPR2020|結合業務場景,騰訊如何做不完美場景的神經網絡優化?
    CVPR 2020 原定於 6 月 16 日至 20 日在華盛頓州西雅圖的華盛頓州會議中心舉行,但是當前全球疫情勢態嚴峻,越來越多的國際 AI 頂會開始轉向線上,CVPR 也不例外。雖然無法去現場交流,但這無法阻擋我們學習的熱情。
  • 快手啟動磁力新雙擎,為品牌營銷提供助力
    在近日舉辦的快手「2020磁力大會」上,快手高級副總裁馬宏彬宣布,啟動磁力新雙擎,賦能品牌營銷。磁力新雙擎啟動後,快手將全面打通公域觸達力及私域信任力,並依託算法突破、加速基建、服務體系等能力升級,打造一臺更適合短視頻直播賽道的新引擎。
  • 全面復盤快手:2017-2019關於產品理念、關鍵人物、業務突破的信息...
    直播月流水大幅增長,半年內從10億提升至20億 近期: 直播DAU超1億 遊戲類直播DAU超5100萬 教育類直播日評論超過2000萬 特點: 快手直播:內容→直播 創作者分布、訴求 怎麼將各垂類與快手品牌打造結合 各垂類的商業化思路 垂類開發案例挖掘 可參照的是抖音通過挑戰賽完成階段性商業化目標,用挑戰賽專題頁、品牌落地頁和包裝引導機制等一系列規範化動作,整合營銷資源和產品功能,最終收穫大量品牌方的認知和合作
  • 2020-2021「AI中國」機器之心年度獎項揭榜(下)
    「AI 中國」機器之心 2020 年度評選結果下篇如下 ——AI 中國 · 智能國民應用 TOP30時趣 · 時趣洞察引擎時趣洞察引擎是一款能夠整合跨平臺、全量、全過程的公開數據和商業數據的 AI 營銷工具。
  • 推理引擎Paddle Inference改造三要點,ERNIE時延降低81.3%
    Paddle Inference是飛槳深度學習框架的推理引擎,通過對不同平臺伺服器應用場景的深度適配優化,降低時延,提升部署效率,詳情請參考:https://mp.weixin.qq.com/s/DX2pM2H2Nq9MCg2eU4sV7g
  • 2020 年,我們將直面 AI 落地問題
    2020 年,深度遷移學習將基於預訓練模型的演進而出現更多改進,比如對性能要求較高的場景需要對模型做一些改進和方案上的優化,雙向語言模型有可能出現訓練和預測不一致的現象,以及在長文本處理、文本生成任務上的不足。同樣值得期待的是,該領域未來可能會出現更加輕量級的在線服務模型。
  • 數字聯盟採用SpotMax優化用雲方案,雲成本降幅超65%
    數字聯盟採用SpotMax優化用雲方案,雲成本降幅超65% 隨著技術的不斷發展,雲計算資源的短缺已不再是企業使用雲計算時面臨的首要挑戰,越來越多的企業開始關注到雲計算成本優化
  • 快手:十年砥礪繼往開來,第二成長曲線正出鞘
    海量的創作者貢獻了海量的 UGC 內容,2017-2020H1,快手平臺上的短視頻內容呈 現爆發式增長,從 2018 年的 80 億條上升至 2020H1 的 260 億+條短視頻,2020H1 每月平均短視頻上傳量均超過 11 億條,社區內容不斷豐富。從快手平臺的互動性來看,用戶間的互動率也處於高水平。
  • 商業化場景中,如何以大前端視角提升流量變現效率?
    原有非盈利產品如何向商業化產品演進?以及純商業化場景的研發與實現,都是決定一款網際網路產品能否最終「落地」的關鍵環節。同時,也是衡量網際網路企業是否以及能否發展至下一個階段的重要指標。為了探索商業化場景下大前端技術的最佳實踐案例,GMTC 特別邀請到了來自百度的原生商業大前端技術負責人陳敏亮老師,並做了一次採訪,希望可以為正處在商業化進程中的企業,帶來一些啟發。以下是採訪內容: 1.GMTC:陳老師您好,請簡單介紹一下自己,以及目前在百度負責哪些工作。
  • 量旋科技努力在超導量子技術上取得突破 明年或將發布的首臺超導...
    不過,該技術現階段仍處於科研開發階段,成本過高、投入周期長,大部分量子計算技術實現條件較為苛刻,從而短期內難以實現商業化,是VC非常謹慎投資的領域之一。 但這兩種技術實現條件較為苛刻:一是需要在超真空和極低溫(接近絕對零度,約零下459華氏度)。的物理狀態下進行,一般只能在專業實驗室內實現;二是離子阱或超導的量子計算機體積過大,成本過高,對於運輸攜帶等租賃設備來說,依然存在優化空間。
  • 金山AI團隊:從理論突破到應用場景落地
    在李博士看來,以認知為核心的人工智慧技術將迎來前所未有的歷史發展機遇。像感知智能時代出現的專注於計算機視覺的「AI四小龍」(商湯、曠視、雲從、依圖)一樣,認知智能時代也將會出現一批優秀的企業,將人工智慧技術落地惠及社會。 相對於早就涉足認知智能技術的其他巨頭,金山算是後來者。