快手將GPU推理在商業化場景全量落地,機器成本優化超20%

2020-11-28 騰訊網

機器之心發布

機器之心編輯部

快手商業化進程開始加速，這對底層計算能力提出挑戰。快手決定將 GPU 推理在商業化場景全量落地。

據官方披露，快手日活已超 3 億，直播日活達 1.7 億 +，快手之夜單場活動快手官方直播間累計觀看總人數就超過 9000 萬。隨著業務規模的不斷擴張，快手商業化進程也隨之加速，單場直播最高成交額 12.5 億，8 月電商訂單總量達 5 億。巨大的商業價值和潛力吸引越來越多的廣告主來到快手做營銷。為了應對日益激增的營銷素材，快手不斷提升底層計算能力，率先將 GPU 推理應用到大規模稀疏場景中，在提高機器性能、節約成本的同時，為廣告主提供了更加有效的營銷效果。

2019 年開始，快手商業化進程開始加快，底層計算能力持續面臨挑戰：

一方面，隨著業務的發展，業務形態越來越豐富，流量越來越高，廣告主對推薦質量的要求越來越高，模型變寬變深，算力的消耗急劇增加；

另一方面，在廣告推薦場景下主要使用 DNN 模型，涉及大量稀疏特徵 embedding 和神經網絡浮點運算。作為訪存和計算密集型的線上服務，在保證可用性的前提下，要滿足低延遲、高吞吐的要求，對單機算力也是一種挑戰。

上述算力資源需求和空間的矛盾，如果不解決好，對業務的發展會帶來很大的限制：在模型加寬加深前，純 CPU 推理服務能夠提供可觀的吞吐，但是在模型加寬加深後，計算複雜度上升，為了保證可用性，需要消耗大量機器資源，導致大模型無法大規模應用於線上。

目前行業比較通用的解決辦法是利用 GPU 來解決這個問題。GPU 本身比較適合高吞吐、對延遲不太敏感的計算任務，在業界應用中，主要用於圖像、語音或者離線訓練等場景。

對於推薦、廣告等場景使用的大規模稀疏模型，我們需要解決如下挑戰：如何在保證可用性、低延遲的前提下，儘可能做到高吞吐，同時還需要考慮易用性和通用性。

業內一般會使用 TensorFlow 進行訓練，在 GPU 場景推理時，則會選擇 TensorFlow 或 TensorRT。對於 TensorFlow 和 TensorRT 的結合，常見的做法是利用開源工具離線將 TensorFlow 模型轉換到 ONNX 模型，然後從 ONNX 模型加載，這引入了更多的中間環節，當 ONNX 不支持 TensorFlow 的某些 Op 時，轉換會失敗。這限制了模型的結構，也導致訓練好的 TensorFlow 模型無法直接以端到端的形式應用於線上。

快手借鑑業界經驗，從實際業務出發，圍繞大規模稀疏模型場景，針對發揮 GPU 算力和 TensorFlow 與 TensorRT 的結合易用性，進行了一系列技術上的探索和嘗試。

融合 CPU、GPU 各自硬體優勢

快手在硬體部署時就充分考慮了硬體特點，融合不同硬體的優勢。在廣告推理場景下，CPU 適合大規模稀疏特徵 embedding訪存密集型任務，GPU 適合進行 DNN 這種大規模浮點運算的計算密集型任務，以此實現 CPU 和 GPU 的高效率配合。

於是，快手從多個業務的推理服務中選取典型的服務，簡化場景，提煉出核心計算過程，嘗試不同的 GPU 卡進行壓測，綜合考慮硬體的特性、成本以及業務的發展情況，確定機型，對齊算力需求和硬體能力。

保證易用性，實現訓練到推理端到端

結合 Tensorflow 的高可擴展性和 TensorRT 的高性能，快手在線進行 TensorFlow 模型到 TensorRT 模型的轉換，基於 TensorRT 推理專用引擎的高性能，加速 DNN 計算，保持 TensorFlow 模型的訓練和在線推理以端到端方式進行。

圖 1. Predict Server 的模型加載和計算流程

計算流水優化，提升硬體利用率

快手利用多 cuda stream，同時運行多個 Compute Engine，增加 GPU 有效工作時間的佔比，使每個 Compute Engine 對應兩條 Cuda stream，優化了 H2D 數據傳輸到 GPU 計算的流水：

圖 2. 多 Cuda Stream、Compute Engine 和計算流水優化

自動對 TF graph 做裁剪，減少重複計算和內存拷貝，不斷優化 CPU 到 GPU 的流水（比如對 user 側 embedding 在卡上展開），達到算力均衡。

圖 3. User 特徵的 GPU 展開

靈活配置，降低成本提升集群算力

為了降低每塊卡的單機成本，快手採用單機雙卡的機型，基於容器化隔離硬體資源，實現靈活分配。為了提高資源的利用率，快手通過 docker 將一臺 GPU 伺服器虛擬化為 2 個實例，通過 cpu manager 降低跨核心調度導致的性能損耗，進而保障服務容器化後的穩定性和性能。

對於大規模稀疏場景，模型佔比中較大的是 EmbeddingTable，可能達到 TB 級規模，單機內存無法容納，所以一般會將部分的 EmbeddingTable 以哈希的形式打散並保存在其他分布式節點上，在線推理時再通過稀疏的特徵拉取參數。但帶寬放大明顯往往最先成為瓶頸，極大地限制了 Predict server（GPU 節點）算力的發揮。

結合場景和模型的特點，快手也進行了針對性的設計和優化。

在推薦廣告場景中，每次請求針對一個 User 和 N 個 Item 進行預估。如果將 Item 的特徵放在分布式節點上進行 embedding 計算，單次的數據通信量相較 User 特徵會被放大 N 倍，通信帶寬會成為 Predict Server 和 Emp Server（分布式計算節點）之間的瓶頸。

快手將 User 特徵的 EmbeddingTable 和 Reduce sum 運算放在 Emp server 上，一方面可以利用相對廉價的 CPU 資源分擔內存和算力需求，另一方面 User 特徵不存在網絡通信放大的問題，對帶寬的壓力要小得多。而將 DNN 等浮點數運算密集的邏輯保留在 PredictServer（GPU 節點）上，這能夠充分利用 CPU 節點，結合 CPU 和 GPU 的優勢，保證大規模模型的線上應用。

圖 4. 分布式 Predict Server

2020 年，GPU 在快手商業化在線服務中實現了 0-1 的突破，GPU 在商業化在線推理服務中全面落地，形成 CPU 和 GPU 的混合集群，根據算力需求匹配機器，實現機器成本優化約 20~30%，在成本不變的情況下，為廣告主提供更加高質量的營銷體驗和收益。

Amazon SageMaker1000元大禮包

ML訓練成本降90%，被全球上萬家公司使用，Amazon SageMaker是全託管機器學習平臺，支持絕大多數機器學習框架與算法，並且用 IDE 寫代碼、可視化、Debug一氣呵成。

現在，我們準備了1000元的免費額度，開發者可以親自上手體驗，讓開發高質量模型變得更加輕鬆。

相關焦點

把視頻玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?

這裡，快手的廣告推薦離線訓練系統達到了百T數據，百G特徵，1小時以內訓練完成。　　將技術落地到手機端，需要基於深度學習的模型壓縮與AutoML，快手利用自創的端到端模型壓縮算法，不僅發表了多篇論文，更是在線上的實際表現中，超越了以往常用的經典算法。
短視頻行業深度報告:快手,「商業化加速」進行時

1）從毛利率來看，預計業績增長驅動力改變後毛利率將改善，「廣告驅動」的毛利率大幅高於「直播驅動」：根據我們的測算，從利潤貢獻來看，直播打賞成本高，毛利率不到 30%，廣告業務毛利可達 80%左右，預計未來廣告業務收入的提升將釋放更多利潤，推動業績加速；2）從淨利率來看，預計未來銷售費用率可能降低或大幅釋放利潤，目前市場對於淨利率的預期相對較為線性，或存在低估其淨利率提升能力的情況：2020H1
從快手商業化演進看內容變現

快手的內容商業化之路已經走了好幾年，給外界是「克制」與「提速」糾纏的印象。這種「慢思考，快行動」模式下的快手，為觀察提供了機會，結合快手高管數年間在各類媒體和發布會上的分享，窺見內容變現的行業演進。內容型平臺有三個內生的衝突，是商業化不可迴避的。1、平臺與創作者分蛋糕，是零和博弈在流量變現的思路下，廣告投放的收益在平臺與創作者之間分配，你多了我就少了，平衡感需要拿捏，這也是快手商業化克制的主要原因。
致力於量子計算的商業化，量旋科技努力在超導量子技術上取得突破

但這兩種技術實現條件較為苛刻：一是需要在超真空和極低溫（接近絕對零度，約零下459華氏度)。的物理狀態下進行，一般只能在專業實驗室內實現；二是離子阱或超導的量子計算機體積過大，成本過高，對於運輸攜帶等租賃設備來說，依然存在優化空間。
快手磁力聚星丁釗:可量化可執行營銷策略再升級連通品牌主和達人...

我們希望每一位聚星達人都能夠成為更好的商業化創作者，同時我們也會從客戶營銷需求出發，制定可量化可執行的營銷策略，幫助品牌實現長效營銷。」快手磁力聚星達人運營負責人丁釗平臺四大維度煥新升級，重塑營銷新體驗此次磁力聚星從四大維度進行全面升級，包括產品能力、達人商業能力、多元營銷場景以及生態開放。
華為全棧全場景AI助力智能升級,一文看懂企業AI開發路線

但在企業開發 AI 應用的過程中，經常會遇到準備不足、人才緊缺、開發成本高昂等問題，阻礙著 AI 的落地實踐。　　在 2020 年 12 月 20 日 QCon 2020 上海站上，華為雲 AI 首席技術布道師陳亮攜手四位華為 AI 領域博士，帶來「全棧全場景 AI 應用開發實踐」的專題分享。
快手磁力引擎產品再升級,助力教育營銷投放降本增效

隨著網際網路+教育的深度融合，快手已經成為教育品牌廣告主們不容錯過的營銷陣地。近日，快手官方營銷平臺——快手磁力引擎發布了「教育KEY計劃」，「教育KEY計劃」，將從打造快手教育產品、研發等專屬能力，探索快手教育生態新思路。其中對教育商業化產品再次進行了升級。
獨家解讀快手商業廣告模型GPU訓練平臺Persia

【導讀】：近期，快手宣布將在2020年春節前實現3億DAU，快手商業化營收步伐也隨之加速。快手從2018年「商業化元年」開始推行個性化的廣告推薦。截止5月底，快手DAU已經突破2億。隨著用戶和使用時長的迅速增長，為了更好地挖掘海量用戶和實時數據的核心價值，推薦模型需要快速迭代，從而對用戶興趣遷移的做出迅捷的反應。因此，模型訓練效率成為連接商業效率和用戶興趣的關鍵一環。
快手的平衡感:品牌的「品銷合一」

做一個簡單的對比就能看清楚這種「與眾不同」——如果說場景革命1.0是將傳統的線下與線上商業交易服務從圖文轉向圖文+視頻內容，泛社交特色的場景變為了以微信為代表的窄眾小場景，特點是傳播精準度更高，更有利於打造爆款內容，缺點是商業化很差。
CVPR2020|結合業務場景,騰訊如何做不完美場景的神經網絡優化?

CVPR 2020 原定於 6 月 16 日至 20 日在華盛頓州西雅圖的華盛頓州會議中心舉行，但是當前全球疫情勢態嚴峻，越來越多的國際 AI 頂會開始轉向線上，CVPR 也不例外。雖然無法去現場交流，但這無法阻擋我們學習的熱情。
快手啟動磁力新雙擎,為品牌營銷提供助力

在近日舉辦的快手「2020磁力大會」上，快手高級副總裁馬宏彬宣布，啟動磁力新雙擎，賦能品牌營銷。磁力新雙擎啟動後，快手將全面打通公域觸達力及私域信任力，並依託算法突破、加速基建、服務體系等能力升級，打造一臺更適合短視頻直播賽道的新引擎。
全面復盤快手:2017-2019關於產品理念、關鍵人物、業務突破的信息...

直播月流水大幅增長，半年內從10億提升至20億近期：直播DAU超1億遊戲類直播DAU超5100萬教育類直播日評論超過2000萬特點：快手直播：內容→直播創作者分布、訴求怎麼將各垂類與快手品牌打造結合各垂類的商業化思路垂類開發案例挖掘可參照的是抖音通過挑戰賽完成階段性商業化目標，用挑戰賽專題頁、品牌落地頁和包裝引導機制等一系列規範化動作，整合營銷資源和產品功能，最終收穫大量品牌方的認知和合作
2020-2021「AI中國」機器之心年度獎項揭榜(下)

「AI 中國」機器之心 2020 年度評選結果下篇如下 ——AI 中國 · 智能國民應用 TOP30時趣 · 時趣洞察引擎時趣洞察引擎是一款能夠整合跨平臺、全量、全過程的公開數據和商業數據的 AI 營銷工具。
推理引擎Paddle Inference改造三要點,ERNIE時延降低81.3%

Paddle Inference是飛槳深度學習框架的推理引擎，通過對不同平臺伺服器應用場景的深度適配優化，降低時延，提升部署效率，詳情請參考：https://mp.weixin.qq.com/s/DX2pM2H2Nq9MCg2eU4sV7g
2020 年，我們將直面 AI 落地問題

2020 年，深度遷移學習將基於預訓練模型的演進而出現更多改進，比如對性能要求較高的場景需要對模型做一些改進和方案上的優化，雙向語言模型有可能出現訓練和預測不一致的現象，以及在長文本處理、文本生成任務上的不足。同樣值得期待的是，該領域未來可能會出現更加輕量級的在線服務模型。
數字聯盟採用SpotMax優化用雲方案,雲成本降幅超65%

數字聯盟採用SpotMax優化用雲方案,雲成本降幅超65% 隨著技術的不斷發展，雲計算資源的短缺已不再是企業使用雲計算時面臨的首要挑戰，越來越多的企業開始關注到雲計算成本優化
快手:十年砥礪繼往開來,第二成長曲線正出鞘

海量的創作者貢獻了海量的 UGC 內容，2017-2020H1，快手平臺上的短視頻內容呈現爆發式增長，從 2018 年的 80 億條上升至 2020H1 的 260 億+條短視頻，2020H1 每月平均短視頻上傳量均超過 11 億條，社區內容不斷豐富。從快手平臺的互動性來看，用戶間的互動率也處於高水平。
商業化場景中,如何以大前端視角提升流量變現效率?

原有非盈利產品如何向商業化產品演進？以及純商業化場景的研發與實現，都是決定一款網際網路產品能否最終「落地」的關鍵環節。同時，也是衡量網際網路企業是否以及能否發展至下一個階段的重要指標。為了探索商業化場景下大前端技術的最佳實踐案例，GMTC 特別邀請到了來自百度的原生商業大前端技術負責人陳敏亮老師，並做了一次採訪，希望可以為正處在商業化進程中的企業，帶來一些啟發。以下是採訪內容： 1.GMTC：陳老師您好，請簡單介紹一下自己，以及目前在百度負責哪些工作。
量旋科技努力在超導量子技術上取得突破明年或將發布的首臺超導...

不過，該技術現階段仍處於科研開發階段，成本過高、投入周期長，大部分量子計算技術實現條件較為苛刻，從而短期內難以實現商業化，是VC非常謹慎投資的領域之一。但這兩種技術實現條件較為苛刻：一是需要在超真空和極低溫（接近絕對零度，約零下459華氏度）。的物理狀態下進行，一般只能在專業實驗室內實現；二是離子阱或超導的量子計算機體積過大，成本過高，對於運輸攜帶等租賃設備來說，依然存在優化空間。
金山AI團隊:從理論突破到應用場景落地

在李博士看來，以認知為核心的人工智慧技術將迎來前所未有的歷史發展機遇。像感知智能時代出現的專注於計算機視覺的「AI四小龍」（商湯、曠視、雲從、依圖）一樣，認知智能時代也將會出現一批優秀的企業，將人工智慧技術落地惠及社會。相對於早就涉足認知智能技術的其他巨頭，金山算是後來者。

快手將GPU推理在商業化場景全量落地,機器成本優化超20%

相關焦點

把視頻玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?

短視頻行業深度報告:快手,「商業化加速」進行時

從快手商業化演進看內容變現

致力於量子計算的商業化，量旋科技努力在超導量子技術上取得突破

快手磁力聚星丁釗:可量化可執行營銷策略再升級 連通品牌主和達人...

華為全棧全場景AI助力智能升級,一文看懂企業AI開發路線

快手磁力引擎產品再升級,助力教育營銷投放降本增效

獨家解讀快手商業廣告模型GPU訓練平臺Persia

快手的平衡感:品牌的「品銷合一」

CVPR2020|結合業務場景,騰訊如何做不完美場景的神經網絡優化?

快手啟動磁力新雙擎,為品牌營銷提供助力

全面復盤快手:2017-2019關於產品理念、關鍵人物、業務突破的信息...

2020-2021「AI中國」機器之心年度獎項揭榜(下)

推理引擎Paddle Inference改造三要點,ERNIE時延降低81.3%

2020 年，我們將直面 AI 落地問題

數字聯盟採用SpotMax優化用雲方案,雲成本降幅超65%

快手:十年砥礪繼往開來,第二成長曲線正出鞘

商業化場景中,如何以大前端視角提升流量變現效率?

量旋科技努力在超導量子技術上取得突破 明年或將發布的首臺超導...

金山AI團隊:從理論突破到應用場景落地

快手磁力聚星丁釗:可量化可執行營銷策略再升級連通品牌主和達人...

量旋科技努力在超導量子技術上取得突破明年或將發布的首臺超導...