DropBox:機器學習每年可以為我們節省170萬的文檔預覽費用

2021-02-14 CSDN

【CSDN 編者按】Dropbox 藉助機器學習的預測功能,每年能為公司節省了一百多七十多萬美元的基礎架構成本。非常了不起的成就。本文,一起來看一看 Dropbox 採用機器學習的經過,以及分析一下其中的利弊。

最近,Dropbox 優化了生成和緩存文檔預覽的方式,並藉助機器學習的預測能力,每年為公司節省了 170 萬美元的基礎架構成本。Dropbox 的一些常用功能都採用了機器學習,例如搜索、文件與文件夾提示以及文檔掃描 OCR。雖然用戶看不到 Dropbox 採用的機器學習,但這些應用程式仍以其他方式推動了業務的發展。在本文中,我們就來看一看 Dropbox 採用機器學習的經過,以及其中的利弊。

預覽功能
用戶可以利用 Dropbox 的預覽功能直接查看文件,而無需下載內容。除了常見的縮略圖預覽之外,Dropbox 還提供交互式預覽界面,可供用戶共享文件和共同編輯文件,包括添加批註和標記其他用戶。我們的內部系統 Riviera 負責安全地生成文件預覽,它可以處理數百種支持的文件類型的預覽。它可以將各種內容轉換操作連結在一起,創建適合特定文件類型的預覽。例如,Riviera 可以將 PDF 文檔的某一頁柵格化,在 Dropbox 的 Web 界面中顯示高解析度的預覽。完整內容的預覽功能支持批註和共享之類的交互。大型圖片可以轉換成縮略圖,以供在各種情況中顯示給用戶,包括搜索結果或文件瀏覽器。在 Dropbox 的規模下,Riviera 每天需要處理數十 PB 的數據。為了加快某些類別的大型文件的預覽,Riviera 會提前生成預覽,並緩存預覽結果(此過程稱為預熱)。由於我們支持的文件量非常巨大,因此預熱消耗的 CPU 與存儲也非常可觀。我們看到採用機器學習可以降低這些成本,因為有些預生成的內容從不會有人查看。如果我們可以有效地預測某個預覽是否會被使用,則只需預熱我們確信一定會被查看的文件,從而節省計算和存儲空間。我們的這個項目名叫 Cannes(坎城),這個名字的靈感來自法國坎城電影節。

機器學習的利弊權衡
在預覽的優化過程中,機器學習的兩項折衷決定了我們的指導原則。第一個挑戰是權衡機器學習為基礎設施帶來的成本效益。減少預熱的文件可以節省成本,無人不喜歡,但也有可能漏掉一些文件,造成不良的用戶體驗。如果緩存中沒有相應的文件預覽,則 Riviera 需要動態地生成預覽,而在這期間用戶只能等待。我們與預覽團隊合作開發出了一種預防措施,防止用戶體驗降級,並通過這種預防措施來調整模型,以合理的方式節省費用。另一個需要權衡的是複雜性和模型的性能 vs. 可解釋性和部署的成本。通常,你需要權衡機器學習的複雜性與可解釋性:通常模型越複雜,預測就越準確,但代價是可解釋性會降低,你很難解釋為何得出了這樣的預測,而且部署的複雜性可能也會增加。在第一次迭代中,我們的目標是儘快提供可解釋的機器學習解決方案。由於 Cannes 是在現有系統內新構建的機器學習應用程式,因此我們偏向於使用一種比較簡單且可以解釋的模型,這樣我們就可以在研究更複雜的模型之前,集中精力建立模型、指標以及報告。如果出現問題,或 Riviera 出現意外行為,機器學習團隊也能夠進行調試,並了解是 Cannes 的原因還是其他問題。我們的解決方案必須相對簡單且成本低廉,因為我們每天都需要部署將近 5 億個請求。目前的系統只能預熱所有的可預覽文件,因此任何改進都可以節省成本,而且越快越好!

Cannes v1
考慮到這些權衡之後,我們選擇了一個簡單、易於訓練且易於解釋的模型。第一版的模型是一個梯度提升分類器,訓練時採用了文件擴展名、存儲了文件的 Dropbox 帳號類型,以及該帳號最近 30 天的活動等作為輸入特徵。在離線預留數據上訓練時,我們發現該模型經過預熱後,預測的預覽準確率可以在最多 60 天內超過 70%。該模型拒絕了預留數據中大約 40%的預熱請求,並且性能在我們為自己設定的預防指標以內。假陰性的數量很少,假陰性指的是我們預測不會被查看、但最終在接下來的 60 天內被查看的文件,一旦出現這種情況,我們就需要動態生成預覽。我們估算了一下成本:「拒絕百分比」- 假陰性,結果發現每年可以節省 170 萬美元。在探索預覽優化之前,我們想確保節省的成本能夠超過構建機器學習解決方案的成本。我們大致估算了一下 Cannes 項目可以節省的成本。在大型分布式系統中設計和部署機器學習系統,你需要考慮系統的變化隨著時間的推移對你的估計產生的影響。我們希望初始的模型儘量簡單,這樣一來即使相鄰系統發生一些很小的變化,成本的影響也不會出現數量級的變化。通過分析訓練好的模型,可以讓我們更好地了解第一版實際可以節省的成本,並確認這項投資是值得的。我們利用內部的功能開關服務 Stormcrow,在 Dropbox 流量 1%的隨機樣本上,針對模型進行了 A / B 測試。我們驗證了模型的準確率和預熱「節省」的成本符合我們離線分析的結果,這是個好消息!由於 Cannes v1 不再預熱所有符合條件的文件,因此我們知道預計緩存命中率會下降。在實驗期間,我們觀察到緩存命中率比 A / B 測試中的對照組低了幾個百分點。儘管百分比下降了,但總體的預覽延遲基本上保持不變。我們非常關心尾延遲(第 90 個百分位數以上的請求延遲),因為緩存未命中會導致尾延遲過高,進而嚴重地影響用戶的預覽功能。然而,我們並沒有觀察到預覽尾延遲或總體延遲明顯上升,這很讓人欣慰。這次實時測試讓我們信心大增,我們決定將 v1 模型部署到更多 Dropbox 流量。

大規模的實時預測
我們需要一種方法,當某個文件進入預熱路徑時,實時地告訴Riviera該文件是否需要預熱。為了解決這個問題,我們將 Cannes 構建成了預測流水線,負責提取與文件相關的信號,並將其發送給模型,供模型預測未來使用預覽的可能性。從Rivieraprewarm path(預熱路徑)接收文件 ID。Riviera 會收集所有可進行預熱的文件 ID。(Riviera可以預覽 Dropbox 存儲的大約 98%的文件。只有很少一部分文件的文件類型不支持,或無法預覽。)Riviera 發送一條預測請求,其中包含需要預測文件 ID 以及文件類型。獲取實時信號。為了收集預測期間文件的最新活動信號,我們使用了一個名為「Suggest Backend」(建議後臺)的內部服務。該服務會驗證預測請求,然後查詢與該文件相關的信號。信號存儲在 Edgestore(Dropbox 主要的元數據存儲系統)或 User Profile Service(RocksDB 數據存儲,負責聚合Dropbox 活動信號)中。將信號編碼為特徵向量。收集到的信號會被發送到 Predict Service(預測服務),由該服務將信號編碼為表示文件所有相關信息的特徵向量,然後將這個向量發送給模型進行評估。生成預測。模型使用特徵向量,返回該文件可能會被預覽的概率。接著,這個預測結果會被發送回 Riviera,並由 Riviera 預熱未來 60 天內可能會被預覽的文件。記錄請求的相關信息。SuggestBackend(建議後臺)會記錄下特徵向量、預測結果和請求狀態,這些都是調查性能下降和延遲問題的關鍵信息。其他考慮事項減少預測延遲很重要,因為上述管道位於 Riviera 預熱功能的關鍵路徑上。例如,當將這個模型擴展到 25%的流量時,我們觀察到了一些極端的情況,導致建議後臺的可用性降低到了內部 SLA 以下。經過分析後,我們發現上述第 3 步出現了超時的問題。因此,我們改進了特徵編碼處理,並優化了預測路徑上的幾個問題,降低了這些極端情況下的尾延遲。

優化機器學習
在推出機器學習模型的過程期間(及其之後),我們非常注重穩定性,並確保不會對預覽界面的用戶體驗產生負面影響。多個層面的監視和警報是部署機器學習的關鍵組成部分。Cannesv1 的指標預測服務基礎設施的指標:共享系統有自己內部的 SLA,主要都是圍繞正常運行時間和可用性。我們依靠 Grafana 等現成的工具進行實時監控和發送警報。我們監控的指標包括:預覽指標:我們有一些預覽性能方面的關鍵指標,即預覽延遲分布。我們保留了3%的存檔數據,用於比較使用 Cannes 與不使用 Cannes 兩種情況下的預覽指標,以防止模型漂移或可能會降低模型性能的系統變化。Grafana 是一款應用程式級指標的通用解決方案。主要指標包括:預覽延遲分布(使用 Cannes 與不使用 Cannes),需要特別注意第 90 個百分比以上的延遲。緩存命中率(使用 Cannes 與不使用 Cannes):緩存命中總數/預覽內容的總請求數量。模型性能指標:我們為機器學習團隊使用的 Cannes v1 的模型建立了指標,並建立了自己的流水線來計算這些指標。我們關心的指標包括:ROC 曲線下的面積:雖然我們直接監視了混淆矩陣的統計信息,但我們也希望計算 AUROC,以便將來比較模型的性能。上述模型性能指標每小時計算一次,並存儲在 Hive 中。我們使用 Superset 來可視化重要的指標,並創建了一個 Cannes 的實時變化儀錶板。Superset 是在各項指標的基礎之上構建的,如果底層模型行為發生變化,它會趕在客戶受到影響之前主動通知我們。然而,僅憑監視和警報不足以確保系統健康,明確責任並建立上報問題的流程也是必要的。例如,我們記錄了機器學習系統的上遊依賴項,因為它們可能影響到模型的結果。此外,我們還創建了一個手冊,詳細介紹了解決問題的步驟,幫助值班的工程師判斷問題來自 Cannes 內部還是其他的其他部分,並提供了在根本原因是機器學習模型的情況下,上報問題的流程。機器學習團隊與非機器學習團隊之間的緊密合作有助於確保 Cannes 的平穩運行。

目前的狀況與未來的探索
目前 Cannes 已部署到幾乎所有的 Dropbox 流量中了。結果,我們每年 170 萬美元的預熱成本變成了如今每年 9,000 美元的機器學習基礎設施(主要用於建議後臺和預測服務的流量增加)。對於該項目的下一個迭代,我們有許多期待的探索方面。如今 Cannes 已投入生產,我們可以嘗試更為複雜的模型類型。我們還可以根據更詳細的內部費用和使用情況數據,為模型開發更細緻的成本函數。我們還討論過新建一個預覽應用程式,通過機器學習更細緻地控制預測決策,而不是針對每個文件進行預熱/不預熱的二元分類。我們可以通過具有預見性的預熱來發揮更大的創造力,降低成本,同時又不會破壞用戶的文件預覽體驗。我們希望將 Cannes 項目積累的經驗和工具推廣到 Dropbox 的其他基礎設施。利用機器學習優化基礎設施是一個振奮人心的投資領域。參考連結:https://dropbox.tech/machine-learning/cannes--how-ml-saves-us--1-7m-a-year-on-document-previews

☞「面向對象就是一個錯誤!」

相關焦點

  • 搜狗翻譯推出文檔翻譯功能 業內獨家同時支持免費預覽及下載
    如今,用戶除了在溝通交流、瀏覽資訊等場景下需要用到翻譯工具之外,在學術論文寫作、專業領域研究等方面對各類文檔資料的翻譯需求也在不斷提升。近日,搜狗翻譯依託搜狗領先的人工智慧技術,在業內獨家推出能同時支持免費預覽和下載的文檔翻譯功能,可為教育、科研及其他領域的用戶提供便捷的文檔翻譯服務,助其跨語言獲取國際前沿文獻資料,更高效從事專業領域的研究。
  • 永中雲轉換助力教育行業文檔在線預覽更高效
    可以集成到網站或系統中,讓您的網站或系統具備強大的文檔在線預覽功能,方便最終用戶即時查閱文檔內容。】踏入六月的尾聲,各大高校陸續送走了特殊的一屆畢業生,其他年級的同學也在無感中迎來學期末。今年受疫情的影響,許多學校同這幾年流行大勢的在線教育平臺、機構一樣,轉變模式開展線上教學,以確保師生交流、保證教學進度。
  • 還在為在線預覽Office文檔發愁?試試這個開源系統吧!
    項目啟動成功使用我們首先上傳了 3 個不同的類型的文件來分別演示一下圖片、PDF、Word 文檔的預覽。PDF 文檔的預覽kkFileView 支持 PDF 文檔預覽。類似 Word 文檔預覽, PDF 預覽提供了兩種模式:整個 Word 文檔轉成 PDF,再預覽 PDF。
  • 讓Word文檔直接顯示預覽縮略圖
    windows的資源管理器可以查看Word文檔的名字列表,無法直接查看該Word文檔的內容縮略圖。這樣不夠直觀,有時候需要一個文檔一個文檔打開核對查看確認是否是自己需要的Word文檔。今天教大家用Word2013文件保存時的一個選項來實現Word文檔的預覽縮略圖效果。第一步:打開你需要增加文檔縮略圖的Word文件。
  • 找低價翻譯公司就能節省翻譯費用嗎?
    >
  • kkFileView v2.2.1 發布,文件文檔在線預覽解決方案
    kkfileview 文件在線預覽此項目為文件文檔在線預覽項目解決方案,項目使用流行的 spring boot 搭建,易上手和部署,部署好後可以獨立提供預覽服務,使用 http 接口訪問,不需要和應用集成,具有跨系統跨語言使用的特性。
  • 英國留學都有哪些費用?想要節省留學費用可以用哪些方法?
    碩士費用跟本科差距不是很大,平均高出£2000 ~ 3000左右,但是只需一年時間便可完成,性價比很高的。除部分商科、傳媒和醫學類較高以外一般平均每年學費在£12萬到18萬之間。,去英國留學想要節省費用可以用哪些方法呢?
  • 可以從哪些方面節省國際搬家費用?
    在這裡,國際搬家的費用要比國內搬家高很多,至於有哪些費用?又如何去節省?小編在這裡匯總出來,與大家詳細分享。,港口安全,單證,換單等等費用)(8)目的港海關查驗費,(本項費用為可能發生費用,有些國家為必查如澳、新,有些國家為抽查,如美、加,具體費用以實際發生收取)(9)目的港服務費,(這裡包含了清關服務費,貨櫃送貨的拖車費,卸貨費移除垃圾費)以上費用只是簡單列取了常規費用,除此外,還有可能產生的費用就是浮動費用
  • word列印技巧:幾個節省紙張的列印設置方法
    *********在我們平時工作中經常需要列印一些Word文檔,如果你的文檔並不是要提交給老闆和客戶,僅是私人查閱或內部的交流。那麼,下面的這幾個列印小技巧,能為你節省很多紙張,甚至省不少錢。1、自動縮減成一頁列印文檔最後一頁多出一兩行內容時,可以利用「縮減一頁」功能,自動縮小文本大小及間距將文檔縮減一頁。很簡單,我們只需要2步就可以搞定!
  • word列印技巧:幾個節省紙張的列印設置方法
    一般來說,列印Word文檔只需要點擊「列印」按鈕即可。但有時,為了節約用紙,可以用以下幾個方法來列印文檔!*********在我們平時工作中經常需要列印一些Word文檔,如果你的文檔並不是要提交給老闆和客戶,僅是私人查閱或內部的交流。
  • WPS Office 2019企業版全力出擊 為政企文檔保駕護航
    得益於 WPS Office 2019多組件合一的特性,WPS涉密關鍵詞與主程序緊密結合,讓用戶在打開編輯文檔的過程中,能夠快速獲知文檔的敏感詞審查結果,並提供便捷定位,快速修改等功能。企業用戶還可通過添加自定義涉密關鍵詞來更新詞庫,一旦添加成功便立即生效,以便響應實時審查需要,節省了大量的時間和成本。
  • 永中軟體國際智慧教育展覽會嶄露頭角,文檔在線預覽解決方案助力...
    2020年12月18日,由中國教育技術協會指導、雅森國際主辦的2020第七屆國際智慧教育展覽會在北京國家會議中心盛大開幕,永中軟體作為國內領先的專業Office產品和解決方案供應商受邀參與此次大會,旗下【永中DCS文檔在線預覽解決方案】獲得2020中國校園好方案卓越案例獎。永中軟體與參會夥伴共析教育行業之痛點,為構建智慧課堂助力護航。
  • 主攻文檔翻譯,翻譯狗的機緣與速度 | 人工智慧觀察
    「我們專注文檔翻譯,也是機緣巧合的關係。」曾波談到了做翻譯狗的初衷。之前曾波所在的公司,是為圖書館提供外文文獻服務的,但後來發現,這些外文文獻其實很容易在一些文庫網站上找到,而費時費力的翻譯成為了痛點。按照這個機緣,曾波團隊在2016年就做了一個初級的文獻翻譯功能,結果推出後非常受歡迎,進一步調研發現這個市場很有需求,但並沒有好的產品能夠滿足。
  • 永中雲轉換支持PPT動畫播放 文檔預覽多面賦能
    近期北京伊美爾醫療科技集團股份公司、湖南曠真律師事務所、四川鼎興數智教育諮詢有限公司等都選擇了永中雲轉換,為其網站、平臺上的文件預覽提供便利,方便用戶更快速的在其官網、平臺查看相關文件信息,文件在線打開,即點即閱、省時省力。
  • 永中軟體國際智慧教育展覽會嶄露頭角,文檔在線預覽解決方案助力卓越
    然而智慧課堂的運作,需要海量教學電子文檔作為資源支撐,為方便教師快速查閱這些電子文檔,高質完成各類教學工作,永中軟體為教育行業提供了全方位的文檔解決方案。   【永中DCS文檔在線預覽解決方案】方案優勢   高並發易集成,跨平臺更流暢   永中DCS文檔在線預覽專業解析常用辦公格式文檔,提供不同文檔格式間的相互轉換,可部署到學校、企業內部,和內部業務系統對接
  • 美國研究生費用如何從各項花費中節省開支
    美國研究生費用如何從各項花費中節省開支,在美國留學拿全獎、半獎以及自費的同學比例將會成一個三角頂立的關係。在美國留學一年的花費是留學生們都熱切關注的話題,無論有獎的還是自費的,我們都需要對一年的總花費有個詳細的了解,如何節省開支也許是最貼近我們生活的一門課程。
  • OUTLOOK不能預覽文件,因為沒有為其安裝預覽程序
    我們公司的郵箱使用的是OUTLOOK客戶端,最近出現一個問題,在郵箱中直接使用預覽文件時發現word之類的文件是可以直接查看的,但打開EXCEL時卻提示「不能預覽文件,因為沒有為其安裝預覽程序」。我的環境版本:outlook2016系統:windows 7一、開啟文檔預覽功能我的這個功能是已經開啟的,如果你的沒有開啟的話先測試開啟這個功能
  • 每年香港留學費用,要20萬嗎?香港留學費用都有那些?
    有人說,香港讀大學每年要花20萬,到底有沒有這麼多呢?二、籤證費去香港留學同樣需要辦理籤證,籤證費用不高,一般450-900港幣不等。在辦理籤證的時候需要提供存款證明,存款金額必須覆蓋到學費、住宿費、交通費、膳食費等,所以建議存款需達到15-20萬人民幣。
  • 澳洲留學費用如何節省?留學生:我有辦法
    元RMB/kg),不少澳洲留學生最後選擇在自己不用的餐盒裡種大蒜……澳洲留學,要如何節省費用呢如,中學生留學,選擇公立大學每年學費是2萬澳元,私立則在3萬以上;大學生留學,本科預科的學費每年約2-3萬澳元之間,本碩相差不大,每年在4萬澳元左右。
  • Salt 中文手冊項目公開, 增加了已翻譯文檔預覽
    Salt中文手冊項目公開, 同時增加了已翻譯文檔的預覽功能 http://t.cn/8shsk88