六條規則讓你的ML模型部署的更快

2020-11-24 雷鋒網

字幕組雙語原文:六點規則讓你的ML模型部署的更快

英語原文:Six Rules for Deploying your Machine Learning Models Faster

翻譯:雷鋒字幕組(yhfwww)


數據科學和機器學習幾乎可以改善組織的任何方面,但前提是你的想法得到利用。在過去的一年中,我們學到了很多關於更快地構建和部署機器學習模型的知識,我們想分享一些我們在這裡學到的東西。

圖:《棕色田野上奔跑的獵豹》 來自《Unsplash》,作者Cara Fuller

形勢

在我們的組織中,我們需要儘快從我們的分析投資中獲得回報。我們需要更快地將機器學習模型應用到生產中。最重要的是,我們不想讓偉大的想法停留在紙面上,只能等著被使用。

傳統上,我們將為每個數據產品構建為定製解決方案。每個定製解決方案之間幾乎沒有重用。我們需要的是一條生產數據產品的流水線。

因此,我們建立了一條流水線來構建、測試和部署數據產品,我們稱之為機器學習平臺。有了它,我們現在可以在幾分鐘內將模型部署到生產環境中。我們不再需要等那麼長時間才能享受分析投資的回報。

一路上我們學到了什麼

在這個過程中,我們學習了一些關於如何安全、快速地構建、測試和部署機器學習模型的重要規則。這些規則改變了我們的工作方式,希望您會發現它們對您和您的組織有用。

1.採用自助服務

在我們的機器學習平臺存在之前,數據科學家創建的模型將交給IT部門,這樣他們就可以為每個模型創建數據管道和模型部署環境。有些模型在部署之前甚至被重寫成另一種語言。

我們構建了機器學習平臺,為模型構建者提供了通過內部模型管理流程自主部署模型的能力。自助服務是提高速度的關鍵。

2.使用容器從基礎設施中提供抽象

容器提供了一種很好的隔離和模型版本管理的方法。如果您的組織使用標準伺服器負載,您可能會發現很難在該標準伺服器上安裝依賴項和構件。容器解決了這個問題。可能伺服器管理員安裝程序包的時間太長。容器也能解決這個問題。您可能需要託管同一模型的新版本和舊版本一段時間,每個版本都需要一組不同的依賴關係。容器也有助於版本控制策略。

您的企業可能是全雲的,有雲的,或者沒有雲的,但是即使您當前沒有使用雲,您也可能在考慮它。容器非常輕便。如果您採用基於容器的方法,您可以在本地或雲上的任何地方運行這些模型。

3.數據科學家需要關心代碼質量。

讓您的數據科學家能夠自助服務地將模型部署到生產環境中,同時還要負責編寫產品質量代碼。

這可能意味著你的模型構建團隊必須提升他們的軟體工程水平。了解一點Python語法並調用API並不能使您成為一名優秀的軟體工程師。當您構建組織將在生產系統中使用的軟體時,軟體質量至少與數據和模型質量同等重要。

這可能意味著採用諸如測試驅動開發和代碼評審之類的實踐。這可能意味著嘗試配對編程。在使用notebook時,您應該仔細考慮如何以及何時使用筆記本,以及對軟體質量的影響。幸運的是,這些模式在軟體工程界是眾所周知的,並且非常適合大多數團隊。

4.如果它不是自動化的,那它就還沒完成。

平臺的速度和穩定性都依賴於模型部署平臺和過程的自動化。如果你想更快,那就毫不妥協地採用自動化。在我們的機器學習平臺上,我們已經自動化了整個模型生命周期。持續集成和持續交付推動了平臺上的模型測試和模型部署。

我們還自動化了底層平臺基礎設施的配置和部署。在這樣做的過程中,我們的團隊學會了將這些自動化虛擬機視為一次性資源。沒有人登錄到伺服器進行管理,所有管理任務都是自動化的。這意味著無論我們擴展多少,每個伺服器都是一致配置的。我們沒有升級伺服器,而是用新的基礎設施自動重新部署平臺。

5.構建一個支持模型整個生命周期的平臺。

到目前為止,我主要關注構建、培訓和部署,但這只是機器學習模型生命周期的第一部分。許多型號都會逐漸變差,隨著時間的推移性能會下降。部署的模型需要監控和調整。每個部署的模型都應該記錄所有的輸入、輸出和異常。模型部署平臺需要提供日誌存儲和模型性能可視化。

在我們的機器學習平臺上,每個模型將每次執行記錄為一個通用格式。每個託管模型應用程式都以一種通用的方式發出日誌。我們路由和存儲這些日誌,使用它們監視模型性能並幫助識別模型漂移。最後,我們會自動創建模型儀錶板,以提供關於每個模型如何執行的額外見解。

密切關注模型性能是有效管理機器學習模型生命周期的關鍵。不能忽視模型監視作為模型整個生命周期的一部分。

6.標準化開發方法

軟體工程師已經提出了很棒的方法和設計模式,我們可以用它們來構建可移植的和有彈性的應用程式。如果您的模型構建者知道這些方法,那麼其中許多方法可以很容易地適應機器學習應用程式。利用外面的東西。

機器學習平臺的非官方座右銘 -    noShelfWare

分析結果

將這六條規則結合起來有助於我們更快地獲得結果,我希望它們也能幫助貴公司。數據科學應該是創造有影響力的軟體。白皮書、儀錶盤、詞雲和餅圖再也不能削減開支了,如果他們真的這樣做的話。取得成果需要很困難的工作。

這不是一條容易的路。史蒂夫·賈伯斯說:「偉大的創意和偉大的產品之間還有著大量的工程步驟。」要想快速進入市場,你可能需要戴上DevOps的帽子。這意味著你的團隊可能需要提升他們的軟體工程技能。

但是,這是值得的。過去有時需要12個月的時間,現在在我們公司只需要幾分鐘。更重要的是,我們不是在構建分析書架軟體。


雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊,匯聚五百多位志願者的力量,分享最新的海外AI資訊,交流關於人工智慧技術領域的行業變革與技術創新的見解。

團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT諮詢人、在校師生;志願者們來自IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。

雷鋒網(公眾號:雷鋒網)雷鋒網

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 陳天奇創業公司首個SaaS產品:快速構建部署ML應用,跨平臺優化
    該公司致力於打造一個可擴展、開放、中立的端到端棧,用於深度學習模型的優化和部署。這不,他們推出了首個 SaaS 產品 Octomizer,其能夠幫助開發者或數據科學家更方便、更省事省力地將 ML 模型部署到設備上。
  • 使用Flask部署機器學習模型
    和我之前的許多人一樣,我被模型整個生命周期的構建所吸引。我和領域專家談過,項目經理和所有相關人員確保他們的投入被包括在模型中。但後來我遇到了一個障礙——我到底該如何把我的模型交給我的客戶呢?我不能給他們一個Jupyter notebook!我所學的一切都集中在模型構建組件上。沒有多少人會談論如何部署你的機器學習模型。把你的模型投入生產意味著什麼?它需要什麼?
  • 從模型到部署,FPGA該怎樣加速廣告推薦算法
    機器之心專欄作者:雪湖科技 梅碧峰在這篇文章裡你可以了解到廣告推薦算法 Wide and deep 模型的相關知識和搭建方法,還能了解到模型優化和評估的方式。我還為你準備了將模型部署到 FPGA 上做硬體加速的方法,希望對你有幫助。閱讀這篇文章你可能需要 20 分鐘的時間。早上起床打開音樂 APP,會有今日歌單為你推薦一些歌曲。
  • 十分鐘,小白的我用亞馬遜雲服務(AWS)的SageMaker訓練了一個ML模型
    在Amazon SageMaker這裡,用戶只需要帶著自己的算法和代碼,以及準備好的數據,就能在這裡開始訓練並部署模型了,看起來就像拎包入住。即便是沒有自己的算法和代碼,也沒有數據,也可以和我一樣利用SageMaker自帶的demo體驗一把。
  • 壞死性小腸結腸炎(NEC)大鼠模型的建模方法
    來源:人工餵養以及缺氧和冷刺激誘導的新生兒壞死性小腸結腸炎模式動物品系:SPF級新生SD大鼠,2日齡實驗分組:實驗分六組:正常對照組、模型組、陽性藥組、受試藥組三個劑量組實驗周期:1~2 weeks新生大鼠出生48h內母乳餵養,自由攝食,與母鼠同籠;出生後48h隨機分成模型組和對照組。對照組新生大鼠出生48h後繼續與母鼠同籠,鼠乳餵養,不進行缺氧冷刺激。
  • 使用 ML.NET 識別樂高顏色塊
    你猜對了 - 建立一個程序使用 ML.NET 來識別樂高的顏色塊。使用時,我們需要定義輸入和輸出模型(分類器提供分類結果)。在此之後,我們創建訓練管道,最後,使用數據進行訓練以創建模型。the model mlModel = trainingPipeline.Fit(trainingDataView);}現在,使用這個訓練模型,我們可以嘗試對一個新圖像進行分類。
  • 優思學院|六西格瑪 和 思維模型
    六西格瑪發展近三十年,至今仍然有不少人前僕後繼地學習,或者希望鳸為綠帶、黑帶。在六西格瑪的知識當中,很多概念也成為管理者日常的用語,甚至成為他們的經常使用的思維模型。
  • 谷歌機器學習白皮書全解析 43條黃金法則(一)
    2.0 機器學習第一階2.1 你的第一條流水線對於第一條流水線,關注你的系統基礎設施。雖然,設想你將要做的種種 ML 應用很有趣;但如果你無法信任自己的流水線,你會很難搞清楚狀況。4. 第一個模型要簡單,把基礎設施弄好第一個模型為你的產品提供了最大的助力,所以它不需要花哨。
  • 洛基英語培訓好不好 站在網友的立場為你分享六條英語學習經驗
    川北在線核心提示:原標題:洛基英語培訓好不好,站在網友的立場,為你分享六條英語學習經驗! 其實,一個培訓機構好與不好不是很重要,相對於學習者本身來說,自身比什麼都重要。但就客觀來說,個人認為洛基英語還算可以。
  • 運動員的大腦比你更快!
    1913年經顧拜旦提議,經國際奧委會批准,奧林匹克的憲章中寫明:「更快,更高,更強」是奧林匹克運動宗旨。用我們的話說,那就是三個字:快,準,狠。一個運動員只要達到了這三點,才有可能獲得獎牌。而這三點的達到,不僅僅是有一身的肌肉就可以的,還需要人體神經系統的高度發達才能實現。今天就讓我們了解下大腦是如何達到「快」的目標的。如何快速反應?
  • 肺氣腫大鼠模型的建模方法
    實驗分組:實驗分六組:正常對照組、模型組、陽性藥組、受試藥組三個劑量組。實驗周期:4-6 weeks建模方法:10%水合氯醛麻醉大鼠,行氣管插管,用1ml注射器抽吸事先配製的8%木瓜蛋白酶液(0.5ml/kg BW)注入,而後將大鼠直立,垂直旋轉大鼠,使藥物在肺內均勻分布
  • 更快的計算,更高的內存效率:PyTorch混合精度模型AMP介紹
    這篇文章是關於利用Tensor Cores和自動混合精度來更快地訓練深度學習網絡的。什麼是Tensor Cores?根據NVIDIA網站的介紹:NVIDIA Turing和Volta GPU由Tensor Cores提供支持。Tensor Cores是一項革命性技術,可提供開創性的AI性能。
  • CityEngine:送你一場機遇,就看你能不能把握了!
    02軟體說明影視場景製作不曾局限於個別領域在高瞻遠矚的部署上它想要佔領城市製作的所有市場軟體說明很長一段時間裡,大家一直都以為 CityEngine是一款製作數字城市、城市規劃、軌道交通、電力、管線、建築、國防等「學院派」「科學研究派」的軟體。
  • 騰訊代理 《彩虹六號:圍攻》國服官網已部署
    原標題:騰訊代理 《彩虹六號:圍攻》國服官網已部署   近日,有細心的網友發現騰訊發布了育碧旗下熱門FPS作品《彩虹六號:圍攻》的官網。   目前看來,官網已進行了伺服器後端部署,只差再掛上主頁。
  • 林肯飛行家,靠什麼打破既定規則?
    比如林肯成為了第一個進入國航主要國內航線兩艙的汽車品牌,所有搭乘北上成深等大流量國航頭等艙和商務艙的旅客,除了在機內屏幕裡能看到全新林肯廣告,還會收到由林肯打造的「靜謐之包」,其中有讓旅客更快掃除疲勞、進入靜謐狀態的必要物品,還有一套關於林肯品牌「靜謐之旅」的品牌卡片;比如前兩天林肯和樂高合作打造了亞洲首款1:1樂高車模,用120萬塊樂高、耗時3200小時打造了一臺林肯
  • 女孩獻血200ml卻被抽了400ml 血站:工作失誤
    42歲的眉縣女子王玲玲說,本打算無償獻血200ml,卻在獻血過程中覺得頭暈、噁心時,才被告知「已經到330ml」了。最終,她獻完400ml後下車時吐了。而寶雞市中心血站稱,護士會鼓勵獻血400ml,但不會強迫,同時承認護士採血過程中「有失誤。」
  • 科比小威率領ZOOM速跑戰團 帶你挑戰更快
    不論這是你跑出的第一個一英裡還是刷新個人記錄,任何人都能跑得更快。活動的重頭戲是一系列短片,其中有13位世界頂級運動員亮相。「就是這麼快」ZOOM速跑戰團「我學習新事物非常快。之前我曾跟卡梅隆一起打遊戲,僅僅玩了一次之後,我再跟他一起玩的時候就總能打敗他。」
  • 贏家很少分享的六條基本法則
    我們都仰望強者,一個贏了無數錢的賭徒,向大家傳授賭桌上的經驗,口若懸河,滔滔不絕,首先他不會跟你講他「出老千」的細節,也不會告訴你他是莊家的同謀,只是一味地鼓勵你,「大家要勇敢,大家要果斷」。我們也不會真的認真聽他在講什麼,早已經被他的成功和他所贏得的巨額金錢蒙蔽了雙眼和耳朵,只聽到「勇敢果斷地衝」,大家紛紛跟上。
  • 28條英語單詞自然發音的拼讀規則
    「音標」是英語學習的第一步,你能正確發音嗎?下面分享單詞自然發音的28條拼讀規則,快收藏備用!01 。 字母q總是與u在一起,讀做/kw/, 此處u不作元音。02 。 字母c在字母e, y, i前讀做/s/ (cent, city, cycle), 其他字母前讀做/k/(cut, cap, cop)。
  • 威士忌儀式感|良好品鑑體驗的6條基本規則
    本文經麥芽威士忌生活授權轉載,原標題《威士忌儀式感 | 良好品鑑體驗的6條基本規則》,作者:老酒貓,未經允許請勿轉載。除了到酒吧點酒,相信大家也經常會把好友邀請到家中小酌兩杯。規則三:少即是多就算對自己的酒量很有信心,在品鑑時也不要一次性喝掉太多,不然剛嘗了幾款酒就已經半醉,味覺的靈敏度也會因此下滑。在每次品鑑時,即便家裡的收藏很多,也儘量將酒款數量控制在5到6種左右,保證最佳效果。規則四:正確的品飲順序就像西餐中的開胃-前菜-主菜-甜點的順序一樣,品飲威士忌也應當遵循由淺入深、由淡到重的原則。