第四範式專欄 | 機器學習: 如何成為ML-ready的公司?

2021-03-02 機器之心

機器學習已經在商業領域展示了巨大潛力,那麼管理者如何將其納入日常決策和長期規劃?一個公司怎樣才能 ML-ready?

當你考慮在企業中應用機器學習技術時,很多問題就會出現。我的業務是否適合機器學習模型?我可以從機器學習模型中獲得什麼收益?這是一個降低成本的問題,還是增加收入的問題?我現在的數據積累足夠嗎,如果不夠的話該怎麼辦?我需要什麼樣的人才幫助我實現企業人工智慧的升級?

換句話說,如果你的企業想趕上機器學習的火車,現在應該怎麼做?

先給你一張信息表,然後我們會從 6 個步驟詳細解析。

步驟—:定義問題

應用機器學習的公司一般有兩種:一種是以機器學習模型作為企業核心業務的公司,例如今日頭條、News in Palm;另一種是通過機器學習增強現有業務流程的公司,例如抱抱通過機器學習優化主播推薦。對於後一種公司,清楚的定義問題會是第一個挑戰。無論是個性化推薦、增加活躍度還是降本增收,都應該收斂到一個點,即我們可以通過獲得正確的數據把任務變成機器學習可解決的問題。

例如,如果你想通過數據發現「高流失風險」的客戶,以此降低用戶的流失率,這就是機器學習可以解決的問題。你會擁有已經流失的用戶(這就是機器學習的標籤),流失行為背後相關的數據(例如社交媒體的活動、使用頻率等),那就可以通過機器學習算法找到用戶流失和用戶行為之間的隱藏關係。當然,這裡面更重要的問題是,當你知道這個用戶將要流失時,你準備做些什麼?機器學習可以告訴你使用什麼樣的挽留策略能拉回他。

另一個例子是提高用戶滿意度。用戶滿意度是一個主觀的指標,不同的人、場合對用戶滿意度的衡量標準都不一樣。如果要通過機器學習來預測用戶滿意度,最終的結果可能就會不理想。

定義機器學習的問題,最終可以落在兩個點上: 

從業務出發,機器學習往往致力於解決標準商業邏輯和系列規則不能解決的問題。所以在考慮是否需要機器學習的時候,不妨問問自己,當你做決策的時候,有多經常是基於經驗假設而非清晰的分析論據?

從技術出發,機器學習往往需要客觀的預測指標,例如流失率、點擊率、停留時長等。同時你也需要考慮數據反饋的周期,例如在信用卡反欺詐的任務中,盜刷後被用戶發現並提交反饋的時間往往需要 1 周甚至 1 個月,那麼系統就要考慮到負面反饋的時間。

通過機器學習強化業務流程是一個非常廣泛的領域,我們可以在內容推薦、金融反欺詐、醫療健康等各行各業都看到它的身影。

步驟二:強化業務流程

當你建立了機器學習模型,下一步便是結合模型強化業務流程。一般來說會有三個層次: 

1、描述:採集數據進行機器學習分析,通過圖表和報告描述現狀

2、預測:找到業務發展的模式,做出預測 

3、行動:結合模型預測,給出不同的解決方案 

麥肯錫曾經披露了一家國際銀行的故事,他們通過機器學習改進違約客戶相關的業務流程。通過機器學習模型,他們發現有一群平時白天使用信用卡的客戶,在晚上也在大量使用信用卡。機器學習發現該行為模式和違約風險緊密相關,在進一步的問詢後發現,這群人正在經歷某些緊張的時刻。銀行的解決方案是向這群高風險的人提供財務建議,並為他們建立新的信用額度。

步驟三:確保你的數據質量足夠好

機器學習是關於數據的科學,它從數據中獲得有價值的洞察。一般來說,使用機器學習輔助決策是避免偏見的好方法,但這比想像的更為棘手,因為它不能避免數據本身的偏見。例如 Google 最近陷入了一起爭議,在對男人和女人的廣告中,他們在男人的廣告中展示了更多高級崗位。Google 的數據科學家並沒有性別歧視,但算法背後的數據是有偏見的,因為它是從社交網絡的互動中收集上來的。

確保數據質量足夠好 

基本可以說,你所擁有的數據質量,定義了算法的質量。數據可能是嘈雜的、衝突的、有偏見的和缺失的,這會對問題解決有非常不良的影響。為了優化模型開發,你需要讓數據更匹配要解決的問題,所以在早期最好有熟悉業務的數據科學家支持,逐步開發和收集解決問題所需的數據。不過這裡需要注意的是,儘管業務決策者尋求的是具體建議和結果預測,但數據科學家往往只能提供相關的數據特徵。只有真正把數據投入到機器學習系統,才能知道最終的結果會怎麼樣。

確定最小預測準確度 

我們需要定義最小的預測準確度。不同的業務會有不同的準確度要求,例如在涉及醫療的業務中,有些任務需要高達 95% 以上的預測準確度。而在一個預測飛機票價的算法中,預測準確度高於 75% 就足以支持客戶的預定任務。

打破數據孤島,匿名化並共享數據 

數據科學家小組經常面臨一個障礙,在項目的談判階段就需要獲取數據。對於業務人員來說,了解成本是決定是否開展機器學習業務的關鍵因素,但在看不到實際數據的情況下,幾乎不可能準確估計預測準確度水平和實施價格,這往往是談判癱瘓的原因。企業高管不能將商業敏感數據交給技術公司,而技術公司在獲得數據之前幾乎無法給出明確的答案。

我們的解決方案是提供數據子集而不是整個資料庫,並將其匿名化。對於擁有數據科學家的公司,在不同的部門之間共享數據也是共同的管理挑戰。過度管制的數據策略,或者僅僅在各部門囤積數據,會大大減緩數據分析的進程。這就是為什麼要在更高層面給數據科學家和技術公司權限的原因。

好消息:即便數據不夠好,它可以修復 

即便你的數據集是凌亂的而非結構化,也有辦法獲得好的結果。今天,數據科學家已經準備好在起步階段應用一些方法,重組、清洗數據集,並進一步優化得到更好的建模效果。

但壞消息是,數據科學家可能需要相當長的時間完成數據清洗並進行到建模階段。如果你沒有專業知識,是否應該提前自己處理?一般來說是否定的,因為即便自己做了,最後的數據集也可能需要重新處理。

步驟四:彌合技術與商業願景之間的差距

如果你問數據科學家最喜歡的算法,你可能會聽到決策樹、神經網絡、邏輯回歸、Kernel 方法、主成分分析等。但是這些算法如何和商業願景結合起來?你會需要一個懂得業務和基本數據分析知識的人,他能夠在業務流程中找到機器學習能夠起作用的指標,領導數據科學計劃,擴大機器學習應用場景的選擇,調整業務和技術的願景。

一般來說有四種方法:

1、建立機器學習團隊

機器學習科學家的價格要比普通程式設計師高很多。當你打算建立一個機器學習的團隊時,一定要給他足夠的支持,因為他需要創造性的工作才能發揮作用,而這往往會和很多組織的結構發生衝突。

2、公司內專家+機器學習平臺

你可以使用公司已有的業務專家,在 1-2 個數據科學家的幫助下,就可以通過機器學習平臺解決問題。這些平臺往往擁有友好的界面,公司內部的業務專家可以通過短時間的培訓學習如何使用,這樣你就可以把數據計劃擴展到更大的專家組,解決更多的公司業務問題。利益相關,我們推薦自家的產品:第四範式先知平臺。

3、機器學習解決方案公司

現在市面上已經有一些機器學習解決方案公司了,但機器學習和傳統的編程不同,因為它需要克服信任的門檻。機器學習解決方案的任務面臨的挑戰是共享數據。根據擁有的數據類型,也許你需要以某種方法匿名化,隱藏敏感信息,例如客戶聯繫人和他們的位置。當然,當你匿名化的時候,你也要接受解決方案公司會難以使用外部數據來豐富數據集以得到更好的建模結果。

4、和大學院校、研究機構合作

大學院校、研究機構已經有很多數據科學的研究生和博士,他們大多擁有建立機器學習模型的能力。不過和高校研究機構合作的費用一般會比較貴。

步驟五:模型過時了,需要更新

大多數的機器學習模型是在靜態數據子集上開發的。一旦部署了模型,它們將會隨著時間的推移而變得過時,預測也會變得不準確。根據業務環境的變化,你應該在一段時間後更換模型,或者重新培訓,一般來說會有兩種基本方法:

因此,如果你希望機器學習的分析保持在穩定的水平,一定要及時更新機器學習的模型。

步驟六:是否需要定製的算法

定製的算法會有一些好處,例如它能夠更匹配你的數據集和要解決的問題,訓練的速度也會更快。但相對應的,它的開發和進一步迭代都價格不菲。所以如果你是一個大型企業,你可以考慮採用定製算法;如果你是中小型的企業,定製算法會帶來嚴重的財務和管理負擔。

實際上,如果是常見的預測任務,那麼現成的算法模型是可行的。通過一些成熟的算法,集成好的機器學習軟體,你可以很輕鬆的部署機器學習系統,快速解決業務流程中的問題。

無論你最終是否決定定製算法,我們都建議你先用成熟的算法試一試。

參考文章

Developing Machine Learning Strategy for Business in 7 Steps,altexsoft.

How to Make Your Company Machine Learning Ready,hbr.

「範式大學」由第四範式發起,致力於成為「數據科學家」的黃埔軍校。「範式大學系列課程」會和大家推薦戴文淵、楊強、陳雨強等機器學習領域頂尖從業人士的最新分享,以及由第四範式產品團隊推薦和整理的機器學習材料。

©本文為機器之心專欄文章,轉載請聯繫原作獲得授權

✄---

加入機器之心(全職記者/實習生):hr@jiqizhixin.com

投稿或尋求報導:editor@jiqizhixin.com

廣告&商務合作:bd@jiqizhixin.com

相關焦點

  • 對話第四範式胡時偉:讓數據科學家成為業務專家,再為他們配一支...
    這位剛剛畢業於哥倫比亞大學的90後、第四範式數據智能部最年輕的數據科學家王昱森如是向大數據文摘記者描述他的工作狀態。「我們會直接走入客戶公司,了解他們的運營模式,有點像諮詢。這也是我最喜歡第四範式的地方,給數據科學家的工作任務和美國那邊的定位很類似,偏應用端,不會做太多R&D(研發)的工作。」
  • 第四範式程曉澄:機器學習如何優化推薦系統
    9月20日晚,我們邀請到第四範式資深算法科學家程曉澄,他以「機器學習在推薦系統中的應用」為題,與大家分享了如何用機器學習來優化推薦系統相關技術問題。程曉澄是第四範式資深算法科學家、推薦系統服務算法負責人。
  • 技術專欄丨基於Core ML的通用性機器學習開發框架探索
    歡迎將TalkingData設為星標每日精彩文章等著你~機器學習不僅是目前最火的技術,同時也是人工智慧最核心的內容。機器學習是一種能讓計算機無需不斷被顯示編程,而自我學習的人工智慧技術。自 iOS 11 開始,蘋果在 iOS 系統中引入了一種全新的,直接依附於硬體平臺的機器學習框架——Core ML,該框架使機器學習模型在 iOS 系統平臺下預測推理可以快速並易於實現。藉助 Core ML,可以將已訓練好的機器學習模型,集成到自己的應用當中,以實現智能化的應用程式,提升用戶體驗等。
  • 瑞金醫院聯手第四範式,推出國內首款人工智慧糖尿病預測產品
    此前,利用圖像識別、機器學習等技術,已經有公司推出幫助醫療人員進行肺結節、乳腺癌、白內障篩查的產品。這次瑞金醫院與第四範式則希望能更近一步,希望能利用人工智慧技術將慢性病疾病的發現和幹預提前,尤其是對於一些可以預防的慢性疾病。「其實糖尿病是一個可預防的疾病。
  • 第四範式戴文淵:機器學習教科書的 7 大經典問題
    ,或者已經決定投身機器學習,你會第一時間找到各種教材進行充電,同時在心中默認:書裡講的是牛人大神的畢生智慧,是正確無誤的行動指南,認真學習就能獲得快速提升。針對這個問題,第四範式創始人、執行長戴文淵近日就在公司內部分享上,向大家介紹了機器學習教材中的七個經典問題。戴文淵是ACM世界冠軍(2005年),「遷移學習」全球領軍人物,在遷移學習領域單篇論文引用數至今仍排名世界第三。曾任百度鳳巢策略的技術負責人、華為諾亞方舟實驗室主任科學家。本文根據演講實錄整理,略有刪減。
  • 微軟《第四範式:數據密集型科學發現》中文版發布
    本書擴展了開創性計算機科學家、圖靈獎獲得者、微軟研究院技術院士吉姆•格雷(Jim Gray)的思想,基於e-Science提出了科學研究的第四範式:以大數據為基礎的數據密集型科學研究(Data-intensive Science)以及學術交流。該書從地球環境、健康醫療、科學的基礎架構以及學術交流等四大部分,對數據密集型科學研究願景進行了探討,就如何充分利用科學發展的第四範式提供了深刻見解。
  • 第四範式塗威威:AutoML 回顧與展望
    雷鋒網(公眾號:雷鋒網) AI 科技評論按,本文作者第四範式塗威威Google、 Facebook、百度、阿里巴巴、騰訊等科技公司依靠其頂尖的機器學習專家團隊來支撐機器學習在企業內部的各種應用,各類科研機構也在花費大量經費,維護著機器學習科學家團隊。然而,對於很多傳統企業、中小型企業和一般的科研機構,就很難組建出這樣的機器學習專家團隊,其原因是機器學習專家的缺口太大,人才短缺,人才搶奪激烈,專家團隊的管理成本高昂和專家經驗不可複製,等等。
  • MLflow:一種機器學習生命周期管理平臺
    MLflow通過在軟體研發中對模型進行跟蹤、重現、管理和部署,提供了一種強大的方式在組織機構內部去簡化和線性擴展機器學習的部署。 在這篇博文中,我將簡要概述MLflow所應對的挑戰,以及如何入門的初階講解。機器學習工作流的挑戰在Databricks,我們與數百家在生產環境中使用機器學習的公司合作。
  • 第四範式陳雨強:深析工業界機器學習最新黑科技
    同時,陳雨強也是AI工業應用領軍人物,在百度鳳巢任職期間主持了世界首個商用的深度學習系統、在今日頭條期間主持了全新的信息流推薦與廣告系統的設計實現,目前擔任第四範式首席研究科學家,帶領團隊研究、轉化最領先的機器學習技術,著力打造人工智慧平臺級產品」先知「。
  • 第四範式胡時偉:如何以產品化最快實現AI商業價值?| 硬創公開課
    機器學習面臨高維海量數據的現實挑戰,求解企業自建機器學習技術產品設計和工程優化是當前眾多行業從業者苦苦探索,試圖翻越的「AI鴻溝」。本次是雷鋒網(公眾號:雷鋒網)AI金融專場公開課之第三期,我們有幸邀請到第四範式聯合創始人、首席架構師胡時偉,以及產品經理周開拓來分享他帶領團隊完成AI首個全流程產品的心得。
  • 第四範式首席科學家楊強教授:人工智慧的下一個技術風口與商業風口
    作為第四範式首席科學家、範式大學的導師,楊強教授近日在第四範式公司內部進行了一場主題為「人工智慧的下一個三年」的培訓,深入淺出地分享了自己在人工智慧產業推廣上的經驗,並預判了人工智慧即將爆發的技術風口與商業風口。此前,楊強教授與第四範式曾提出人工智慧的五個必要條件,為人工智慧行業提供了權威的準入標準。以下內容根據楊強教授主題演講編寫,略微有所刪減。
  • 第四範式率先發布XGBoost++,輕鬆切換AI異構算力
    近日,第四範式宣布將推出兩項算力黑科技:XGBoost++和pyGDBT。XGBoost是AI開發者所熟知的工具,XGBoost++可以在前者的基礎上,只修改一行代碼,即可輕鬆切換到異構計算模式,享受軟硬一體技術帶來的極致算力升級。
  • 談談機器學習的趨勢 - 新三大學習範式
    引 言機器學習/深度學習是一個廣闊的研究領域,說來並不年輕,但又朝氣蓬勃,似乎每天都在湧現大量的新方法和新技術。一般來說,傳統的機器學習可以分為三個基本學習範式,即監督學習、無監督學習以及強化學習。
  • 第四範式論文獲《Nature Commuciations》收錄
    近日,國際頂級學術期刊《Nature Communications》收錄了一篇人工智慧×生物化學的論文——《Discovering de novo peptide substrates for enzymes using machine learning》,該論文提出了利用機器學習方法研究生物化學的方法和成果
  • 36氪專訪|第四範式陳雨強:AI落地難?95%的問題出在數據形式上
    誰是第四範式?在人工智慧行業之外,第四範式的面目尚有些模糊。特別是在「視覺識別」幾乎成為 AI 代名詞的當下,人們驚嘆於商湯、曠視等「AI 四小龍」超強的融資能力,也多少聽聞 AI 在攝像頭、晶片、機器人等場景的落地。
  • 《第四範式:數據密集型科學發現》中文版圖書正式發布
    10月23日,《第四範式:數據密集型的科學發現》中文版圖書在中國科學院國家科學圖書館正式發布。微軟研究院的《第四範式:數據密集型的科學發現》(The Fourth Paradigm: Data-intensive Scientific Discovery)是第一本、也是至今為數不多的從研究模式變化角度來分析「大數據」及其對革命性影響的專著。
  • 564 頁《Hands-On Machine Learning》已開源,機器學習入門必備!
    點擊上方「深度學習專欄
  • 第四範式首席科學家楊強:AlphaGo的弱點及遷移學習的應對
    在這篇文章中,機器之心整理了第四範式首席科學家、香港科大計算機科學與工程系主任楊強在大會第二天發表的主題為《遷移學習研究的最新進展》的演講。楊強,第四範式聯合創始人、首席科學家。楊強教授在人工智慧研究領域深耕三十年,是國際公認的人工智慧全球頂級學者,ACM 傑出科學家,兩屆「KDD Cup」冠軍。
  • 機器學習|劉老師專欄—從邏輯回歸到支持向量機(一)
    劉老師專欄,今天分享的是從邏輯回歸到支持向量機解決分類問題的思路,算法理論知識固然重要,但更值得學習的是解決問題的思考方式,仔細欣賞劉老師的分享吧~請戳:機器學習|劉老師專欄——機器的「是非觀」機器學習|劉老師專欄——機器學習與是非題(二)機器學習|劉老師專欄——關於邏輯回歸的更多思考
  • 吳恩達:機器學習畢業後,如何規劃職業生涯才能成為「老司機」?
    本文包含四部分內容:1、如何找到機器學習工作2、成功的AI從業者模式3、如何選擇工作4、機器學習生涯需要避免的誤區註:本文適用於大多數處於不同職業階段的機器學習從業者。我們首先了解如何找到工作。1如何找到機器學習工作機器學習工作競爭激烈,但是招聘公司心目中的理想候選人是什麼呢?吳恩達擁有多年AI團隊工作的經驗,他曾經擔任谷歌大腦團隊的負責人,斯坦福人工智慧實驗室的負責人,以及百度約1200人的AI團隊的總負責人。