谷歌機器學習白皮書全解析 43條黃金法則(四)

2021-01-10 雷鋒網

編者按:此白皮書為谷歌總結的機器學習(ML)最優實踐方法,濃縮了其多年技術積累與經驗,尤其是 YouTube、Google Play 和 Google+ 等平臺背後的 ML 算法開發、維護經歷。谷歌於白皮書中總結了四十三條 ML 黃金法則,旨在幫助已經掌握了基礎知識的開發者少走彎路。本文上接雷鋒網"谷歌機器學習白皮書全解析 43條黃金法則(三)"

4.0 機器學習第三階4.1 減慢的增速,精細優化和複雜模型

第二階段將要結束的時候,一定會有些信號。首先,你每月的收益開始降低。你開始要在指標之間做犧牲:一些試驗中有的上升有的下降。從此情況變得更有趣。由於更難產生效益,機器學習不得不變得更複雜。

警告:這部分有許多開放式的實踐法則。我們親眼看著很多團隊走過第一階段和第二階段的幸福期——一旦到達第三階段,開發團隊就不得不找出他們自己的路。

38. 如果目標之間不搭,並成為問題,就不要在新特徵上浪費時間

當達到度量瓶頸,你的團隊開始關注 ML 系統目標範圍之外的問題。如同之前提到的,如果產品目標沒有包括在算法目標之內,你就得修改其中一個。比如說,你也許優化的是點擊數、點讚或者下載量,但發布決策部分依賴於人類評估者。

39. 模型發布決策是長期產品目標的代理

(雷鋒網註:谷歌工程師在這裡舉了個例子)Alice 有一個關於降低安裝預測的邏輯損失的想法。她加入一個特徵。邏輯損失下降。當她實時測試時,安裝量上升了。但在公司的發布會議上,有人指出每日活躍用戶數降低了 5%。團隊決定不發布該模型。Alice 很失望,但意識到發布決策取決於多個標準,其中只有一部分能夠被 ML 直接優化。

事實是,現實世界並不是網路遊戲:沒有「攻擊值」和「血量」來衡量產品的健康。團隊需要利用收集的數據,來試圖預測將來系統的表現會怎樣。他們需要操心用戶黏性、每日活躍用戶、每月活躍用戶、收入和廣告主的收益。這些 A/B 測試中的指標,實際上只是長期目標的代理:讓用戶滿意、增加用戶、讓合作方滿意還有利潤;即便這時你還可以考慮高品質、有使用價值的產品的代理,以及五年後一個繁榮的企業的代理。

做出發布決策變得容易的唯一一種情況是:所有指標都變好了(起碼沒有變差的)。如果團隊在複雜 ML 算法和簡單啟發式算法之間有的選擇;如果簡單的啟發式算法在這些指標上做得更好;那麼應當選擇後者。另外,所有指標數值並沒有明確的排序。更具體的,考慮以下兩種情形:


雷鋒網註:標題欄(自左至右)為試驗,每日活躍用戶以及每日收入

如果現有系統是 A ,團隊不會想要轉移到 B。如果現有系統是 B,團隊也不會想要轉到 A。這看起來與理性決策相牴觸:但是,對指標變化的預期情形或許會發生,或許不會。因此任意一種改變都有相當大的風險。每一個指標覆蓋了一些團隊所關注的風險。但沒有指標能覆蓋團隊的首要關切——「我的產品在五年後會怎樣?」

另一方面,個體傾向於選擇能直接優化的目標。大多數 ML 工具喜歡這樣的環境。這樣的環境下,一個能快速創建新特徵的工程師能穩定輸出一系列產品發布。有一種叫「多目標學習」(multi­objective learning)的機器學習開始解決這一問題。比如說,可以制定一個在每個指標上有下限的約束滿意度問題(constraint satisfaction problem),然後優化指標的一些線性組合。但即便那時,也不是所有指標都能輕易表達為 ML 目標:如果一個文件被點擊,或者 APP 被安裝,這是因為有內容被展示出來。但搞清楚用戶為什麼訪問你的頁面就更加難了。如何預測一個頁面在將來是否成功,是一項 AI­-complete 問題(雷鋒網(公眾號:雷鋒網)註:意味著完成它的難度相當於解決 AI 問題),與計算機視覺和自然語言處理一樣難。

40. 保證集成模型(ensemble)的簡潔

接收原始特徵、直接對內容排序的統一模型,是最容易理解、最容易修補漏洞的模型。但是,一個集成模型(一個把其他模型得分組合在一起的「模型」)的效果會更好。為保持簡潔,每個模型應該要麼是一個只接收其他模型的輸入的集成模型,要麼是一個有多種特徵的基礎模型,但不能兩者皆是。如果你有單獨訓練、基於其它模型的模型,把它們組合到一起會導致不好的行為。

只用簡單模型來集成:那些只把基礎模型的輸入作為輸出、進行接收的模型。你或許想要為這些集成模型強加上屬性。比如,基礎模型生成得分的提高,不應該降低集成模型的分數。另外,如果連入模型在語義上可解釋(比如校準了的)會更好,這樣其下層模型不會與集成模型混淆。再者,強行讓下層分類器預測的概率升高,不會降低集成模型的預測概率。

41. 當性能達到瓶頸,相比精煉現存信號,不如尋找新性質(qualitatively)的信息源

你已經加入了一些關於用戶的人口統計信息,還有文件中的詞語。你經歷了模板探索,和正則化(regularization)調參。但連續幾個季度的發布,你都沒有看到核心指標有超過 1% 的提升。現在怎麼辦?

你已經到了為不同尋常(雷鋒網註:很不一樣)的特徵,創建基礎設施的時候了。比如用戶昨天、上周、去年檢索的文檔,或是另一種屬性的數據。為你的公司使用維基數據(wikidata)實體或者一些內部的東西(比如谷歌的知識圖,Google’s knowledge graph)。你或許需要使用深度學習。開始調整你對投資回報的期望,並作出相應努力。如同所有工程項目,你需要平衡新增加的特徵與提高的複雜度。

42. 不要期望多樣性、個性化、相關性和受歡迎程度之間有緊密聯繫

一系列內容的多樣性能意味著許多東西,內容來源的多樣性最為普遍。個性化意味著每個用戶得到屬於他們自己的結果。相關性意味著一個特定檢索的結果,對應它比對應其他檢索更合適。因此,這三個屬性的定義都有別於「標準」。

但標準更難被打敗。

注意:如果你的系統在統計點擊量、耗費時間、瀏覽數、點讚數、分享數等等,你事實上在衡量內容的受歡迎程度。有團隊試圖學習具備多樣性的個性化模型。為個性化,他們加入允許系統進行個性化的特徵(有的特徵代表用戶興趣),或者加入多樣性(表示該文檔與其它返回文檔有相同特徵的特徵,比如作者和內容),然後發現這些特徵比他們預想的得到更低的權重(有時是不同的信號)。

這不意味著多樣性、個性化和相關性就不重要。如同上個法則所指出的,你可以通過後處理來提高多樣性或相關性。如果你看到長期目標的進步,那麼你可以宣布在受歡迎程度之外,多樣性和相關性是有價值的。你可以繼續採用後處理,或者直接根據多樣性或相關性修改目標。

43. 不同產品中,你的朋友總是同一個,你的興趣不會如此

谷歌的 ML 團隊  常常把一個預測某產品聯繫緊密程度(the closeness of aconnection in one product)的模型,應用在另一個產品上,然後發現效果很好。另一方面,我見過好幾個在產品線的個性化特徵上苦苦掙扎的團隊。是的,之前看起來它應該能奏效。但現在看來它不會了。有時候起作用的是——用某屬性的原始數據來預測另一個屬性的行為。即便知道某用戶存在另一個屬性能湊效的歷史,也要記住這一點。比如說,兩個產品上用戶活動的存在或許就自身說明了問題。

全文結束。感謝您對雷鋒網的支持。谷歌白皮書原文地址:http://martin.zinkevich.org/rules_of_ml/rules_of_ml.pdf

相關文章:

谷歌機器學習白皮書全解析 43條黃金法則(三)

谷歌機器學習白皮書全解析 43條黃金法則(二)

谷歌機器學習白皮書全解析 43條黃金法則(一)

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 谷歌大神Jeff Dean對話Talking Machine:我們要推動機器學習再上一...
    是谷歌首席架構師、谷歌研究院的高級研究員,也是谷歌的人工智慧團隊谷歌大腦(Google Brain)的負責人。身披華盛頓大學博士、美國工程院院士、ACM(計算機協會) fellow、AAAS(美國科學促進會)fellow名譽的Jeff Dean在谷歌負責過許多大型項目,支持谷歌運行的超大規模計算框架MapReduce和機器學習的標誌性軟體TensorFlow就是在他的領導下開發的。
  • 手把手:用Python搭建機器學習模型預測黃金價格
    大數據文摘作品編譯:小明同學君、吳雙、Yawei xia新年總是跟黃金密不可分。新年第一天,讓我們嘗試用python搭建一個機器學習線性回歸模型,預測金價!自古以來,黃金一直作為貨幣而存在,就是在今天,黃金也具有非常高的儲藏價值,那麼有沒有可能預測出黃金價格的變化趨勢呢?
  • 機器學習的智慧財產權問題
    本白皮書探討了機器學習模型的哪些方面將受到智慧財產權法律的保護。儘管由機器學習驅動的業務越來越受到青睞,但一些公司可能不願意在數據收集和模型構建方面進行必要投資,因為他們擔心競爭對手會竊取勞動果實。一直以來,非實物資產創作方面都有專利或版權之類的智慧財產權保護。但是,在法律領域中,關於智慧財產權如何保護機器學習以及具體涵蓋哪些方面,仍然是一個頗具爭議的問題。本白皮書闡述了機器學習智慧財產權(IP)方面的法律背景和挑戰。
  • 谷歌AutoML鼻祖新作AutoML-Zero:從零開始構建機器學習算法
    【新智元導讀】市面上的自動機器學習算法多如牛毛,但並沒有得到很好的普及,因為這些算法限制了搜索的空間,很多研究者還是需要自己設計機器學習模型的結構,而谷歌此次發布的AutoML-Zero搜索空間完全沒有限制,可以從最基礎的數學公式開始。「新智元急聘主筆、編輯、運營經理、客戶經理,添加HR微信(Dr-wly)了解詳情。」
  • 機器學習之分類算法K-Means介紹與代碼分析(篇四)
    保險欺詐檢測機器學習在欺詐檢測中也扮演著一個至關重要的角色,在汽車、醫療保險和保險欺詐檢測領域中廣泛應用。利用以往欺詐性索賠的歷史數據,根據它和欺詐性模式聚類的相似性來識別新的索賠。由於保險欺詐可能會對公司造成數百萬美元的損失,因此欺詐檢測對公司來說至關重要。
  • ...Vision平臺,訂製化的企業級機器學習模型不再是難題
    然而企業總是會有自己專屬的需求的,越來越多的企業會不再滿足於預定義好的功能,而想要設計和應用更加自定義化的機器學習模型。今天,在谷歌雲首席科學家李飛飛和谷歌雲研發負責人李佳合著的這篇谷歌雲博客中,她們就正式宣告了谷歌雲 AutoML 平臺的面世。在這裡,構建、訓練和部署自定義的機器學習模型也變得簡單方便,甚至對機器學習不甚了解的企業也可以構建自己的人工智慧系統。
  • TensorFlow最出色的30個機器學習數據集
    個機器學習數據集英語原文:30 Largest TensorFlow Datasets for Machine Learning翻譯:雷鋒字幕組(chenx2ovo)TensorFlow是由谷歌大腦的研究人員創建、最大的機器學習和數據科學的開源資料庫之一。
  • 2020年中國面向人工智慧「新基建」的知識圖譜行業白皮書
    全文共計1379字,預計閱讀時間8分鐘日前,認知智能國家重點實驗室&艾瑞諮詢聯合發布《2020年面向人工智慧「新基建」的知識圖譜行業白皮書》。白皮書從善政、惠民、興業、智融四個部分對知識圖譜技術在其他行業中的代表性應用場景進行梳理,對知識圖譜未來的發展和應用做出展望,同時對人工智慧「新基建」下,城市數位化、智慧化發展的創新場景進行展示。
  • 谷歌AI模型在即時預報降水的使用
    據外媒報導,幾周前,谷歌人工智慧(AI)使用了一個機器學習模型來改進對乳腺癌的篩查工作。谷歌 AI 研究人員在一篇名為《Machine Learning for Precipitation Nowcasting from Radar Images》的文章中提到了其在降水短期預測中對 CNN 的利用。
  • 《令人心動的Offer2》扎心真相:養女兒的3條黃金法則
    也讓我們看到了養女兒的3條黃金法則。 1 法則一 培養女孩的「主動性」 2 法則二 培養女孩的「樂觀」心態
  • 揭秘拉麵背後的機器學習技術
    揭秘拉麵背後的機器學習技術 我們期待通過谷歌麵館這一互動體驗,激發更多開發者與 TensorFlow 開原始碼社區一起,用技術創造更多超乎想像的可能性,探索更非凡的交互體驗。話不多說,一起點擊 2020 Google 開發者大會官網把面拉起來!
  • 5種雲計算所需的機器學習技能
    轉載自 雲計算D1net 原創 Dan Sullivan機器學習和人工智慧將會繼續深入IT服務領域,並為軟體工程師開發的應用程式提供補充。如果IT團隊想跟上發展步伐,就需要提高他們的機器學習技能。
  • 新浪曹宇翔發布2019健康白皮書:抑鬱症等十大健康話題網友最關心
    學術年會上,新浪微熱點大數據研究院首席營銷官曹宇翔發布了《2019健康行業網絡白皮書發布》,並分別從四個部分分析健康相關問題。健康相關博文全年共6.3億條 5月達到峰值據曹宇翔介紹,根據新浪微熱點大數據研究院統計,2019年全年,微博平臺由網友自發性傳播發布健康相關的博文共6.3億條。
  • 連續13年戰勝市場、21個選股案例:彼得·林奇的25條黃金投資法則
    最被人津津樂道的自然是《戰勝華爾街》一書,以及他25個黃金投資法則。這是繼《彼得林奇的成功投資》之後,《戰勝華爾街》是林奇專門為業餘投資者寫的一本股票投資策略實踐指南。關於林奇本人是如何具體實踐自己的投資方法,如何選股,如何管理投資組合,從而連續13年戰勝市場的。
  • 機器學習與內部威脅
    機器學習和人工智慧也開始以行為分析的創新者出現在很多產品的技術白皮書上,試圖成為新一代信息安全領域的智能專家解決方案。為什麼機器學習在檢測內部威脅方面能發揮很大作用呢?機器學習恰好就是這樣一種可以很好地處理這樣的業務場景,在如此之大的數據集上建立基線並據此找到異常的有效方法。
  • 21條知人識人黃金法則
    然,我們的古之聖賢早已回答了這個問題,提出了放之四海而皆準的識人用人法則。知人」八觀六驗「法則通則觀其所禮,貴則觀其所進,富則觀其所養,聽則觀其所行,近則觀其所好,習則觀其所言,
  • 與心儀異性初約會的四條法則
    前面我們講了如何讓你心儀的異性對你一見鍾情,這只是完成遊戲通關的第一步,真正決定你們是否成為戀人的關鍵在於前三次約會,尤其是第一次約會非常關鍵,這裡有關於約會的四條建議可以助你約會成功。1.什麼是最合適的約會時機?
  • 合生元奶粉展現冠軍級護娃秘籍,帶你Get三大黃金法則
    換季時節,寶媽的帶娃之路難免難題不斷,合生元奶粉攜手保護大使、冠軍新媽何雯娜再度上線直播營業,為寶媽們傳授冠軍級換季護娃秘籍,三大黃金法則教你輕鬆打造寶寶冠軍級體質。換季護娃到底要怎麼做才好?「三大黃金法則」等你Get。
  • 亞馬遜雲服務(AWS) 為機器學習擴圈 觸及每一位AI工作者
    」據德勤發布的《全球人工智慧發展白皮書》預測,到2025年,世界人工智慧市場規模將超過6萬億美元。面對數字經濟的發展機遇,多個國家和地區已將人工智慧列為優先發展的國家戰略。2020年11月21日,國家工業信息安全發展研究中心在《2020人工智慧與製造業融合發展白皮書》中指出了目前融合存在的諸多難點,其中人才匱乏問題尤為嚴重。而人社部官網的報導中測算,目前我國人工智慧人才的缺口超過500萬,國內的供求比例為1:10,供需比例嚴重失衡。
  • 機器學習吧面向ai的中文機器學習資源與分享平臺
    機器學習吧,機器學習吧-面向ai的中文機器學習資源與分享平臺。裡面涵蓋了比較新的機器學習算法,可以看看。當然這僅僅是入門級的機器學習算法,下面會引入深度學習算法的文章。並且機器學習算法的理論比深度學習算法更加複雜,這裡有深度學習算法的專題篇。不管從什麼角度看,機器學習都是一個非常好的方向,希望你對機器學習有更多的了解。謝邀,想先通過搜尋引擎試試看能不能找到一些可以學習的資料。