機器教學:用人類的專業知識與經驗指導機器學習

2021-02-15 微軟研究院AI頭條


編者按:隨著AI應用的場景越來越豐富,加上數據量小、任務複雜等種種實踐中可能出現的挑戰,有時機器學習的結果並不理想,而且效率低下。而我們人類擁有豐富的專業經驗,為什麼不向機器傳授一些小訣竅呢?為此,微軟研究院推出了一種輔助方法——「機器教學」(Machine Teaching),人類可以利用自己的專業知識和經驗幫助AI進行更有針對性的學習,幫助強化學習算法更快地找到解決方案。本文編譯自微軟人工智慧博客「Machine teaching: How people’s expertise makes AI even more powerful」。

微軟商業人工智慧事業部總經理、Bonsai公司前執行長Mark Hammond

我們今天的機器學習過程,某種程度上就像把一根球棒和一隻棒球交給五歲小朋友,向他展示球棒和棒球之間無數種使用方法,然後期望他自己體會出打棒球的正確方式——我們向機器展示海量的數據,希望它能自己找到其中的關聯和模式。這對簡單的文本、圖像識別等常見的AI技術來說非常有效,但隨著AI應用的領域和場景越來越豐富,有時機器自主學習的效果並不理想,而且效率低下,特別是在訓練數據過少的情況下。

「面對人類,我們可能會非常自然地想到,教小朋友打棒球要從最簡單的開始,慢慢過渡到快球;但當我們面對機器的時候,大家都想直接給系統上快球。事實上,機器學習除了自行從數據中摸索知識,更可以從經驗豐富的人類這裡獲取相關的知識。」 微軟商業人工智慧事業部總經理Mark Hammond說。為此,微軟研究院開發了一種輔助方法——「機器教學」(Machine Teaching),人類可以利用自己的專業知識和經驗幫助AI將複雜問題分解成比較簡單的任務,並為機器學習模型提供相關的重要線索,幫助強化學習算法更好地找到解決方案。

如果你要教一位小朋友識別桌子,你會先告訴他:「它有四條腿和一個平面」。如果他把椅子也當成了桌子,你就會進一步向他解釋:「椅子有靠背,但桌子沒有靠背」。這一抽象的反饋的循環是人類學習方式的關鍵,而它也能使傳統的機器學習方法變得更強大。

機器教學能在許多場景中發揮出格外的優勢。在有監督學習中,如果某個特定行業或公司的需求過於具體,導致訓練數據非常少,機器教學將非常有用。而在複雜的強化學習場景中,算法可能很難從數百萬種可能中做出選擇,這時,如果擁有某方面專業知識的人類提供一些幫助,機器就能大大縮短尋找解決方案的時間。

這也是微軟提出機器教學的長遠目標之一。我們希望為來自各行各業的人們提供人工智慧平臺,讓律師、會計師、工程師、護士等不同領域的專家即使具備很少的AI專業知識,也能將所在領域的專業知識傳授給智能系統,讓智能系統更有效地助力問題的解決。

 「即使是最聰明的AI,也要經過很多學習才能完成現實世界中的複雜任務。因此AI需要在人們的引導下學習,這也讓更廣泛的用戶能藉助機器學習來完成複雜的任務,這是機器教學的意義所在。」 微軟商業人工智慧事業部副總裁Gurdeep Pall表示。

微軟機器教學組對機器教學原理的探索已將近十年,目前他們正在將這些概念融入微軟的各大產品,以幫助企業構建定製化的智能系統與工具。「如果你可以向他人傳授某些知識,你也能用相似的方法把它們傳授給機器。」微軟傑出工程師、機器教學項目發起者Patrice Simard說,他的團隊將加入微軟體驗與設備組,將機器教學與微軟的對話式AI產品進一步整合。

微軟研究員Patrice Simard,Alicia Edelman Pelton和Riham Mansour(從左至右)正在將機器教學融入微軟產品中

Simard開始思考新的AI系統範式,是因為他注意到機器學習會議上的許多工作都在通過精妙的基準測試來提高算法性能。這讓他意識到「教授」知識對機器學習的重要性,特別是在數據有限的情況下。

機器教學要通過識別高層級、有意義的特徵來改進模型。比如,你想讓AI選出質量最好的汽車,卻只有很少的標註數據,AI提取出的「好車」的特徵可能會非常不靠譜,比如「車牌第四位是2」。但如果提示AI對油耗、安全評級、碰撞測試、價格等標準進行綜合考量,儘管數據仍然有限,AI對汽車質量的評估將有效許多。

除此之外,機器教學的另一個目的是把複雜任務分解為多個更簡單的任務。如果沒有高層級特徵,則可用包含較低層級特徵、簡單到只需少量案例就能學習的子模型來構建。如果系統多次出現同樣的錯誤,則可以通過添加特徵或案例的方式來消除。

Azure認知服務中的語言理解API是機器教學理念應用的首批產品之一,它能夠幫助用戶 「理解」 短文本中的意圖和關鍵概念,目前已被UPS快遞、Progressive Insurance和西班牙電信等企業用於開發智能客服機器人。使用機器教學的方法,人們將無需為客服機器人準備包含所有用戶問題的數據集,只需提供四五個問題案例和該領域的重要特徵、關鍵字,語言理解API就可以順利完成剩餘的工作。

機器教學流程圖

再舉個例子,一家公司想用AI掃描過去一年的所有文件和電子郵件,了解銷售一共發出了多少次報價,又有多少次成功完成了銷售。AI首先要知道怎樣從合同或發票中識別報價,而問題在於沒有現成的訓練數據,而且每名銷售人員的開單據的方式可能都有所差別。

這時,如果採用傳統的機器學習方法,這家公司就要經歷漫長繁複的人工標記數據流程,再請一位機器學習專家來構建機器學習模型。而一旦銷售人員改變了單據格式,模型就會無法識別。

而如果採用機器教學的模式,企業內部的專業人員將為報價常見的特徵和結構提供線索,如客戶名、「報價單」、「交貨日期」、「產品」、「數量」、「付款條款」等關鍵詞。系統會將這些專業知識轉化為機器可理解的語言來執行預先選擇的機器學習算法。這樣,利用組織內已有的專業知識,就能在很短的時間內為企業構建定製化的AI解決方案。

微軟研究人員正在探索如何將機器教學應用於更複雜的任務題,比如對更長的文檔、電子郵件和圖像進行分類;以及如何讓「教學」的過程更直觀,比如向用戶呈現可能有意義的特徵建議。

微軟商業人工智慧事業部副總裁Gurdeep Pall講解基於機器教學的自主系統解決方案

十餘年前,當Hammond在耶魯大學神經科學實驗室擔任系統程式設計師時,他注意到了科學家一步步訓練動物完成研究任務的過程。他由此想到,我們人類擁有豐富的專業經驗,為什麼不向機器傳授一些小訣竅呢?

因此他創辦了Bonsai公司,將機器教學與深度強化學習融合,幫助企業在機器人、製造、能源、建築管理等領域開發自主系統。微軟在去年將Bonsai公司納入麾下。

深度強化學習模型通過基於激勵機制的反覆試錯進行學習,目前在電子遊戲中已經能夠打敗人類。Hammond認為,對於現實世界中更為複雜的應用問題,深度強化學習還有很長的路要走,而機器教學方法與深度強化學習的結合則可以大大提高解決問題的效率。

開發者和其他領域的專業人士可以用Bonsai定製的程式語言Inkling將自己的專業知識「傳授」給AI,就像編寫課件一樣。通過對這些關鍵知識的學習,Bonsai系統能更快地選出最好的強化學習模型,並在模擬環境中測試不同的操作,給出效果最優的解決方案,從而避免許多耗時的無效探索。

在Hammond看來,人們從一開始就應該告訴AI應該著重關注哪些要點,「如果只用強化學習,不向它提供任何對解決問題有幫助的信息,它就會像無頭蒼蠅一樣隨意探索,很難發現行之有效的解決方案。所以機器教學非常重要,它能夠讓問題真正得以解決。」

1.微軟機器教學組:https://www.microsoft.com/en-us/research/group/machine-teaching-group/


長按掃碼,查看連結


2.Azure認知服務語言理解API:https://azure.microsoft.com/en-us/services/cognitive-services/language-understanding-intelligent-service/


長按掃碼,查看連結


你也許還想看


感謝你關注「微軟研究院AI頭條」,我們期待你的留言和投稿,共建交流平臺。來稿請寄:msraai@microsoft.com。

相關焦點

  • 從「機器兒童」到「機器學習」:「學習」的概念是如何變化的?
    但毫無疑問,這也是一次關於建造「學習機器」的嘗試,只不過學習的對象並非人類社會的知識,而是來自環境的刺激。它更像是一種對環境的適應,與生物趨利避害的本能十分相似。儘管這與人類社會的高級智能相距甚遠,但人類倘若沒有對環境強大的適應能力和預見危險的敏銳感官,也絕無可能走上生物鏈的頂端。
  • 深度:機器如何模仿人類的學習方式?
    導讀:古有算盤,今有計算機,人工智慧(Artificial Intelligence,AI)始終是人類永恆又美好的夢想。然而,漫漫的歷史長河中人類前僕後繼,雖然計算機技術已經取得了長足的進步,然而仍然沒有一臺機器產生真正的「自我」意識。
  • 模式識別:人類和機器學習的基礎
    人類和動物藉助感官進行學習。學習有助於識別和分辨我們周圍的模式。模式識別的過程包括將接收到的信息與大腦中已經儲存的信息進行匹配。把記憶和感知到的信息聯繫起來是模式識別的一個名為識別的步驟。模式識別需要重複經驗。迄今為止,所有發現和發明都是人類模式識別技能的結果。人類傾向於在各處看到模式。當進行比較,判斷和獲取知識時,它們很重要。尋找模式非常重要。
  • 人工智慧再下一城:機器翻譯提前7年達到人類專業翻譯水平
    由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報導的中譯英測試集上,達到了人類專業譯者水平。這是首個在新聞報導的翻譯質量和準確率上媲美人類專業譯者的翻譯系統。
  • 推薦:機器學習培訓20節+大量實戰案例+5大福利
    」,本課程涵蓋了基礎複習,算法講解,案例應用,工程經驗分享,工作指導等方面內容,從理論到實踐詳細講述機器學習相關內容,更有來自矽谷的大數據科學家乾貨分享。機器學習所需數學基礎與背景知識機器學習常見問題與算法工業界應用機器學習算法解決實際數據問題思路面試指導與其他福利◆ ◆ ◆我們為你準備了什麼?
  • 機器學習如何在戰場上做出生死抉擇?人類負責道德,機器負責速度
    這臺機器的創造者之一提出,它的目的是「儘可能地取代人腦」。當然,這個早期版本的計算機並沒有取代人腦,但它確實開創了一個新的時代,按照歷史學家吉爾-萊波爾的說法,「技術變革的速度遠遠超過了人類的適應能力」。隨著機器學習在軍隊指揮和控制領域上的應用,這個「變革」時代還在繼續。
  • 機器翻譯系統提前7年達到人類專業翻譯水平
    由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報導的中譯英測試集上,達到了人類專業譯者水平。   黃學東表示,微軟語音和 NLP 組在成立時,便立下了要在兩年後將機器翻譯做到人類專業水平的目標。如今,這一目標提前實現,「除了計算力的大幅提高,深度學習方法的提高,我們還結合了以前在 Switchboard 上取得的經驗,數據也做了很多整理,比如去除低質量的訓練數據,等等。」 黃學東說。
  • 機器學習太難?一文帶你掌握機器學習的必備基礎知識
    你是否用垃圾郵件過濾器來處理垃圾郵件?你是否訂閱Netflix,並通過其精確的推薦系統來發現新電影呢?如果你符合以上任何一條,那麼恭喜你,你已經很好地用到了機器學習!雖然機器學習聽起來很複雜,但實際上是相當簡單的概念。為了更好地理解它,讓我們在文本中解讀這幾個概念:機器學習是什麼、發展歷程、內部原理和重要性。
  • AI | 怎樣快速入門機器學習和深度學習?
    機器學習算法書籍:《統計學習方法》:李航博士的經典教材。用最精煉的語言描述機器學習算法,轉行AI必讀書籍《機器學習》:周志華教授的西瓜書。統計學習方法涵蓋面太窄,配合西瓜書來擴展寬度。《python機器學習及實現》:適合入門,學習曲線平滑,理論書看累了,就跟著這本書打一遍代碼,對kaggle就會大致的了解。
  • 機器學習課程教與學(教學大綱和教案)
    英文名稱:Machine Learning先修課程:高等數學(數學分析)、線性代數(高等代數)、概率論與數理統計、程序設計基礎總學時數:54學時 一、教學目的本課程可作為計算機科學與技術、智能科學與技術相關本科專業的必修課,也可作為其它本科專業的選修課,或者其它專業低年級研究生的選修課
  • 機器學習的奧秘
    假如把機器學習比作一艘火箭,那麼數據就是燃料,智能化是目標,優化方法就是導航系統,火箭的準確地飛抵目標,離不開充足的燃料和精確的導航。因為機器學習中需要數據和優化算法,機器學習大師 Mike Jordan 和 Tom Mitchell 認為機器學習是計算機科學和統計學的交叉,同時是人工智慧和數據科學的核心。通俗地說,機器學習就是從數據裡面挖掘出有用的價值。
  • 大學生能力提升:什麼是機器學習?
    機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
  • 人類VS機器,人工智慧的本質究竟是什麼?
    問題是,雖然心理學在很大程度上已經對人類學習進行了深刻研究,但機器學習卻沒有。這個問題可能在人機互動的模擬中越愈發凸顯,也經常出現在人工智慧工程師們在試圖模擬人類思想的過程中。重要的是,人類似乎能夠解釋和理解其所生活的環境。相比之下,計算機只是一臺從事匹配工作的機器。
  • 小白必看的機器學習入門知識
    也就是說,機器學習是人工智慧的子領域,而深度學習又是機器學習的一個分支!因此我們可以看出機器學習在 AI 領域具有很重要的地位。為什麼要先學習機器學習而不是直接學習深度學習呢?我相信很多初學者應該都會有這方面的疑惑或者思維誤區。正所謂「基礎不牢,地動山搖」講得就是這個道理。所以入門機器學習也要從基礎知識開始。
  • 【假期充電】Python | 機器學習策略實戰派
    在這裡不僅有專業導師當面傳授機器學習模型理念與模塊應用,還有技術團隊解決工具安裝與配置,提供優質的機器學習量化策略原始碼,通過三天高強度研習,最終實現動手編寫實現機器學習策略代碼。一線研發與投資團隊輔導有別於校園的金融課程,工作坊不僅邀請到清華研究生院量化投資中心一線機器學習研究員指導教學,更請到CMT持證分析師,與數位多年從事機器學習的專家隨同輔導,業界真實經驗教學
  • 保研講座 | 計算機專業研究生如何做科研?聽聽中科院學霸怎麼說 (附機器學習入門指導)
    吳恩達(Andrew Ng)《Machine Learning》該門課程是吳恩達在Coursera上開設的機器學習入門課,授課地址為:https://www.coursera.org/learn/machine-learning這門課基本涵蓋了機器學習的主要知識點
  • 如何使用 Python學習機器學習
    Learning) 成為近幾年來計算機科學界十分熱門的研究領域,如今在實體和在線的學習機器學習的資源有很多,本文整理了一些好用學習資源希望幫助初學者能更容易使用 Python 入門機器學習的領域中,從零開始學習機器學習。
  • 助教招募|機器學習訓練營有償招募兼職助教
    你好,我是極客大學機器學習訓練營的班主任欣欣。機器學習訓練營是我們和機器學習技術專家王然合作推出的一個高強度直播課程。
  • 機器學習中所需要的數學知識介紹
    編者按:Vincent Chen是史丹福大學計算機科學專業的學生,同時也是斯坦福AI研究室的一名研究助理。本文他給我們帶來了在機器學習中所需要的數學知識介紹。以下是論智對原文的編譯。 很多沒有良好數學基礎或統計學的同學們總會問,到底什麼樣的數學水平才能入門機器學習?目前還沒有確切的答案。
  • 20個機器學習案例,應對各種場景挑戰
    向優秀的數據比賽獲勝者學習,把真正的實踐技能用在解決自己的問題上。來報名機器學習項目應用班吧,一起看看數據科學比賽裡的那些新技能。本課程所有的案例全都取自真實數據上的數據科學比賽,歡迎一起來玩耍。機器學習所需數學基礎與背景知識機器學習常見問題與算法工業界應用機器學習算法解決實際數據問題思路面試指導與其他福利◆ ◆ ◆講師天團過硬的BAT一線實戰經驗 + 大量案例+豐富教學經驗+