微軟IJCAI2016演講PPT:深度學習在語義理解上不再難有用武之地

2020-11-30 cnBeta

微軟研究院在IJCAI2016第一天的Tutorial上講述了自己將深度學習、深度神經網絡應用於語義理解上的一些經驗和收穫。作為小娜和小冰的開發者,微軟在自然預言語義理解上的造詣無疑是很高的。而早在一月就將其深度學習開發工具包CNTK開源的舉動也表明微軟確實希望促進人工智慧的發展。這次就讓我們通過Tutorial上演講PPT的概覽部分,看看微軟在他們最擅長的語義識別領域會分享給我們一些什麼樣的經驗。

我們將PPT的文字翻譯直接放在了幻燈片內,有興趣的讀者可以點開大圖查看,不過大家也可以直接觀看我們在每張圖後寫下的註解,一樣能幫你理解微軟的意思。

微軟首先介紹了深度神經網絡的簡要歷史。經過了上圖中所示技術爆發點,幻滅的低谷,生產平穩期,膨脹期望巔峰等幾個階段。終於迎來了新的高潮。

在2013年,深度學習成為了MIT評選的年度十大科技突破之一。

而對深度學習的學術研究也從2012年開始到2015年出現爆發式的增長。在NIPS 2015會議中集中爆發,典型的證據就是主會場內的相關研究參與人數有了巨大增長,相關話題的指導報告更是增加了100%還多。

2012年紐約時報的報導「科學家們在深度學習上看到了希望」被視為深度學習崛起的標誌之一。

DNN是一種完全連接的深度神經網絡,簡單來說,先訓練每個都含有一個隱含層的生產力模型,然後把它們組合成一個深度信任網絡,然後添加輸出並利用反向傳播來訓練DNN網絡。

上圖是微軟在各種領域對基於深度學習的語義識別的應用。

今天微軟要講的這個指南的焦點,並非集中在語音識別或者圖像識別上,而是語音文本的處理和理解,一共分為5部分

上圖是一個需求分類問題的舉例,比如輸入一個問題:丹佛市中心的壽司店,但這個店屬於餐館,酒店,夜店,航班那個領域的店或者館呢?這個是需要搜尋引擎更加細化分類的。

上圖給出了一個單神經元模型的原理,當輸入一個X值後,函數最終會將其通過logistic回歸進行分類,決定是否要給Y加上標籤,並與事先準備好的標籤核對。以此來完成學習的過程。

上圖是單個的神經元模型,把一個數值轉化為概率,然後把概率轉化為一個非線性激活函數,再進行logistic回歸。

在上圖中,微軟給出了訓練模型的思路,由於是只有一個神經元組成的神經網絡,因此方法比較簡單,要訓練的數據集是一組由二維數組組成的數對。

訓練參數的過程,就是不斷的更換w,使得損失函數最小。具體方式是使用隨機梯度下降,將所有訓練樣本更新直到函數收斂。

實際問題基本不可能用單個神經元的網絡就能解決。上圖是一個多層神經網絡的流程圖,實際上也和目前絕大多數的神經網絡結構類似。如果我們忽略下部的結構,只看輸入層、最上面的一層隱含層和輸出層,我們就會發現這正是一個單神經元神經網絡的架構示意。而包含了下面的其他隱含層之後,就是一個多層神經元的結構了,將原始數據(詞語向量)輸入隱藏層中,經過參數w的投射生成新的向量,這個過程就稱作特性生成。

可以看到,標準機器學習的過程同深度學習最大的區別,正在於特徵訓練的方式,傳統的特徵訓練需要開發者手動提取特徵,顯得比較累。而深度學習可以自動從訓練數據中學習到特徵。顯得靈活很多,不過代價就是函數優化和參數選擇等的工作量會更重。

為什麼要使用多個隱含層呢?毫無疑問的,適當增加隱藏層會讓算法的效果更好。對特徵的學習和轉換也更靈活。類似深度學習用於圖像識別時的像素→邊緣→紋理→主題→局部→物體整體的過程。深度學習用於文本分析的時候也遵循了一個從字母→單詞→詞組→從句→句子→整個故事的過程。訓練層數越多,對這些特徵的描述就越精確。最終提取出來的效果也會越好。

DNN有許多中不同的表現形式,它們分別有各自的應用場景和優勢。在此微軟將其分為了三大類和六小類:

分類任務——通過X將Y分類標註

主要應用:多層感知機,卷積神經網絡。

分級任務——通過計算X和Y的加權和進行分級。

主要應用:暹羅神經網絡、深度語義相似模型

文本生成任務:由X的值生成Y

主要應用:序列對序列網絡、記憶網絡

在上圖中,微軟開始講解一個具體的例子:深度語義相似模型(DSSM)。這種模型的處理方式是使用X和Y組成的文本流來計算語義相似度。方式是使用深度神經網絡先在潛在語義空間建立一個x和y的兩個特徵向量。然後計算特徵向量之間的餘弦相似程度。

上兩圖是一個具體的原理圖。表現了計算相似語義空間的方法,而最後一張圖給出了一個基於此方法的整個卷積DSSM網絡的示意圖和原理說明。

總結:

深度學習曾被認為不適合用來做語義理解。主要是因為詞語之間的相似程度與其含義的相似程度並無太大關係。詞表的出現一定程度上解決了這個問題。而現在,深度學習在語義理解上的障礙已經基本不存在了,微軟此次提供的思路也是一個很好的參考。相信應用上了深度學習的語義理解程序的表現將會有極大的提升。

相關焦點

  • 深度學習在統計機器翻譯和會話中的應用 |微軟IJCAI2016演講PPT
    微軟研究院在IJCAI2016的Tutorial上講述了自己將深度學習、深度神經網絡應用於不同場景的情況,之前第一部分提到了其應用於語義理解上的一些經驗和收穫,本文為第二部分。聯合學習順序、翻譯   NMT在WMT任務上超過了最好的結果
  • iDST院長金榕IJCAI演講:阿里巴巴的深度學習應用(附PPT)
    阿里巴巴作為在電商領域有諸多業務的企業,對深度學習有很大的需求,不可避免地當他們將深度學習應用到業務中時會遇到許多學界人士不可能遇到的問題。報告中,金榕介紹了深度學習在阿里巴巴的業務中的一些應用以及正在進行的一些研究。以下內容為雷鋒網根據現場報告的錄音以及IJCAI 官網上的相關論文《Deep Learning at Alibaba》整理而成。
  • 王海峰出席CCHI2018 深度解析「多模態深度語義理解」
    王海峰指出,AI技術與產業的結合愈發多元化,單一技術已無法滿足應用需求,具備「多模態深度語義理解」能力的百度大腦通過多技術融合,能讓機器對客觀世界有更深層認知,從而更好的支撐應用。百度大腦新階段:多模態深度語義理解 「多模態深度語義理解」是指對文字、聲音、圖片、視頻等多模態的數據和信息進行深層次多維度的語義理解,包括數據語義、知識語義、視覺語義、語音語義一體化和自然語言理解等多方面的語義理解技術。
  • AI Frontiers | 微軟首席 AI 科學家鄧力演講:口語對話系統的分類...
    年加入微軟,2016 年起擔任微軟首席人工智慧科學家,負責微軟深度學習技術中心應用趨向的深度學習研究。但在另一方面,許多情況下我們仍然有許多語音識別錯誤。在某種程度上,我們可以把對話系統看作:對話系統=語音識別+基於文字(text-based,或翻譯為「語義理解」)的系統語音識別向基於文字的對話系統,提供了一些低延遲的文字輸入。
  • .| 微軟首席 AI 科學家鄧力演講:口語對話系統的分類及三代演變
    年加入微軟,2016 年起擔任微軟首席人工智慧科學家,負責微軟深度學習技術中心應用趨向的深度學習研究。但在另一方面,許多情況下我們仍然有許多語音識別錯誤。在某種程度上,我們可以把對話系統看作:對話系統=語音識別+基於文字(text-based,或翻譯為「語義理解」)的系統語音識別向基於文字的對話系統,提供了一些低延遲的文字輸入。
  • 深度學習在2016年都有哪些主要研究進展?(附開源平臺地址)| 盤點
    生成式對抗網絡(GANs)最近一種基於生成模型的新方法出現了,名為「生成式對抗網絡」(GANs),它能夠使用模型來處理無監督學習問題。GANs 將是一場真正的革命,在相關的技術演講中,Yann LeCun(深度學習創始人之一)說 GANs 是過去 20 年裡機器學習最重要的想法。
  • 地圖中的語義理解 | 雷鋒網公開課
    限定在垂直領域的語義理解問題因為用戶需求的收斂性和知識庫的成熟,技術上會更容易,同時也會更有能力實際的解決用戶的問題和需求。據統計,在車內通用安吉星或者豐田GBOOK這種車內call center提供的服務中,80%的需求都是問路或者導航,至少這是可以很大程度上通過機器語義理解解決的。在垂直領域下的語義理解,考驗的更多是構建知識庫本身的能力。
  • 微軟亞洲研究院梅濤:計算機視覺發展仍有巨大空間,視頻理解難於...
    這個領域裡有很多釘子,我們只不過是不時地換把錘子敲一敲釘子,把釘子稍微往木板裡敲一點。要想把一顆顆釘子完全敲進木板裡,過程還是很漫長的。大家現在都在談人工智慧。人工智慧領域很廣,包括機器學習,機器學習裡又包括深度學習,不能把人工智慧和深度學習這兩個概念混淆在一起。計算機視覺是人工智慧的一個應用領域,它就相當於把相機連上電腦,電腦可以將相機所看到的東西一一描述出來。
  • 何凱明的深度殘差網絡PPT是這樣的|ICML2016 tutorial
    曾以第一作者身份拿過兩次CVPR最佳論文獎(2009和2016)——其中2016年CVPR最佳論文為圖像識別中的深度殘差學習(Deep Residual Learning for Image Recognition),本文為何凱明博士在ICML2016上的tutorial演講以及相關PPT整理。
  • 運用深度學習教機器人理解自然語言
    譯者/趙屹華 審校/劉帝偉、朱正貴 責編/周建丁。在深度學習出現之前,文字所包含的意思是通過人為設計的符號和結構傳達給計算機的。本文討論了深度學習如何用向量來表示語義,如何更靈活地表示向量,如何用向量編碼的語義去完成翻譯,以及有待改進的地方。在深度學習出現之前,我們書寫的文字所包含的意思是通過人為設計的符號和結構傳達給計算機的。
  • 「金猿技術展」文心ERNIE——基於知識增強的語義理解技術
    文心(ERNIE)是一個取得世界級突破的語義理解技術與平臺,依託百度的深度學習平臺飛槳打造,將機器理解語言的水平提升到新的高度,全面刷新了各項NLP任務的世界最好效果,取得了諸多權威語義評測比賽的世界冠軍。除語言理解外,提出的基於多流機制生成完整語義片段語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到世界領先水平。
  • 深度學習與圖像識別 圖像檢測
    特別適合處理大數據       a、用較為複雜的模型降低模型偏差       b、用大數據提升統計估計的準確度       c、用可擴展的梯度下降算法求解大規模優化問題這個大數據是除了數量上的大,還有更重要的是維度的大,很多算法本身是無法處理高緯度數據的,例如Kernel學習機相關的算法, 雖然理論上是先將數據向高維空間映射
  • 用深度學習理解遙感圖像,識別效率提升90倍 | PaddlePaddle出品
    可以用深度學習。現在, 遙感所是這樣做的:針對一個地方構建樣本庫,然後基於樣本庫中的圖像訓練深度學習模型。第二年,這一地方的環境和氣候發生變化,只需要把新的圖像加進樣本庫,然後重新把模型訓練一遍就可以了。同時,這樣也能夠減少對人的依賴,模型的調整不再受限於專家經驗,而是依靠數據的變化。
  • 大會直擊|微軟亞洲研究院劉鐵巖:深度學習成功的秘密
    有了大數據,又有了複雜模型,那怎麼訓練呢?就需要非常強大的計算資源,就是可能要用上百臺、上千臺的計算機來共同訓練一個深度神經網絡。總結一下啊,大數據、複雜模型、運算集群能力其實共同支撐了今天深度神經網絡的巨大成功。
  • IJCAI 2019 論文收錄結果最新出爐!歷年傑出論文帶你重溫 AI 發展...
    相反地,少數群體的影響力取決於給定圖的某些特徵,這些特徵的識別便是 NP 難問題(NP-hard)。而決定這兩種觀點是否可以在某種穩定的配置中共存也是 NP 難的。本文提出了一種新的開放領域會話生成模型,以展示大規模常識知識如何促進語言理解和生成。在給定用戶帖子的情況下,模型從知識庫中檢索相關知識圖,然後用靜態圖注意力機制對圖進行編碼,以增強帖子的語義信息,從而支持對帖子的更好理解。之後,在單詞生成過程中,該模型通過動態圖注意力機制仔細地讀取檢索到的知識圖和每個圖中的知識三元組,以便於更好地生成。這是第一次嘗試在對話生成中使用大規模常識知識。
  • 看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監督學習的...
    相比之下,人類可以通過觀察別人的做法來理解任務的目標,或者只是被告知目標是什麼,就可以完成任務。目前,谷歌期望通過教會機器人理解語義概念,以使得機器人能夠從人類的示範中學習動作,以及理解物體的語義概念,完成抓取動作。以下為雷鋒網 AI 科技評論編譯的這篇谷歌博客的部分內容。
  • ...首席科學家鄧力:深度學習十年簡史和人工智慧未來展望(33PDF...
    > 演講:鄧力,微軟人工智慧首席科學家 整理:聞菲 【新智元導讀】微軟人工智慧首席科學家鄧力18日在首屆發表主旨演講《深度學習十年簡史和人工智慧未來展望》。深度學習在閱讀理解、問答等等應用上的複雜性要比其他那些應用到語音識別和機器翻譯的深度學習方法大,主要因為模型不一樣,所解決的問題也不一樣。這是下一步深度學習要解決的大問題。
  • 深度解析:一文看懂CVPR 2017五大研究前沿
    四、計算機視覺與機器學習Computer Vision & Machine Learning計算機視覺與機器學習歷來聯繫緊密,隨著深度學習近年來在視覺領域取得的空前成功,機器學習更是受到更廣泛的重視。作為機器學習一個分支,深度學習依然是計算機視覺領域絕對主流。但與前幾年不同的是,純粹用深度學習模型「單打獨鬥」解決某個視覺問題似乎不再流行。
  • 微軟小冰:「智能+人」是未來 別讓戀舊變落後
    (點擊收聽歌曲)據悉,這首歌的人工智慧調教總共用了17分鐘35秒,學習訓練次數為29次,視頻用的就是小冰自己參演的日劇《世にも奇妙な物語》2016秋季篇。而且,在翻唱歌曲發布不久後,微博用戶似紛紛發出「真好聽」「情感更細膩」「必須承認微軟技術的進步性」.等讚美。在業內人士看來,繼周五的官方回應後,這是微軟小冰「拿作品」說話的實力反擊。
  • 圖像分割系列<->語義分割
    這期我們就來講講語義分割(Semantic Segmantation), 語義分割是指將圖像中的每一個像素都賦予一個類別標籤,用不同的顏色表示。 Segnet的模型框架和思路比較簡單,應用了當年很火的VGG16框架,去掉全連接層,搭建對稱模型,在2014年當時還沒有興起框架,基於Caffe實現端到端的像素級別網絡模型是很難的,之後在MATLAB2016中,Sgenet成為內置的用於語義分割的深度學習算法。