讓機器搞懂100萬種隱含語義,騰訊Peacock大規模主題模型首次全揭秘

2020-12-13 CSDN技術社區

編者按:LDA是一個簡潔、優雅、實用的隱含主題模型,騰訊效果廣告平臺部(廣點通)的工程師們為了應對網際網路的大數據處理,開發了大規模隱含主題模型建模系統Peacock,通過並行計算對10億x1億級別的大規模矩陣進行分解,從而從海量樣本數據中學習10萬到100萬量級的隱含語義。Peacock已應用在騰訊的文本語義理解、QQ群的推薦、用戶商業興趣挖掘、相似用戶擴展、廣告點擊率轉化率預估等多個業務數據中。本文節選自Peacock團隊的論文《Peacock:大規模主題模型及其在騰訊業務中的應用》,分享了廣點通Peacock研發和訓練的技術思想和技術細節,以及Peacock在騰訊業務中的應用,供讀者參考。以下為節選章節: 

三、十億文檔、百萬詞彙、百萬主題?

LDA 的訓練算法貌似並不複雜,主要的工作就是在維護兩個頻率計數矩陣N_td 和N_wt。然而在這個時代,我們要面對的是網際網路的海量數據,想像一下,如果在圖15中,左邊的文檔節點是十億、中間的主題個數是百萬、右邊不同的詞的個數也是百萬,我們將需要處理一張多大的圖!


圖15文檔d_1中詞w主題重新採樣

在實際應用中,我們希望使用更多的數據訓練更大的模型,這包含了兩重意思:

  1. 「更多的數據」,我們希望訓練器能處理海量的訓練數據,因為更多的數據蘊含著更加豐富的隱含語義,同時模型也更加準確,效果更好。上一小節提到單機版LDA訓練器顯然是處理不了海量數據的,使用它訓練模型,我們估計要等到天荒地老了。
  2. 「更大的模型」,我們希望訓練器能歸納出更多更具體更長尾的隱含語義,比如一百萬主題。拋開標準LDA算法本身的問題,更大的模型意味著N_wt矩陣規模更大。N_wt的大小為V×K,V表示詞表大小,K表示主題個數。取V=1,000,000且K=1,000,000,N_wt需要消耗3000G以上內存(假設int型密集存儲,因為模型隨機初始化並不稀疏),顯然單機內存是無法滿足需求的,必須對模型進行切分。

下面分別從數據並行和模型並行兩個方面來介紹怎樣解決上述兩個問題。「數據並行」和「模型並行「是Google大神Jeff Dean在深度學習訓練系統DistBelief[13]中新提出的兩個概念,儘管Peacock系統開發的時候,DistBelief還沒有真正對外公布。隨著深度學習的持續升溫,大家現在已經逐漸熟悉了這兩個形象的名詞,此處請允許我們借用一下這兩個概念。

3.1 數據並行——處理更多的數據

「數據並行」通俗的理解:通過多任務(每個任務都包含一份完整的模型)並行的處理數據訓練模型,任務之間的模型或同步或異步的進行融合。借用王益[3]的說法,「如果一個算法可以做數據並行,很可能就是可擴展的了」。幸運的是,David Newman團隊發現基于吉布斯採樣的LDA訓練算法可以「數據並行」,並給這個算法取了一個名字叫AD-LDA[14]。

注意,AD-LDA算法是吉布斯採樣的近似算法,因為嚴格的吉布斯採樣要求串行採樣,不能並行。直觀的理解就是語料中前一個詞w_1採樣更新後的N_wt和N_t應該應用於後一個詞w_2的採樣,而不是w_1和w_2的採樣都基於相同狀態的N_wt和N_t。AD-LDA算法會使得LDA的訓練收斂速度變慢,但在多幾輪迭代後,AD-LDA算法可以收斂到與串行吉布斯採樣相同的點。

圖17給出了AD-LDA算法的示意圖:

  • 假設我們有三個可執行單元,每個都啟動一個採樣任務,每個任務中都有一個完整的「本地」模型L N_wt;
  • 任務並行的處理訓練語料數據塊(W,T)和N_td,更新模型L N_wt,同時序列化更新後的訓練語料數據塊(W,T)和N_td到磁碟;
  • 在迭代結束或任務處理訓練語料數據塊過程中,任務之間或同步或異步的融合模型。模型融合的方式可以類似MPI中的AllReduce,也可以藉助全局的參數伺服器G N_wt。

AD-LDA算法的整個過程和MapReduce的執行過程非常一致,所以早期有非常多的團隊使用MapReduce來實現AD-LDA算法[5]:

  • MapReduce的一個Job進行AD-LDA算法的一個迭代;
  • 訓練語料數據塊(W,T)和N_td作為Job輸入,Mapper加載上個迭代生成的G N_wt作為 L N_wt,對數據塊中的詞進行主題採樣;
  • Reducer融合各個L N_wt,生成下一個迭代需要加載的G N_wt。

因為MapReduce使用磁碟進行數據交換,同時整個訓練任務需要調度幾百個Jobs,所以基於MapReduce的AD-LDA實現是非常低效的。


圖17 AD-LDA算法

3.2 模型並行——訓練更大的模型


圖18 模型並行1

上文提到,訓練大模型時,N_wt太大而無法整體放入任務的內存,直觀的解決方法如圖18所示,將N_wt沿詞的維度進行分片,每個採樣任務只加載一個模型分片N_wt^((i))。相應的,語料數據塊也需要做對應的詞維度切分,因為單個任務i只能採樣N_wt^((i))包含的詞w。細心的童鞋可能已經發現,圖18所示的模型並行方式在N_td上採用了類似AD-LDA算法的近似,L N_td間的融合與L N_wt間的融合類似,相應的算法也會減緩收斂(因為N_wt是所有訓練語料上的聚合結果,而N_td只和具體文檔d有關,後者變化比前者更加「快速」, N_td的並行近似採樣更加「危險」,很容易造成訓練不收斂)。


圖19 模型並行2

有沒有辦法不進行N_td的並行近似採樣,同時保持上述的模型切片方式呢?Peacock系統設計了圖19所示的並行採樣方式:加載了不同N_wt^((i))切片的任務並行的沿對角線方向對訓練語料數據塊(W,T)進行採樣,一條對角線採樣完成後,依次進行下一條對角線。這樣在對同一個文檔的不同數據塊間的詞進行採樣時,仍然保持了「串行性」,應用了之前數據塊中的詞對N_td的更新。圖19的模型並行採樣方式收斂性同AD-LDA是一致的。

3.3 大規模主題模型訓練系統Peacock


圖20 Peacock中的數據並行和模型並行

為了「利用更多的數據訓練更大的模型」,Peacock系統結合了上述的「數據並行」和「模型並行」(圖20):

  • 多組「模型並行」任務之間採用「數據並行」的方式工作,「模型並行」任務組內部,依然保持圖19所示的並行採樣方式;
  • 在迭代結束或任務處理訓練語料數據塊過程中,不同「模型並行」任務組之間或同步或異步的融合模型分片L N_wt^i。模型融合的方式可以類似MPI中的AllReduce,也可以藉助全局的參數伺服器G N_wt^i。

同上一小節「模型並行」的分析類似,Peacock系統的採樣方式收斂性同AD-LDA是一致的。Max Welling團隊提出的Async-LDA[6]證明了異步融合L N_wt^i方式的收斂性。當Peacock採用異步方式融合L N_wt^i時,相當於同時結合了AD-LDA和Async-LDA算法,實踐證明收斂性是沒有問題的。

當然,Peacock系統在具體實現上除了上述的主要設計思想,還有很多的實用技巧,比如:

  • 數據傳輸和文檔採樣之間的流水線。
  • 圖19所示的模型並行方式在每條對角線並行採樣結束後都需要同步,怎樣去掉這種同步?
  • 怎樣的模型N_wt分片方式,能儘可能的保證採樣伺服器之間的負載均衡?
  • 我們是否需要每個迭代都重採樣所有詞的主題?
  • 怎樣快速的計算對數似然度?
  • 怎樣將模型的超參數α_t和β優化融入Peacock系統?
  • 除了標準的吉布斯採樣,是否有更加快速的採樣算法?
  • 主題數K從100到1,000,000,系統的內部數據結構都保持不變麼?

在我們的論文[15]中,部分的解答了上述問題,更詳細的Peacock解密請關注我們的博客「火光搖曳」[16]^_^。

四、Peacock在騰訊都有哪些應用?

4.1 文本語義分析


圖21 文本分析示例

為了理解網際網路上海量、多樣化、非結構化的自然語言描述的文本,我們通常會從詞法、句法、語義等維度進行分析。受限於文本字面信息量小,存在歧義現象,詞法和句法分析容易遭遇 Vocabulary Gap的問題,從海量文本數據中歸納 「知識」,從語義角度幫助理解文本,是一種非常重要的途徑。

例如,對於輸入文本 「紅酒木瓜湯效果怎麼樣?」,根據人的背景知識,很容易猜到這是一位女性用戶在詢問豐胸產品「紅酒木瓜靚湯」的效果。對於機器而言,通常會先進行詞法分析,對原始文本做切詞、詞性標註、命名實體識別等,然後使用詞袋模型(Bag of Words,BOW)或提取關鍵詞來表示文本。不難發現,從字面抽取的信息,很容易理解成「紅酒」、「木瓜」等餐飲類語義,並非原始文本真實的意思。當然,我們可以對關鍵詞做擴展,給出一些相似的詞條,但是,更好的是直接理解語義。一種常見的方法是文本分類,由於對標註語料庫的依賴,類別規模一般不會太大,粒度較粗。還有一種方法就是文本聚類,挖掘語義主題標籤,更細粒度的理解文本意思,隱含語義分析技術逐漸發展成為常用的解決方案。能夠從十億級別的文檔中歸納上百萬語義的Peacock系統更是在騰訊廣點通廣告系統扮演著核心角色。這些不同維度的文本分析模塊,包括詞袋、關鍵詞提取、關鍵詞擴展、文本分類和Peacock等(圖21),整合在一起構成了我們理解語言的基礎文本分析平臺TextMiner(圖22)。


圖22 文本分析平臺TextMiner

4.1.1 文本分類器

文本分類是一個典型的有監督的機器學習任務,我們在做在線廣告系統過程中遇到的任務就有許多,包括網頁分類、廣告分類、QQ群分類、用戶興趣分類等。在使用相同的標註數據集和機器學習算法情況下,如何找到有區分力的特徵無疑是最為關鍵的。

以QQ群分類為例,使用群名稱、群簡介、群公告等文本描述,類別體系是二級層次結構,共100+節點,標註訓練數據80,000。以BOW作為基礎特徵,新增Peacock主題特徵後,一級行業準確率和召回率均有顯著提升,達5%左右,二級行業在召回率降低不到1%的情況下,準確率提升達3.86%,達到了實際應用的需求。具體數據如圖23所示。


圖23 QQ群分類器效果

4.1.2 相關性計算

對給定的查詢語句,搜尋引擎會將檢索到的網頁進行排序,把相關性好的排在前面。同樣的,在線廣告系統應該保證展示給用戶的廣告與頁面內容、用戶興趣相關,以儘量不影響用戶體驗。這裡都涉及到一個共同的任務:排序學習。此問題通常被形式化為有監督的學習問題,我們會將查詢、網頁、用戶、廣告表示成語義特徵向量,從而在語義空間裡比較用戶意圖(查詢、網頁內容、用戶歷史行為)和網頁、廣告的相關性。

Peacock已成功應用在騰訊搜索廣告和情境廣告中,用於分析文本數據,歸納自然語言的語義,從而更好地匹配查詢詞和廣告,以及頁面內容和廣告。在情境廣告 Learning To Rank 相關性計算框架下,增加Peacock語義特徵後,NDCG@5提升達8.92%,線上A/B Test實驗 AdCTR 提升 8.82%。相關性評估效果圖24所示。


圖24 情境廣告相關性(相關性標註樣本包括4,000 查詢,200,000對(查詢, 廣告),標註0~3四檔打分)

4.2 廣告 CTR 預估

廣告點擊率預估是預測給定場景下一個廣告被點擊的概率:P(click=1 | ad, user, context),user 表示當前用戶,context 表示當前的環境信息,譬如當前所在的網頁。點擊率預估是在線廣告系統最核心的技術之一,它決定著廣告的排序和計價。

業界一般做法是將廣告展示、點擊日誌作為訓練數據,抽取特徵,通過機器學習方法擬合訓練數據得到預估模型,進而做在線點擊率預估。選取有效的特徵對得到一個精準的點擊率預估模型起著至關重要的作用。

Peacock 是我們理解廣告語義的關鍵技術,被引入到廣告點擊率預估模型中提升效果。具體的,與 KDD Cup 2012 Track2 的數據集產生過程類似,我們使用了騰訊情境廣告系統的廣告展示、點擊日誌,使用L1範數正則的邏輯回歸訓練預估模型,通過 AUC 評估模型精度。 Baseline 使用一些基礎特徵,優化實驗分別在 baseline 特徵集合的基礎上引入主題規模為 1000、10,000 和 100,000 的 Peacock Top-N語義特徵。


圖25 pCTR增加不同粒度topic特徵模型AUC的提升

從圖25可以看出,加入Peacock 語義特徵後 AUC得到了顯著提升,尤其當增加 topic 規模為 100,000的Peacock語義特徵時,AUC 提升最大,約為1.8%,線上 A/B Test 實驗AdCTR 有 8.82% 的提升。

4.3 精準廣告定向

在騰訊效果廣告平臺廣點通系統裡,Peacock被用於理解用戶行為數據,從中歸納用戶興趣,提供廣告精準定向技術。

騰訊豐富的產品線擁有中國網際網路公司最多的用戶,有著海量、豐富的用戶關係和行為數據,如QQ好友關係,QQ 群關係,電商瀏覽、交易,新聞瀏覽,查詢 Query,UGC 內容(如微博、說說等),移動App 安裝,微信公眾號文章閱讀和廣告點擊行為等。通過用戶行為數據的挖掘可以幫助我們更好的了解用戶,以推送精準的廣告。而這些數據都可以形式化為用戶-物品矩陣,如用戶-用戶、QQ-QQ群,用戶-應用(Apps),用戶-搜索詞(或搜索Session),用戶-URLs等。我們利用Peacock系統對上述用戶-物品做矩陣分解(如圖3),從不同數據來源,多視角理解用戶興趣,進而挖掘相似用戶,提供給廣告主豐富的定向策略,如用戶商業興趣定向、關鍵詞定向和Look-Alike定向等。同時,獲取到的用戶特徵,也可以作為廣告CTR、CVR預估系統的重要特徵。 

4.4 QQ 群推薦


圖26 QQ群推薦

根據用戶已加QQ群社交關係數據,利用Peacock對QQ-QQ群做矩陣分解,我們發現語義相近的QQ群被比較好的歸到了相同的主題下,如圖8、9、10所示。非常直觀的,我們將Peacock 模型應用在QQ群消息面板推薦產品中(如圖26),相比基於QQ好友關係鏈的推薦算法,推薦群的點擊率和轉化率(即點擊後是否加入了該群)均有2~3倍的提升(圖27)。


圖27 QQ群推薦效果


論文《Peacock:大規模主題模型及其在騰訊業務中的應用》由趙學敏、王莉峰、王流斌執筆,靳志輝、孫振龍等修訂,相關工作由騰訊SNG效果廣告平臺部(廣點通)質量研發中心Peacock團隊王益、趙學敏、孫振龍、嚴浩、王莉峰、靳志輝、王流斌為主完成,蘇州大學曾嘉教授、實習生高洋等持續大力支持,是多人合作的結果。 

本文由Peacock團隊授權CSDN首發,想要了解論文全文及其參考文獻,請關注CSDN下載。

論文的官方解讀,請參考靳志輝在2014中國大數據技術大會(BDTC2014)上的演講視頻。

如果您對本文有疑問或不同意見,歡迎評論交流。如果您也有人工智慧/機器學習的實踐經驗希望和業界同仁分享和交流,請聯繫zhoujd@csdn.net。

本文為CSDN原創文章,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)

相關焦點

  • 探索主題模型可解釋性問題
    LDA主題模型(Latent Dirichlet Allocation Topic Model,LDA-TM),因其遠讀和超書架功能能夠以主題詞聚類的方式直觀呈現單個文本及海量文本庫所隱含的語義結構,被越來越多地用於輔助人文解釋和論證,目前已涵蓋新聞傳播、文學、史學、文化學、詩歌、中國古代典籍和哲學等各個領域。
  • 百度領銜舉辦首次機器同傳講習班 詳解機器同聲傳譯技術演進
    EMNLP由國際計算語言學學會(ACL)旗下SIGDAT組織,會議涵蓋語義理解、文本理解、信息提取、信息檢索和機器翻譯等主題。會上,由百度聯合Google舉辦的首次機器同聲傳譯學術講習班(Tutorial)召開,圍繞機器同傳的背景、挑戰、模型、數據集、實用系統和產品、未來研究方向等展開報告和研討,吸引了數百位國際學者參會。
  • 百度何中軍:機器翻譯——從設想到大規模應用
    百度何中軍帶來報告《機器翻譯 —— 從設想到大規模應用》。何中軍,博士,百度人工智慧技術委員會主席,從事機器翻譯研究與開發十餘年,申請專利40餘項,研發了全球首個網際網路神經網絡翻譯系統、首個WiFi翻譯機、首個語義單元驅動的語音到語音同傳系統。
  • 主題模型為科學與人文融合提供新契機
    筵王小紅主題模型(Topic Model, TM)是一種新型文本內容分析方法,它利用機器學習算法來發現文件集(語料庫)中隱藏的主題結構,不僅可以計算生成整個語料庫的主題,還可以自動給出每個文件按照主題呈現的內容結構。為史學研究提供新解讀和新證據IU團隊首次使用主題建模,是對達爾文的閱讀日記進行定量研究。
  • 百度預訓練模型ERNIE超越微軟和谷歌 中國公司更懂中文
    中文搜索巨頭百度在這場正在進行的自然語言處理競賽中擊敗了微軟和谷歌,這可能是由於中文和英文之間的語言差異,也要歸功於,百度更懂中文。北京時間12月10日,預訓練模型界的「MVP」百度ERNIE再展鋒芒,在自然語言處理領域權威數據集GLUE中榮登榜首,並以9個任務平均得分首次突破90大關刷新該榜單歷史,其超越微軟MT-DNN-SMART, 谷歌T5、ALBERT等一眾國際頂級預訓練模型的表現。
  • 2019 自然語言處理前沿論壇,百度NLP技術全揭秘
    本次論壇主題為「機器之『讀、寫、說、譯』—— 探尋 NLP 未來之路」,來自百度的嘉賓們分別在語義計算、自動問答、語言生成、人機對話和機器翻譯5場專題報告中分享了百度 NLP 技術的研究成果與應用。而我們的目標是將語言符號「表示」為另一種形式,這種表示具有語義上的等價性,更好的可計算性,更好地把握語義信息。百度早期的語義表示技術採用的是基於檢索和主題模型的表示方法,包括Term向量表示、PLSA、LDA等。
  • 專訪騰訊雲機器學習平臺技術負責人:揭秘騰訊深度學習平臺DI-X背後...
    為此,雷鋒網(公眾號:雷鋒網)採訪了騰訊T4專家、騰訊雲機器學習平臺技術負責人Andy。騰訊雲深度學習平臺DI-X誕生的背景雷鋒網:深度學習平臺項目是什麼時候開始啟動的?做DI-X的初衷是什麼?騰訊內部有一個機器學習平臺,從2015年的10月份就開始啟動了。
  • 2019 自然語言處理前沿論壇成功舉辦,百度 NLP 技術全揭秘
    本次論壇主題為「機器之『讀、寫、說、譯』—— 探尋 NLP 未來之路」,來自百度的嘉賓們分別在語義計算、自動問答、語言生成、人機對話和機器翻譯 5 場專題報告中分享了百度 NLP 技術的研究成果與應用。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    第一是為百度的眾多產品提供最基礎的、NLP 模型算法,包括百度所有產品都在用的分詞算法、專名識別、詞性分析、語義理解、篇章理解等等一些基礎的一些工具。目前 NLP 部門為整個公司提供一個大型平臺 NLP 雲,未來這個平臺也會對公司外有所開放,目前(這個平臺)每天都有千億量級的調動量。還有貼近應用的一些大型的應用系統,比如說深度問答系統。
  • NLP前沿論壇分享|百度語義計算技術及其應用
    、分析和計算,使機器具備語義理解能力。所以如何讓計算機能夠表示語言是研究的重點,讓其既能夠蘊含語義信息又可以計算。當前主要有兩類方法,一是基於形式化規則的方法,如通過構建語義關係網絡來描述語義的信息;二是基於統計的方法,包括主題模型、Word Embedding等技術。
  • 揭秘騰訊首款大型遊戲場景模型製作全過程
    10月17、18日在上海正大廣場舉辦的騰訊遊戲嘉年華上,《QQ幻想世界》展區裡擺放的一個大型模型吸引了現場眾多玩家及媒體的關注。這座長寬各1米的巨大場景模型以《QQ幻想世界》中「南荒」場景為藍本,還原了其中的巨人國、丈夫國、小人國、翼人國、奇肱國等場景,風格迥異,讓現場玩家眼前一亮。
  • AAAI 2020|通過解糾纏模型探測語義和語法的大腦表徵機制
    針對大腦語義和語法表徵的問題,我們利用計算模型將句子中的語義和語法特徵區分開,使用分離的語義和語法特徵來研究大腦對應的神經基礎。如圖1所示,該框架分為兩個部分,首先構造解糾纏的特徵表示模型,接著用分離的特徵表示向量在大腦激活數據中尋找對應特徵最相關的腦區。具體來說,我們提出一種解糾纏的特徵表示模型(DFRM)。如圖2所示,該模型屬於雙通道的變分自編碼器,利用兩個隱含變量分別表示語義特徵變量和語法特徵變量。
  • 訊飛翻譯機3.0打造高專業度語義理解,更懂你的表達
    、訓練模型、數據處理等方面實現動態性能增強,讓翻譯機在嘈雜、弱網、複雜語義、方言口音等場景下的可靠性和可用性大幅躍升。通過「全局語義理解模型」,以及詞法分析、句法分析和語義分析等多項技術,準確識別語音內容並匹配用詞和語句的習慣,實現對上下文的精確語義理解,帶來更為準確真實的翻譯效果。
  • 騰訊雲小微&騰訊雲TI-ONE聯合團隊獲RACE數據集深層閱讀理解冠軍
    據了解,在此次比賽中,騰訊雲小微及騰訊雲TI-ONE聯合團隊在基於ALBERT預訓練模型上,取得了單模型90.7%和集成模型91.4%正確率的成績。採用全新訓練策略,騰訊雲小微及騰訊雲TI-ONE聯合團隊展現AI實力RACE 是一個來源於中學考試題目的大規模閱讀理解數據集,包含了大約 28000 個文章以及近 100000 個問題。
  • 主題圖的語義相關度評價方法研究
    成果的基本思路和主要內容如下:  研究目的和意義  研究目的有以下幾個方面:一是構造主題圖中主題間及主題與資源間的語義相關度評價方法,實現主題圖中主題間及主題與資源間的關聯量化;二是發現主題圖中間接關聯主題間的語義傳遞規律,並構建語義傳遞體系,實現語義傳遞的計算機模擬,並將其嵌入語義相關度評價方法;三是採用主題圖的語義相關度評價方法成果研究基於關聯量化的主題圖知識組織方法
  • 百度王海峰:多模態深度語義理解將讓AI更深地理解真實世界
    從「看清聽清」到「看懂聽懂」「多模態深度語義理解能讓機器聽清、看清,更能深入理解它背後的含義,深度地理解真實世界,進而更好地支撐各種應用。」王海峰表示。視覺語義化可以讓機器從看清到看懂視頻,並提煉出結構化語義知識。
  • 淺析大規模多語種通用神經機器翻譯方法
    儘管目前最流行的Transformer模型已經大大推動了機器翻譯在單個語言對上性能的提升,但針對多語言的機器翻譯模型的研究源於其特殊的需求,如多語言之間互譯的模型參數量、翻譯服務部署困難等。儘管多語言NMT已經存在大量的研究,然而,識別語言之間的共性以及針對現實場景下的大規模多語言模型等,仍然存在問題和挑戰。
  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    近日,來自 CMU、Petuum 等機構的研究者提出一種新型語義分割模型動態結構化語義傳播網絡 DSSPN,通過將語義概念層次明確地結合到網絡中來構建語義神經元圖。實驗證明 DSSPN 優於當前最優的分割模型。
  • 客服機器人中的深度語義技術與應用探索(附視頻+PPT)| 雷鋒網公開課
    但在實際使用中,用戶經常發現,機器人並沒有想像中那麼智能,它能識別文字和語音,但卻「不懂你」。這其中的關鍵便涉及到自然語言處理中的」深度語義技術「。針對這個問題,本期雷鋒網硬創公開課邀請到小i機器人創新中心的研究院陳培華為大家具體講解,在客服機器人領域的深度語義技術和應用探索。嘉賓介紹: