活動
企業:阿里巴巴
操作:企業活動
事項:自行組織首場NLP學術研討會
5 月 23 日,阿里巴巴達摩院機器智能技術實驗室自然語言理解研究組在杭州舉行了阿里巴巴自然語言處理學術高級研討會,共有近 30 位來自全國各高校機構的學者嘉賓及 8 位阿里巴巴集團參會代表蒞臨出席,並進行了為期一天的學術分享。
本次會議旨在搭建高校學術與企業實踐的交流平臺,增進校企合作,創新自然語言處理新技術。本次會議邀請了多位高校教授分享其在 NLP 領域的工作和成果,與此同時,阿里巴巴達摩院機器智能技術實驗室自然語言理解研究組成員也分享了他們在自然語言基礎研究、機器翻譯等多方面的研究進展。
阿里巴巴達摩院機器智能技術實驗室自然語言理解研究組在雷鋒網學術頻道AI科技評論旗下資料庫項目「AI 影響因子」中有突出表現,憑藉刷新 SQuAD 紀錄獲得加分。
以下是雷鋒網 AI 科技評論根據現場實錄整理的演講內容。
研討會伊始,阿里巴巴達摩院機器智能技術實驗室主任金榕博士及自然語言理解研究組首席科學家司羅博士分別做了開場致辭。
金榕博士表示,在十幾年前,做翻譯更多的是一種「探索型」的東西,很難想像它在今天會發展到這樣的壯大規模;「可能很多人覺得阿里巴巴更多是一個電商企業,所以像推薦、搜索等功能是它最主要的事情,但是以今天阿里業務的形態來看,翻譯成為非常重要的方向。」而金榕博士也表示,阿里也希望翻譯在電商領域的價值同樣能遷移到日常生活當中。
而司羅博士則結合他曾經的學術界研究經歷和如今在阿里巴巴的研究經歷,分享了他的心得體會。「只有自然語言處理達成真正的突破,我覺得我們才能更進一步創造更多的智能,創造更多的機會。」AliNLP 平臺支持著阿里關於自然語言處理方方面面的需求,包括機器翻譯和多語言處理場景,在司羅博士的理解裡,他認為阿里提供的 AliNLP 平臺是「世界上自然語言處理領域最有價值的舞臺」。其次,司羅博士也提及了技術的開放業態,通過阿里雲等多種手段對外輸出阿里的技術,做「普惠的自然語言技術的發明」。最後,司羅博士也強調了「腳踏實地」這個關鍵詞。「我們希望做一些讓子孫後代記住我們的事情,能夠對將來的孫子吹牛的事情。我們特別希望做有挑戰性、創新性的技術工作。」因此,他也向在場的嘉賓們倡議一同推進技術的學以致用,為人類創造更美好的價值與更美好的未來。
隨後,蘇州大學計算機科學與技術學院張民教授也作為嘉賓代表致辭。在過去的一年裡,蘇州大學與阿里巴巴保持密切合作並取得優秀成果。張民教授在致以謝意的同時,也提及整個行業處在一個「好的時機」,即產業化的需求已經成為時代的必然。此外,張民教授也指出情感、認知、理解仍然是亟待解決的問題,用微軟的話講是「得語言者得天下」,或者說,自然語言處理是人工智慧皇冠上的一顆明珠。因此,阿里巴巴與高校的密切合作,不僅是企業的幸運,也是教師與個人於這個時代的幸運。
在上午場的分享中,五位高校老師分享了他們在各自研究自然語言處理過程中的成果。
陳文亮 - 面向電商平臺的自然語言處理相關技術研究來自蘇州大學的陳文亮首先介紹了成立 30 年的蘇州大學自然語言處理團隊,該團隊目前在信息檢索、篇章分析、信息抽取、情感分析、機器翻譯及知識圖譜等六大研究領域都有著深厚的學術積累。
隨後,陳文亮分享了團隊與阿里不同團隊的合作項目,結合在電商平臺業務需求中所產生的自然語言處理實際問題,並開展創新性前沿應用技術研究和開發,研究如何利用大規模多領域跨語言無標註語料資源,並提高自然語言處理任務的準確率和魯棒性。基於依存句法樹庫構建和分析模型、面向單產品問答文本的情感分析方法研究、面向知識圖譜構建的文本挖掘算法研究和面向神經機器翻譯的幹預技術研究等四個領域,蘇州大學自然語言處理團隊分別在 IJCNLP-2017、IJCAI-2018 和 AAAI-2018 等國際頂級學術會議發表了相關工作。
趙東巖 - 基於知識圖譜的文本語義理解及其智能應用
北京大學計算機研究所的趙東巖首先從類人智能研究動態入手,介紹了文本語義理解技術的相關背景,並從語義挖掘、語義理解、對話系統三個研究方向介紹了相關技術研究。
在語義挖掘領域,趙東巖團隊已經構建了超過 1300 萬條 RDF 知識條目、80 萬實體的中文知識圖譜,並支持動態構建、置信度評價、自然語言問答等。
在語義理解領域,團隊構建了基於圖結構的大規模 RDF 語義網絡存儲與查詢系統,搜狗知立方 10 億條知識圖譜實測的平均查詢時間為 400ms。
在對話系統領域,比較成熟的檢索式對話技術通過從大量對話資料庫中搜索候選回答,並將用戶問題進行結構化,通過深度神經網絡技術對候選回答進行排序,得到最優回答。
此外在語義引擎、對話機器人等方面,語義理解也有著多種技術應用,如理財顧問機器人、法律助理機器人等。
邱錫鵬-自然語言處理中的多任務學習復旦大學的邱錫鵬首先回顧了 NLP 的發展歷程,並引出深度學習在自然語言處理中的「尷尬」地位主要有兩個方面。一是 NLP 任務中的神經網絡並不深,多數情況下,一層 LSTM 加 attention 機制就足夠解決問題;二是深度學習面臨數據標註需求量大與代價高之間的矛盾。邱錫鵬指出在數據量小的情況下,可以採用多任務學習來聯合訓練多個不同任務,通過找到共性以相互提高,深度學習也為多任務學習在自然語言處理中的應用提供了條件,具體的結合形式包括硬共享模式,軟共享模式,以及共享-私有模式等。不過邱錫鵬也指出,在多領域任務、多級任務及多語言任務上,多任務學習仍然面臨不同層面的挑戰。
蔣靜- Match-LSTM 模型在自然語言推理和機器閱讀理解上的應用新加坡管理大學的蔣靜圍繞團隊提出的 Match-LSTM 模型分享了這一算法在自然語言推理和機器閱讀理解上的應用。該模型改進了 Rocktaschel et al. (2015) 提出的基於 word-by-word attention 的模型,在解決文本蘊含任務中取得提升,在 SQuAD 數據集中取得了最好效果。通過給定前提 (premise) 去判斷相應的假說 (hypothesis) 是否正確,是則判斷為蘊含 (entailment),否則為矛盾 (contradiction)。
戴新宇-異質數據融合的推薦系統推薦系統在傳統建模中通常採用基於矩陣分解的打分預測。南京大學的戴新宇在分享中指出,這一模型面臨冷啟動與矩陣稀疏的兩大問題。以社交關係數據、商品的評論數據為代表的異質數據能夠幫助解決上述問題。戴新宇介紹了如何設計一個模型來融合評論做基於隱式反饋的排序推薦,以及如何將神經網絡的方法融入到推薦系統中。
下午場中,首先由阿里巴巴自然語言處理相關技術團隊代表分享阿里介紹在研究當中和工作當中的一些挑戰及相應成果。隨後由兩名來自高校的老師分享了他們在相關學術研究工作的一些心得體會。
陳博興 - 機器翻譯在跨境電商領域的應用與研究阿里集團都談使命,阿里巴巴的使命是「讓天下沒有難做的生意」,阿里翻譯平臺的使命是「讓商業沒有語言障礙」。
秉承這一使命,阿里翻譯平臺的翻譯總量已經達到每日 7.5 億次,每天翻譯的詞語數高達 2600 億。不過,據陳博興表示,目前電商翻譯仍存在包括翻譯質量、翻譯速度及服務質量等多重問題。為解決上述問題,阿里翻譯平臺收集和構建了大量的電商領域的平行語料和知識庫,並結合不同業務場景有的放矢,設計了基於規則的翻譯模塊(Rule Based Machine Translation,RBMT),基於短語的統計機器翻譯模型(Statistical Machine Translation,SMT)和基於神經網絡的機器翻譯模型(Neural Machine Translation,NMT)等。最後陳博興總結道,翻譯的準確性、靈活性、可用性及穩定性一直都是機器翻譯系統的重要標準。雖然目前機器翻譯的效果並不算盡善盡美,但它在一些場景中能提供巨大的商業價值。
李林琳 - 阿里巴巴自然語言處理基礎技術及其應用圍繞阿里巴巴 NLP 基礎技術體系平臺 AliNLP,李林琳介紹了平臺在分詞、語法錯誤檢測、垂直知識庫、文本糾錯解決方案、國際化業務、搜索方案等多個領域的探索和嘗試,目前在搜索推薦、廣告、金融、客服、娛樂、安全等業務場景廣泛使用,支持阿里雲城市大腦、醫療大腦等產業創新,同時全面覆蓋 Alibaba.com, AliExpress, Lazada 國際化業務。
劉曉鍾 - 文本挖掘中的用戶變量對於一個擁有海量多維數據的企業,阿里 MIT 在文本挖掘上也做出了不少嘗試。劉曉鍾在分享中介紹了團隊在智能司法、輿論分析、文本生成、反垃圾、個性化推薦、事件挖掘等多領域的探索及實踐應用。通過用戶行為數據更好地理解用戶,抽取重要的用戶變量,代入文本挖掘的算法,進而提升算法準確度,阿里巴巴希望「天下沒有難做的生意」。在最後,劉曉鍾也提出了一些感興趣的研究方向,邀請各位老師一同與阿里合作。
我們是 NLP 的團隊,但是我們的研究並不僅僅指 NLP,我們特別期待的事情是把 NLP 做成算法,但我們會更多加入 User 的成分,User 的部分是我今天希望推薦給大家的,希望老師跟我們的合作。
劉奕群 - 網際網路搜索技術:挑戰與進展清華大學劉奕群分享了清華大學在 NLP 領域所取得的成績。隨後,他介紹了異質環境下的用戶交互行為模型的構建,包括搜索、native、信息流場景下的交互。異質化的呈現方式很多,信息源的來源多樣化,嘗試使用用戶感知的方法收集行為數據,利用這些數據進行建模,可以利用這些模型來預測用戶可能注意的內容,估測用戶的注意力。搜索結果資源的聚合排序,通過大量的搜索結果和文本結果和在一起,給出一個最優的排序。此外,團隊也探索了在點擊行為之外,融合視覺特徵、結構化特徵等各種不同的表示方式,並使用深度學習的方法進行排序,以獲得更優解。關於性能評價、欺詐檢測和 CQA 作弊行為,劉奕群也分享了團隊所做的一些工作。
趙鐵軍、楊沐昀 - 機器翻譯建模與後優化的研究進展哈爾濱工業大學 楊沐昀
哈爾濱工業大學的趙鐵軍老師和楊沐昀老師從機器翻譯模型的改進和機器翻譯譯文的後優化兩方面進行分享。前者主要圍繞局部上下文增強詞彙表示及句法導向的注意力機制;後者則主要圍繞基於實例的翻譯一致性優化及基於偽反饋的編輯一致性優化進行分享。圍繞 MI&T Lab 機器翻譯研究,團隊將「語義為核心,句法篇章為兩翼,認知為前沿」作為基礎理論,基於平行語料庫 NMT、基於非平行語料庫的無指導 NMT 還有基於個人語料的機器翻譯後優化為關鍵技術,在個性化檢索、知識圖譜、對話系統等領域做落地嘗試,並應用於健康信息等垂直領域。
在最後,阿里巴巴集團機器智能技術實驗室的駱衛華老師與黃非老師對本次研討會進行了總結。二位老師首先感謝諸位與會嘉賓遠道而來參加研討會。
駱衛華表示,這是阿里 NLP 團隊首次組織相關的研討會,也希望未來能與大家多做交流。他認為本次研討會的主要作用有兩個方面。
「工業界和學術界各有各的優勢和分工,我們也希望能夠把大家的優勢結合起來,把各自在各自方向做好事情的能力結合起來,能夠推動這個技術領域更快地發展,能夠解決長期以來懸而未決沒有解決的事情。」
黃非老師非常贊同駱衛華老師的觀點,他表示自己在會上受益匪淺。通過阿里的工作介紹,他希望嘉賓們能借這個機會了解到自然語言處理,特別是多語言自然語言處理的機器翻譯在阿里的重要戰略地位,特別是在阿里國際化中起到的技術作用。
「在這樣的場景下,我認為學術界的老師和工業界的研究者有很大的研究機會和互補的機會。工業研究中會提出一些新的問題,對學術應用會有促進;同時各位老師在學術界的深厚積累,對阿里的技術推進也有很大的幫助。」
我們也相信,阿里 NLP 團隊將在未來舉辦更多與自然語言處理相關的研討會,在研究與實踐中不斷帶動學界與業界的交流與融合。更多資訊敬請關注雷鋒網(公眾號:雷鋒網)AI科技評論。
附阿里巴巴達摩院機器智能技術實驗室自然語言理解研究組團隊簡介:
阿里巴巴達摩院機器智能技術實驗室自然語言理解研究組團隊致力與學術界、產業界一起創新自然語言技術。團隊成員普遍擁有 10 年以上自然語言處理研發經驗,分布在中國、美國、新加坡的近百位研究員,30% 以上擁有博士學歷(如 CMU、伯克利、普林斯頓、清華、北大等),其中包括前國際知名院校終身教授、知名研究所研究員等。團隊及成員多次在國際自然語言技術競賽中取得冠軍成績 (2016 年 CIKM Cup 電商搜索,2017 年 IJCNLP 語法糾錯,2017 年美國標準計量局信息提取,2017 年 WMT 俄語到英語等),在歷年頂級國際會議上 (ACL,AAAI,SIGIR,CIKM) 均有學術論文及報告產出。
團隊主要從事自然語言基礎技術,機器翻譯,文本挖掘,語義計算,文本搜索和推薦等方向的研究,致力於構建阿里巴巴自然語言技術體系,支撐阿里巴巴經濟體語言智能技術和應用,秉持「讓商業沒有語言障礙」的使命理念,賦能阿里巴巴合作者,發展普惠自然語言智能技術。
創新自然語言技術,探索未來智能。
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。