專訪北大計算機所萬小軍:寫稿機器人是新媒體時代的產物| CCF-GAIR...

2020-12-13 雷鋒網

 

雷鋒網按:7月8日,由中國計算機學會(CCF)主辦、雷鋒網與香港中文大學(深圳)全程承辦的AI盛會「全球人工智慧與機器人峰會」(CCF-GAIR)進入火熱的第二天。各分會會場人頭不減,大家在細分領域深入探討交流的激情更盛。


 作為AI+專場的開場嘉賓,北京大學計算機科學技術研究所研究員萬小軍發表了主題為《機器寫稿技術與應用》的演講。會後,不少媒體朋友上前與萬小軍交流,期望能將「機器寫稿技術」引入自家媒體。

 機器人寫稿並不是一個全新的話題了。2016年8月,萬小軍帶領的北大計算機所與今日頭套實驗室聯合推出新一代AI寫稿機器人——奧運AI小記者Xiaomingbot。2017年1月,萬小軍與南方都市報合作研發寫稿機器人「小南」。「小明」和「小南」備受關注,引發很多爭論,正如鄰居小朋友每次考了高分都會讓你緊張一樣,機器人在智能上的每一次進步,都讓人類擔心自己的飯碗不保,不少小編「哭暈在廁所」。

當南方都市報將「小南」看作自己的「新同事」的時候,萬小軍卻對雷鋒網編輯說,「在我眼裡,寫稿機器人就是一個程序,目前看到的更多的還是不足。」十幾年前,萬小軍就開始做自然語言處理,開始關注其在新聞上的應用,寫稿機器人並不是一個憑空跳出來的擁有華麗簡歷的神同事,而是技術不斷推進和媒體環境變化的產物。在雷鋒網(公眾號:雷鋒網)對萬小軍的專訪中,我們拋開人工智慧何時能超越人類, 機器人能不能自主思考這樣漫漫而談的終極話題,一起來看看這個專注於新聞領域的計算機教授究竟在做什麼。

新聞是做自然語言處理最規範的文本

雷鋒網:您專注的自然語言處理技術主要有哪些應用場景?

萬小軍:自然語言處理在很多方面都有應用價值,現在的智能問答、人機互動都需要語言的處理,比如說現在的語音交互就需要機器對語言的理解,執行使用者的指令。另外機器翻譯、機器寫稿都是可應用的方面,機器寫稿更側重於自然語言的生成,是說根據語義數據去生成自然語言文本,機器的語言理解和語言生成是兩個相反的過程。

人機對話中也會用到自然語言的生成,機器理解用戶的問話之後,要生成語言來回答。在文化娛樂方面,也可以用自然語言生成技術來生成詩詞、對聯等。

雷鋒網:同樣都是自然語言生成,人機對話中的語言生成和機器人寫稿的語言生成有什麼不一樣?

萬小軍:首先是長短不一樣,人機對話中生成的回覆文本一般比較短,多數情況下只生成一個句子,而機器人寫稿則要生成包含多句話的完整文章,寫稿過程中需要重點考慮篇章結構組織以及語句之間的連貫性。另一方面,對話的生成要重點考慮跟多輪上下文的銜接,也就是「語境」,而寫稿的時候沒有這種考慮,能夠把一件事情說清楚就行了。最後,人機對話的語言表達可以比較口語化,但機器寫稿傾向於使用比較規範和正式的語言表達。

雷鋒網:您如何評價微軟小冰和度秘這一類的語音助手或者說聊天機器人?

萬小軍:做聊天機器人如果不限領域的話其實很難做,如果限定一個領域的話就可以做的相對較好,例如專注於天氣、體育或者財經。如果允許天馬行空地發問,機器人回復的難度就很大。一般來說,針對一個狹窄的領域則可以做得很精細,比如就是針對某類產品的客服機器人。現在的「問答機器人」回答的是相對簡單的事實型問題,但是像「百度知道」裡絕大部分問題都是複雜型問題,問的是怎麼樣安裝Windows, 託福怎麼樣考高分,怎麼樣上北大清華這樣的問題,這些問題機器不好回答。你要問中國的首都在哪兒,就很好回答,wiki裡都有,抽取出來放到知識庫就可以了。現在的智能問答聊天系統還不能回答覆雜的問題,解釋事情的原委以及對比。我們得一步一步來,先解決簡單的然後再考慮複雜的,如果一開始就把複雜的情況都考慮進來那就沒法做了。

雷鋒網:您在2004年就有論文關注新聞摘要提取,自然語言處理的應用領域很多,為什麼選擇並且一直專注在新聞領域?

萬小軍:自然語言處理的各項研究最早都是針對新聞語料開始做的,因為新聞是最規範的文本。如果一開始就在微博、微信和用戶評論這樣的不規範的文本去做,挑戰會很大。所以像「自動分詞」、「句法分析」、「語義分析」、「自動摘要」這些自然語言處理任務一開始的測試語料都是新聞文本。我們先看在新聞文本上能不能做好,再去考慮其它的,因為新聞相對於其他文本來說是最簡單的。

雷鋒網:用在新聞上的算法能夠應用在別的文本嗎?

萬小軍:應該是可以的,但是在精度上肯定是有變化的。比如說「分詞」這個事情,你在新聞上面分可以達到95%以上,在微博上可能會降幾個點,因為難度會更高,但是方法是可以用的。也可以進一步做些針對性處理,提高精度。

寫稿機器人是新媒體時代產物

雷鋒網:您從事新聞文本挖掘已久,您怎麼看待新聞這種文字體裁?機器人的新聞寫稿得符合哪些基本的要求?(還需要傳統的新聞五要素、客觀性、準確性這些標準嗎?)

萬小軍:在網際網路時代,新聞的定義已經跟原來不一樣了。以前要求新聞要客觀準確,而目前網絡上標題黨橫行,很吸引眼球,很多人看。自媒體時代,人人都可以寫稿,新聞不再只是由專業寫稿人生產。現在更重要的是實時、有趣。自媒體時代每個人都在發聲,機器將微博內容和評論整合起來就能出一篇新聞,這在以前是沒有的。新聞的定義在網際網路時代發生了變化。


雷鋒網:新媒體時代的新聞已經發生了變化,您在與新媒體和傳統媒體公司合作「寫稿機器人」的時候,感受到新媒體與傳統媒體哪些不同?

萬小軍:他們對機器人寫稿的看法有不一樣。今日頭條會將Xiaomingbot生產的內容直接發布,但是南都還是比較傳統一點,在發布到自己的app上時還是會經過人工審核。從傳統媒體的立場,他們希望發布的信息要很準確。而自媒體更注重量大,側重時效,吸引用戶閱讀。


雷鋒網:您與今日頭條Xiaomingbot寫稿機器人的合作是如何開始的?

萬小軍:剛開始也是機緣巧合。我們團隊當時在ACL上發表了一篇論文(《Towards Constructing Sports News from Live Text Commentary》),是一篇關於利用體育直播文字進行新聞稿寫作的論文,我們當時已經做出了DEMO。當時正是2016年里約奧運,他們看到了我們的論文,邀請我們去做報告,然後在兩周內,我們就將寫稿機器人產品做出來了。我們這次的研究離實用很近,雙方的對接也很簡單。


雷鋒網:在今日頭條後,您又與南方都市報展開了合作,兩次合作有什麼不一樣?

萬小軍:南都不一樣在於他們主要是依據數據寫稿,從12306網站抓取車票的數據,以及天氣預報這樣的結構化的數據去生成報導。頭條既有基於體育比賽數據去生成報導,也有基於體育賽事的文字直播去生成報導。宏觀上來說,從數據到文本的生成框架是類似的,但具體到每個步驟卻是不同的,需要的數據分析就是不一樣的,例如分析火車票的餘票與分析天氣預報是不一樣的,最後的語言表達也是不一樣的。具體做起來,每個領域要重新花很多力氣,沒辦法一套東西又可以做天氣,又可以做體育。

雷鋒網:目前今日頭條和南方都市報在運營寫稿機器人過程中有什麼反饋?他們是否達成了節省人力提升效率的目標?

萬小軍:今日頭條寫稿的量比較大,確實節省了很多人力。南方都市報的量要小一些,更多的是一種實驗性、探索性的目的。南都的優勢還是在於比較傳統的深度報導,目前寫稿機器人還是很難替代深度報導的。但是他們需要關注這樣的技術趨勢,積極去探索,這樣才能更好地把握未來。每家媒體對於寫稿機器人與記者如何協同分工都是不一樣的,但是目前的新媒體平臺很需要寫稿機器人來及時快速地進行內容創作與發布。

 以技術研究為驅動,落地是緣分

雷鋒網:您目前與企業的合作可以被看作是產學研結合的模式,這種模式有什麼優劣勢?

萬小軍:優勢是你會有一定經費支持做研究,通過應用可以擴大影響力,讓更多的人知道機器寫稿,獲得業界和大眾的關注,要是只是自己發論文就只能在小圈子裡。但是做應用還是會耗費不少做研究的時間和精力,畢竟做應用跟做研究還是有很大差別的。做研究的時候,你把性能從71%提升到72%,有新的方法論就是好的研究成果。但是做應用的時候,71%到72%是沒有用的,你得到85%以上才行,對效果要求比方法要求高。你方法再笨,怎麼實現都無所謂,只要能做出來。而研究要求你有創新。要是你的方法又創新又能直接應用,那當然是最好的。95%以上的研究論文都離實用差得很遠。

雷鋒網:自然語言處理在很大程度上依賴數據,在數據上面您有遇到難題嗎?

萬小軍:我們做自然語言處理研究用的數據是人工標註過的數據,產業界的數據量很大,但是很多都沒有標註。很多新聞沒有標出時間、地名、人名、事件,這樣的數據用處也沒有那麼大。學術界會經常共享人工標註的數據,產業界也會提供一些數據。比如說我們今年依託NLPCC會議跟今日頭條合作舉辦了一個「單文檔摘要」的評測任務,用了今日頭條大概十萬條的標註數據。目前遇到的問題是,比如我們要做「多文檔摘要」,基於多篇文章去得到一個高度總結,這樣的數據學術界只有一兩百條左右。但這樣規模的數據要深度學習的話是沒法做的,深度學習做摘要生成要幾十萬條數據。多文檔數據產業界也沒有,他們也沒有做人工的標註。學術界還是很缺乏數據。

雷鋒網:您對新聞寫稿的下一步規劃?

萬小軍:準備做的一個是文本複述。因為現在做摘要也好,綜述也好,主要還是直接把句子挑選出來,對句子沒有改動,下一步希望對句子做很大的改動,保持語義不變,這就是複述。我們期望做到語言風格的轉換,例如古龍的風格還是金庸的風格。另一個是在寫稿中加入態度和立場,讓稿件更加生動和具有人性。

雷鋒網(公眾號:雷鋒網):您是認為新聞行業對寫稿,文本複述有需求才做的嗎?

萬小軍:我們是技術驅動的,我沒有去跟公司聊他們的需求,這是我自己想做的一個事情。但是我相信這項技術會很有用,自動複述可以實現個性化稿件的生成。研究某項技術的時候並不完全是因為它有實用價值我才考慮去做。

所謂機器人就是代碼

雷鋒網:請問您如何評估寫稿機器人的稿件質量?

萬小軍:有一個客觀的評價,讓幾個人分別寫出不同的稿件,把這些稿件作為答案,把系統生成的稿件和人寫的稿件做一個匹配,看重合度有多高。進一步的就是人工去打分,這個稿件從內容覆蓋性、可讀性等方面進行打分。我們目前並沒有直接將寫稿機器人與人類進行PK,因為跟不同的人去PK可能會得到不同的比較結果。你跟寫稿專家去比,還是跟初中生小學生去比。每個人的寫作水平差距很大,因此就不太好比。跟記者比深度報導寫稿機器人會輸,要是比數據新聞,機器當然更快更精準。從今日頭條的用戶反饋來看,很多人沒有區別機器人的稿子和記者的稿子。

雷鋒網:自然語言處理領域有什麼前沿的新技術嗎?

萬小軍:基於深度學習進行自然語言處理研究是一個趨勢,但其實整個自然語言處理並沒有因為採用了深度學習技術而得到一個突飛猛進的進展。深度學習的應用對視覺和語音等領域取得了顯著的推動作用,但是自然語言處理很多任務並沒有獲得實質性的性能提升。深度學習能夠從圖像和語音信號中獲得有意義的抽象特徵,但是對文本來講,以前用的特徵就是詞,這已經是有意義的特徵了,用深度學習去做的時候是否能學到比詞更有意義的特徵。此外,語言的動態變化,語義的模糊性也導致了自然語言處理是非常困難的。


雷鋒網:能談談您認為自然語言處理要實現的目標嗎?

萬小軍:自然語言處理是很複雜的事情,要做到完全的理解是很難的,我不敢拍胸脯說在多少年以後一定能實現語言理解。但是在特定的應用上可以做的很好,做這些應用不需要做到理解,例如機器翻譯,系統不需要完全理解輸入的文本之後再去翻譯。做很多應用的時候可以不用考慮理解,雖然有些廠商號稱自己是理解之後再去做的。人機對話也主要是一個搜索與匹配問題,你不要問機器到底有沒有理解人類的問話以及它自己生成的答覆。

雷鋒網:能分享一些您在創造寫稿機器人過程中的趣事或者感悟嗎?您怎麼看待自己的寫稿機器人?

萬小軍:平時還是挫敗感比較多,有趣的比較少。很多時候想到一個辦法,但是就是結果調不出來。其實將「Xiaomingbot」、「小南」稱之為機器人並不是特別契合,因為它們其實就是軟體,你給它一個輸入,得到輸出,他沒有人性化。我們自己做出的軟體,一分解之後就是一行行代碼而已。我們自己知道它其實沒有那麼聰明。

 在交流過程中,雷鋒網編輯發現萬小軍老師是嚴謹而實誠的研究者,他沒有用大概念,大方向來解說自己的項目,而是真切地分析每一個問題。時間有限的採訪裡我們得到了很多實在的觀點:

  • 自然語言處理有多種應用場景,萬小軍選擇新聞領域是因為新聞文本具備最大的規範性,從簡到難,新聞領域的寫稿機器人的算法也可以逐步應用到其他領域;

  • 摘要與文本生成技術的開端很早,近年才火起來是由於新媒體時代的到來,我們的信息生產、傳達和接收方式都發生了改變,寫稿機器人具備的快速、精準、大量的特點使其在新媒體時代大放光彩,這項技術也是傳統媒體渴望轉型或者跟上時代所需關注的;

  • 學術的研究要落地應用是很難的,研究和行業應用是兩回事,產學研合作的模式能提供一些有利資源,但是萬小軍還是更希望以技術驅動來進行研究,而不是以市場需求來進行研究;

  • 自然語言處理領域要取得突破很困難,很難說什麼時候機器能實現真正的理解。但是一步一步做起,先解決簡單的事情再考慮複雜的,如果一開始就思考複雜的或者終極的問題是無法做成的。

 

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • ...北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017
    在由中國計算機學會(CCF)主辦、雷鋒網與香港中文大學(深圳)全程承辦的AI盛會「全球人工智慧與機器人峰會」的AI+分會場上,北京大學計算機科學技術研究所研究員萬小軍做了《機器寫稿的技術與應用》的演講報告。
  • 北大計算機所萬小軍:寫稿機器人偷了誰的才華?
    延續上一次大會的議題,本次 CCF-GAIR 2017 將會迎來更多人工智慧和機器人行業的議題與討論。說到機器人,就不得不說近兩年在媒體行業火起來的寫稿機器人。從 2015 年開始,騰訊、百度、今日頭條,以及傳統媒體南方都市報先後加入寫稿機器人的大軍,特別是今日頭條和和南方都市報的背後,離不開北京大學計算機科學技術研究所(以下簡稱北大計算機所)的支持。
  • 機器人記者崛起了,但人類記者不用害怕
    北京大學計算機科學技術研究所研究員萬小軍參與研發了國內包括今日頭條的「張小明」和南方都市報的「小南」在內的多款機器人記者,在此前接受雷鋒網採訪時表示,「在我眼裡,寫稿機器人就是一個程序,目前看到的更多的還是不足。」
  • 北京大學計算機科學技術研究所研究員萬小軍:機器寫稿技術與應用 |...
    在AI+專場,北京大學計算機科學技術研究所研究員萬小軍,作為AI+專場的開場嘉賓,為我們帶來了主題為《機器寫稿技術與應用》的演講。機器寫稿的背景與現狀在國外,已經有三家著名的提供機器寫稿技術的公司,包括ARRIA、AI、 NARRATIVESCIENCE,為美聯社等多家知名媒體寫了數千萬篇稿件,當然這是面向英文或者是西方的語言。
  • 寫稿機器人「小柯」上線,會翻譯,還會寫科學新聞
    近日,一款看起來挺有文化的寫稿機器人上線了。它叫小柯,由中國科學報社和北京大學科研團隊共同研發。   小柯寫的不是普通的稿子,而是中文科學新聞。   小柯:一個盡職的摘要翻譯轉寫者   科技日報記者發現,7月5日,小柯機器人發出第一篇稿子,截至8月22日記者統計時,小柯機器人共發稿415篇。初期更新時間距論文發表時間間隔一個月左右,現在可以做到當天或隔天更新,每天更新幾篇到二十幾篇不等。
  • 北大計算機科學技術研究所成立35周年慶典舉行
    多年來,在國家和北京大學的領導、支持下,王選率領計算機所的科研隊伍,與合作單位和用戶一起,研製成功漢字信息處理技術與雷射照排系統,大規模推廣應用,掀起我國「告別鉛與火、迎來光與電」的印刷技術革命,也為資訊時代漢字和中華民族文化的傳播與發展創造了條件。
  • 諾貝爾獎得主、英國皇家院士、IEEE Fellow……CCF-GAIR 2019 震撼...
    中國自動化學會智能控制和自動化專業委員會委員和 863 機器人專家組海外專家,哈爾濱工業大學機器人與系統國家重點實驗室的成員和「國家特聘專家」,以及山東大學控制科學與工程學院名譽院長。他的研究興趣包括機器人,感知,智慧機器人,以及醫療機器人和醫療器械與設備。他已發表了約 600 份期刊和會議論文,並作為項目負責人主持過 50 多個研究項目。
  • 【學習時光】媒體人必看:新媒體和傳統媒體寫稿指南
    隨著網際網路技術不斷發展完善,信息傳播格局發生劇變,大眾傳媒進入新媒體時代。新媒體具有傳統媒體所不能比擬的飛速傳播、移動性強、可讀性高、信息量大等優勢,各種唱衰傳統媒體的聲音不斷。但是,這並不意味著傳統媒體一蹶不振。
  • 北大計算機所機器寫作成果榮獲AI頂級國際會議IJCAI 2018傑出論文獎
    北京大學計算機科學技術研究所萬小軍團隊獨立完成的學術論文「SentiGAN: Generating Sentimental Texts via Mixture Adversarial Networks」(Ke Wang and Xiaojun Wan)榮獲會議傑出論文獎(Distinguished Paper Award)。
  • 新華社正式啟用寫稿機器人!小編哽咽了
    早在9月份,快科技就報導過,騰訊已經開始啟用寫稿機器人,像是CPI漲跌此類的財經新聞已開始逐步發表在網站中。而來自新華社的最新消息,在明天(11月7號),也就是中國國家通訊社新華社成立84年之際,寫稿機器人「快筆小新」將正式上崗。
  • 今天,人工智慧在 CCF-GAIR 大會上迎來高光時刻 | CCF-GAIR 2018
    作為本次大會的關鍵環節,AI 前沿專訪分為上午和下午兩個板塊,它們都有各自的主持人,這兩位主持人分別是:在報告中,Joseph Sifakis 教授主要談到了如何在物聯網時代進行自主系統設計的問題,其中重點談到了自動駕駛中的系統設計案例。他表示:作為自主的系統,現在的無人駕駛汽車是非常引人注意的案例。我們也有一些標準,這些標準可以在質量方面進行檢測,其中的系統可以對一些錯誤的形態進行驗證。比如說特斯拉汽車,它會進行自我驗證;實際上,自動駕駛汽車在研發的過程當中都必須要進行驗證。
  • 機器人搞不出大新聞
    [6] 與xiaomingbot同歲的寫作機器人還有DT稿王,後者由阿里與第一財經合作推出。這款號稱「寫稿機器人的尖子生」[7],已不滿足於悶頭寫稿,甚至發明了一個新詞:「智能寫作」。
  • 7月將出席 CCF-GAIR...
    2019 年 7 月 12 日至 14 日,由中國計算機學會(CCF)主辦、雷鋒網和香港中文大學(深圳)聯合承辦的 2019 全球人工智慧與機器人峰會(CCF-GAIR 2019)將在深圳舉行。CCF-GAIR 的主題從 2016 年的學產結合、2017 年的產業落地、2018 年的垂直細分到 2019 年的產業白熱化,無一不在形象地刻畫著人工智慧領域的發展狀態,而今年的大會主題更是映射了人工智慧和機器人領域學、產、投更加複雜的生存態勢。
  • 「2019全球人工智慧與機器人峰會」26位嘉賓首公布,直覺會火 | CCF...
    (特價1999元五折門票限量搶購中,購票參會連結:https://gair.leiphone.com/gair/gair2019。)首批確認出席嘉賓名單公布如下:中國自動化學會智能控制和自動化專業委員會委員和 863 機器人專家組海外專家,哈爾濱工業大學機器人與系統國家重點實驗室的成員和「國家特聘專家」,以及山東大學控制科學與工程學院名譽院長。他的研究興趣包括機器人,感知,智慧機器人,以及醫療機器人和醫療器械與設備。他已發表了約 600 份期刊和會議論文,並作為項目負責人主持過 50 多個研究項目。
  • 與人的交互從未如此豐富 - 機器人專場精彩回顧 | CCF-GAIR 2019
    同時,他也基於其所在實驗室的研究成果,介紹了Robot Helper、機器人舞伴(PBDR)、協作機器人(PaDY)三種類型的機器人,其中,前面兩種機器人都是協作機器人的早期研究平臺,PaDY 的開發則真正實現了協作機器人在工業中的應用。最後,他表示,隨著機器學習等人工智慧技術的蓬勃發展及其在機器人領域的應用,將有助於推動協作機器人在諸多製造產業中開拓更多的應用場景。
  • 雲南首個寫稿機器人公開測試 「小明」上崗寫篇稿只要1秒
    你能看出這句話是機器人寫的嗎?日前,雲南首個寫稿機器人公開測試,稿件內容涉及出行、天氣預警、民生菜價、演出活動等。這款機器人取名「小明」,由昆明報業傳媒集團昆明信息港網際網路應用技術研究所自主研發。   從寫作的稿件來看,「小明」在語言組織和邏輯處理方面都已具備記者的基本素質,甚至可以對一些事件進行分析,寫作質量貼近人類水平。
  • 計算機視覺領域的王者與榮耀丨CCF-GAIR 2018
    當計算機視覺研究與落地大潮湧動之際,第三屆CCF-GAIR全球人工智慧與機器人峰會「計算機視覺專場」,眾多科技巨頭首席技術官、獨角獸首席科學家、國際學術頂會主席、世界名校AI實驗室主任將會公開分享最前沿的計算機視覺技術研究與商用成果。
  • 何曉冬、陳博興、夏睿主講,張嶽、萬小軍主持,這場NLP知識盛宴不可...
    三位主講嘉賓之外,本次活動還重磅邀請到了四位NLP學術大咖:開場嘉賓-蘇州大學自然語言處理實驗室周國棟教授;東道主-華中師範大學周光有教授;主持人-北京大學王選計算機研究所萬小軍教授;主持人-西湖大學特聘研究員張嶽教授
  • CCF-NLP走進高校之「華南理工大學」站
    此外,還集結了天南地北各方NLP專家學者:蘇州大學NLP帶頭人、自然語言處理專業委員會主任周國棟教授,東道主華南理工大學蔡毅教授,北京大學語言計算與網際網路挖掘研究室負責人,自然語言處理專業委員會秘書長萬小軍教授和西湖大學特聘研究員張嶽教授。
  • 清華大學高峰:AI重新定義藝術 | CCF-GAIR 2020
    大會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)聯合承辦,鵬城實驗室、深圳市人工智慧與機器人研究院協辦。從 2016 年的學產結合,2017 年的產業落地,2018 年的垂直細分,2019 年的中國人工智慧 40 周年,峰會一直致力於打造國內人工智慧和機器人領域規模最大、規格最高、跨界最廣的學術、工業和投資平臺。