摘要:在裡約奧運會上,今日頭條的一個名叫「張小明」的新聞機器人讓讀者眼前一亮。2秒鐘寫稿,擬人化語言,智能配圖......近些年來,人工智慧在新聞領域的應用越來越頻繁,不少人驚呼連記者這個行業都要被機器化了麼?本文將對當前新聞寫作機器人的應用情況、應用優勢和不足進行說明和探討,並對其發展前景作出展望。
關鍵詞:新聞寫作機器人;xiaomingbot;數據處理;機器學習
一、當前新聞寫作機器人的發展概況
在前不久結束的裡約奧運會上,一個名為「張小明(xiaomingbot)」的新聞機器人小試鋒芒。在奧運會開始後的13天內,共撰寫了457篇關於羽毛球、桌球、網球的消息簡訊和賽事報導,每天30篇以上。不僅囊括了從小組賽到決賽的所有賽事,且其發稿速度之快,也讓人驚訝——幾乎與電視直播同時。
「張小明」的核心——「寫稿模塊」由今日頭條媒體實驗室同北京大學計算機所萬小軍團隊共同研製。其工作原理是結合最新的自然語言處理、機器學習和視覺圖像處理的技術之後,通過語法合成與排序學習生成新聞。 作為第二代新聞機器人,「張小明」不僅可以通過檢索圖片自己選擇圖片,還能模仿人類的語氣,使用諸如「笑到了最後」、「實力不俗」等詞語(圖1)。
圖1
新聞機器人,或者叫AI機器人。是人工智慧在新聞領域的最新應用。其實,在「張小明」出現以前,新聞機器人就已被世界上的主流媒體所關注並加以使用。例如,國外有美聯社的WordSmith、華盛頓郵報的Heliograf以及紐約時報的blossom等。國內則有新華社的快筆小新、騰訊的dreamwriter、第一財經的DT稿王等。(表1)這些寫稿機器人無一例外都運用到了大數據處理技術。首先通過數據採集,將其錄入資料庫中,在將這些數據按照語句出現頻率以及新聞要素關鍵詞進行分析加工。製作出一套符合該媒體發稿風格的模板,然後將新聞元素5W1H代入其中,一篇新聞消息就這樣產生了。
表1
而這次成功搶鏡的「張小明」是今日頭條實驗室在裡約奧運會開幕一周前研發的AI機器人。它通過對接奧組委的資料庫,可以在極短的時間內完成消息撰寫,賽事匯總等工作。張小明屬於第二代寫稿機器人,比起他的前輩們,寫稿速度更快——2秒內完成稿件並上傳至媒體發布;擬人化程度更高——根據比賽選手的排名,賽前預測與實際賽果的差異,比分懸殊程度,可以自動調整生成新聞的語氣;發布稿件類型增加——不僅可以發布賽事消息,還可以生成整個比賽的賽事簡報;圖片識別篩選——可以識別圖像,在文章中選取插入賽事圖片,圖文並茂更加生動形象。
二、機器人寫稿的優勢:
1、提升發稿速度,全天候新聞熱點監測,提高新聞的時效性
時間對於新聞的意義非同小可,尤其是在當前網絡新聞環境之下,可謂是分秒必爭。新聞機器人通過之前學習相似稿件的寫作模式,憑藉其快速的信息處理能力,可以在極短的時間內就寫出一篇符合該媒體寫作風格的作品。以「小明」為例,在奧運會期間其一篇稿件的完成時間約在2秒左右,也就是說比賽剛一結束,稿件就已經寫好發布了。這讓其在發稿速度上要快其他媒體一步。其次,發出的稿件可以第一時間發布到社交媒體上,讓其消息在眾多類似消息中脫穎而出,更容易受到用戶的關注。最後,記者在長時間的報導壓力下可能忙中出錯,而身為機器「小明」可以實現全天候24小時監測賽事熱點,既不漏題同時也保證了記者有充分的精力應對關鍵比賽的詳細深度報導。
2、新聞更加全面,網際網路端新聞報導的長尾效應突出
頭條實驗室負責人李磊博士介紹,「張小明最大的意義在於,面對奧運會這樣同時舉行上百場比賽的綜合賽事,記者很難關注到每一場比賽,而機器人可以任勞任怨的為每一場比賽報導,無論這場比賽多麼冷門和不重要。傳統新聞理論並不認為這些冷門比賽或者熱門比賽(比如桌球)的前幾輪小組賽有新聞價值,可是通過我們的平臺測試,我們發現對冷門場次的報導任然有可觀的閱讀量。」 這說明在網際網路平臺上新聞報導的長尾效應十分突出,即由於受眾基數巨大,即使小眾用戶其數量也十分可觀。同時基於網際網路平臺的新聞傳播對個性化新聞需求的滿足也有利於用戶黏性的增長。這也符合未來定製新聞,分眾化新聞的大趨勢。
3、使記者從快新聞中解脫出來,著力對深度新聞的打造
當前,新聞消息的生成和傳播速度越來越快,新聞的時效性也要求越來越高,但與之相對的一則新聞消息的影響力卻大不如前。一方面,新聞的半衰期越來越短,另一方面快餐式的新聞充斥網絡。媒體行業的激烈競爭使得記者疲於應付千篇一律的消息,即便如此,漏題現象也時有發生。在這些消息上使用機器人寫作,使得記者可以從疲於奔命式的搶新聞中解脫出來,對事件背後的新聞線索進行深入挖掘和批判性地思考。從長遠看來,深度報導對新聞界是有百利而無一害,甚至可以讓快新聞逐漸慢下來,也給予讀者思考與品讀的時間。
4、面對巨大數據量處理時減少出錯量
對於經濟、體育類的新聞,常常有許多數字、數據需要整理匯總。人類記者在處理這些數字、圖表時,常常因為數據量大而忙中出錯。但是,機器人憑藉其超強的運算能力,可以處理海量數據,且不容易出錯。
5、不帶有個人情感,文章更加客觀
機器人新聞不帶有任何人類情感,文章的生成完全依賴於數據。比如在賽事匯總上,不會因為喜愛某支球隊而厚此薄彼。而是嚴格按照數據,客觀地陳述事實。在某種程度上,機器人新聞更接近新聞上對客觀性的要求。
三、目前機器人寫稿存在的不足:
1、機器人對信息的深度理解不夠
新聞機器人所能做的只是在現有資料庫的支持下,對文章進行詞彙和語句的抓取,然後進行排列組合,就像在進行一個複雜的填字遊戲那樣。機器人對文章的深度理解能力還遠遠不能與人類相提並論。例如,在張小明於8月16號關於奧運會男乒半決賽的一篇報導中,它寫道:絕望之際,失敗女神朝其拋出了橄欖枝。(圖2)機器人記者顯然沒能領會橄欖枝在自然語言中的含義。由此看來雖然身為第二代新聞機器人,在語義理解上仍具有很大缺陷。但隨著機器學習能力的不斷提高,相信這種低級錯誤是完全可以避免的。
圖2
2、扁平化新聞千篇一律,缺乏亮點和重點
這次小明發布的新聞可謂面面俱到,對每一場比賽都進行了報導。然而,由於模塊式的報導,難以迴避的一個問題就是千篇一律,每篇報導的結構甚至是用詞用句都差不多,缺乏亮點和重點,難以給讀者留下印象。例如,我們選取小明在羽毛球男單、男雙、女單、女雙四場比賽(圖3),可以看出,小明使用了大量相同或相近的詞語,且句子的排列順序都近乎相同:第一句先將新聞要素——時間、人物、地點、事件進行了說明。之後是對賽況的說明——精彩紛呈,高潮迭起。然後說明比賽時間、比賽規則、比賽結果、比分結果等。可以看到模板化複製痕跡很突出,且面面俱到,連賽制、體育場館、排名都詳細說明。但很明顯缺乏亮點和重點。
圖3
3、對信息的提煉和概括能力不足
要想把一篇文章寫好,對信息的概括和提煉能力是一個記者必備的職業素質,長而空洞的文章是沒有人看的。但目前的寫作機器人顯然沒有提煉和概括的能力,提煉與概括的前提是理解,機器人對於人類語言的理解能力還十分弱,這就限制了機器人寫作的文章體裁和領域。
4、寫作領域較為單一,目前局限為財經和體育
機器人新聞當前的應用還停留在以使用數據為主的新聞領域。具體的說是在財經和體育方面。主要工作是年度財報新聞以及賽事新聞。而且大部分的新聞機器人都較為單一的從事某一領域的寫作。很少能「身兼數職」、「一機多能」。這一方面是由於其初始寫作模塊的設置,功能較為單一,未能考慮到深讀學習功能;另一方面,數據壁壘的導致「小明們」不能獲取學習更多的數據資料,導致其「知之甚少」。
結論:目前的機器人新聞並不能等於智能新聞
很多人憂慮,由於寫作高效客觀,表述全面,機器人會取代編輯記者。但從目前機器人新聞的涉及面和功能來看,還不足為慮。所謂的新聞機器人其實只是一個自動化寫作程序。稱之為機器人還言之過早。它不能對其進行提煉升華、也沒有感性的語言作支撐。可以說它只停留在了智的層面,而沒有上升到情的高度。這樣寫出來的文章千篇一律,讀者缺乏情感的共鳴。此外,一些人將現在的機器人新聞稱為智能新聞,AI新聞其實是不準確的,目前的機器人新聞只是簡單的套用模板,簡單地對新聞元素做「加法」,真正的智能新聞應該是可以通過文字和人類進行情感的交互的新聞。
四、未來機器人新聞的發展方向:
1、跨領域的多面手:
目前來看,新聞機器人的寫作能力還僅僅停留在某一領域。一方面,現有的機器人寫手不像人類一樣,可以眼觀六路耳聽八方,它的處理器能力還很單一。交叉數據的處理能力很弱。其次,資料庫的開源也是制約新聞機器人跨領域工作的一個障礙,機器人寫手只有接入到相應的資料庫中才能繼續進行分析數據,加工模板,再套用寫作。不同資料庫之間的開源以及數據的整合使得機器人的跨領域寫作有一定阻力。因此,像新華網的快筆小新,它其實是有3個分身,每個分身各處理一個領域的新聞消息。但是,機器人的發展不可能局限於某一領域。隨著其數據處理能力的增強,以及數據開源成為可能。跨領域的機器人新聞寫作將成為可能,這樣一來,不僅大大節約了成本,而且寫出的稿件將更加全面,不同資料庫的資料可以相互補充,取長補短。寫作的類型也將不僅僅局限於短消息。使得人物通訊、甚至時事評論成為可能。
2、人類記者、編輯的助手:
將來的新聞編輯部很可能出現二加一的局面,即機器人記者同人類記者撰稿,機器人編輯同編輯共同審核把關。機器人記者可以對大量文本、音視頻數據進行處理,形成報導提綱或數據圖表,結果一輪對數據的加工,使得記者省去了查閱資料,整理匯總的不便,對報導重心做到心中有數,下筆有神。同時,可以協助編輯校對文稿,並快速發布到各媒體終端。
3、平等的交流者:
目前為止,寫作機器人還停留在單向度的接受指令,進行運算的層面。也就是說機器人還只能停留在輔助記者工作的階段。但相信在不久的將來,隨著數據量的增多,機器的運算能力的增加,以及機器對於自然語言理解能力的增強,機器人可以平等地同人類進行交流,對人類的意見進行反饋建議。
4、多平臺終端、資料庫資源的連通者:
未來隨著各機構資料庫、不同平臺之間的不斷開源,新聞機器人可以實現「推」與「拉」的多平臺終端、資料庫資源連通。一方面可以將寫好的稿件快速同時上傳到多個媒體平臺,例如目前機器人小明可以將所寫今日頭條的稿件自動共享到微博平臺;另一方面,將不同資料庫連通起來,使得數據交叉整合,發揮更大的效能。
5、媒介融合的推動者:
新聞機器人小明在這次奧運新聞報導中加入了圖像識別,可以挑選出合適的比賽畫面作為文章配圖。在今後的發展中機器人甚至可以將視頻、音頻甚至虛擬實境技術整合起來。實現真正地媒介融合。新聞機器人和可能是今後媒介融合的一個具體產物,它出現在新聞現場,根據新聞對象需要,安裝相應的新聞模塊,裝配虛擬實境攝像頭,可以快速寫稿、現場直播、製作VR作品.......未來的新聞機器人發展的可能性是無限的。
參考文獻
1Towards Constructing Sports News from Live Text Commentary,Jianmin Zhang Jin-ge Yao Xiaojun Wan,Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pages 1361–1371,Berlin, Germany, August 7-12, 2016
2新華網:http://news.xinhuanet.com/fortune/2016-08/12/c_129224795.htm 2016年08月12日 10:57:47
(責編:溫靜、趙光霞)