新聞寫作機器人的應用及前景展望——以今日頭條新聞機器人張小明...

2020-12-12 人民網傳媒

摘要:在裡約奧運會上,今日頭條的一個名叫「張小明」的新聞機器人讓讀者眼前一亮。2秒鐘寫稿,擬人化語言,智能配圖......近些年來,人工智慧在新聞領域的應用越來越頻繁,不少人驚呼連記者這個行業都要被機器化了麼?本文將對當前新聞寫作機器人的應用情況、應用優勢和不足進行說明和探討,並對其發展前景作出展望。

關鍵詞:新聞寫作機器人;xiaomingbot;數據處理;機器學習

一、當前新聞寫作機器人的發展概況

在前不久結束的裡約奧運會上,一個名為「張小明(xiaomingbot)」的新聞機器人小試鋒芒。在奧運會開始後的13天內,共撰寫了457篇關於羽毛球、桌球、網球的消息簡訊和賽事報導,每天30篇以上。不僅囊括了從小組賽到決賽的所有賽事,且其發稿速度之快,也讓人驚訝——幾乎與電視直播同時。

「張小明」的核心——「寫稿模塊」由今日頭條媒體實驗室同北京大學計算機所萬小軍團隊共同研製。其工作原理是結合最新的自然語言處理、機器學習和視覺圖像處理的技術之後,通過語法合成與排序學習生成新聞。 作為第二代新聞機器人,「張小明」不僅可以通過檢索圖片自己選擇圖片,還能模仿人類的語氣,使用諸如「笑到了最後」、「實力不俗」等詞語(圖1)。

圖1

新聞機器人,或者叫AI機器人。是人工智慧在新聞領域的最新應用。其實,在「張小明」出現以前,新聞機器人就已被世界上的主流媒體所關注並加以使用。例如,國外有美聯社的WordSmith、華盛頓郵報的Heliograf以及紐約時報的blossom等。國內則有新華社的快筆小新、騰訊的dreamwriter、第一財經的DT稿王等。(表1)這些寫稿機器人無一例外都運用到了大數據處理技術。首先通過數據採集,將其錄入資料庫中,在將這些數據按照語句出現頻率以及新聞要素關鍵詞進行分析加工。製作出一套符合該媒體發稿風格的模板,然後將新聞元素5W1H代入其中,一篇新聞消息就這樣產生了。

表1

而這次成功搶鏡的「張小明」是今日頭條實驗室在裡約奧運會開幕一周前研發的AI機器人。它通過對接奧組委的資料庫,可以在極短的時間內完成消息撰寫,賽事匯總等工作。張小明屬於第二代寫稿機器人,比起他的前輩們,寫稿速度更快——2秒內完成稿件並上傳至媒體發布;擬人化程度更高——根據比賽選手的排名,賽前預測與實際賽果的差異,比分懸殊程度,可以自動調整生成新聞的語氣;發布稿件類型增加——不僅可以發布賽事消息,還可以生成整個比賽的賽事簡報;圖片識別篩選——可以識別圖像,在文章中選取插入賽事圖片,圖文並茂更加生動形象。

二、機器人寫稿的優勢:

1、提升發稿速度,全天候新聞熱點監測,提高新聞的時效性

時間對於新聞的意義非同小可,尤其是在當前網絡新聞環境之下,可謂是分秒必爭。新聞機器人通過之前學習相似稿件的寫作模式,憑藉其快速的信息處理能力,可以在極短的時間內就寫出一篇符合該媒體寫作風格的作品。以「小明」為例,在奧運會期間其一篇稿件的完成時間約在2秒左右,也就是說比賽剛一結束,稿件就已經寫好發布了。這讓其在發稿速度上要快其他媒體一步。其次,發出的稿件可以第一時間發布到社交媒體上,讓其消息在眾多類似消息中脫穎而出,更容易受到用戶的關注。最後,記者在長時間的報導壓力下可能忙中出錯,而身為機器「小明」可以實現全天候24小時監測賽事熱點,既不漏題同時也保證了記者有充分的精力應對關鍵比賽的詳細深度報導。

2、新聞更加全面,網際網路端新聞報導的長尾效應突出

頭條實驗室負責人李磊博士介紹,「張小明最大的意義在於,面對奧運會這樣同時舉行上百場比賽的綜合賽事,記者很難關注到每一場比賽,而機器人可以任勞任怨的為每一場比賽報導,無論這場比賽多麼冷門和不重要。傳統新聞理論並不認為這些冷門比賽或者熱門比賽(比如桌球)的前幾輪小組賽有新聞價值,可是通過我們的平臺測試,我們發現對冷門場次的報導任然有可觀的閱讀量。」 這說明在網際網路平臺上新聞報導的長尾效應十分突出,即由於受眾基數巨大,即使小眾用戶其數量也十分可觀。同時基於網際網路平臺的新聞傳播對個性化新聞需求的滿足也有利於用戶黏性的增長。這也符合未來定製新聞,分眾化新聞的大趨勢。

3、使記者從快新聞中解脫出來,著力對深度新聞的打造

當前,新聞消息的生成和傳播速度越來越快,新聞的時效性也要求越來越高,但與之相對的一則新聞消息的影響力卻大不如前。一方面,新聞的半衰期越來越短,另一方面快餐式的新聞充斥網絡。媒體行業的激烈競爭使得記者疲於應付千篇一律的消息,即便如此,漏題現象也時有發生。在這些消息上使用機器人寫作,使得記者可以從疲於奔命式的搶新聞中解脫出來,對事件背後的新聞線索進行深入挖掘和批判性地思考。從長遠看來,深度報導對新聞界是有百利而無一害,甚至可以讓快新聞逐漸慢下來,也給予讀者思考與品讀的時間。

4、面對巨大數據量處理時減少出錯量

對於經濟、體育類的新聞,常常有許多數字、數據需要整理匯總。人類記者在處理這些數字、圖表時,常常因為數據量大而忙中出錯。但是,機器人憑藉其超強的運算能力,可以處理海量數據,且不容易出錯。

5、不帶有個人情感,文章更加客觀

機器人新聞不帶有任何人類情感,文章的生成完全依賴於數據。比如在賽事匯總上,不會因為喜愛某支球隊而厚此薄彼。而是嚴格按照數據,客觀地陳述事實。在某種程度上,機器人新聞更接近新聞上對客觀性的要求。

三、目前機器人寫稿存在的不足:

1、機器人對信息的深度理解不夠

新聞機器人所能做的只是在現有資料庫的支持下,對文章進行詞彙和語句的抓取,然後進行排列組合,就像在進行一個複雜的填字遊戲那樣。機器人對文章的深度理解能力還遠遠不能與人類相提並論。例如,在張小明於8月16號關於奧運會男乒半決賽的一篇報導中,它寫道:絕望之際,失敗女神朝其拋出了橄欖枝。(圖2)機器人記者顯然沒能領會橄欖枝在自然語言中的含義。由此看來雖然身為第二代新聞機器人,在語義理解上仍具有很大缺陷。但隨著機器學習能力的不斷提高,相信這種低級錯誤是完全可以避免的。

圖2

2、扁平化新聞千篇一律,缺乏亮點和重點

這次小明發布的新聞可謂面面俱到,對每一場比賽都進行了報導。然而,由於模塊式的報導,難以迴避的一個問題就是千篇一律,每篇報導的結構甚至是用詞用句都差不多,缺乏亮點和重點,難以給讀者留下印象。例如,我們選取小明在羽毛球男單、男雙、女單、女雙四場比賽(圖3),可以看出,小明使用了大量相同或相近的詞語,且句子的排列順序都近乎相同:第一句先將新聞要素——時間、人物、地點、事件進行了說明。之後是對賽況的說明——精彩紛呈,高潮迭起。然後說明比賽時間、比賽規則、比賽結果、比分結果等。可以看到模板化複製痕跡很突出,且面面俱到,連賽制、體育場館、排名都詳細說明。但很明顯缺乏亮點和重點。

圖3

3、對信息的提煉和概括能力不足

要想把一篇文章寫好,對信息的概括和提煉能力是一個記者必備的職業素質,長而空洞的文章是沒有人看的。但目前的寫作機器人顯然沒有提煉和概括的能力,提煉與概括的前提是理解,機器人對於人類語言的理解能力還十分弱,這就限制了機器人寫作的文章體裁和領域。

4、寫作領域較為單一,目前局限為財經和體育

機器人新聞當前的應用還停留在以使用數據為主的新聞領域。具體的說是在財經和體育方面。主要工作是年度財報新聞以及賽事新聞。而且大部分的新聞機器人都較為單一的從事某一領域的寫作。很少能「身兼數職」、「一機多能」。這一方面是由於其初始寫作模塊的設置,功能較為單一,未能考慮到深讀學習功能;另一方面,數據壁壘的導致「小明們」不能獲取學習更多的數據資料,導致其「知之甚少」。

結論:目前的機器人新聞並不能等於智能新聞

很多人憂慮,由於寫作高效客觀,表述全面,機器人會取代編輯記者。但從目前機器人新聞的涉及面和功能來看,還不足為慮。所謂的新聞機器人其實只是一個自動化寫作程序。稱之為機器人還言之過早。它不能對其進行提煉升華、也沒有感性的語言作支撐。可以說它只停留在了智的層面,而沒有上升到情的高度。這樣寫出來的文章千篇一律,讀者缺乏情感的共鳴。此外,一些人將現在的機器人新聞稱為智能新聞,AI新聞其實是不準確的,目前的機器人新聞只是簡單的套用模板,簡單地對新聞元素做「加法」,真正的智能新聞應該是可以通過文字和人類進行情感的交互的新聞。

四、未來機器人新聞的發展方向:

1、跨領域的多面手:

目前來看,新聞機器人的寫作能力還僅僅停留在某一領域。一方面,現有的機器人寫手不像人類一樣,可以眼觀六路耳聽八方,它的處理器能力還很單一。交叉數據的處理能力很弱。其次,資料庫的開源也是制約新聞機器人跨領域工作的一個障礙,機器人寫手只有接入到相應的資料庫中才能繼續進行分析數據,加工模板,再套用寫作。不同資料庫之間的開源以及數據的整合使得機器人的跨領域寫作有一定阻力。因此,像新華網的快筆小新,它其實是有3個分身,每個分身各處理一個領域的新聞消息。但是,機器人的發展不可能局限於某一領域。隨著其數據處理能力的增強,以及數據開源成為可能。跨領域的機器人新聞寫作將成為可能,這樣一來,不僅大大節約了成本,而且寫出的稿件將更加全面,不同資料庫的資料可以相互補充,取長補短。寫作的類型也將不僅僅局限於短消息。使得人物通訊、甚至時事評論成為可能。

2、人類記者、編輯的助手:

將來的新聞編輯部很可能出現二加一的局面,即機器人記者同人類記者撰稿,機器人編輯同編輯共同審核把關。機器人記者可以對大量文本、音視頻數據進行處理,形成報導提綱或數據圖表,結果一輪對數據的加工,使得記者省去了查閱資料,整理匯總的不便,對報導重心做到心中有數,下筆有神。同時,可以協助編輯校對文稿,並快速發布到各媒體終端。

3、平等的交流者:

目前為止,寫作機器人還停留在單向度的接受指令,進行運算的層面。也就是說機器人還只能停留在輔助記者工作的階段。但相信在不久的將來,隨著數據量的增多,機器的運算能力的增加,以及機器對於自然語言理解能力的增強,機器人可以平等地同人類進行交流,對人類的意見進行反饋建議。

4、多平臺終端、資料庫資源的連通者:

未來隨著各機構資料庫、不同平臺之間的不斷開源,新聞機器人可以實現「推」與「拉」的多平臺終端、資料庫資源連通。一方面可以將寫好的稿件快速同時上傳到多個媒體平臺,例如目前機器人小明可以將所寫今日頭條的稿件自動共享到微博平臺;另一方面,將不同資料庫連通起來,使得數據交叉整合,發揮更大的效能。

5、媒介融合的推動者:

新聞機器人小明在這次奧運新聞報導中加入了圖像識別,可以挑選出合適的比賽畫面作為文章配圖。在今後的發展中機器人甚至可以將視頻、音頻甚至虛擬實境技術整合起來。實現真正地媒介融合。新聞機器人和可能是今後媒介融合的一個具體產物,它出現在新聞現場,根據新聞對象需要,安裝相應的新聞模塊,裝配虛擬實境攝像頭,可以快速寫稿、現場直播、製作VR作品.......未來的新聞機器人發展的可能性是無限的。

參考文獻

1Towards Constructing Sports News from Live Text Commentary,Jianmin Zhang Jin-ge Yao Xiaojun Wan,Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pages 1361–1371,Berlin, Germany, August 7-12, 2016

2新華網:http://news.xinhuanet.com/fortune/2016-08/12/c_129224795.htm 2016年08月12日 10:57:47

(責編:溫靜、趙光霞)

相關焦點

  • 【新傳時政熱點】機器人新聞寫作的現狀——以「張小明」為例(北京體育大學2020年新聞與傳播學考研必讀)
    2016年里約奧運上,由北京大學計算機研究所和今日頭條媒體實驗室聯合研發出的機器人「張小明」開始嶄露頭角,這是國內第一款可以報導奧運賽事的機器人。奧運會期間,機器人「張小明」共撰寫了457篇關於羽毛球、桌球、網球的消息簡訊和賽事報導,每一篇稿件生成的時間大約是兩秒,每天可以撰寫30篇以上,其發稿速度幾乎與電視直播同時。
  • 機器人搞不出大新聞
    時任第一財經首席數據科學家湯開智,曾公開暢想了寫作機器人的更高階進化形態:DT稿王會對接商業寫作場景,並將變成開放式寫作工具,最終遍成具有商業目的的自由寫作助手。[8] 大網際網路公司如字節有今日頭條、騰訊有騰訊網、阿里有第一財經,幾家公司不缺平臺,也不吝傾斜流量,AI寫作機器人在各自的平臺裡可以形成正循環。
  • 機器人記者崛起了,但人類記者不用害怕
    據彭博社主編John Micklethwait透露,「目前,AI寫作機器人應用於金融領域相對更成熟。」機器人記者應用實況機器人記者的概念早已提出,目前包括彭博社、美聯社、華盛頓郵報、洛杉磯時報都有應用。
  • 今日頭條機器人:對話、問答、新聞創作,人工智慧已無所不能了嗎?
    10月18日,今日頭條科學家、頭條實驗室總監李磊博士在世界人工智慧大會發表了題為「理解語言與妙筆生文的機器人」的演講,分享了人工智慧在自然語言理解方面的成果與挑戰
  • 經濟學人:中國新聞APP今日頭條上了新聞頭條
    8月有傳言稱中國在線搜尋引擎百度將收購新聞聚合平臺今日頭條。頭條作出了譏諷的回應稱,傳言把買家和賣家弄反了。頭條的這種驕傲是有根據的。自2012年成立以來,今日頭條的增長速度驚人。據稱,已有7億用戶訂閱了頭條app的個性化新聞推送。最近的一輪融資後,其估值已經高達220億美元(如下圖)。今日頭條母公司北京字節跳動科技有限公司現在真成了買家。
  • 中國新聞機器人現象分析:數據與技術困境下的填字遊戲
    使用自然語言處理的機器新聞的生產,必須解決機器學習中的訓練問題。理想狀態下,我們可以使用大量現存的新聞稿件對程序進行訓練,讓機器自主學習這些新聞稿件中的寫作模式以及用詞。在實施過程中,選擇何種現存稿件,初步的結構化處理應該做到何種程度,機器學習過程中的差異記錄如何控制都是很複雜的問題。就目前來說,人工智慧在新聞生產中的大規模應用,還有很長一段路要走。
  • ...北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017
    這是基於深度學習模型來做的。寫稿機器人小明小南和阿同我們目前有三個合作的機器人寫稿項目,一個是今日頭條的「Xiaomingbot」小明機器人,南方都市報的「小南」,廣州日報的「阿同」機器人。小明主要服務於奧運會,小南、阿同當時是給2017年的全國兩會做了一些報導的工作。
  • 機器人也能寫新聞了!媒體記者會被取代嗎?
    ——新聞寫作機器人話題輿情解讀   人民網輿情監測室主任輿情分析師 何新田 人民網輿情監測室見習分析師 孫夢如   一、騰訊推出新聞寫作機器人引各方關注 此事件表明,繼多家國外媒體啟用機器人寫稿後,這一方式也終於引進國內。獲悉這一消息後,眾多媒體界和IT界人士紛紛發表看法。 有網友翻出今年5月份的一篇報導指出,利用新聞機器人寫作新聞報導的事情國外早已實現了。現在的雅虎和美聯社相當一部分財經報導和體育新聞都是機器人寫的。
  • 關於機器人的崛起和對未來的展望
    打開APP 關於機器人的崛起和對未來的展望 economist 發表於 2019-09-21 09:47:57 投資     在2013年有關機器人的最大新聞便是谷歌收購了8家機器人初創公司。
  • 專訪北大計算機所萬小軍:寫稿機器人是新媒體時代的產物| CCF-GAIR...
    萬小軍:他們對機器人寫稿的看法有不一樣。今日頭條會將Xiaomingbot生產的內容直接發布,但是南都還是比較傳統一點,在發布到自己的app上時還是會經過人工審核。從傳統媒體的立場,他們希望發布的信息要很準確。而自媒體更注重量大,側重時效,吸引用戶閱讀。
  • 今日頭條、鳳凰新聞、網易新聞、天天快報4款APP被下架
    4款APP被下架 今日頭條暫停下載3周  多家安卓商店已暫停下載今日頭條、鳳凰新聞、網易新聞和天天快報等APP;公司未對下架做出回應4月9日,部分安卓商店已不能下載今日頭條、天天快報等APP。手機截屏圖片來源:新京報  4月9日,幾位應用分發渠道的知情人士向記者證實,已經接到主管部門的要求,在當天15:00之前下架四款新聞資訊類應用。這四款應用分別是今日頭條、鳳凰新聞、網易新聞和天天快報。從4月9日15:00起,「今日頭條」將被暫停下載服務3個星期,「鳳凰新聞」暫停下載2個星期,「網易新聞」暫停下載一個星期,「天天快報」暫停下載3天。
  • 封面新聞AI機器人出詩集 人工智慧寫作是一面鏡子
    一位忠實的新聞從業者?一個公司老闆眼中的好員工?一位勤奮學習努力寫作的當代詩人?……  他沒有父母,沒有家庭,沒有籍貫……依此推導,也沒有身份證號,沒有銀行帳戶,沒有社保,沒有繳納三險一金……目前來看,也沒有伴侶和子嗣。  他是一個在人類之中但又不是人類的存在——在這個意義上,他是一個「非在」。對了,他最通俗的命名是——機器人!
  • AI寫稿機器人將替代所有汽車試駕編輯?智駕君做了一次小實驗
    相關負責人聲稱此次裁員並非疫情期間的「應急」之舉,微軟其實很早就開始探索將AI技術應用到新聞實踐中,此次裁員只是正常戰略調整。一直以來,微軟的MSN網站和,Edge瀏覽器上的新聞主頁都是人工編輯在維護。
  • 今日頭條新聞官方下載
    超好玩app今日頭條新聞官方下載強勢來襲,帶給你前所未有的軟體體驗。 今日頭條是一款新聞資訊閱讀軟體,基於機器學習的個性化資訊推薦引擎,今日頭條極速版5秒算出你的興趣,每日1000多位工程師精心優化算法,只為每一次推薦都更加精準,讓閱讀更加有用高效。
  • 「今日頭條」推送其他媒體新聞陷侵權爭議 新聞能否如此搬運
    手機應用「今日頭條」推送其他媒體新聞陷侵權爭議  新聞能否如此搬運  資訊類手機應用今日頭條涉嫌侵犯多家媒體著作權的事件,近日持續發酵,引得眾多關注。搜狐網和騰訊網日前否認與今日頭條有合作,8日,記者打開今日頭條應用,已經見不到有來自騰訊的新聞,但是仍有來自搜狐和其他眾多網站的新聞,這些新聞仍存在未經授權即被使用的侵權可能。  據反映,今日頭條用戶在接收一些推送消息時,通知欄裡並沒有出現內容來源媒體的品牌標誌,而是今日頭條的品牌標誌。
  • 小米應用商店風雲榜新聞資訊App排行,今日頭條惜敗百度位列第二
    2.今日頭條字節跳動公司旗下的今日頭條如今在小米應用商店已經有著高達37億以上的下載量,擁有著獨特推薦機制、個性化搜尋引擎,還有包含幾乎全領域的資訊內容讓今日頭條在今年的榜單上一直名列前茅,多次登上各大排行榜的前十行列,在新聞資訊類排行榜更是常年躋身前三並多次登頂。
  • 雲南首個寫稿機器人公開測試 「小明」上崗寫篇稿只要1秒
    你能看出這句話是機器人寫的嗎?日前,雲南首個寫稿機器人公開測試,稿件內容涉及出行、天氣預警、民生菜價、演出活動等。這款機器人取名「小明」,由昆明報業傳媒集團昆明信息港網際網路應用技術研究所自主研發。   從寫作的稿件來看,「小明」在語言組織和邏輯處理方面都已具備記者的基本素質,甚至可以對一些事件進行分析,寫作質量貼近人類水平。
  • 機器人按摩師上崗,未來三大應用前景無限
    那麼,大家認為這樣一款機器人的前景怎麼樣呢?未來是否有發展空間呢?其實,回答這個問題可以參考按摩椅。因為不嚴謹地說,按摩椅也可以看成是一種按摩機器人,其內部也集成了人臉識別、傳感器、機械傳動等眾多技術與部件,只不過外形被做成了椅子的形狀。近年來,自動按摩椅依靠共享的模式,在我國各地都有過一段火熱發展,由此可見其前景還是有的。
  • 上海交大研發超視覺垃圾分揀機器人—新聞—科學網
    生產線上每套設備布置2個機械手,相當於替代了54個分揀工人的工作量。」 該項目負責人、上海交大中英國際低碳學院副教授李佳介紹說。 這一項目通過CCD視覺、雷射視覺、近紅外視覺等識別傳感系統相耦合,綜合判斷目標物的外部特徵(顏色、形狀、紋理等)與內部特徵(材質),實現垃圾精準定位與細分判別;通過超視覺技術,實現各品類、各形狀、各表面材料的樣品識別,無需逐個註冊樣品3D模型,極大降低部署時間和成本;通過軌跡優化算法,讓機械臂走最優路徑,顯著提升分揀節拍;同時配合機器人軌跡跟蹤算法及抓、放算法的開發,實現垃圾的自動分揀
  • 寫稿機器人「小柯」上線,會翻譯,還會寫科學新聞
    近日,一款看起來挺有文化的寫稿機器人上線了。它叫小柯,由中國科學報社和北京大學科研團隊共同研發。   小柯寫的不是普通的稿子,而是中文科學新聞。   小柯:一個盡職的摘要翻譯轉寫者   科技日報記者發現,7月5日,小柯機器人發出第一篇稿子,截至8月22日記者統計時,小柯機器人共發稿415篇。初期更新時間距論文發表時間間隔一個月左右,現在可以做到當天或隔天更新,每天更新幾篇到二十幾篇不等。