機器新聞寫作: 媒體行業的探索研究與實踐

2020-12-12 澎湃新聞

原創 任鼎 傳媒

在2019年1月,習近平總書記在中共中央政治局第十二次集體學習時強調,探索將人工智慧運用在新聞採集、生產、分發、接收、反饋中,全面提高輿論引導能力。機器新聞寫作作為人工智慧與新聞業相結合的典型代表,是新聞業基於人工智慧技術創新出的內容生產方式。在媒體競爭中,回歸優質內容將是媒體內容生產的重要趨勢,新聞內容的高質量和多元化是其主要競爭力,這勢必會推動新聞內核的重歸。機器新聞寫作對搜集和輸入的數據信息進行自動化的分析、處理和加工,進而根據特定的場景生成一篇較為完整的新聞報導,通常包括數據挖掘、知識圖譜、自然語言處理、事理圖譜、神經網絡、深度學習等人工智慧技術。

01

機器新聞寫作應用現狀

機器新聞寫作最早起源於美國,至今仍然以絕對的優勢領先,中國在第二批發展浪潮中表現亮眼,瑞典、英國、法國、丹麥等國家緊隨其後。目前機器新聞寫作的話題較為局限,以體育競技與經濟熱點為主,包括體育賽況報告、財報解讀等,社會民生、自然災害、氣象變化等話題佔比合計僅為30%。

在國外,美聯社、雅虎、華盛頓郵報、BBC新聞都已開始使用機器新聞寫作技術來負責稿件的生成,其中,華盛頓郵報的Heliograf軟體,只需編輯設置稿件模板,確定好關鍵詞便可完成稿件編寫,升級之後,可以用更加專業的評論語氣和分析事情的思路進行寫稿;BBC新聞實驗室的Juicer在2012年被首次引入,它的任務包括新聞快訊、視頻新聞、政府公告、社交媒體信息等在內的海量數據匯集,並進行自由調用,同時監控著850餘個媒體新聞源、政府信息源和部分網際網路新聞源,再將其分門別類以供寫稿使用。

中國的機器新聞寫作研究起步較晚,但發展迅速,新華社的「快筆小新」在擅長的體育和財經領域,編輯記者需要用15~30分鐘時間完成的稿件,小新只需要3~5秒鐘,而且小新可根據文字自動搜索資源庫匹配關聯性最強的圖片、視頻、音頻素材,自動製作成一段視頻,同時支持語言配音。封面新聞的小封機器人在2018年世界盃期間總共推送了世界盃相關資訊600多篇,獲得了全網總閱讀量超2億的成績。字節跳動Xiaomingbot作為首個3D多語言AI記者,除了新聞寫作的基本功能外,還被賦予了3D動畫形象,能夠配合文本內容完成多種語言的新聞播報任務。

02

機器新聞寫作技術支撐

人工智慧的三大支撐為算力、數據與算法,機器新聞寫作同樣如此。算力被形容為支撐人工智慧走向應用的「發動機」,晶片、加速計算、伺服器等軟硬體技術和產品的完整系統提供超強算力,幫助算法快速運算出結果。數據作為大數據時代的基石,為人工智慧的實際應用提供「燃料」,大數據具備5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。算法模型是人工智慧落地的「承載體」,其複雜度不斷加深,解決問題的能力以及服務的業務場景也不斷增強。

硬體平臺支撐。在人工智慧發展的早期階段,以能力訓練為核心,這一階段更多的計算負載集中在離線的數據中心。在進入大規模應用階段後,人工智慧的能力賦能產品或行業解決方案,成為普適的應用技術,在這一階段將呈現「雲+端」部署、分散化、終端化、場景化的特點,對算力的需求也將迅速增長,更加多元化。

媒體大數據云服務平臺基礎。媒體大數據云服務平臺涵蓋數據採集、數據挖掘、自然語言處理、計算機視覺處理等一系列的相關技術與理論,並對海量文、圖、音視頻數據進行統一採集、處理、存儲、檢索以及深度智能挖掘分析的大數據平臺。

數據採集。數據是起點,數據讓機器新聞寫作所需內容的關聯、預測、分析成為可能。數據採集為大數據平臺的基礎,廣泛、大量、多樣性的真實數據保障模型的學習訓練與優化。

大數據平臺的數據源大致可以分為三類:網際網路公開採集數據、中央媒體新聞稿件、媒體單位內部數據。由於外部數據的獲取渠道不同,需要多種數據採集方式,以實現覆蓋新聞/視頻網站、微博、微信、移動新聞客戶端等多種媒體渠道的文、圖、音視頻的富文本數據採集。

大數據平臺建設。隨著智能媒體時代到來,傳統媒體正處於向新型智能媒體的轉型期。構建媒體大數據服務平臺為媒體單位的網站、官方微博、微信、移動新聞客戶端的運營提供強有力的數據支撐,也為機器新聞寫作提供底層數據支持,助力技術與傳統媒體和新媒體在新聞生產、內容傳播、技術創新、產品創新、服務創新等方面深度結合。

機器新聞寫作旨在特定的新聞報導場景下,如重大突發性事件、體育、財經等,可以快速地生產出內容,在這一過程中,並不否定人參與的重要性,而是通過機器新聞寫作得到完成度極高的稿件內容,在機器或者人工審核通過後進行最終發布。為了保障機器新聞寫作的成稿質量,數據的規範性以及標籤體系的構建顯得尤為重要,數據的準確性與代表性是模型學習訓練的關鍵,這對大數據平臺的建設提出了較高的要求。

非結構化數據的數據消重、垃圾信息過濾、非相關數據過濾、統一格式等多種數據處理操作,轉換為格式規範的數據,並存入數據資源池。自然語言處理技術與計算機視覺處理技術實現文本數據的多維挖掘分析,以及圖像內容的提取分析識別處理。

圍繞當前媒體融合發展的趨勢,針對不同行業以及媒體單位屬性構建符合其特點的分類標籤體系,對來自不同媒體渠道、不同表現形式、不同數據欄位的多媒體數據進行分類與標註,從而快速發現網際網路熱點線索與信息,為機器新聞寫作提供方向與素材。

應用服務。脫離了應用場景的機器新聞寫作以及人工智慧技術是沒有意義的,技術的發展更新迭代都是為了更好地服務業務場景的實際應用需要,技術、算法與模型的實際落地也需要同應用服務場景相結合。

算法模型支撐。算法是計算機科學領域最重要的基石之一,算法與模型自人工智慧與機器新聞寫作技術提出以來就備受關注,諸多公司將算法作為企業的核心競爭力之一。算法按照模型訓練方式和解決任務不同可以劃分為很多類型,在具體的業務場景中,算法的選擇與使用也呈現出差異化的特點。

目前的機器新聞寫作大致可以分為兩類:一是將數據填空到系統模板形成新聞,模板是常量,數據是變量;二是從管理系統獲取數據,將數據進行分類、篩選、匯總、計算處理後,利用最終數據形成文本,主要適用於寫作財經類新聞文本。現有機器新聞寫作報導算法缺乏針對深度報導、追蹤報導以及富文本形式報導的稿件生成算法,隨著短視頻的興起,針對短視頻的機器新聞寫作報導也將是大家關注的焦點。

新聞熱點發現與新聞素材匹配。基於內容相似度計算模型與聚類算法模型,對大數據平臺中的素材進行相似度計算與內容聚類,快速發現網際網路新聞熱點線索,為機器新聞寫作提供內容創作方向。構建從語言、圖片和視頻到文本的跨模態語義映射和對齊,對未標註的原始數據進行自動精確的文本標註,將提取到的語義特徵投影到深度特徵空間進行面向語義理解的多層次的深度匹配,以實現在報導需求確定後,新聞素材的快速匹配。

新聞報導脈絡挖掘。以大數據平臺提供的新聞素材為數據基礎,事理圖譜與馬爾科夫隨機場為計算模型學習新聞報導事件間的因果關係,使模型實現自動識別新聞報導脈絡,並具備連續報導事件的能力。

典型新聞報導場景下新聞與短視頻生成。對語音、圖片、視頻數據的文本標註,結合知識圖譜技術與弱監督學習的方法,融合多元信息,面向新聞素材領域的弱監督遷移學習。基於自然語言生成算法和注意力機制,實現端到端學習自動生成新聞文本,自動選擇圖片與視頻素材,不斷提高學習網絡模型的魯棒性。最終形成面向多領域、多主題事件模型的泛化性,開展零次學習、主動學習與強化學習的模式。

在機器新聞寫作走向應用的過程中,以業務場景為核心,實現以最少的數據、最簡單的模型、最少的計算力解決最實際的問題,達到最好的效果。

03

機器新聞寫作評價體系

機器新聞寫作自2015年走入國內公眾的視野以來,已經歷了5年的發展,機器新聞寫作評價體系的建立對算法模型與數據質量的優化將起到一定的指導性作用。目前,國內外還沒有針對機器新聞寫作評價體系的權威發布,對標傳統媒體內容與新媒體內容稿件的評價標準與指標權重體系,維度包含內容的完整性、準確性與時效性,內容安全,傳播效果以及寫稿的效率評估。

內容的完整性、準確性與時效性。在地震、爆炸、事故等重大突發性事件的報導工作中,基於其硬新聞的屬性,有極嚴格的時間要求,報導必須迅速、準確、信息儘可能量化,這類新聞一般帶有強烈的時效性、廣泛性和指向性。機器新聞寫作,可實現文字、圖片、短視頻等多媒體稿件與專題的自動生成,大大減少了新聞成稿的時間,也保證了內容的完整、準確與時效。

內容安全。在新聞的內容審核環節,可以對文字、圖片、音視頻進行基於人工智慧的內容審核,精準識別涉政、涉黃、涉暴、涉恐和敏感人物等信息,有效管控業務違規風險。

通過語法分析、語義分析、知識圖譜、規則模型以及檢索模型等技術實現稿件內容審查。解決常見的字詞差錯、標點差錯、政治性差錯、常識性差錯、中英文關鍵詞差錯等類型,實現自動查錯、手動糾錯,提示錯誤原因、修改建議,並可統計錯情、生成勘誤表。

傳播效果。機器新聞寫作的內容大多發布在新媒體渠道中,在早先學者的研究中,網絡新聞的傳播效果體現在:一是網民的新聞消費行為,二是網民的新聞生產行為,三是媒體的反應,並且提出了點擊量、網站訪問瀏覽量、網民搜索等網民消費行為的評估方式,網民評論、轉發、收藏、受眾調查等網民新聞生產行為的評估方式以及從媒體轉發量、媒體跟進報導兩個方面分析媒體反應與網絡新聞傳播效果的評估方式。

機器新聞寫作寫稿效率。機器新聞寫作需要與現媒體單位使用的資料庫、採編系統、發布系統、媒資系統等平臺以及環境相適配,確保順利運行。同時,作為新的生產工具,需要一定的可操作性與便捷性,才能更快地推動落地應用。

04

機器新聞寫作的優勢與影響

新聞內容的生產方式在由PGC(媒體生產內容)到UGC(用戶生產內容),再到AGC(算法生產內容)的演變趨勢發展。機器新聞寫作依託數據與算法自動生成新聞稿件,避免了主觀因素導致的新聞失實,減輕新聞創作者的重複性工作,使新聞的生產與傳播更加高效,內容更加豐富。

真實、準確、客觀。新聞具有播散性與導向性,真實、準確、客觀是新聞報導工作的基本要求,在新聞生產過程中,為報導一篇作品,新聞人員需要對歷史新聞數據有基本的了解與掌握,而對於素材的收集整理歸類是一項需要時間的繁重且重複性工作。機器新聞寫作一是可以將新聞工作者從重複的素材整理工作中解脫出來,二是能提高內容生產的真實性、準確性與客觀性。

快速、高產。前文提到的美聯社使用的Wordsmith平臺,每秒甚至能生產2000篇文章,每周將可以寫出上百萬篇文章。財報報導的工作效率已經大大超過預期,在採用該平臺之前,每季度僅能夠完成300家企業的財報,而現在能夠完成3000家企業的報導。

對於地震、火災等突發性重大事件的報導,機器新聞寫作在報導速度方面體現了極大的優勢。2017年,九寨溝地震的第一條新聞報導便來自於寫稿機器人,7.0級地震報導用時25秒,其他餘震消息僅用時5秒。

05

結 語

馬克思在《資本論》中提出:「社會勞動生產力首先是科學的力量。大工業把巨大的自然力和自然科學併入生產過程,必然會極大地提高勞動生產率。」人工智慧的快速發展給生產效率帶來了提升,諸多行業都享受到了這次技術革新帶來的紅利。在智能媒體時代,從新聞素材採集、數據處理與分類標籤、新聞報導選題策劃、富文本內容的生產編輯、新聞的發布與精準推送、新聞人員的績效考核,人工智慧將參與到媒體行業的各個環節。

太極計算機股份有限公司深耕媒體行業20年,長期服務於媒體單位,見證並參與了媒體行業的技術發展及產業轉型,太極深刻地理解技術給媒體帶來的巨大影響。人工智慧等新技術將持續賦能媒體應用,創新新聞創作、發布形式,太極將同媒體單位一起擁抱新技術,引領媒體融合的未來。(作者系太極計算機股份有限公司文旅戰略業務本部業務發展中心總經理)

喜歡此內容的人還喜歡

原標題:《機器新聞寫作: 媒體行業的探索研究與實踐》

閱讀原文

相關焦點

  • 大變局下的新聞傳播實踐與研究
    在由技術革新主導的大變局環境下,部分新聞從業者在新聞傳播實踐與研究過程中,一味追求技術設備「高、精、尖」,過度強調新聞傳播類專業與工科技術型專業的相似性,片面地認為只有通過尖端技術才能打造「爆款」新聞,才能實現專業領域的突破。他們忽視了對新聞採訪、寫作、編輯、評論四項最基礎業務的訓練和打磨,忽視了對新聞傳播學作為人文學科的認識,在社會關懷和內涵素養的提升方面有所欠缺,難免陷入本末倒置的專業誤區。
  • 用融媒體方式打開新聞採訪寫作的新時空——評《融媒體時代新聞...
    在新聞學教育中存在著一種矛盾,業界理論功底較弱,學界實踐經驗較弱,而《融媒體時代新聞採訪與寫作》這本書的作者中,袁豐雪教授和張成良教授在業界工作多年,有著豐富的新聞採編實踐經驗,仇玲博士和周海寧博士在學界耕耘數載,成果頗豐,且張成良教授在融媒體研究領域著有《融媒體傳播論》等前沿成果,認為融媒體所建構的非線性時空關係,正逐漸延展到整體的社會生態環境。
  • 教育部公布首批新工科研究與實踐項目驗收結果—新聞—科學網
    4112010069 地方行業特色型高校新工科人才創新創業能力培養模式研究 通過 82 李忠獻 天津城建大學 4112010792 城建特色新工科專業集群創新實踐平臺構建的研究
  • 一文讀透復旦新聞學院「研究基地」建設
    2017年6月,由中共上海市委宣傳部與復旦大學共建新聞學院的重點項目——復旦大學上海新媒體實驗中心主體空間建設正式竣工,初期建設以屠海鳴圖書館第一、二、三層為主體空間,總面積2043平方米。其中,一樓包含全媒體內容實踐區、數據採集匯聚分析區、可視化傳播試驗區,共同構成媒體融合實踐平臺。
  • 新媒體時代下主流媒體的數據新聞報導研究
    我國主流媒體的數據新聞實踐還處於初期探索階段,本文抽取了人民網、新華社、中央電視臺三家代表性主流媒體在新媒體平臺上的數據新聞報導案例,從報導特徵、生產困境兩個層面進行解構分析,並引用國內外優質數據新聞生產案例作對比支撐,提出相應的實踐對策。
  • 智能校對-人工智慧寫作正在成為極為重要的研究工具!
    (Generated Art)相結合,形成了一個交叉學科,使之受到網絡文學、烏力波、信息主義等文學現象的影響,而人工智慧寫作,也正成為該領域極為重要的研究工具。在某種形式上,自然語言生成算法通常會被歸類為「人工智慧寫作」或「機器智能寫作」,因為它們的工作方式——例如撰寫體育新聞或天氣預報稿件,或者像我在快進實驗室(Fast Forward Labs)的同事們所做的原型一樣——在此之前只有人類才能完成。(在其他文章中,我將探討人工智慧寫作的歷史,以及相對概念, Nancy Fulda等人也支持過)。
  • Day2:攝影+寫作,理論到實踐
    宣傳培訓班開課啦今天的課程一定是大家喜聞樂見的不僅有理論基礎還有實踐課程認真探索,積極發問在豐富的實踐學習後,理論課程當然也不能少,這不,寫作課程馬上就安排上了~寫作基礎課程支隊新聞宣傳科授課人員通過詳細的PPT課件分別從寫作基礎、工作板塊以及寫作思維進行了講解,採取現場隨機抽問的方式了解了大家對宣傳工作的熟悉程度和對課程的掌握情況,並以本次培訓為主題布置了課後作業
  • AI寫作時代全面到來?搞過新聞、寫過小說,現在你孩子做的作業可能...
    文字新聞、視頻廣告,甚至你讀的詩、聽的歌、看的畫,都有可能是機器人創作的。AI不僅可以自己創作,甚至還能對文字加以潤色、提升,人工智慧寫作的時代正在全面來臨。難怪有人笑言,未來記者和編輯將會被機器代替,大部分的媒體從業者將失業。不過這樣的話題顯然已經是老生常談。如果說,AI寫作剛落地時大家還充滿惶恐,那麼現如今技術已經不再被簡單地視為「門外的野蠻人」。
  • 重慶大學新聞學院:搭建「三融」平臺 革新實踐教學
    「高校裡新聞傳播所有的課,不管是基礎知識,還是實踐課,其實都可以有機結合起來,我將自己新聞實踐教學的理念最終落腳在融合的『融』字上,所謂『融』就是將理論知識、實踐知識結合創新內容,把媒體的邊界打開,把紙媒、網媒、廣電媒體的牆推翻,通過一門課展示出來。」劉海明說道。
  • 謝春林:招商輪船智能航運的探索實踐與思考
    應邀參加本次論壇,共同探討大數據、網際網路+推動的智能化時代下,航運業創新發展的策略,分享招商輪船在智能航運方面的探索與實踐,展望智能航運的發展前景。目前眾多航運企業正在進行業務數位化和業務在線化的實踐,處於數據積累的階段;部分先進航企已在此基礎上著手開展一些智能營運的探索。總體上,航運智能化還在起步階段。我們應該加快步伐,大膽探索,勇於創新,主動擁抱技術,融合技術,形成新優勢。
  • 託福寫作機器批改中的人工智慧應用
    ETS幾十年沉澱的海量數據與頂尖院校研究員的智慧相結合,尤其是在近幾年深度機器學習(Deep Learning)的幫助下,託福機器閱卷的評分效力已經可以媲美甚至超過一名經過專業訓練的託福考官。今天這篇文章,我會給大家介紹託福寫作機器批改中的人工智慧應用。
  • 2020年湖南省新工科研究與實踐項目公布
    4 中南大學 面向行業應用的高端智能軟體研發人才培養模式研究與實踐
  • 新聞和人工智慧的結合,我們擔心的絕不應是工作 AI+News系列報導
    正如海水覆蓋著千溝萬壑,讓水面平靜蔚藍一樣,在社會環境看似平緩的變化下,同樣掩蓋著無數的陣痛、失敗和探索。 但我們相信,任何影響社會的變革和進步,必然會發生在生產力和產業的深入結合上,這一定律也適用於新聞行業。為此,我們做了關於人工智慧 News的專題報導,希望通過觀察人工智慧在新聞領域的應用,引起自己和讀者對當下的環境的思考。
  • 北大光華阿里拍賣研究實驗室掛牌,探索拍賣平臺化、網絡化發展
    北大光華阿里拍賣研究實驗室掛牌,探索拍賣平臺化、網絡化發展 2020-12-17 20:29 來源:澎湃新聞·澎湃號·政務
  • 中央媒體集中報導三明實踐_福建新聞_新聞頻道_福州新聞網
    連日來,中央媒體在主要欄目、重要版面連續聚焦報導三明實踐,講述三明幹部群眾牢記總書記囑託,堅持統籌協調發展,努力建設「機制活、產業優、百姓富、生態美」的新三明。  人民日報12月16日、17日、18日,在頭版以《風展紅旗如畫》《群眾的笑臉最美》《善用改革開新局》為題,連續三天刊發全面貫徹新發展理念的三明探索與實踐上、中、下篇。
  • 雅思寫作高分大作文範文:新聞媒體重要性及影響
    news media   本文應當圍繞新聞媒體來展開,不要提到媒體的娛樂功能。   【話題分類與題型】   本題是老題新出,與2005年6月25日、2009年3月5日、2009年8月22日的話題基本一致。屬於「媒體與廣告」類話題的「新聞與媒體」分支。
  • 新常態 新實踐 新範式:新時期高校外語教育與教學發展探索
    與此同時,院校還基於智能測評開展相關研究,以期反哺院校測評設計,並最終支持教學升級。韓淑芹副教授帶來了《信息技術背景下大學英語過程寫作模式探索——基於iWrite在線智能寫作平臺的實踐與反思》的分享。她以新時期大學英語課程體系重構為切入點,緊密圍繞《大學英語教學指南》開展系列工作。
  • 劉先省:應用型高校在專業研究生培養上的探索與實踐
    本屆論壇以「新徵程——面向未來三十年」為主題,探索新時代類型教育的歷史方位與未來方向,探索「十四五」規劃與數智治理體系建設,探索產教融合培養專業學位研究生機制,探索國際應用技術教育合作格局。黃淮學院院長劉先省接受中國教育在線採訪,圍繞應用型高校的專業研究生培養,介紹了黃淮學院的一系列探索與實踐。
  • 5G行業應用實踐情況總結
    基於此,從眾多落地的行業標杆案例中遴選出「2020年度十佳5G行業應用實踐」,以此啟迪5G行業應用未來發展,助力5G應用加速落地。 一、陽煤5G應用助力智慧礦山建設 煤礦智能化是煤炭工業高質量發展的核心技術支撐。5G技術具有超高速率、超低時延、超大連接的特點,能夠為煤礦物聯網的實現提供有效解決方案。煤礦5G技術的突破與應用,將有力推動我國智慧礦山建設。
  • 想讀新聞傳播類專業?看看廣東這幾所高校!
    知識掌握:系統掌握全媒體時代的整合營銷傳播、廣告策劃創意的理論與方法;掌握多種技術工具從事市場調研、數據統計分析、廣告創意與策劃、文案寫作、新媒體互動設計、媒體研究、廣告監測與管理等基本技能。  主要課程:新聞學概論、中國新聞史、馬克思主義新聞論著選讀、新聞採訪與寫作、新聞編輯、新聞工作坊(1)、新聞採寫專題、新聞評論、新聞工作坊(2)、傳播倫理與法規等。  培養特色:  >立足實際,探索發展。