原創 任鼎 傳媒
在2019年1月,習近平總書記在中共中央政治局第十二次集體學習時強調,探索將人工智慧運用在新聞採集、生產、分發、接收、反饋中,全面提高輿論引導能力。機器新聞寫作作為人工智慧與新聞業相結合的典型代表,是新聞業基於人工智慧技術創新出的內容生產方式。在媒體競爭中,回歸優質內容將是媒體內容生產的重要趨勢,新聞內容的高質量和多元化是其主要競爭力,這勢必會推動新聞內核的重歸。機器新聞寫作對搜集和輸入的數據信息進行自動化的分析、處理和加工,進而根據特定的場景生成一篇較為完整的新聞報導,通常包括數據挖掘、知識圖譜、自然語言處理、事理圖譜、神經網絡、深度學習等人工智慧技術。
01
機器新聞寫作應用現狀
機器新聞寫作最早起源於美國,至今仍然以絕對的優勢領先,中國在第二批發展浪潮中表現亮眼,瑞典、英國、法國、丹麥等國家緊隨其後。目前機器新聞寫作的話題較為局限,以體育競技與經濟熱點為主,包括體育賽況報告、財報解讀等,社會民生、自然災害、氣象變化等話題佔比合計僅為30%。
在國外,美聯社、雅虎、華盛頓郵報、BBC新聞都已開始使用機器新聞寫作技術來負責稿件的生成,其中,華盛頓郵報的Heliograf軟體,只需編輯設置稿件模板,確定好關鍵詞便可完成稿件編寫,升級之後,可以用更加專業的評論語氣和分析事情的思路進行寫稿;BBC新聞實驗室的Juicer在2012年被首次引入,它的任務包括新聞快訊、視頻新聞、政府公告、社交媒體信息等在內的海量數據匯集,並進行自由調用,同時監控著850餘個媒體新聞源、政府信息源和部分網際網路新聞源,再將其分門別類以供寫稿使用。
中國的機器新聞寫作研究起步較晚,但發展迅速,新華社的「快筆小新」在擅長的體育和財經領域,編輯記者需要用15~30分鐘時間完成的稿件,小新只需要3~5秒鐘,而且小新可根據文字自動搜索資源庫匹配關聯性最強的圖片、視頻、音頻素材,自動製作成一段視頻,同時支持語言配音。封面新聞的小封機器人在2018年世界盃期間總共推送了世界盃相關資訊600多篇,獲得了全網總閱讀量超2億的成績。字節跳動Xiaomingbot作為首個3D多語言AI記者,除了新聞寫作的基本功能外,還被賦予了3D動畫形象,能夠配合文本內容完成多種語言的新聞播報任務。
02
機器新聞寫作技術支撐
人工智慧的三大支撐為算力、數據與算法,機器新聞寫作同樣如此。算力被形容為支撐人工智慧走向應用的「發動機」,晶片、加速計算、伺服器等軟硬體技術和產品的完整系統提供超強算力,幫助算法快速運算出結果。數據作為大數據時代的基石,為人工智慧的實際應用提供「燃料」,大數據具備5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。算法模型是人工智慧落地的「承載體」,其複雜度不斷加深,解決問題的能力以及服務的業務場景也不斷增強。
硬體平臺支撐。在人工智慧發展的早期階段,以能力訓練為核心,這一階段更多的計算負載集中在離線的數據中心。在進入大規模應用階段後,人工智慧的能力賦能產品或行業解決方案,成為普適的應用技術,在這一階段將呈現「雲+端」部署、分散化、終端化、場景化的特點,對算力的需求也將迅速增長,更加多元化。
媒體大數據云服務平臺基礎。媒體大數據云服務平臺涵蓋數據採集、數據挖掘、自然語言處理、計算機視覺處理等一系列的相關技術與理論,並對海量文、圖、音視頻數據進行統一採集、處理、存儲、檢索以及深度智能挖掘分析的大數據平臺。
數據採集。數據是起點,數據讓機器新聞寫作所需內容的關聯、預測、分析成為可能。數據採集為大數據平臺的基礎,廣泛、大量、多樣性的真實數據保障模型的學習訓練與優化。
大數據平臺的數據源大致可以分為三類:網際網路公開採集數據、中央媒體新聞稿件、媒體單位內部數據。由於外部數據的獲取渠道不同,需要多種數據採集方式,以實現覆蓋新聞/視頻網站、微博、微信、移動新聞客戶端等多種媒體渠道的文、圖、音視頻的富文本數據採集。
大數據平臺建設。隨著智能媒體時代到來,傳統媒體正處於向新型智能媒體的轉型期。構建媒體大數據服務平臺為媒體單位的網站、官方微博、微信、移動新聞客戶端的運營提供強有力的數據支撐,也為機器新聞寫作提供底層數據支持,助力技術與傳統媒體和新媒體在新聞生產、內容傳播、技術創新、產品創新、服務創新等方面深度結合。
機器新聞寫作旨在特定的新聞報導場景下,如重大突發性事件、體育、財經等,可以快速地生產出內容,在這一過程中,並不否定人參與的重要性,而是通過機器新聞寫作得到完成度極高的稿件內容,在機器或者人工審核通過後進行最終發布。為了保障機器新聞寫作的成稿質量,數據的規範性以及標籤體系的構建顯得尤為重要,數據的準確性與代表性是模型學習訓練的關鍵,這對大數據平臺的建設提出了較高的要求。
非結構化數據的數據消重、垃圾信息過濾、非相關數據過濾、統一格式等多種數據處理操作,轉換為格式規範的數據,並存入數據資源池。自然語言處理技術與計算機視覺處理技術實現文本數據的多維挖掘分析,以及圖像內容的提取分析識別處理。
圍繞當前媒體融合發展的趨勢,針對不同行業以及媒體單位屬性構建符合其特點的分類標籤體系,對來自不同媒體渠道、不同表現形式、不同數據欄位的多媒體數據進行分類與標註,從而快速發現網際網路熱點線索與信息,為機器新聞寫作提供方向與素材。
應用服務。脫離了應用場景的機器新聞寫作以及人工智慧技術是沒有意義的,技術的發展更新迭代都是為了更好地服務業務場景的實際應用需要,技術、算法與模型的實際落地也需要同應用服務場景相結合。
算法模型支撐。算法是計算機科學領域最重要的基石之一,算法與模型自人工智慧與機器新聞寫作技術提出以來就備受關注,諸多公司將算法作為企業的核心競爭力之一。算法按照模型訓練方式和解決任務不同可以劃分為很多類型,在具體的業務場景中,算法的選擇與使用也呈現出差異化的特點。
目前的機器新聞寫作大致可以分為兩類:一是將數據填空到系統模板形成新聞,模板是常量,數據是變量;二是從管理系統獲取數據,將數據進行分類、篩選、匯總、計算處理後,利用最終數據形成文本,主要適用於寫作財經類新聞文本。現有機器新聞寫作報導算法缺乏針對深度報導、追蹤報導以及富文本形式報導的稿件生成算法,隨著短視頻的興起,針對短視頻的機器新聞寫作報導也將是大家關注的焦點。
新聞熱點發現與新聞素材匹配。基於內容相似度計算模型與聚類算法模型,對大數據平臺中的素材進行相似度計算與內容聚類,快速發現網際網路新聞熱點線索,為機器新聞寫作提供內容創作方向。構建從語言、圖片和視頻到文本的跨模態語義映射和對齊,對未標註的原始數據進行自動精確的文本標註,將提取到的語義特徵投影到深度特徵空間進行面向語義理解的多層次的深度匹配,以實現在報導需求確定後,新聞素材的快速匹配。
新聞報導脈絡挖掘。以大數據平臺提供的新聞素材為數據基礎,事理圖譜與馬爾科夫隨機場為計算模型學習新聞報導事件間的因果關係,使模型實現自動識別新聞報導脈絡,並具備連續報導事件的能力。
典型新聞報導場景下新聞與短視頻生成。對語音、圖片、視頻數據的文本標註,結合知識圖譜技術與弱監督學習的方法,融合多元信息,面向新聞素材領域的弱監督遷移學習。基於自然語言生成算法和注意力機制,實現端到端學習自動生成新聞文本,自動選擇圖片與視頻素材,不斷提高學習網絡模型的魯棒性。最終形成面向多領域、多主題事件模型的泛化性,開展零次學習、主動學習與強化學習的模式。
在機器新聞寫作走向應用的過程中,以業務場景為核心,實現以最少的數據、最簡單的模型、最少的計算力解決最實際的問題,達到最好的效果。
03
機器新聞寫作評價體系
機器新聞寫作自2015年走入國內公眾的視野以來,已經歷了5年的發展,機器新聞寫作評價體系的建立對算法模型與數據質量的優化將起到一定的指導性作用。目前,國內外還沒有針對機器新聞寫作評價體系的權威發布,對標傳統媒體內容與新媒體內容稿件的評價標準與指標權重體系,維度包含內容的完整性、準確性與時效性,內容安全,傳播效果以及寫稿的效率評估。
內容的完整性、準確性與時效性。在地震、爆炸、事故等重大突發性事件的報導工作中,基於其硬新聞的屬性,有極嚴格的時間要求,報導必須迅速、準確、信息儘可能量化,這類新聞一般帶有強烈的時效性、廣泛性和指向性。機器新聞寫作,可實現文字、圖片、短視頻等多媒體稿件與專題的自動生成,大大減少了新聞成稿的時間,也保證了內容的完整、準確與時效。
內容安全。在新聞的內容審核環節,可以對文字、圖片、音視頻進行基於人工智慧的內容審核,精準識別涉政、涉黃、涉暴、涉恐和敏感人物等信息,有效管控業務違規風險。
通過語法分析、語義分析、知識圖譜、規則模型以及檢索模型等技術實現稿件內容審查。解決常見的字詞差錯、標點差錯、政治性差錯、常識性差錯、中英文關鍵詞差錯等類型,實現自動查錯、手動糾錯,提示錯誤原因、修改建議,並可統計錯情、生成勘誤表。
傳播效果。機器新聞寫作的內容大多發布在新媒體渠道中,在早先學者的研究中,網絡新聞的傳播效果體現在:一是網民的新聞消費行為,二是網民的新聞生產行為,三是媒體的反應,並且提出了點擊量、網站訪問瀏覽量、網民搜索等網民消費行為的評估方式,網民評論、轉發、收藏、受眾調查等網民新聞生產行為的評估方式以及從媒體轉發量、媒體跟進報導兩個方面分析媒體反應與網絡新聞傳播效果的評估方式。
機器新聞寫作寫稿效率。機器新聞寫作需要與現媒體單位使用的資料庫、採編系統、發布系統、媒資系統等平臺以及環境相適配,確保順利運行。同時,作為新的生產工具,需要一定的可操作性與便捷性,才能更快地推動落地應用。
04
機器新聞寫作的優勢與影響
新聞內容的生產方式在由PGC(媒體生產內容)到UGC(用戶生產內容),再到AGC(算法生產內容)的演變趨勢發展。機器新聞寫作依託數據與算法自動生成新聞稿件,避免了主觀因素導致的新聞失實,減輕新聞創作者的重複性工作,使新聞的生產與傳播更加高效,內容更加豐富。
真實、準確、客觀。新聞具有播散性與導向性,真實、準確、客觀是新聞報導工作的基本要求,在新聞生產過程中,為報導一篇作品,新聞人員需要對歷史新聞數據有基本的了解與掌握,而對於素材的收集整理歸類是一項需要時間的繁重且重複性工作。機器新聞寫作一是可以將新聞工作者從重複的素材整理工作中解脫出來,二是能提高內容生產的真實性、準確性與客觀性。
快速、高產。前文提到的美聯社使用的Wordsmith平臺,每秒甚至能生產2000篇文章,每周將可以寫出上百萬篇文章。財報報導的工作效率已經大大超過預期,在採用該平臺之前,每季度僅能夠完成300家企業的財報,而現在能夠完成3000家企業的報導。
對於地震、火災等突發性重大事件的報導,機器新聞寫作在報導速度方面體現了極大的優勢。2017年,九寨溝地震的第一條新聞報導便來自於寫稿機器人,7.0級地震報導用時25秒,其他餘震消息僅用時5秒。
05
結 語
馬克思在《資本論》中提出:「社會勞動生產力首先是科學的力量。大工業把巨大的自然力和自然科學併入生產過程,必然會極大地提高勞動生產率。」人工智慧的快速發展給生產效率帶來了提升,諸多行業都享受到了這次技術革新帶來的紅利。在智能媒體時代,從新聞素材採集、數據處理與分類標籤、新聞報導選題策劃、富文本內容的生產編輯、新聞的發布與精準推送、新聞人員的績效考核,人工智慧將參與到媒體行業的各個環節。
太極計算機股份有限公司深耕媒體行業20年,長期服務於媒體單位,見證並參與了媒體行業的技術發展及產業轉型,太極深刻地理解技術給媒體帶來的巨大影響。人工智慧等新技術將持續賦能媒體應用,創新新聞創作、發布形式,太極將同媒體單位一起擁抱新技術,引領媒體融合的未來。(作者系太極計算機股份有限公司文旅戰略業務本部業務發展中心總經理)
喜歡此內容的人還喜歡
原標題:《機器新聞寫作: 媒體行業的探索研究與實踐》
閱讀原文