編者按:人工智慧技術的崛起和廣泛應用日益將我們置於一個大數據和算法環繞的世界,算法的權力無處不在,從股票交易量化分析到創作音樂,從購物網站智能推薦到自動駕駛,處處都有算法操盤運作的痕跡。算法可以決定一個人的貸款申請是否獲批,也可以決定當你打開手機瀏覽新聞的時候看到什麼樣的推送。北京大學新聞與傳播學院博士研究生敖鵬在《傳媒觀察》2019年第1期刊文,梳理算法在當下歐美數字媒體環境中的前沿應用實踐,探討其如何影響和變革新聞的生產流程,以及在這個過程中產生的不容忽視的新聞價值判斷、客觀性、算法責任等問題。
算法新聞,擁抱人工智慧謹防「技術霸權」
敖鵬
作為新聞生產過程中的全新中介,算法給以新聞業為代表的公共信息和知識生產帶來了一場全新的範式革命,在傳統新聞業的方法論和觀念認知層面帶來突破和挑戰,激發人們在全新的數字環境下重新思考新聞是什麼,承擔著公共知識生產功能的新聞要如何擁抱變化、同時又應該牢牢堅守什麼。
錨定新聞:從海量信息中發現事實線索
在尋找新聞線索方面,算法作為一種數據驅動式的直覺雷達,通過一系列實時監測、聚類分析等機器深度學習功能進行數據挖掘,幫助記者在龐雜無章的信息環境中快速鎖定到有價值的信息。算法可以通過對數據的量化分析,穿透表面紛雜將信息深處隱藏的特質或問題呈現出來,幫助導引人類記者將注意力關注到有價值的信息線索上面,從而生產更為有意義的報導。比如BBC的研發實驗室就在Github裡面開發了一款名為Data Stringer的應用程式,幫助記者監控不同資料庫的實時更新變化,在某一地區某一時間失業人口激增、犯罪率激增等情況發生時給予記者提示,成為新聞生產鏈條上的關鍵起始環節。路透社則開發了專門的社交平臺監控器Tracer,運用各種數據挖掘能力幫助記者實時關注社交媒體上大規模的內容信息走向。除了強大的監測預警功能,算法還可以通過對慣常數據的系統深度分析發現出乎人們預期的線索。這一應用目前最具知名度的案例就是BuzzFeed News在2016年關於網球賽造假醜聞的調查性報導《網壇騙局》(The Tennis Racket),記者對2009-2015年間26000場專業網球比賽的賭球數據和比賽數據進行深度發掘,從數據的異常發現了球員欺騙行為的存在。算法在這一過程中,為有價值的新聞線索的發掘提供了更為客觀可靠的實證依據。
深度學習:對素材進行精密分析與核查
算法主導的深度發掘可以幫助記者更深刻地理解並駕馭日益廣泛的數據和資料,為記者提供全新的報導視角或是對事件進行深層次、全方位分析,以及用於求證信源消息的可靠程度等等。從目前的應用來看,算法深度發掘主要有三種類型,監督式學習(supervised machine learning)、非監督式學習(unsupervisedmachine learning)和強化學習(reinforcement learning)。監督式學習(supervised machine learning)依賴於標籤化的數據建立分類和回歸體系,可以揭示數據之間的聯繫,對數據信息進行深度分析,幫助新聞記者挖掘到事件背後更為深刻的現實,獲取更為獨到的解釋視角。比如,2016年,亞特蘭大憲法報在醫生性侵問題的報導方面,通過對十萬多封機構文件進行挖掘分析,發現普遍存在醫生在性侵不當行為發生後仍然繼續正常執業的事實。非監督式學習(unsupervised machine learning)不依賴於預設的標籤,可以用於揭示很多事物之間預期之外的關聯,透過互不相干的信息表象挖掘出內在聯結特徵。強化學習(reinforcement learning)試圖在算法進行決策的每一次都最大化獎勵函數,找尋在具體情境中結果最好的方法,比如被應用於測試不同的報導標題以找到最佳標題。這三種類型在新聞業素材分析領域發揮著重要功能,獨立或交叉應用於不同的情境,有效幫助新聞生產過程中的素材分析處理、趨勢預測以及事實核查等方面,提高新聞報導的精度和深度。
除了對信息數據的深層次分析,算法的深度挖掘功能如今更被廣泛用於新聞生產過程中的信息證實與事實核查,幫助鑑別消息和來源的真偽,甄別假新聞。密西根大學和阿姆斯特丹大學研究團隊在2018年最近的研究中開發的一套語義分析算法系統,識別假消息的準確率表現最佳時可達到76%,而人類自身分辨假消息的準確率水平大概在70%。而針對數字時代多種形式信息辨別的算法技術也在不斷進階,In VideoVeritas研究項目中開發的複雜機器學習算法可以幫助識別網絡傳播空間中的虛假圖像和視頻,準確率高達92%。但是,完全依賴算法來進行信息核查,以現有技術水平來看還是一件非常有挑戰性的事情,雖然諸多網站如Politifact, Factcheck.org, Fullfact等事實核查組織,都在積極探索運用算法自動化進行信息的甄別,但目前最為行之有效並廣泛採用的方法還是要人機協作共同完成。算法自動化在這個過程中協助人工核查,有助於高效地處理大規模的信息。
自動報導:更快、更廣、更好生產新聞
如果說定位新聞線索和深度素材分析只是算法作為中介為新聞生產提供工具性支持,那麼自動化新聞撰寫則是實實在在地直接生產成品新聞,也因此成為對傳統新聞生產衝擊最為猛烈的部分。
首先,算法主導的自動化報導可以幫助提升新聞生產的速率。近年來自動化的機器人撰寫新聞在財經、體育、天氣預報、突發消息等信息傳播內容簡單、傳播速度較快的領域應用廣泛,尤其是天氣預報領域的自動文本生成已經有20餘年的歷史。
其次,自動化新聞大大拓寬了新聞媒體的報導廣度。擁有170餘年歷史的老牌通訊社美聯社在2017年依靠算法實現了在每個財報季度生成3700多篇報導,覆蓋了市值7500萬美元的大部分美國股票,這個報導數量是不使用自動化生成狀況下的10倍,相對於傳統模式大大拓寬了報導涵蓋的範圍和種類。算法使得很多原來因為記者時間精力有限而無法關注到的部分都被呈現在前臺,獲得了與受眾見面的機會。
是否動搖了新聞的本質和價值判斷?
算法新聞通過機器化不停歇的數據處理能力實現了大規模海量消息報導的生成,在消息內容的覆蓋面上達成了前所未有的廣度,客觀上造就了更多新聞信息的生產。但與此同時,對於受眾而言,接收和消化新聞的時間是有限的,日益增多的海量信息中能夠被看到、實現傳播價值的只是一小部分。因此,我們不得不回歸到最初始的新聞定義問題,究竟何為新聞,新聞的價值(news worthiness)是什麼,究竟什麼樣的信息值得被關注、應該被報導、被傳播。算法邏輯主導下的這些信息生成是否還能算作是新聞,是否還具有新聞價值。
在算法自動化生成信息時,往往是根據數據命令來對新聞進行檢索,按照算法邏輯進行的大規模信息生產過程中,人類記者在實踐中的應變和專業直覺很難量化為具體的數據判斷指標,於是導致算法雖然可以生成大量消息,但很多消息的新聞價值確實值得商榷,無疑給受眾帶來更多的篩選困難。另一方面,算法作為輔助功能確實可以幫助人類記者在海量資訊中定位到新聞線索,但如果整個工作流程被算法主導,按照算法邏輯來指引記者的關注方向,那麼整個模式本身在將記者注意力引導到特定方向的同時,是否同時也使得記者們放棄了關注其他方向更有意義的線索呢?當新聞機構運用算法進行數據挖掘來導引新聞發掘的時候,本質上是允許算法來優先進行新聞價值判斷,這個過程實際上是由算法來形塑了什麼樣的內容會被報導,也進一步影響了受眾將會消費到什麼樣的新聞。當算法左右了新聞生產的判斷選擇時,新聞的本質和價值在這一過程中必然受到強烈衝擊和挑戰。
算法主導的新聞生產會更客觀嗎?
算法在新聞傳播分發領域會導致「回音室效應」和「過濾泡泡」一直是算法會引起偏見的主要證據,但在新聞生產領域,看似客觀的算法就能完全規避偏見嗎?2018年美國一家AI創業公司網站Knowhere宣稱人工智慧可以被用來撰寫公正無偏見的新聞,這家網站通過對新聞消息的大數據挖掘和深度學習抓取信息並運用自動化算法重新撰寫,在網站上提供每一條新聞的三種版本:左傾觀點版本、右傾觀點版本和中立版本,其算法新聞的應用創新獲得了資本青睞,該公司在2018年獲1800萬美金的投資。但算法在這個過程中仍在不斷獲取借鑑人類判斷數據,每篇標榜為「中立」的文章下面也會加入讀者調查的環節,讓受眾閱讀後根據自己的主觀感受對文章的中立性偏頗程度打分提交至系統後臺,事實上也是算法在不斷搜集大數據來試圖學習人的主觀判斷傾向。只依賴算法去做中立價值判斷,在實踐層面看起來是個仍需要不斷完善的漫長過程。當我們回歸到算法的工作原理本質,就會發現,姑且不討論是否剝離人類記者在整個工作流程中的勞動,算法也很難比傳統新聞更加中立無偏見。
如何解決算法新聞中的責任問題?
隨著算法在新聞生產領域應用的廣泛深入,算法所引發的責任問題也日益不可忽視。尤其是當算法在新聞生產的很多決策方面行使著越來越大的權力作用時,如何評估、監管和調整算法的權力就成了一個亟待解決的難題。算法作為一種新興的權力中介,其在新聞生產中發揮的影響力越大,其相應的責任也就越大。算法本身不是完美的存在,一定程度是不可靠的存在,需要時時刻刻被糾偏,它作為一種人工勞動設計的產品,本身是需要不斷被調試和修改完善的,沒有任何一種算法可以一勞永逸地工作下去,谷歌公司平均每年都要修改其搜尋引擎算法500-600次。新聞生產中算法常常導致失實風險、決策風險、偏見風險和隱私風險,由此衍生出的問題即是,在新聞生產過程中,算法導致的錯誤、偏差或是依據算法所做決策帶來的不良後果,責任應該誰來承擔,是算法開發者、產品設計者還是新聞決策者?同時,界定一個不良後果的出現是否要完全問責於算法?這些都給算法新聞生產提出了新的責任分配難題。算法在新聞生產過程中要承擔多少責任,以及如何承擔責任,新聞機構如何對算法進行時時刻刻的自我審查和糾偏,政府和相關監管機構如何介入新聞機構、企業的算法監督和制裁體系,一系列問題給新聞機構的新聞生產和政府監管都提出了新的挑戰。
(載《傳媒觀察》2019年01月號,原文約10000字,標題為:算法新聞生產的前沿實踐、問題及對新聞教育的啟示。本文獲《新華文摘》2019年第11期「篇目輯覽」推薦。圖表、注釋等從略,學術引用請參考原文。)
【作者簡介】敖鵬,北京大學新聞與傳播學院博士研究生