[摘要] 隨著大數據時代的到來,數據新聞在當前新聞界應用日益普遍,不論是國內還是國外各大媒體都開始了對數據新聞的探索和應用。但是,在數據新聞日益興盛的同時,不論是記者還是讀者,都應該要警惕數據新聞的陷阱,以免被數據誤導。文章旨在分析探討數據新聞報導中存在的陷阱,並試圖提出可行的避免陷阱的方法。
[關鍵詞] 數據新聞 陷阱 可視化 圖表
數據新聞(data journalism)幾乎與新聞業的起始同步,第一篇數據新聞報導可以追溯到1821年5月5日數據新聞先鋒《衛報》上發表一篇新聞,《衛報》(彼時的衛報還叫做《曼徹斯特衛報》):曼徹斯特在校小學生人數及其年平均消費。[1] 幾十年後,《衛報》在1901年的戰爭報導中,又嘗試以圓圈及表格等可視化數據,展現第二次布爾戰爭中大英帝國的戰況。[2]但是,直到21世紀大數據時代的到來,數據新聞才被廣泛應用與開發。
對於數據新聞學,歐洲新聞學中心(European Journalism Centre)和開放知識基金會(Open Knowledge Foundation)共同主持開發的《數據新聞學手冊》(The Data Journalism Handbook)將其定義為:簡單來說就是用數據報導新聞,它為記者將傳統的新聞嗅覺和運用規模龐大的數據信息結合起來報導新聞創造了可能。[3]
大數據時代,記者運用數據所能夠創造的可能性,已經為所有新聞從業人員打開了一扇天窗。數據不僅可以幫助記者更加生動清晰地講述複雜的新聞故事,同時還有利於記者利用數據從一個更宏大的視角來發掘新聞、敘述新聞。於是,數據新聞成為業界寵兒,各類新聞媒體躍躍欲試。
但是,數據新聞的應用也給媒體帶來了隱憂。美國科技博客ReadWrit刊登一篇題為《靠數據驅動的新聞未來》(The Data-Driven Future Of Journalism)的文章稱,我們希望整個行業不要被數據奴役,而應該把數據當做讀者的代理人。[4]同時,由於數據新聞其正處於發展起步階段,且數據獲取、分析和可視化過程中有較多技術性要求,數據新聞的報導也容易陷入數據泥潭與陷阱,不僅沒能說明問題,反而連自己提供的數據也不能解釋,進而誤導受眾,弄巧成拙。
一、數據搜集的陷阱
1.非隨機樣本,以偏概全
隨機樣本,即指按隨機性原則,從總體單位中抽取部分單位進行調查的樣本。其中,總體單位就是指一個特定集合中的全部組成成員,而樣本就是這個特定集合中的一個子集。總體可能很大也可以很小,當總體小時,你可以直接觀察總體,得出有關總體的各種結論。但是當總體較大時,只能通過觀察總體的一個樣本,推測有關總體的結論。
一般來說,隨機取樣可以保證每個單位都有同等被抽到的機會,被抽到的單位完全是偶然性的,因而隨機樣本更能夠反應總體的情況;非隨機樣本則不然。因此,在數據新聞報導中,切忌使用非隨機樣本得來的數據,以偏概全。
2013年十八屆三中全會,我國衛計委公布了放開「單獨二胎」的信息,隨後多家媒體對此進行了街頭訪問或者是門戶網站的問卷調查。某網站記者在街頭隨機調查了50名普通市民,其中有22人符合「單獨二胎」的條件,在這22人中,有14人表示如果政策允許,會考慮生二胎,而另外8名受訪者稱不考慮再生,這表明大概有64%的具備生育條件的人想生二胎。[5]而根據國家衛生計生委前期開展的生育意願調研,我國共有1500萬至2000萬符合生育新政的夫婦,大約半數願意生育第二個孩子。也就是說,該網站的調查結果不具備代表性,不僅是因為其樣本選取太小,而且它在樣本的選擇上也不是隨機取樣,因而既不能反應唐山地區人們的生育意願,更不能反映全國。
所以,記者在獲取數據的過程中,如果使用的是非隨機樣本,那麼研究樣本得出的結論,並不一定能推回到總體。想要讓研究樣本得出的結論有意義,就必須需要樣本具有代表性,也即讓總體中的每一個成員被選入樣本的機率要相等。
2.數據來源的真實性風險
一些數據新聞的記者認為,數據新聞不只是豐富了新聞的表現形式,還改變了新聞生產流程。數據新聞的採編流程不同於傳統的新聞。如前所述,數據新聞的生產流程大致為數據彙編、數據整理、了解數據和數據整合四個部分。
但在這些關於數據新聞的處理流程的研究當中,其起點便是數據的彙編或者使用,而對數據的來源沒有過多的考慮。作為數據新聞,數據來源的真實性是其持續健康發展的保障。沒有一個正規可靠的數據來源,數據新聞的真實性也難以得到保障。
2012年,國際上第一個表彰數據新聞領域優秀工作的專業獎項「數據新聞獎」(Data Journalism Awards,DJA)設立,吸引了眾多的新聞行業人員參與。在參與該獎項的數據新聞作品的數據來源中,公開數據198個(其中有38個項目的數據是應項目需求而公開的),自主收集70個,私有數據56個,社會化媒體11個。大數據新聞的主題主要涉及財政預算、環境汙染、法律和權益問題、居民消費等,而這些領域的主要資源都在政府部門手中,所以政府的公開信息是這些項目的主要途徑。[6]
由於自主收集數據耗時耗力,因此更多時候,媒體所做的就是使用數據、描述數據,而對數據的來源並不都需要記者親力親為。但是,如果對數據來源不加驗證全盤照收,記者能保證他報導的真的就是「事實」嗎?
2006年10月20日,《上海證券報》刊登的文章《中國0.4%最富裕的人掌握了70%的財富》中,採用的部分數據系境外反華網站刻意編造。2009年6月,某專家在一次專題討論會上引用該報導數據稱,「國外一家研究機構估計,中國0.4%的最富裕的人掌握了70%的財富」。隨後,《人民政協報》未經核實,將此虛假數據在2009年6月19日的報導《調整收入分配格局不是「殺富濟貧」》中刊出,並將「國外一家研究機構」改成「中國權威部門」。[7]這就是從社會化媒體中及專家口中獲取的數據,記者未加進一步採訪驗證,便悉數全收,最後導致假新聞的出爐。
因此,數據新聞的寫作,不能僅僅停留在照搬數字或者把數字轉化成各種圖表,而應深入調查、小心求證。
二、數據可視化的陷阱
1.圖形造成的假象
化數據為圖表或曲線,用圖表或曲線表示數據最大的優點是直觀、 一目了然。但是用圖表和圖形來表示數據也存在一定的陷阱,容易誤導受眾。
一維圖形的濫用最容易導致圖形造成的假象。在形象圖形中,用一個小人來表示成千上萬的人,一個錢袋或一堆硬幣表示一千英鎊或者百萬美金,一片牛肉表示明年牛肉的供應量,這些都是形象的圖形表達。由於這種圖形非常吸引眼球,所以可以作為一種有用的工具,但同時它也能搖身一變,成為一個老練、狡猾而且成功的騙子。
柱狀圖是一種便捷常用的形象圖形,它在描述單一物體時,柱體改變寬度的同時,長度也發生變化;在描述三維物體時,物體的體積又不容易進行比較。例如我們要比較北京與廣西某工種工人的平均周工資,假設數值分別為1000元和500元,為了生動,我們用錢袋代替圓柱,先畫一個錢袋用來表示廣西工人的500元,然後再畫一個高兩倍的錢袋代表北京工人的1000元,高度是1∶2。但是問題在於,既然第二個袋子比第一個高一倍,也應該同樣寬一倍,那麼佔用紙張的空間就不是2倍而變成4倍,即實際比例是2∶1,但視覺效果卻是4∶1。而對讀者而言,大多數時候視覺效果起著決定性的作用。此外,實際事物往往是三維的,那麼第二個袋子還應該比第一個袋子厚一倍,按照幾何知識:相似物體體積的變化等於任意相似邊長度變化的三次方。於是,2乘2乘2等於8,如果一個錢袋裡有500元,另一個錢袋則看上去應該是500的8倍,即4000元。
上圖顯示的的是福克斯新聞2012年的報導[8],內容是布希總統減稅政策到期後對稅率帶來的影響。圖中呈現的分別是2012年和2013年(減稅政策到期後)的最高稅率比較。事實上,2012年減稅政策實施時和2013年政策到期後的最高稅率分別是35%和39.6%,但是圖表中減稅政策到期後的最高稅率在圖中顯得比現在的最高稅率高了5倍之多。只相差5個百分點的兩個數據,卻被福克斯新聞的小伎倆改變了呈現出的狀態:他們在縱軸上用了很小的比例尺,並且原點並不是從0開始。這樣便誇大了兩個數據之間的差距。我們都知道,福克斯新聞是擁護布希所在共和黨的保守媒體,這樣做是為了凸顯布希減稅政策到期後人們需要交比之前多得多的稅。但這樣可視化後的數據有失客觀性。事實上,正常的圖形應該是這樣的:
在直線類圖形中,也同樣存在假象誤導受眾的情況。在顯示趨勢時,直線圖形非常實用。在一則關於哥倫比亞煤氣公司(Columbia Gas System)的廣告中,有一張「來自最新年報」的直線圖形,如果仔細閱讀圖中的數字並進行分析,你將發現10年來生活指數上升了60%,汽油成本下降了4個百分點。但是對這家公司為了讓圖表更顯得生動、誇張,並對自己公司有利,他們將圖形頂部截至90%的刻度(縱坐標沒有斷層,也沒有任何文字說明來提示所做的變化),以至於單純通過觀察得出的結論是:生活指數是原來的3倍,而汽油成本則下降了1/3。也就是說,一樣的數據可以畫出不一樣感覺的圖表,即便這些圖表都是正確真實的,卻能給受眾不一樣的感受,有些甚至會造成假象,誤導受眾。如果記者拿到這樣的圖表,照搬報導而不進行驗證分析,那麼就成了誤導受眾的幫兇。
2.片面可視化數據:
在下圖中,Verizon聲稱他們的3G網絡覆蓋率是AT&T的5倍。Verizon只將自己的1.4兆3G網絡與AT&T更新更快的3.2兆3G網絡相比,而忽略了AT&T的其他EDGE和2.5G網絡,以及AT&T提供的免費WIFI服務。同時,2009年的Verizon只提供3G網絡而沒有2.5G網絡,也就是說,在總的網絡覆蓋率上,Verizon很可能是比不過AT&T的。但是Verizon卻巧妙地利用下面這幅圖表,給自己加分。
為了澄清自己的名聲,AT&T發了幾通新聞稿,稱他們雖然確實像圖中所描繪的那樣,在鄉村地區沒有3G網絡覆蓋,但他們在那些地區仍舊是有EDGE和2.5G網絡覆蓋的。[9]這是典型的只說其一、不說其二,但是受眾會以為自己看到的就是全部的情況,這樣的陷阱不僅記者要量堅決避免,受眾也應該提高警惕。
三、數據報導的陷阱
1.濫用平均數
平均數是表示一組數據集中趨勢的量數,它是反映數據集中趨勢的一項指標。但是平均數在新聞報導中卻常常讓人感到迷惑不解,被認為不能代表個人的真實情況。這也是數據新聞學應當警惕的一大陷阱,而陷阱的癥結就在於:a、計算的陷阱;b、用的哪個平均數。
不同的計算方式往往會給人不同的結果。假設你是某企業的3個合伙人之一,到了年底,你給企業的90個職工共發了99000元,你和其他合伙人每人各獲得5500元的工資;最後還餘下21000元,作為利潤可供你們3個合伙人平分。那麼結果就是:
職工的平均工資…… 1100元
所有者的平均工資及利潤…… 12500元
但是這樣的收入差距會帶來職工的不滿,於是你可以:從利潤中拿出15000元以獎金的形式平分給3位合伙人,剩下6000元作為所有者的利潤平分給三個合伙人。這一次將包括了所有者和職工的工資進行平均,採用均值,結果變成:
所有人員的平均工資或薪金…… 1403元
所有者平均利潤…… 2000元
後一種數據對於企業掩蓋工資差別及剝削十分有力,如果記者拿到的是後一種數據,那麼數據展示的情況與每個人實際所得的工資差別巨大,這便是數據埋下的陷阱。
在計算方法完全一樣的情況下,平均數也會給你設置陷進。售樓處工作人員對你宣稱,他們小區居民的平均年收入大約有10000元,於是你帶著能夠住進富人圈的心思買下了該小區的房子;但是你的鄰居卻告訴你,這個小區居民的平均年收入只有3000元。你肯定會覺得震驚,從10000元到3000元的差異確實很大,到底是售樓工作人員撒謊了,還是你的鄰居撒謊了呢?其實,誰也沒有撒謊,無論是10000元,還是3000元,它們都是正規的平均數,計算方法也完全正確。兩個數字都基於相同的數據,來自相同的居民,根據相同的收入。所有都是相同的,而導致結果差別如此之大的原因就在於售樓工作人員和你的鄰居用的是不同的平均數。
平均數有不同的種類,包括均值、中位數、眾數。不同類型的平均數計算處出來的結果是截然不同的。售樓處的工作人員所說的10000元是均值,也就是附近居民收入的算術平均數,即將所有家庭的收入加起來並除以家庭總戶數便可得到這種算術平均數;而你的鄰居所說的3000元是中位數,即3000元是這個小區家庭年收入的中間線,那麼這個小區有一半家庭年收入超過3000元,另一半家庭的年收入不及3000元。
因此,在採訪和報導此類數據新聞時,記者應該要尋根問底,數據是如何計算得來,用的是哪種平均數等都要清楚,不然你的報導中便無法解釋數據。
2.重形式輕內容
英國《衛報》數據新聞編輯Simon Roger曾說:「數據新聞不是圖形或可視化效果,而是用最好的方式去講述故事。只是有時故事是用可視化效果或地圖來講述。」[10]
我們並不能簡單地認為數據新聞就是與數字打交道,或畫出吸引眼球的信息圖。它與傳統新聞一樣仍然是在講述故事,講述數字背後人的故事。只是採用了數據新聞的方式,運用圖表,可以更簡單而清晰地讓受眾明白複雜數據背後的情況。從這個意義上來說,數據新聞的本質還是「講故事」。但是當前存在這樣一種「重形式輕內容」的誤區。
有些問題用文字一語即可明了,卻為了吸引眼球顯示精準性,硬以複雜的圖表形式呈現出來;有些報導偏重於數據的可視化,重心放在了可視化圖表的製作和展示方面,而缺少對數據背後的意義的揭示。還有一種情況,即數據新聞成為媒體盈利和競爭的手段,因而其形式就成了媒體的追求,內容的重要性屈居其後。正如Owen Thomas所說,過度追求搜尋引擎優化和短期的頁面瀏覽量,是因為數據被不該掌握的人掌握了——工程師更看重算法,而不關注人。網際網路的機會主義者只看重金錢,而勞累過度的編輯們卻也在疲於完成各種量化任務。[11]
四、結語
數據新聞的出現順應了大數據時代的發展需要,它將數據資源集納起來,不僅用事實說話,還用數據說話,使新聞傳播更有針對性,精準性。
但是,數據新聞的陷阱也是從業者不可忽視的問題。當前,學界和業界對數據新聞的關注和研究正處於起步階段,有很多問題仍處於探索階段,新的問題和陷阱也在不斷出現,因此,要想規避這些陷阱並沒有條條框框的教條可以照搬,也沒有豐厚的現成經驗可以借鑑,而是需要新聞從業者自身的警覺與提高。
數據新聞的興起對新聞從業者提出了更高的要求,新聞從業者和研究者都應該不斷更新知識結構,適應新聞傳播環境的變化,不斷加強對數據新聞的了解,在實踐中發現問題,解決問題。(作者系 西南政法大學全球新聞與傳播學院)
參考文獻:
[1]杜怡.什麼是數據新聞[OL].[2013-12-07].
http://djchina.org/2013/10/12/resource-what-is-data-journalism/.
[2][10]Simon Rogers. Facts are Sacred[M]. London: Faber and Faber,2013.
[3]郭曉科.數據新聞學的發展現狀與功能[J].編輯之友,2013(8):87-89.
[4][11]Owen Thomas.The Data-Driven Future Of Journalism[OL].ReadWrite.
http://readwrite.com/2013/09/06/data-journalism-future#awesm=~opT7wybPNYXNx7,2013-09-06.
[5]趙立峰.記者接頭隨機調查50人 14人表示會考慮生二胎[N/OL].環渤海新聞網,[2013-12-12].http://tangshan.huanbohainews.com.cn/system/2013/11/19/011281474.shtml.
[6]王斌.大數據與新聞理念創新——以全球首屆「數據新聞獎」為例[J].編輯之友,2013(6).
[7]雷新.中國0.4%最富裕的人掌握了70%的財富[N/OL].搜狐網,[2013-12-12].
http://media.sohu.com/20130419/n373280153.shtml.
[8]FlowingData.Fox News continues charting excellence.[OL].
http://flowingdata.com/2012/08/06/fox-news-continues-charting-excellence/,2012-08-06.
[9]Prince McLean.AT&T defends its data network from Verizon ad attacks [OL]. Appleinsider.http://appleinsider.com/articles/09/11/10/att_defends_its_data_network_from_verizon_ad_attacks.html,2009-11-10.