來自開放數據的閃電新聞:如何從數據中找到新聞線索

2020-12-14 澎湃新聞

原創:

        服老思

        

數據新聞是個很廣的概念,要理解這個詞語,我們最好將其拆分。「數據新聞」即是「數據」和「新聞」。

談及「數據新聞」,我們通常有兩種操作思路:

一是通過「數據挖掘」(data mining),找到新聞點;二是在已有的新聞中,添加呈現數據的元素。

其中,「數據挖掘」指從資料庫中尋找到有價值新聞點。這些從資料庫中爬取的信息可能會給新聞調查帶來新的調查思路。最終呈現出來的作品也許根本就沒有完全反映數據的使用,好像還是傳統新聞那樣,主要還是內容仍舊是採訪與照片。但其實這整個的新聞熱點,都是科學地由數據挖掘而來。

另外一種方式,便是用數據來呈現、解釋新聞點。其中會涉及多種圖表和一些交互性功能的使用,在科學領域我們通常稱之「數據可視化」。

本篇文章側重講解

「數據挖掘」(data mining)

,也就是探討如何從數據中挖掘新聞,或者說,找到新聞線索。

數據cookie:良好的新聞線索發掘能力是記者最重要的技能之一

從新聞線索發展為一個完整的新聞故事,則需要結合傳統的和新興的新聞操作手法。

本篇文章中,為了方便討論,我們使用「新聞」廣義的定義——

公眾獲得了他之前所不了解的信息,也可以理解為「新的信息」

。所以「新聞」有可能是當前事件的最新狀態,或是對讀者來說的「新知識」。

(某些知識可能對於一些領域的專業人士是常識,但對於普通受眾而言,那就是全新的知識了。)

正如中文常說的

「大道至簡」:最複雜的理論往往是用最簡單的語言構建

所以我們其實不用難懂的編程技巧,拋開複雜的電子表格工具(spreadsheet),只用一些最最基礎的計算機常識(computer literacy),再加上我們敏銳的新聞嗅覺,就已經可以從數據中找到很多有意思的「新聞點」了。

接下來,我們會通具體的例子來進一步解釋如何在數據中尋找新聞。

這些例子都來源於新聞系的本科生。

這些數據表,是這些本科生們,在數據新聞的第二堂課上,用僅僅二十分鐘時間,從香港政府網站上爬取下來的。

我們從網站的公共數據集開始,仔細審視這些數據表,來尋找有趣的新聞點。

這個過程十分快速,以至於我們給它取了一個猴塞雷的名字:

「閃電新聞」(Lightning News)

那麼,應該如何提高自己「Lightning News」的能力呢?

大量的日常訓練!

大量的日常訓練!

大量的日常訓練!

大量的日常訓練後,新聞敏感性和數據敏感性都會有很大提升。

讓我們從這篇文章開始日常訓練的第一步吧!

01 數據:按年及性別劃分的年齡中位數(不包括外籍家庭傭工)數據來源:https://www.bycensus2016.gov.hk/tc/bc-mt.html

【分析】

1. 最後一排展現的是香港過去幾十年的年齡變化情況。

2. 比較男性和女性的年齡中位數,重點關注紅色圓圈圈起來的數字,我們發現:不包含外籍家庭傭工的情況下,女性普遍比男性年長。

3. 單看男性的數據,我們可以發現,包含和不包含外籍家庭傭工的兩組數據並沒有顯著的差異。

問題就來了:是因為沒有男性的外籍家庭傭工嗎?還是有數據背後隱藏著細小的區別呢?事實是,還真有男性的外籍傭工存在。

所以接下來,你就可以進一步去挖掘他們的故事了。

02 資料庫:政府在教育方面的開支數據來源:https://www.edb.gov.hk/en/about-edb/publications-stat/figures/gov-expenditure.html

【分析】

很容易發現,政府在教育上花費的開支絕對數字是在增長的(綠色方框標註),但是教育開支佔所有開支的比例卻是在減少的(紅色方框標註)。

那麼,新聞線索便呼之欲出:政府在教育上的投入到底是增加了?還是減少了?

03 資料庫:按種類劃分的平均固體廢物數量數據來源:https://www.censtatd.gov.hk/hkstat/sub/sp420.jsp?productCode=D5600560

【分析】

1.相比之前的例子,這張圖表上有更多有價值的數據點。

通常情況下,為了便於更清楚地發現最重要的信息,我們會使用「低亮」(與「高亮」相反的操作)的方法,即通過灰白色來隱藏一些繁瑣的細節。

在序列數據中,它的起點/終點/中間點這三部分是我們最關注的。

當拿到一張圖表示,你只需要快速掃視圖表中的的這三個關鍵數據,便能很快判斷出整體的變化情況。

變化情況一般分為四種:上升,下降,先下降後上升或者先上升後下降(符號表示:/, , V, ^)。

通過對於整體趨勢的判斷,一個有關趨勢的故事就能信手拈來了。

舉例如下:

這場圖表總體來看,【城市固體廢物】排放量不斷增加,其中【生活垃圾】略有減少,【商業垃圾】幾乎翻了一番,而【工業垃圾】則增加了一半。

通過以上信息分析,

【商業類】和【工業類】固體廢物的迅速增長,是否表明城市經濟正在進行結構上的轉變?

注意,這些數據還很適合通過折線圖的方式進行展示。

詳細可參考HOWTO 這篇文章(點擊閱讀原文觀看)和下面的例子:

04 上網費津貼(寬帶補貼)計劃統計數字https://data.gov.hk/sc-data/dataset/hk-wfsfaa-sfo_01-sia-stats

分析

1. 從圖表中我們發現,無論是申請補助計劃的人數,以及申請成功的案例,其數量都在減少。

2. 那麼,是什麼原因導致沒有那麼多成功的申請者的呢?

這種趨勢是否表明整體經濟形勢在變好,所符合補助資格的人數在變少?

或者僅僅是因為申請成功的標準在變嚴格?

05 15歲及以上人口的教育程度分布https://data.gov.hk/sc-data/dataset/hk-edb-figustat-fig-stat-population-aged-15

分析

1.從上表中我們發現,教育程度在「小學及以下」和「中學」的人數在減少。這是否表明全民教育成功普及?

或只是因為年輕人教育程度普遍較高,同時低學歷的老年人去世,導致教育程度較低的人數整體減少?

2.學位課程有哪些潛在途徑?更普遍的問題是,小學畢業後,學生的教育路徑/職業晉升路徑是什麼?

網際網路的發展讓很多非本地讀者也能瀏覽到當地的新聞。

只經歷過數十年標準化/統一教育體系的內地讀者很快就會發現,在香港,中學教育通常跨越5-7年,大學教育跨越2-5年。這和內地的教育體系有很大的不同。

資料來源:

http://www.hkihrm.org/index.php/component/phocadownload/category/16-business-case-business-knowledge?download=80:jul29-post-secondary-education-in-hong-kong-profkwan

06 跨境(內地和香港)車流量https://www.info.gov.hk/gia/general/201805/23/P2018052300535.htm

分析

1.上圖是按類型和年份統計的過境巴士數量表格。可以看到,過去16年間,跨境車輛的數量有了很大的變化。

最明顯的一點:過境的人變多了,過境的貨變少了。

2.這種趨勢是否意味著兩邊的交流變多?抑或這種現象是由於邊境政策放鬆所導致?

3.進一步挖掘表內信息,比如,工作日流量,邊境管制點流量,香港境內/目的地流量,香港境外/目的地流量,乘客人數百分比,以旅行為目的,在香港/大陸逗留的時間等等,恰好可以回答了我們在新聞生產中常常會問到的六個問題:who, what, when, where, how and why。

單一的數據往往不能回答我們以上的所有問題。當我們發現有價值的新聞點時,我們需要做更全面的調查進一步的挖掘背後的故事,以6個W的問題為線索深入。

PS:拿到數據後,我們首先要注意清晰主要的故事點,而用波形圖(Sparkline)來展示數據的變化是一個很不錯的方式。

但在繪製折線圖之前,我們首先要對原始數據進行整理。

另外需要注意的是,Excel2010及之前的版本或者是在兼容模式之下,是不能用折線圖的,所以我們可以在處理數據之前,另存為新的格式,或者重新打開Excel。

07 2016-2024年按區議會劃分的人口推算數字https://www.pland.gov.hk/pland_en/info_serv/statistic/tables/Lock_WGPD%20Report_2015-2024.pdf

分析

縱觀香港三個主要地區近年的人口變化(綠色框),香港島的人口在減少,而九龍和新界的人數有了很大程度的增加。

根據所發現趨勢,我們可以進一步思考:這種趨勢的發生是自然出生/死亡率下的正常波動導致的呢?還是因為新界和九龍地區更適宜居住,導致了人口的大量遷移?

由紅色框數據可知,整體來看,香港島的人數在下降,但香港島南部的人數卻沒有下降,反而有細微的增加。是否是因為此地區近年交通運輸方式的改善(比如南港島線)?還是因為近年此地區提供了更多的工作機會(比如說,香港島南部的數碼港)?

08 二零零七年食物中毒病原體統計數字https://www.chp.gov.hk/en/statistics/data/10/26/43/289.html

分析

1.二零零七年的食品中毒案例中,細菌和病毒是兩個主要病原體。

2.細菌病原體導致中毒的事件主要發生在夏季,而病毒病原體導致的中毒事件主要發生在冬季。

不同病原體導致的中毒事件的發生根據季節變化有明顯不同,季節是否為其中重要的影響因素?還是2007年有特殊的事件發生?

產生這樣的疑問後,一方面,為進一步驗證我們的猜測,我們需要查找更多年份的相關數據。

另一方面,我們也得到了一個重要的信息:季節是食物中毒的重要影響因素。

可見,資料庫中的異常值是應該重點關注的,它們很有可能給我們帶來一些新的思考。

09 工資指數 數據來源:http://www.censtatd.gov.hk/showtablenewexcel.jsp?tableID=024&charsetID=2

分析

1.最後,上圖是一個已經進行過可視化的圖表,從中我們依舊可以關注到一些有意思的信息,譬如,金融保險行業在近幾十年中平均工資始終遙遙領先,另外,除了製造業以及能源產業,其餘行業與金融行業間的工資差距在慢慢減小。

2.但,僅憑這樣一張圖表就開始撰寫新聞顯然是不嚴謹的,我們需要始終葆有懷疑的態度,進一步檢查所用數據是否有一定的局限性。

圖表的左上角的標示顯示,這些數據展示的「中層經理與專業人才」的薪金變化。

表中數據是在這樣有職位限制的情況下收集的,這就能很好地解釋為什麼各行業之間的平均工資差距比我們印象中的要小很多,這是因為所收集的數據都來自各行業內的管理層人員。

方法總結

通過以上的案例分析,我們總結出兩種從數據中挖掘新聞的方法。

一種是縱觀所有數據後,

尋找趨勢,模式,共同規律,普遍現象。

另一種是

尋找數據中的異常

,由此探討異常背後的原因。

那麼,如何尋找趨勢呢?

一個比較快速便捷的方式是,我們可以通過抓取起點值/中點值/終點值迅速分析數據的大致變化趨勢(是上升?還是下降?是先降後升?還是先升後降?)

不過,儘管數據可視化圖表可以讓我們清晰觀察到整體趨勢,我們依然需要根據實際情況進行進一步的分析和判斷。

那麼又如何尋找異常呢?

最有效的方法是關注最大值和最小值。

相比尋找到數據的平均值/中位數,最大值和最小值更易被發現。

對於複合結構或者多維結構的數據表格來說,向下鑽取數據(drill-down)非常有用,常常被應用地理緯度表格,以及日期時間緯度表格。

當發現一個新聞/新聞點時,我們需要通過詢問6個W的問題進一步推進。

在數據領域,這時,我們就需要查找其他相關的數據,找到更有力的證據。

最後需要注意的是, 數據常常可以直接回答我們Who/What/When/Where這幾個問題,

很少回答我們關於How的問題,

而幾乎不會回答我們關於why的問題。

此時,就要靠高素質的新聞記者去查證,挖掘出新聞點背後的真相,回答how and why了。

原文首刊登於The Data & Society News

時間為2018,02,22

閱讀原文

相關焦點

  • 新聞傳播中如何讓沉默的數據說話
    原標題:新聞傳播中如何讓沉默的數據說話    編者按:大數據時代,以數位化為基礎的大數據技術正與網際網路一起重塑媒體生態。那麼,大數據怎樣影響新聞傳播?又該如何利用大數據使傳播效果最大化?今天,我們請環球時報輿情中心副主任戴元初解讀大數據在新聞的發現、生產和傳播環節中所發揮的重要作用。
  • 國外報紙如何做數據新聞
    [關鍵詞]數據新聞 數據來源 展現形式 [中圖分類號] G22 [文獻標識碼] A 數據新聞,也稱數據驅動新聞,就是通過對大量數據和信息進行分析、處理,運用可視化和敘事化手段表現的新聞。在大數據時代,數據新聞可以實現對信息更明晰的呈現、更準確的分析和更深層的解讀,正逐漸成為一種主流的新聞報導方式。
  • 當「讀圖」遇上「大數據」——新聞報導中的數據可視化分析
    基於數據挖掘本身的複雜性,一般用戶很難掌握,對於結果也很難理解,所以需要找到更便於理解的方式——圖形和圖像表現方式。新聞事件或新聞話題中,海量的數據只有通過可視化效果才能夠激發人的形象思維。大數據時代的一大特點是不再關注數據的因果關係,更多注重的是相關關係。由於信息不能夠像知識那樣去反應數據之間的內在聯繫,或者完全表達出人類的隱知識,但是創造圖像可以為隱知識提供條件。
  • 如何用Python讀取開放數據?
    當你開始接觸豐富多彩的開放數據集時,CSV、JSON和XML等格式名詞就會奔湧而來。如何用Python高效地讀取它們,為後續的整理和分析做準備呢?本文為你一步步展示過程,你自己也可以動手實踐。(由於微信公眾號外部連結的限制,文中的部分連結可能無法正確打開。如有需要,請點擊文末的「閱讀原文」按鈕,訪問可以正常顯示外鏈的版本。)
  • 從「數據沙漠」中找到綠洲
    從「數據沙漠」中找到綠洲  數據清洗師毛雨晴每天從大量樣本中篩選出有效素材,為人工智慧深度學習提供數據  鄒磊介紹說,這是一個數據開放平臺,包含了數據標註、質檢在內的多種工具,以及醫生的標註行為以及圖像的共享等。為配合平臺運轉,還有控建的數據中心。  「根據我們的測算,應用AICKS後,每個樣本的分析時間可以縮短至3~5分鐘,顯著提高效率。」鄒磊說,在這個過程中,需要讓人工智慧系統通過海量的案例,去深度學習,而這個把現實素材轉化成數據的過程,就需要發揮數據清洗師的作用。
  • 數據理解力已成為必要技能 2020數據內容大賽作品招募中
    「通過數據如何講出一個更具深度的故事?」「如何看待數據可視化與內容之間的關係?」「2020中國數據內容大賽」已經開啟作品徵集。由中國新聞史學會網絡傳播史研究委員會提供學術指導,由浙江大學傳媒與國際文化學院、數可視教育公益基金聯合主辦。
  • 雷電OR閃電接口?iPhone5數據線怎麼選
    iPhone5數據線怎麼選    雷電和閃電在中文僅一字之差,但是在英文裡頭,卻是兩個拼寫不同的英文單詞,雷電的英文名為「Thunder」;閃電的英文名為 「Lightning」。如果我們買錯了iPhone5數據線,要知道一根「Thunderbolt」雷電數據線接近400元,數據線打開包裝後恕不退還。
  • 你能找到人口數據嗎?(數據開放之紐約vs倫敦vs上海)
    「為什麼項羽輸劉邦贏」這一話題早已成為了人們從嚴肅政治學到世俗成功學中討論了無數次的話題。而從數據角度,我們也會從蕭何對於秦王朝所記錄的社會資料的興趣做多一層的解讀。因為這些基本的人口、地理、經濟資料其實就是最早意義上的大數據。為什麼掌握這些數據對於蕭何來說至關重要?
  • 全球數據新聞獎揭曉:財新數據新聞中心獲得大型最佳數據新聞團隊
    2018年的數據新聞獎比賽由全球編輯網(Global Editors Network)組織,得到了谷歌新聞、奈特基金會、微軟的支持,共收到來自58個國家的630個作品,最終有86項作品獲得提名,產生了13個獎項。其中,財新數據新聞中心獲得「2018年度全球最佳數據新聞團隊獎」,也是中國媒體首度獲得這一重磅獎項!   小鏑與你一同領略這些精妙絕倫的數據佳作。
  • 如何為數據新聞找選題?你可以試試這七種方法
    南京大學新聞傳播學院教授白淨在過去兩年中指導學生創作了超過五十篇數據新聞作品,主題涉及時政、教育、人口、經濟、民生、文化、新聞出版、環保、科技、娛樂、體育等多個領域。這些作品的選題都是如何確定的?尋找選題又有哪些方法呢?聽聽她的分享吧!作為一種新型報導方式,數據新聞正在越來越多地進入公眾視野。
  • 大數據時代應如何培養財經新聞人才
    新老問題使財經媒體人告急大數據時代,財經新聞受數據影響尤為突出和深刻。數據與財經新聞原本就密不可分,數據是財經新聞報導的生命線,是財經新聞報導中不可缺少的材料,是構成財經新聞的重要組成部分,沒有數據的財經新聞不是好新聞。
  • 中國新聞媒體的數據新聞報導實踐研究
    但是數據新聞與CAR和精確新聞卻是不同的,首先隨著資訊時代的到來,數據信息是及其豐富的,對於記者的困難是如何分析和利用數據,而在CAR時期的記者,記者經常飽受著信息匱乏的問題。其次在CAR和精確新聞報導時期,數據只是為了表達新聞的一種方式,但是數據新聞領域,數據就是新聞的主題,數據本身就具有重要的意義。 對於數據新聞的具體概念,到目前為止並沒有明確的界定。
  • MIND:高質量的新聞推薦數據集
    MIND簡介 個性化新聞推薦技術是諸多在線新聞網站和應用的關鍵技術,可以提升用戶的新聞閱讀體驗並減輕信息過載。目前,許多有關新聞推薦的研究是在私有數據集上開展的,而已有的公開數據集往往規模較小。高質量基準數據集的缺乏限制了新聞推薦領域的研究進展。
  • 開放政府數據的溯源元數據研究及應用
    【方法/過程】總結國際上開放數據的溯源發展狀況和最佳實踐,提煉出W3C DCAT標準規範中的溯源元數據;建立各省級地方政府元數據到標準詞彙表的映射,對數據發布活動的「歷史數據」和「多種數據格式」兩種典型情況進行溯源表達,給出機器可讀的PROV-JSON格式的溯源元數據記錄實例。【結果/結論】研究表明,我國地方政府開放數據的元數據中含有豐富的溯源信息,但其總體質量還不高。
  • 數據新聞教學工作坊招生啟事 坐標:深圳
    ——Edd Dumbill數據新聞是新聞傳播領域當今發展最快的方向之一,包含數據抓取、挖掘、整理、分析以及可視化呈現等技能。數據新聞的跨學科特性吸引眾多來自新聞傳播、計算機科學、設計及其他專業方向的教育工作者和學生,教學和從業隊伍不斷加強壯大。
  • 數據科學家如何找到心儀的工作?
    作者:Vik Paruchuri,譯者:趙喧典,校對:EarlGrey,出品:PythonTG 翻譯組/編程派在本系列中,我們已經討論了如何用數據講故事,如何打造一個完整的機器學習項目,以及如何搭建一個數據科學博客。而本文,我們將回過頭來,重點討論如何創建高大上的數據科學作品集。我們將討論什麼技能是僱主希望看到的,以及如何創建一份作品集以有效地展示所有的技能。
  • 看山東如何優化土地、勞動力、資本、技術、數據五大要素...
    齊魯網·閃電新聞1月8日訊 今天上午,山東省政府新聞辦召開發布會,解讀《貫徹落實<中共中央 國務院關於構建更加完善的要素市場化配置體制機制的意見>的實施意見》。山東將如何在土地、勞動力、資本、技術、數據五大要素領域發力改革?有哪些具體的新政策、新措施?
  • 2020中國數據內容大賽,用事實與數據講述故事
    「如何看待數據可視化與內容之間的關係?」「2020中國數據內容大賽」已經開啟作品徵集。由中國新聞史學會網絡傳播史研究委員會提供學術指導,由浙江大學傳媒與國際文化學院、數可視教育公益基金聯合主辦。「2020中國數據內容大賽·大會」邀請北京大學新聞與傳播學院教授、博士生導師、前常務副院長徐泓老師出任大賽評委會主席,並由國內外16位在數據內容製作領域的知名學者和資深從業者擔任評審。
  • 獨家|BBC如何做醫保大數據新聞 且得了新聞大獎
    項目團隊在製作過程中使用了一個叫做Hyperaudio的工具,可以很好地將文字、視頻等內容組合起來,形成交互式的頁面。  所有獎項都於當晚在倫敦舉行的頒獎典禮上頒發,獲獎者除了各大新聞機構外,大會同樣頒出了幾個有分量的個人獎:來自Vice UK的Alex Miller和國際商務時報英文版的Anthony Cuthbertson分獲"年度網絡編輯獎"和"年度網絡作家獎"。
  • 致親愛的數據:我如何從數據中發現有趣的世界?
    編者按:本文來自微信公眾號「全媒派」(ID:quanmeipai),作者 騰訊傳媒,36氪經授權轉載。 在圖像化傳播的今天,該如何定義一則好的數據新聞?什麼樣的選題是具有傳播力的?在數據新聞製作的過程中有什麼值得關注的地方?數據新聞又有什麼獨特價值?