來自開放數據的閃電新聞:如何從數據中找到新聞線索

2020-12-04 澎湃新聞

原創:

        服老思

        

數據新聞是個很廣的概念,要理解這個詞語,我們最好將其拆分。「數據新聞」即是「數據」和「新聞」。

談及「數據新聞」,我們通常有兩種操作思路:

一是通過「數據挖掘」(data mining),找到新聞點;二是在已有的新聞中,添加呈現數據的元素。

其中,「數據挖掘」指從資料庫中尋找到有價值新聞點。這些從資料庫中爬取的信息可能會給新聞調查帶來新的調查思路。最終呈現出來的作品也許根本就沒有完全反映數據的使用,好像還是傳統新聞那樣,主要還是內容仍舊是採訪與照片。但其實這整個的新聞熱點,都是科學地由數據挖掘而來。

另外一種方式,便是用數據來呈現、解釋新聞點。其中會涉及多種圖表和一些交互性功能的使用,在科學領域我們通常稱之「數據可視化」。

本篇文章側重講解

「數據挖掘」(data mining)

,也就是探討如何從數據中挖掘新聞,或者說,找到新聞線索。

數據cookie:良好的新聞線索發掘能力是記者最重要的技能之一

從新聞線索發展為一個完整的新聞故事,則需要結合傳統的和新興的新聞操作手法。

本篇文章中,為了方便討論,我們使用「新聞」廣義的定義——

公眾獲得了他之前所不了解的信息,也可以理解為「新的信息」

。所以「新聞」有可能是當前事件的最新狀態,或是對讀者來說的「新知識」。

(某些知識可能對於一些領域的專業人士是常識,但對於普通受眾而言,那就是全新的知識了。)

正如中文常說的

「大道至簡」:最複雜的理論往往是用最簡單的語言構建

所以我們其實不用難懂的編程技巧,拋開複雜的電子表格工具(spreadsheet),只用一些最最基礎的計算機常識(computer literacy),再加上我們敏銳的新聞嗅覺,就已經可以從數據中找到很多有意思的「新聞點」了。

接下來,我們會通具體的例子來進一步解釋如何在數據中尋找新聞。

這些例子都來源於新聞系的本科生。

這些數據表,是這些本科生們,在數據新聞的第二堂課上,用僅僅二十分鐘時間,從香港政府網站上爬取下來的。

我們從網站的公共數據集開始,仔細審視這些數據表,來尋找有趣的新聞點。

這個過程十分快速,以至於我們給它取了一個猴塞雷的名字:

「閃電新聞」(Lightning News)

那麼,應該如何提高自己「Lightning News」的能力呢?

大量的日常訓練!

大量的日常訓練!

大量的日常訓練!

大量的日常訓練後,新聞敏感性和數據敏感性都會有很大提升。

讓我們從這篇文章開始日常訓練的第一步吧!

01 數據:按年及性別劃分的年齡中位數(不包括外籍家庭傭工)數據來源:https://www.bycensus2016.gov.hk/tc/bc-mt.html

【分析】

1. 最後一排展現的是香港過去幾十年的年齡變化情況。

2. 比較男性和女性的年齡中位數,重點關注紅色圓圈圈起來的數字,我們發現:不包含外籍家庭傭工的情況下,女性普遍比男性年長。

3. 單看男性的數據,我們可以發現,包含和不包含外籍家庭傭工的兩組數據並沒有顯著的差異。

問題就來了:是因為沒有男性的外籍家庭傭工嗎?還是有數據背後隱藏著細小的區別呢?事實是,還真有男性的外籍傭工存在。

所以接下來,你就可以進一步去挖掘他們的故事了。

02 資料庫:政府在教育方面的開支數據來源:https://www.edb.gov.hk/en/about-edb/publications-stat/figures/gov-expenditure.html

【分析】

很容易發現,政府在教育上花費的開支絕對數字是在增長的(綠色方框標註),但是教育開支佔所有開支的比例卻是在減少的(紅色方框標註)。

那麼,新聞線索便呼之欲出:政府在教育上的投入到底是增加了?還是減少了?

03 資料庫:按種類劃分的平均固體廢物數量數據來源:https://www.censtatd.gov.hk/hkstat/sub/sp420.jsp?productCode=D5600560

【分析】

1.相比之前的例子,這張圖表上有更多有價值的數據點。

通常情況下,為了便於更清楚地發現最重要的信息,我們會使用「低亮」(與「高亮」相反的操作)的方法,即通過灰白色來隱藏一些繁瑣的細節。

在序列數據中,它的起點/終點/中間點這三部分是我們最關注的。

當拿到一張圖表示,你只需要快速掃視圖表中的的這三個關鍵數據,便能很快判斷出整體的變化情況。

變化情況一般分為四種:上升,下降,先下降後上升或者先上升後下降(符號表示:/, , V, ^)。

通過對於整體趨勢的判斷,一個有關趨勢的故事就能信手拈來了。

舉例如下:

這場圖表總體來看,【城市固體廢物】排放量不斷增加,其中【生活垃圾】略有減少,【商業垃圾】幾乎翻了一番,而【工業垃圾】則增加了一半。

通過以上信息分析,

【商業類】和【工業類】固體廢物的迅速增長,是否表明城市經濟正在進行結構上的轉變?

注意,這些數據還很適合通過折線圖的方式進行展示。

詳細可參考HOWTO 這篇文章(點擊閱讀原文觀看)和下面的例子:

04 上網費津貼(寬帶補貼)計劃統計數字https://data.gov.hk/sc-data/dataset/hk-wfsfaa-sfo_01-sia-stats

分析

1. 從圖表中我們發現,無論是申請補助計劃的人數,以及申請成功的案例,其數量都在減少。

2. 那麼,是什麼原因導致沒有那麼多成功的申請者的呢?

這種趨勢是否表明整體經濟形勢在變好,所符合補助資格的人數在變少?

或者僅僅是因為申請成功的標準在變嚴格?

05 15歲及以上人口的教育程度分布https://data.gov.hk/sc-data/dataset/hk-edb-figustat-fig-stat-population-aged-15

分析

1.從上表中我們發現,教育程度在「小學及以下」和「中學」的人數在減少。這是否表明全民教育成功普及?

或只是因為年輕人教育程度普遍較高,同時低學歷的老年人去世,導致教育程度較低的人數整體減少?

2.學位課程有哪些潛在途徑?更普遍的問題是,小學畢業後,學生的教育路徑/職業晉升路徑是什麼?

網際網路的發展讓很多非本地讀者也能瀏覽到當地的新聞。

只經歷過數十年標準化/統一教育體系的內地讀者很快就會發現,在香港,中學教育通常跨越5-7年,大學教育跨越2-5年。這和內地的教育體系有很大的不同。

資料來源:

http://www.hkihrm.org/index.php/component/phocadownload/category/16-business-case-business-knowledge?download=80:jul29-post-secondary-education-in-hong-kong-profkwan

06 跨境(內地和香港)車流量https://www.info.gov.hk/gia/general/201805/23/P2018052300535.htm

分析

1.上圖是按類型和年份統計的過境巴士數量表格。可以看到,過去16年間,跨境車輛的數量有了很大的變化。

最明顯的一點:過境的人變多了,過境的貨變少了。

2.這種趨勢是否意味著兩邊的交流變多?抑或這種現象是由於邊境政策放鬆所導致?

3.進一步挖掘表內信息,比如,工作日流量,邊境管制點流量,香港境內/目的地流量,香港境外/目的地流量,乘客人數百分比,以旅行為目的,在香港/大陸逗留的時間等等,恰好可以回答了我們在新聞生產中常常會問到的六個問題:who, what, when, where, how and why。

單一的數據往往不能回答我們以上的所有問題。當我們發現有價值的新聞點時,我們需要做更全面的調查進一步的挖掘背後的故事,以6個W的問題為線索深入。

PS:拿到數據後,我們首先要注意清晰主要的故事點,而用波形圖(Sparkline)來展示數據的變化是一個很不錯的方式。

但在繪製折線圖之前,我們首先要對原始數據進行整理。

另外需要注意的是,Excel2010及之前的版本或者是在兼容模式之下,是不能用折線圖的,所以我們可以在處理數據之前,另存為新的格式,或者重新打開Excel。

07 2016-2024年按區議會劃分的人口推算數字https://www.pland.gov.hk/pland_en/info_serv/statistic/tables/Lock_WGPD%20Report_2015-2024.pdf

分析

縱觀香港三個主要地區近年的人口變化(綠色框),香港島的人口在減少,而九龍和新界的人數有了很大程度的增加。

根據所發現趨勢,我們可以進一步思考:這種趨勢的發生是自然出生/死亡率下的正常波動導致的呢?還是因為新界和九龍地區更適宜居住,導致了人口的大量遷移?

由紅色框數據可知,整體來看,香港島的人數在下降,但香港島南部的人數卻沒有下降,反而有細微的增加。是否是因為此地區近年交通運輸方式的改善(比如南港島線)?還是因為近年此地區提供了更多的工作機會(比如說,香港島南部的數碼港)?

08 二零零七年食物中毒病原體統計數字https://www.chp.gov.hk/en/statistics/data/10/26/43/289.html

分析

1.二零零七年的食品中毒案例中,細菌和病毒是兩個主要病原體。

2.細菌病原體導致中毒的事件主要發生在夏季,而病毒病原體導致的中毒事件主要發生在冬季。

不同病原體導致的中毒事件的發生根據季節變化有明顯不同,季節是否為其中重要的影響因素?還是2007年有特殊的事件發生?

產生這樣的疑問後,一方面,為進一步驗證我們的猜測,我們需要查找更多年份的相關數據。

另一方面,我們也得到了一個重要的信息:季節是食物中毒的重要影響因素。

可見,資料庫中的異常值是應該重點關注的,它們很有可能給我們帶來一些新的思考。

09 工資指數 數據來源:http://www.censtatd.gov.hk/showtablenewexcel.jsp?tableID=024&charsetID=2

分析

1.最後,上圖是一個已經進行過可視化的圖表,從中我們依舊可以關注到一些有意思的信息,譬如,金融保險行業在近幾十年中平均工資始終遙遙領先,另外,除了製造業以及能源產業,其餘行業與金融行業間的工資差距在慢慢減小。

2.但,僅憑這樣一張圖表就開始撰寫新聞顯然是不嚴謹的,我們需要始終葆有懷疑的態度,進一步檢查所用數據是否有一定的局限性。

圖表的左上角的標示顯示,這些數據展示的「中層經理與專業人才」的薪金變化。

表中數據是在這樣有職位限制的情況下收集的,這就能很好地解釋為什麼各行業之間的平均工資差距比我們印象中的要小很多,這是因為所收集的數據都來自各行業內的管理層人員。

方法總結

通過以上的案例分析,我們總結出兩種從數據中挖掘新聞的方法。

一種是縱觀所有數據後,

尋找趨勢,模式,共同規律,普遍現象。

另一種是

尋找數據中的異常

,由此探討異常背後的原因。

那麼,如何尋找趨勢呢?

一個比較快速便捷的方式是,我們可以通過抓取起點值/中點值/終點值迅速分析數據的大致變化趨勢(是上升?還是下降?是先降後升?還是先升後降?)

不過,儘管數據可視化圖表可以讓我們清晰觀察到整體趨勢,我們依然需要根據實際情況進行進一步的分析和判斷。

那麼又如何尋找異常呢?

最有效的方法是關注最大值和最小值。

相比尋找到數據的平均值/中位數,最大值和最小值更易被發現。

對於複合結構或者多維結構的數據表格來說,向下鑽取數據(drill-down)非常有用,常常被應用地理緯度表格,以及日期時間緯度表格。

當發現一個新聞/新聞點時,我們需要通過詢問6個W的問題進一步推進。

在數據領域,這時,我們就需要查找其他相關的數據,找到更有力的證據。

最後需要注意的是, 數據常常可以直接回答我們Who/What/When/Where這幾個問題,

很少回答我們關於How的問題,

而幾乎不會回答我們關於why的問題。

此時,就要靠高素質的新聞記者去查證,挖掘出新聞點背後的真相,回答how and why了。

原文首刊登於The Data & Society News

時間為2018,02,22

閱讀原文

相關焦點

  • 數據新聞生產的流程再造與敘事創新
    而新興的數據新聞生產則恰恰相反,表現出了大-小-大的發展特點,從保羅的雙金字塔結構中可以看出一個「綜合+分析」的邏輯,綜合的過程是數據的規律發現,分析的過程則是探索數據規律在情境中如何與普通受眾建立具體的聯繫,重視情境聯繫,這樣的生產方式天然決定了數據新聞只有與受眾建立良好互動,才能發揮其本身的基本功能。
  • 從「數據沙漠」中找到綠洲
    從「數據沙漠」中找到綠洲  數據清洗師毛雨晴每天從大量樣本中篩選出有效素材,為人工智慧深度學習提供數據  鄒磊介紹說,這是一個數據開放平臺,包含了數據標註、質檢在內的多種工具,以及醫生的標註行為以及圖像的共享等。為配合平臺運轉,還有控建的數據中心。  「根據我們的測算,應用AICKS後,每個樣本的分析時間可以縮短至3~5分鐘,顯著提高效率。」鄒磊說,在這個過程中,需要讓人工智慧系統通過海量的案例,去深度學習,而這個把現實素材轉化成數據的過程,就需要發揮數據清洗師的作用。
  • 如何為數據新聞找選題?你可以試試這七種方法
    南京大學新聞傳播學院教授白淨在過去兩年中指導學生創作了超過五十篇數據新聞作品,主題涉及時政、教育、人口、經濟、民生、文化、新聞出版、環保、科技、娛樂、體育等多個領域。這些作品的選題都是如何確定的?尋找選題又有哪些方法呢?聽聽她的分享吧!作為一種新型報導方式,數據新聞正在越來越多地進入公眾視野。
  • MIND:高質量的新聞推薦數據集
    MIND簡介 個性化新聞推薦技術是諸多在線新聞網站和應用的關鍵技術,可以提升用戶的新聞閱讀體驗並減輕信息過載。目前,許多有關新聞推薦的研究是在私有數據集上開展的,而已有的公開數據集往往規模較小。高質量基準數據集的缺乏限制了新聞推薦領域的研究進展。
  • 雷電OR閃電接口?iPhone5數據線怎麼選
    iPhone5數據線怎麼選    雷電和閃電在中文僅一字之差,但是在英文裡頭,卻是兩個拼寫不同的英文單詞,雷電的英文名為「Thunder」;閃電的英文名為 「Lightning」。如果我們買錯了iPhone5數據線,要知道一根「Thunderbolt」雷電數據線接近400元,數據線打開包裝後恕不退還。
  • 居民打井抽水,地震監測數據長期異常 地震監測臺:向上打了報告沒下文
    齊魯網·閃電新聞發現幹擾來源後,泰安基準地震臺的工作人員當時就找到了泰安市泰山林業科學研究院和紅門景區家屬院,要求他們停止打井抽水。但這樣一來,附近居民和研究院的日常用水卻成了難題。4月28號,記者找到了泰安市自來水公司,工作人員說一個是地勢高,管道過不去,再一個要繞過地震臺。
  • Genome Biology | 在愈發緊密的連接中開放與分享數據
    Genome Biology | 在愈發緊密的連接中開放與分享數據 論文標題:Open data in a deeply connected world 期刊:Genome Biology 作者:Barbara Cheifet 發表時間:2020/04/20 DOI:10.1186/s13059-020-02010-6 微信連結:點擊此處閱讀微信文章 新冠疫情之下,全球科研機構受到巨大衝擊
  • 如何找到時序數據中線性的趨勢
    有時需要從時序數據中刪除趨勢,為下一步或數據清理過程的一部分做準備。如果您可以確定趨勢,那麼只需從數據中減去它,結果就是非趨勢數據。如果趨勢是線性的,你可以通過線性回歸找到它。但如果趨勢不是線性的呢?我們一會兒就會看到我們能做些什麼。
  • 海洋大數據助力認識...
    海洋大數據是深入探索海洋的基礎,也是智慧海洋建設的靈魂。隨著數據科學的迅猛發展,大數據與人工智慧、超算被稱為帶動海洋科學發展的「新三駕馬車」,而海洋大數據也成為從認識海洋到經略海洋的必經之路。眼下,山東正全面推進「智慧海洋」工程,助力海洋強省建設。山東易華錄和國家海洋實驗室強強聯合,聯手打造國內第一個海洋大數據為基礎的海洋大數據產業基地,助力「智慧海洋」工程建設。
  • 2020年Sigma Awards數據新聞獎入圍及獲獎作品賞析
    截止到2020年2月5日,比賽收到來自66個國家和地區的510個項目。共有來自31個國家的82個項目入圍,經過最終篩選,從6個類別中選出了10位優勝者和2位榮譽獎得主。上觀數據將帶領大家一起賞析入圍作品~(未包含「Young Journalist」板塊)最佳數據驅動作品(大型編輯室)1.
  • 滴滴科技開放日:如何利用出行交易中的大數據優化乘客體驗
    滴滴表示,將充分發揮自身在大數據、人工智慧、雲計算等領域的優勢,開放合作,通過整合學術、技術、資金等資源,攜手合作夥伴共同發現、定義問題,並為相應主題研究課題的落地實踐提供全方位、多元化支持。在之後的行程中,滴滴還會對司機進行路徑規劃,找到一條最優的路線,用最安全、最便捷的方式,把用戶送到目的地。為了完成這樣一單,背後需要很多大數據的技術,包括如何推薦上車點,如何進行路徑規劃,如何預估到達時間等等。當需求比較緊張的時候,還需要為用戶提供拼車選擇,把多個不同的乘客拼在一起。
  • 數據內容倍受追捧 仍需警惕「數據陷阱」
    封面新聞記者數據日益成為新的生產要素,如何科學、合理利用數據,讓數據賦能內容,更準確高效地傳遞信息、發現趨勢,愈發成為各行業人才的必備技能。如何定義數據新聞?數據新聞為什麼倍受追捧?數據內容生產者需要注意哪些問題?新浪新聞、封面新聞聯合推出「未來媒體訪談」問道中外新聞學院院長系列節目。
  • 美國開放政府數據範圍研究
    美國聯邦政府及三個州政府的政策文本中,對開放政府數據範圍的規定包含的重要內容有:開放政府數據價值觀及目標的闡述、相關概念的界定、予以開放的政府數據範圍、不予開放的政府數據範圍。下面將對聯邦政府及三個州政府的政策文本中對於開放政府數據範圍的有關規定作以分析,並對其開放政府數據門戶網站開放政府數據範圍進行考察。
  • 網易《數讀》欄目數據新聞的真實性研究
    然而,數據新聞作為新聞的一種報導形式,同樣需要遵循新聞真實性等原則[1]。而數據新聞成稿的背後往往是海量數據,如何在紛繁複雜的數據叢中驗證新聞的真實性問題也成為了當下一大難題。數據來源的描述,可以區分為沒有提供數據來源、給出了數據來源的範圍但讀者無法獲取、可以通過描述找到具體來源。數據來源的機構單位可以分為:無、國內政府機構、國內非政府機構、國外政府機構、國外非政府機構、混合型、自採型。數據源由跨類型機構合作或者採編人員採納跨類型數據,則計入混合型。網易自己調研數據則為自採型。
  • 中國科學院海洋研究所大數據全球共享
    近日,中國科學院海洋研究所海洋大數據中心新版門戶網站正式上線運行,面向國內外用戶開放共享數據資源,提供數據共享、匯交、應用及計算服務。
  • ——我國氣象數據開放激發社會無限創新活力
    中國氣象報記者 劉釗  氣溫、氣壓、風速、溼度……氣象部門每年觀測所得的數據達PB量級,如何從中提煉出有價值的真金?怎樣將「板著臉孔」的數據轉化成人人可以理解的天氣信息?企業註冊用戶主要從事專業技術服務、軟體、公共管理等行業,用戶將氣象數據與不同領域資源相融合,在交通運輸、新能源、農業、移動互聯軟體開發和服務、公共管理及基於大數據技術的智慧城市、智慧交通、智慧糧食等領域的開發建設中應用。
  • NASA朱諾任務數據揭示木星大氣層中存在淺層閃電
    最近從朱諾號收集到的數據表明,這顆巨大的行星上存在著一種被稱為 "淺層閃電 "的現象。這是一種意想不到的放電形式,源於含有氨水溶液的雲層。地球上的閃電源於含有水的雲層。其他朱諾號的發現表明,這顆氣體巨行星聞名的劇烈雷暴會形成被稱為 "蘑菇球 "的富含氨水的冰雹,科學家們認為,這些冰雹會將上層大氣中的氨和水運輸到木星大氣深處,並將它們帶入木星。
  • 數據「去識別」指南:如何在報導中保護隱私信息?
    原創 Vojtech Sedlak 全球深度報導網對於數據記者來說,在報導中公開重要信息和保護信息背後的個人隱私之間需要取得平衡。當今這個無處不在收集數據的時代,這種挑戰尤其突出。記者如何在不影響報導的前提下保護隱私數據?
  • 第五屆中國數據新聞大賽決賽暨大數據時代的新聞教育研討會成功舉行
    他認為,數據新聞的關鍵是數據挖掘、分析和呈現。這就決定了大部分數據新聞產品都需要團隊協作完成。對數據新聞而言,人文社科與理科、工科的界限已變得模糊不清。這對傳統新聞人才培養帶來了衝擊和挑戰。 第五屆中國數據新聞大賽決賽的答辯和評審由線上線下6個分賽場同步進行,共有來自復旦大學、中國傳媒大學、西安交通大學、同濟大學、華中科技大學、香港浸會大學、新華網、大眾報業集團、南方周末等98支團隊的參賽作品入圍決賽。
  • 當我們知道觀測黑洞的數千TB數據是被裝在硬碟裡、用飛機運輸之後
    小編也和大家一樣激動,把報導黑洞的新聞看了很多遍。閃電立方,被稱為可移動的「數據中心」,一臺設備可遷移480TB(0.48PB)數據,並且支持多臺並行遷移,最快24小時就可以完成PB級數據遷移。也就是說,這次觀測黑洞產生的近10PB的數據量,用20臺最高規格閃電立方就可以裝完,而從天文臺到閃電立方、閃電立方到雲上,在最理想的狀況下只需要兩周就可以完成遷移。幾千塊硬碟、1萬臺筆記本?KO!