2019年6月3日,由澎湃新聞主辦的「2019數據創作者大會」在上海成功召開,300多名數據領域實踐者齊聚一堂,共同探討數據新聞的現狀與未來。
大會圍繞「
數據新聞2.0的局面」、「數據敘事的新思路」、「可視化的理念與應用」、「數據新聞的未來出路」四大主題展開討論,本文為大會演講精華實錄的第二篇——數據敘事的新思路。
大會引入了美國數據新聞年會NICAR大會的王牌環節——Lightening Talk。在這一環節中,六位嘉賓各用八分鐘的時間來,通過拆解具體項目的方式來幫助與會者貼近數據敘事的本質。這六位嘉賓中,有機構媒體的數據新聞人,有還在校園裡的個人創作者,還有學界跨界業界的數據帝,為媒體提供數據解決方法的專家,以及專門關注數據注水的「京算師」。
此外,在大會下午的議程裡,回形針PaperClip製作人吳松磊和SODA聯合發起人高豐分別就高信息密度的技術可視化以及數據開放做了主旨演講。
本篇實錄內容將奉上Lightening Talk和兩個主旨演講的精彩內容。
1高鐵站這個項目源起於我們在新聞聯播上看到的一個文件——發改委聯合住建部、中國鐵總發布的意見報告——其中提到高鐵站一定要儘可能選擇離市中心或者城市建成區近的地方。我當時覺得,這非常貼近大家的一個感知,就是好像覺得一說到高鐵站它很新,它很大,很漂亮,很豪華,但好像很遠。
我的一個疑問是,為了便利而建的高鐵站,為什麼反而那麼遠?以及高鐵站到底有多遠?
帶著這個疑問,我覺得數據並不難得到。無非是找到所有的高鐵站,以及它所在的城市的中心點,兩點連成一條線。這條線段的長度就是高鐵站到市中心的距離。
得出了600多條線段的長度之後,我的編輯問我,這些數據真的是你想要的嗎?我仔細看了這些數據,比如北京站就在天安門旁邊,這種在市中心的老站需要 研究嗎?
於是,我確定研究範圍是新建的高鐵站。根據是否通G字頭列車,我把高鐵站數據從600多個刪減到了200多個。
除了高鐵站需要篩選,市中心的位置也需要再定義。地圖工具上定位的城市還不能直接拿來作為城市的中心,比如部分城市把市政府搬遷到郊區,但那並不是市民認可的市中心。
根據新的一版數據,我計算得到的結論的是75%的車站都在距離市中心十公裡的範圍內,發現好像沒有很遠。那為什麼大家會有」高鐵站很遠「這樣一個印象——高鐵站真得很遠,這個時候我就發現兩點的連線段不是我需要的數據。
然後我開始查資料、查論文查文獻、請教專家,發現我最初沒有真正準確看到我的問題,問題的核心應該在於為什麼高鐵站讓我們覺得很遠。「覺得遠」與一個城市的大小有關,比如說在上海,你的市中心可以定位到人民廣場,到虹橋站的距離大約17公裡,但是2號線半個小時就能到。
對於高鐵站距離遠近的感知,我引入了論文中看到的「距離指數」的概念。
距離指數也可以簡化理解成車站到市中心的直線距離和建成區半徑的比,距離指數越小高鐵站越近便,距離指數越大則越偏遠。這個時候結論應該是這樣,當大城市說高鐵真方便的時候,小城市的人會說,沒覺得。
數據新聞到底是什麼?我在做這個項目的過程中, 慢慢會有一個自我質疑的狀態——當慢慢得到越來越多的數據,我是否在解決最初的疑問。另外,當我可能完全在用數據說話時,讀者會覺得你離我真的很遠。
第三個質疑是,數據新聞到底是什麼?有很多人說,要有很大的資料庫、很炫酷的數據和可視化的圖片才是。我覺得能在提出問題、闡釋問題以及解決問題中三者之中,扮演好其中任意一個角色,就好了。不用強求作品一定要是這三個階段從頭貫穿到尾的。
項目連結:
http://datanews.caixin.com/mobile/interactive/2018/gaotiezhan/
http://datanews.caixin.com/mobile/interactive/2018/gaotiezhan2/
224歲的鄒熳雲已經有4年的被催婚「催齡」了。當關注相親議題的編輯部把研究對象聚焦到已被廣泛關注的相親角時,怎麼才能做出新的東西,是一個無法迴避的難題。
數據新聞編輯部試圖把相親角每一把傘上的信息收集起來,在對數據中的個人信息進行脫敏後,從微觀的視角來看看這些信息背後有什麼特點;毋寧說,是相親市場上的這些「商品」的特點和價值。
編輯部把這些文本數據結構化後,想看看在相親角這個地方,人們(更多是家長們)是如何定義自己(的孩子),如何描述想要的對象,以及人和人之間價值是在一個什麼樣的基礎上進行交換的。
收集數據是一項技術活兒在相親角收集數據並不是一件容易的事,在任何一把傘前逗留都會被家長的目光盯著,而當你拿起手機拍照,就是家長戒備最嚴的時候。「如果你一排拍過去,拍到第三個你可能就已經被轟走了。」
偷拍小組當時想了很多奇妙的方式,比如說把手機放在那種你跑步手臂袋裡面,或者說是假裝打電話,或者是悄悄把手機放在這裡,然後其實手在瘋狂的按快門。
相親角項目的啟發:數據新聞還可以這樣玩「數據新聞,不一定要是非常數位化的東西,其實在我們的生活當中有很多可能被我們忽略到,但是放在一起就是一個很有趣的數據點,大家可能會覺得原來這個題可以這樣子做,用數據的方法去做。」鄒熳雲分享道。
比如這張圖,概括了所有的相親者信息,可以看得出來,性格和興趣愛好這兩個最個性化的板塊,是被填寫最少的,工作、學歷、戶口、房產是大家比較喜歡提及。
我們能夠殘酷地看到,在相親市場,你的物質基礎,幾乎是被評估的唯一標準。
關於房產的信息很有意思,有些人會寫得很詳細,光寫上海有房還不夠,他可能會寫靜安區有房;有多套房產的人,他有可能會寫,上海有房產兩套,杭州有店鋪一套,或者說「我家有兩套房,其中一套是小型複式,而且我已經付完房貸了」,甚至還有把自己家裡的面積跟天花板的高度寫出來的。
與之相反,興趣愛好就沒有什麼個性化的特點了。基本上所有男性填寫的都是不良嗜好相關,全是菸酒不沾,就好像人生興趣愛好只跟菸酒相關。女性雖然說比較豐富一點,但也大多集中在音樂、繪畫和運動,讓人無法感覺到她是真正在描述自己,更像是面試的時候填的那一份模式化的關於興趣愛好的答案……
對於對相親角充滿好奇的你,鄒熳雲和同事一起開發的交互項目也能讓你線上看看,假如你在這個相親市場上,符合你要求的對象有多少,以及你又能滿足多少人的期待。
相親角系列作品:
https://www.thepaper.cn/newsDetail_forward_2351635
https://h5.thepaper.cn/html/zt/2018/08/seekinglove/index.html
32017年,我們剛接觸數據新聞,當時受到魏則西事件的觸動,看到鳳凰網公布了一個關於莆田系醫院的名單,我們想看看能否從這裡找一個切入點進行報導。我們當時看了很多網上的報導,都是經過採訪,得到說離莆田系醫院它有四大家族,詹林黃陳。我們想知道,從數據出發,能否看到莆田系醫院的地域分布,家族勢力以及資本的分布。
2018年年初再次跟進這個選題時,我們發現在魏則西事件後,莆田系醫院正在尋求一種轉型。為了解這兩三年間,莆田系醫院進行了怎樣的轉型,它們的投資又具有什麼樣的特點。我們選取了博愛集團和美萊集團這兩大集團進行分析,看到了子承父業的代際傳播以及連鎖擴張、產業聯盟、融資平臺等多元的投資方式。
2018年11月,基因編輯事件牽扯到和美醫院以及醫院的JCI認證,我們發現莆田系醫院特別喜歡去做JCI之類的國際認證,以提高醫院的影響力。
做了這樣一個長期跟蹤的項目,我開始注意到數據的重複使用與更新問題,我們每做一次這樣的項目的時候,都是在原有基礎上再把數據更新一遍。企業在不斷發展,數據也在流動,所以對於這套數據,我們每次復用都需要再次進行校對。而怎麼保證你兩年前的一個項目到如今拿出來它依然是可用的,依然是有價值和有意義的,這是我覺得需要大家去探討的一些方向。
為了校對親緣信息如何保證數據的準確性,是我們在操作過程中一直會非常重視的。比如,我們當時通過天眼查把企業信息錄入之後,我們其實是做了一次人工的手工校對。另外,關於莆田系醫網中很多親緣關係和血緣關係,一是通過新聞報導,同時我們也去實地去看過以進行確認。因為辦莆田系醫院的這些人大多會捐錢修廟,廟中留有家族人名信息。
但是直到如今,我們還是不敢說我們的數據完全沒有問題。我始終覺得對於數據要有敬畏之心,不能隨隨便便拿來一套數據就用。數據中是有一套方法和規則的。
4陳沁用了一個中美貿易摩擦的研究案例引出了
三個關於數據研究的觀點:
1、用50%的時間來定義問題
2、數據的組織能力>>獲取數據的能力/計算數據的能力
3、Inception最有效的方式是「頓悟」
研究項目背景:去年中美貿易摩擦剛開始的時候,也就是3月24號,我們突然想到,中美貿易摩擦開始後,能否通過定向管制來影響美國國內的選舉結構。然後我們花了差不多三個小時的時間,收集了美國所有選區的選民結構、選舉大小、選舉得票率和出口情況,計算出了一個結構,就是中國要管制哪一些商品,會最大程度影響美國的選舉結果。
這篇文章在知乎上發表以後,我們得到了幾萬個贊同,這是我們完全出於興趣做的研究。在那之後,有很多國家部委找到我們,想做一些關於中美貿易摩擦的研究。4月,我們接到一個任務,要研究中美貿易摩擦可能會對於中國的整個就業市場造成多大影響。這個任務非常緊張,大概只有三天時間,而且這個是一個非常大的課題。我大概講一下,我們在做這個課題的時候碰到哪些困難,然後怎樣去解決它。
貿易摩擦對於就業的影響,可以分成很多個環節:
第一,貿易受到美國的影響有多大。
第二,貿易受美國影響之後,在總出口中佔比多少?
第三,出口在多大程度上影響就業。
如果是一個經濟學、國際關係或者國際貿易方面的研究學者,就會知道這是非常具有挑戰性的課題。我們是這樣做的,我們首先去向政府協調到一套數據:
2018年中國海關的進出口分配率。我們可以知道每一個企業出口到美國的每一筆商品大概有多少,這其實是整個項目的第一個環節,即使是我們知道中國對於美國的出口,我們還是不知道美國加稅之後會對中國造成多大影響,所以接下來我們來找第二個環節的一個數據。
第二步,我們需要知道
每一個商品出口替代彈性。比如有些商品它出口很容易被替代,比如說牛仔褲,它可能不從中國進口,也可以從越南進口。但有些商品出口就很難替代,比如中國的一些電機產品是中國出口美國非常大的一個部分。在這一步中,我們需要從很多方面去收集數據,最後我們從學術文獻中找到了數據,清華大學馬弘教授估算過不同商品對於單位價格變化有多大的影響。這就是第二套數據。
下一個問題是,我們知道每一個企業出口可能會受到多大影響之後,還需要知道這個企業有多少就業人員。這是一個非常難以解決的問題,因為大家知道中國只有部分企業是有數據,一類上市企業,另外一類是規模以上工業企業。大部分出口商沒有企業數據。
所以我們使用另外一個手段,我們找到所有中國上市企業,上市企業數據中有中國所有的
企業存量就業人數。另一組數據是
中國所有招聘網站的招聘數據。我做的一個工作是,用所有的招聘數據去除以所有企業的就業數據,相當於是我可以算出每一個企業的一個周轉率,和財務周轉率是相當的一個概念,可以知道一個企業每年要招聘多少人?進一步再計算得出所有企業的一個大概就業人口。 然後我們用就業人口乘以每一個企業受到訂單影響率以後,可以得到在出口環節裡面,中國因美國就業貿易戰,可能會影響多少人的就業。
接下來最後一步,我們會使用投入產出比一個環節一個環節去計算,整個產業鏈上可能會有多少就業會受到影響。然後這個研究差不多是我們兩個人,花了兩天時間做完的,一般來說是可能一個月時間就要做完的一個研究。最後得到了批示。
在這個研究過程中,值得跟數據創作者們分享的是
數據組織能力。我們能看到現在非常多的研究所和作者強調數據的獲取,他們希望從數據裡面找出一些比較fancy的東西,然後畫一些很漂亮的圖。但是在我們的研究中,
我們認為最重要的一點就是你要研究的問題是什麼?以及在研究過程中,如何組織全社會的所有數據來為你所用。
5一個花圈店老闆,有一天發現生意非常好,貨物供不應求,銷量是平時的五倍。老闆很詫異,事後發現,因為市長老婆死了。此後,他留了一個心眼,時刻關注大領導的信息。
後來有一天,市長去世了,有了上次的經驗,他第一時間訂了一大批花圈。」之前死老婆,那麼多人送,這次自己去了,那花圈不得賣脫銷呀!」
但結果是,這次的花圈沒有賣出幾個。
他想了好幾天回味過來:之前賣脫銷,是因為大家給市長捧場,現在市長自己都死了,不用來抱你大腿了,還捧什麼場呢?
這個故事給我的啟發是,我們不是在觀察數據,而是通過數據觀察邏輯。不要陷入了數據的死胡同,數據可能會說謊。
這個故事也是盧詩翰之後一系列關於明星流量數據文章的邏輯根本。
PG One:2018年初,PG One 被封殺,我明顯感覺到有點奇怪,因為他的轉發數據實在太少了。一般流量明星他的轉發率可能都是各種百萬級別,但是他這一條只達到了16萬。我那時候就想了,其實他跟花圈的故事是一樣的,只有當他被封殺時,經紀公司也不敢刷數據了,而且這是一條道歉微博,他的粉絲也不會去幫他刷數據,因為道歉微博沒什麼好刷的。
在微博上各種粉絲刷數據的表象下, 這時的數據才是真實的。我終於在這時候找到了數據的關鍵錨點,然後我創作了一篇文章,後來在知乎上拿到了1萬個贊。
擴大觀察系:這次我找了參考系,去判斷所有的其他流量明星,他們的這麼一個數據真實量,發現他們確實存在很大的造假。而且我還統計了粉絲數、轉發量,包括各種運營係數和每天的發微博數據。但是這麼一篇數據詳細的文章,最後的閱讀數據非常差,總共連一千贊都沒拿到,在微博上的反響也很一般。
大家熟悉的「500京」爆款文後來我反思一下,我覺得我犯了個錯。對於娛樂圈吃瓜黨來說,這篇文章太難了!因為它涉及了轉發,又涉及了運營比,模型體系太過複雜。而對於真正的數據工作者來說,我的模型太簡陋,僅僅是對微博的數據做了一個抓取,所以兩邊都看不上。
我這時候在思考,我是一個數據分析師還是一個數據創作者?後來在2019年初,我創作了第三篇文章,也就是大家可能比較知道的
500京。在這篇文章中,我把吳京作為參照系,把其他粉絲轉發量等數據全部拋掉,僅僅以吳京的流量數據作為標準值,然後再去看流量明星刷了多少倍數據。
這篇文章它既不是最精確也不是最全面的,但是這篇文章的影響力最廣泛,為什麼?因為它是大眾最容易理解的。
數據創作者,首先是一個創作者對於我們今天很多人來說,要做數據創作者,可能很多人光想說我的難點在爬數據、獲取數據,或者怎麼把數據做一個可視化分析,但是我覺得真正重要的應該是說創作者你要怎麼樣講好一個故事,你要講出什麼樣的故事。
6如何給豬蓋章?如何科學地執行死刑?混音師如何拯救歌手?如何科學地給機票定價……
像這樣大量的和日常生活相關的,解釋這個世界如何運轉的技術是我們關心的話題。我們試圖用視頻的手段,把文字無法展示的技術呈現出來。回形針PaperClip致力於成為你的當代生活說明書。
如何用高信息密度和流暢的方式,呈現出比較複雜的技術?這是我們團隊一直在實驗和嘗試的方式。
擬物模板最常用的一種手段是擬物模板。我們會在視頻裡面用各種各樣的擬物化設計,比如說老電視、幻燈片、手機、老電腦、監控中心。
擬物模板可以構建起視頻和現實世界的連接,創造出一種語境。
比如怎麼打造一座戒備森嚴的監獄,首先需要展現出犯人會用什麼樣的手段越獄。直接用幾個視頻無法構成一種語境,我們設計了一個監控指揮中心,可以看到各種各樣的小窗口,每個小窗口都是一個單獨的越獄畫面。
比如高速公路收費會列印出來的發票。
比如豬肉檢疫會給出動物檢疫的合格證明。
這些在視頻中可能只是一句話,比如每隻豬來到屠宰場都需要帶一個檢疫證明,但如果我們只是在畫面上出現一個非常簡單的檢疫證明,或者一句話,這一幀視頻是沒有信息量的,它沒有反映真實世界的樣子。我們通過設計真實的動物檢疫合格證明,提供耳標編號、運送地點、二維碼等信息。這些信息在視頻裡沒有提到,但這一幀畫面呈現出高於文本內容非常多的信息密度。
三維設計除了擬物化設計,我們還在視頻裡嘗試更多的三維設計,三維設計幫助我們去解構一個事物工作的原理。
比如原子彈的結構中,電子雷管的位置在哪裡,它和整個原子彈之間的關係是什麼樣的?
也有一些更擬物的方式,比如說這個是鑽石的生長倉,這是一個六面頂壓機。
這些看起來非常厲害的三維模型,製作起來並沒有那麼難。只要有一個大致結構的概念,以及會使用C4D進行簡單的建模能力,就可以完成類似的三維模型。
三維模型包含了邏輯關係,能夠用視頻形式展現出遠遠高於文字或圖像的信息密度。另一種比較典型的三維模型是數據可視化方面的。我們想展現出香蕉樹的種植密度非常高,在一個籃球場上就可以種一百棵香蕉,這一百棵香蕉樹每年可以收穫3萬根香蕉。如果我們用扁平、二維的視覺語言來呈現,很難直觀展現出來。通過三維場景,就可以做到。
還有一些場景渲染,比如討論中國路燈,我們找到了一個路燈圖紙,根據圖紙做場景建模,然後在建模的場景中去展開我們要講的話題。
動畫邏輯
我們在設計技術可視化的高信息密度視頻的時候,動畫邏輯是什麼樣的?
如果要講汽車的工作原理,我們通常會對已有的素材做重新設計。比如抽糞車,我們對專利裡面的抽糞車做了一個重繪,然後對重繪過的吸糞車做動畫,演示如何用真空泵抽糞液,如何到儲糞罐的過程。
這是一個和真實素材做結合的動畫邏輯,它會更自然地幫助觀眾意識到我們要講的這個東西和素材之間的關係。這是另外一個比較典型的場景,我們的文案是這麼寫的,「雖然看上去長得很像樹,但香蕉其實是草本植物」。這句話的信息量其實很簡單,最簡單的一個設計方法:香蕉,草本植物。但是這個畫面信息量是不夠的,那除了草本植物,還有什麼?還有木本植物。這個時候我們就要展現出來三個東西,一個是草本植物,一個是木本植物,中間的香蕉是草本植物,但是這樣還是不夠的,我們需要把木本植物去掉。這就告訴觀眾它的同級結構是什麼,以及
我們要展現這個核心的物體和它的同級結構之間的關係是什麼樣的?信息擴展動畫邏輯背後隱含的是信息擴展的需求,每一個畫面,每一個文本做成視頻以後,能夠讓視頻呈現出更高的信息密度。
「除了運行圖,列車的運行還需要一套可靠的列車運行控制系統,閉塞是防止列車相撞最重要的機制」。為了這樣的一句話,我們要把完整列車的運行控制系統展現出來。雖然實質上也很短,大概只有兩三秒鐘,但是這個畫面的信息量是完整的,它的結構是完整的。這就是我們要講的具體問題和它所處的結構是什麼樣?這是常用的一種手段,叫做
結構擴展。
還有一種叫
流程細化。比如「這些數據將從伺服器送往最近的基站,也就是你經常在路上看到的鐵塔」,我們會把流程做完善。
最典型的是
同級對象,比如鑽石、石墨有很多很多種,但是結構的差異讓石墨在墨氏硬度等級中只排在最低的一級。這是各種各樣的碳,石墨的位置在哪裡?以及其它等級都有什麼?
相比於為什麼,我們更關心怎麼做。
相比於課本知識,我們更關心行業知識。也就是我們常說的這個世界是怎麼運轉的。比如技術問題、工程問題、規則問題。
最後再舉個例子,《如何給機票定價》這一期,之前的文本是這麼寫的:「每趟航班會根據數學模型規劃好各個艙位的數量,然後放出折扣票試探行情,同時通過歷史銷售數據對比,以及和競爭對手對比,對售價剩餘票量進行動態調整」。
這個文本看上去似乎解釋了這個問題,但其實沒有解決任何問題,
它只是非常寬泛地講了一個思想,或者叫理念,但是看到這段話的人,馬上就會忘記它。這就帶來一個結果,我以為我知道了,但其實我不知道。所以我們的工作就是對這樣的一個模型去做更進一步的解釋,告訴大家這個算法它究竟是怎樣工作的?它最核心的意義和價值在於,它真正呈現出來一個沒有人做過的,或者沒有人展現出來的一個精確的算法和模型。
7天眼查的成立和發展伴隨著我們國家的數據公開的整體進程,而公開數據,是有公共價值,甚至是商業價值的。
從數據新聞的角度來講,天眼查整合的公開數據幫助媒體提高了稿件操作的效率。而這些公開數據也確實幫助媒體實現了對於一些議題的深入探討。
這些是不同媒體藉助天眼查的企業數據完成了稿件:
8數據從哪裡來?這是所有數據創作都會面臨的問題。這涉及到三個點,
一個叫做可發現,即數據是否可以通過公共渠道檢索發現,你當然可以用搜尋引擎去搜,但大家都知道,搜尋引擎沒有那麼智能化,你問它一個問題,它給你的是一個碎片化、欄位式的響應,幾百幾千萬的答案很可能對你真正有幫助的只有那麼一兩條。你也可以從紙質刊物中獲取資料,但通常不那麼方便。
第二個角度是可獲得,即數據的獲得是否有壁壘,通過註冊去訪問數據已是家常便飯,好多你要去獲取數據的地方,都需要你註冊、登錄,最終的目的是讓你付費。你有一個很想做的題材,可能你要付給他幾萬塊錢,甚至於幾千萬,你才能拿到想要的數據 。
第三個是關於可使用性的問題,即數據的使用上是否有壁壘和限制。紙質文件你沒法直接轉化成電子內容,PDF你也得費勁把它變成Excel,有時候即使給你一個Excel,它只有一個表頭,表頭可能空了四行、五行、六行都有,或者還有一堆注釋,各種各樣奇奇怪怪的Excel,其實也是我們在創作當中經常會碰到的問題。
接下來我們聊聊數據開放,實際上開放數據這個定義是非常非常早的東西了,也就是
任何人都可以自由、免費地訪問、獲取、分享的數據資源。核心是公開數據+可重用格式+開放協議,最主要的還是可重用的格式,也就是這個東西好用。開放的協議更多是指我用這個東西,它是不是對我有所限制,這個數據是不是我爬下來了,我一定能去用。
政府數據之外,還有哪些開放數據?我們從2017年開始做《中國地方政府數據開放報告》,中國地方政府的開放數據很有意思,16、17年還是十幾個地方在做數據開放,蹭的一下2018年就到了46個,今年2019年有82個地方。從地域分布上看,相對集中在中部到東部,像北上廣這類有信息化技術,有相應產業基礎的地方,數據開放做的更好。
政府數據網站都開放了哪些數據?一般以行政事務為主,比如說許可、審批、登記、處罰類信息。按照網信辦、工信部和科技部的要求,全國各地多數數據開放的網站都遵循著類似的域名:data.xx[地方政府縮寫].gov.cn。
在傳統的政府開放體系之外,也有很多外部開放數據,比如上海新能源汽車數據監測中心的「EV大數據」,提供新能源汽車的監測數據用於研究。用戶可以申請獲取數據,用於調研報告、新聞創作等等,這是一種游離於政府傳統的開放數據體系之外的「開放數據」。上海青悅對於環境數據的開放也是類似的合作模式。
還有一類可能性像國家衛建委做的流動人口數據服務平臺,實際上這只是科技部在過去十幾年當中一大批科學共享平臺的一部分,流動人口數據知名度比較高,每年接受2次申請,能夠讓你獲取到他們用統計調研方式獲取到的流動人口相關數據內容。
推動數據開放,媒體可以做什麼? 一是為數據開放發聲。開放是一個公共議題,媒體的關注和媒體對議題持續的報導非常重要。例如5月1日,上海有一個公共數據開放管理辦法的意見徵求,媒體界可以通過表達訴求影響政府政策的制定。
二是多利用開放數據。今天的數據創作者大會,很有意思的一點是匯聚了各行各業的數據創作人,有越來越多的人去挖掘數據的可能性。對於數據提供者而言,這是一個良性反饋,能夠激勵他開放更多的數據,或者合作機會,最終達到一個正向循環。
三是讓開放數據更「可見」。像在GitHub上有一個非常知名的Repo(Awesome Public Datasets),上面有將近幾千個公共數據集,供大家查詢使用。可能大家對英文平臺不是那麼熟悉,是否可以用其它的方式方法梳理這些已有的數據集。這些已有的平臺,包括不同的數據創作者是否可以聯合在一起做這件事。
四是開放你的數據。這樣的案例有很多,像海外的很多News Room都會在一些公開平臺上公布新聞作品背後的數據。開放給其它新聞機構,開放給公眾,讓他們能夠拿著這些數據去做進一步的拷問,去做論證,去做一些覆核的檢驗。之前也有看到澎湃Sixth Tone做了類似的事情。更進一步地,開放數據,開放創作素材這樣的一種方式,關於它的商業模式,如何可持續運行下去,也值得我們做更多的探討。
最後希望更多的創作者,能夠去關注「開放數據」這樣一個議題,能夠更多地使用已經開放的數據,或者說更多已經存在的公共信息。
明日組委會將奉上演講精華實錄第三篇:可視化的理念與應用。敬請期待!
*註:演講內容有所刪減。