第一屆Sigma數據新聞獎
獲獎作品介紹
Sigma 是一個全新的面向世界優秀的數據新聞媒體所開設的獎項,同時也致力於為全球的數字新聞媒體圈注入力量。第一屆Sigma獎的參賽入口在2020年2月5日關閉,總共收到了來自66個國家和地區的510件參賽作品。
評審團由24位來自世界各國的專家組成,他們從所有的參賽作品中選出了6個大類的10件優勝作品和2件榮譽作品。這些得獎的作品代表了世界數據新聞的最高水平。
以下是第一屆Sigma數據新聞獎獲作品
>最佳數據新聞報導(大型新聞編輯室):三駕馬車自助洗衣店
>最佳數據新聞報導(小型新聞編輯室):複製、粘貼、立法
>最佳數據新聞報導(小型新聞編輯室):法國製造
>最佳新聞應用(話題雷達):來自俄羅斯的假資訊
>最佳可視化(大型新聞機構):全球汙染最嚴重的空氣與你所在的城市的空氣進行比較
>最佳可視化(大型新聞機構):為什麼你的智慧型手機讓你成了「簡訊脖」
>最佳可視化(小型新聞機構):丹麥騙局
>創新(大型新聞機構):美聯社DataKit: 兼容性強的數據項目組織工具包
>創新(大型新聞機構):沉默地帶
>創新(小型新聞機構):Funes: 一套反腐敗的算法
>數據公開:TodosLosContratos.mx
>優秀青年數據新聞記者:Rachael Dottle
1. 最佳數據新聞報導(大型新聞編輯室)
獲獎作品:三駕馬車自助洗衣店
獲獎類別:最佳新聞應用
機構:OCCRP,英國衛報,德國Süddeutsche Zeitung,韓國Newstapa, 西班牙EI Periodico, Global Witness以及其他17家合作組織
作者:Paul Radu, Sarunas Cerniauskas. Reporters: Olesya Shmagun, Dmitry Velikovsky, Alesya Marohovskaya, Jason Shea, Jonny Wrate, Atanas Tchobanov, Ani Hovhannisyan, Irina Dolinina, Roman Shleynov, Alisa Kustikova, Edik Baghdasaryan, Vlad Lavrov
評審團評語:這是競爭非常激烈的一個獎項。基於該團隊付出的巨大努力,投入的大量時間和精力,以及將這個故事最終拼接在一起的風險,評審團非常欣賞Organized Crime and Corruption Reporting Project (OCCRP)團隊,並決定將這一獎項頒給這件作品。這項影響深遠的調查涉及15個國家的近3000家公司和多家銀行,揭露了為期七年(2006-2013年)的超過260億歐元的「將資金轉移出俄羅斯」的記錄。如此大規模的項目所包含的安全風險和審查風險顯然對政治領導人產生了實際的後果。對關係網絡、地理位置以及人物性格的細節描述充分說明了這是一個十分優秀且極具競爭力的報導。這是一個將恐怖小說、爆炸新聞以及諜戰片融為一體的項目。一起來欣賞這個作品並沉入其中吧。
媒體類型:大型
項目介紹:我們揭露了一個非常繁複的利益鏈,在這條利益鏈中俄羅斯的寡頭和政治家統治者們能夠秘密地非法謀得巨額財產、洗錢、偷稅漏稅、在國有公司中持股、在俄羅斯和海外購買豪宅,以及更多。三駕馬車洗衣店是專門用來掩人耳目並隱藏這條利益鏈中的關鍵環節。OCCRP發現了這個洗衣店,並通過和其他合作媒體一起對大量銀行信息進行周密的分析和調查,最終發現了涉及23萬8千家公司共計130萬歐元的交易洩露。視頻解說:https://youtu.be/uteIMGxor0o
作品影響:三駕馬車洗衣店這個系列故事產生了非常廣泛和深遠的影響,該作品最初於2019年3月發表,隨後有一系列後續報導。Raiffeisen銀行(奧地利)、花旗銀行(美國)、丹斯克銀行(丹麥)、北歐聯合銀行(芬蘭),瑞典銀行(瑞典), 法國農業信貸銀行(法國)和德意志銀行(德國)都似乎牽扯其中,且Raiffeisen銀行和北歐聯合銀行與這家洗衣店有很深的利益關係。歐洲21位議員要求向所有涉事的銀行進行制裁。他們還提出建立一個「歐洲共同反洗錢監管委員會」。與此同時,歐洲議會(PACE)決定採取更有效切實的行動來打擊洗錢活動。調查觸發了賽普勒斯總統的一場重大政治危機,因為我們發現他成立並共同擁有一家律師事務所。當時他是合伙人,而該律師事務所謀劃了與俄羅斯總統弗拉基米爾·普京的朋友有關的商業交易,臭名昭著的「馬格尼茨基醜聞」,還有和各種金融公司的違法交易網絡。
報導引發了對俄羅斯一些最有影響力的政治家的調查,包括在西班牙對謝爾蓋·切梅佐夫家族所持財產進行的調查。切梅佐夫家族擁有俄羅斯重要的科技集團Rostec Corporation,並且是普京在東德德勒斯登的克格勃全盛時期的夥伴。最近,有消息稱瑞典SEB銀行也被發現牽扯在這一洗錢案中,原因是洩露的數據引發了人們對其與非本地客戶交易的質疑。總而言之,三駕馬車洗衣店這篇報導將整個歐洲銀行體系置於更加嚴格的監管之下,並且是歐洲針對銀行業進行徹底調查的一個重要原因。
技術:我們獲取的數據信息格式非常多,包括pdf、 excel和CVS。我們建立了自己的在線銀行資料庫SPINCYCLE。在對所有獲得的數據進行整合之後,我們建立了68種不同的數據結構。對每一種結構我們都進行了獨立的Python腳本解析,將它們放入SPINCYCLE資料庫。在這個資料庫中,我們給所有的數據之間建立了聯繫。我們使用專有的IBAN API提取有關數據中缺少的銀行的詳細信息。對於貨幣值,我們在交易時執行了貨幣轉換,因此我們將SPINCYCLE連結到了歷史匯率的在線表格。我們還標記了已收到信息的帳戶,以便我們可以查看洗錢系統的資金總流量。使用公司註冊處和Panama Paper的數據對資料庫進行演練,從洗錢系統的25萬個參與方中選擇了22000個人名。為了使數據可供我們的成員使用,我們製作了一個基於Web的SQL界面。之後,我們添加了基於ElasticSearch的全文本搜索索引,可以使用Kibana作為界面進行搜索。我們還使用了自己開發的開源數據分析引擎Aleph。在登錄頁面上,我們旨在通過弦圖和儀錶板來展示整個關係網。該儀錶板為整個分析建立模型:頂部是一個大圖形,後面是帶有主要關鍵點的儀錶板。對於數據可視化部分,我們在Vue.js和D3.js上使用了客戶端Quasar Framework來做圖,這些圖表都是在Adobe Creative Suite中設計的。合作是通過OCCRP保障的Wiki和Signal進行的。
項目難點:三駕馬車洗衣店的調查報導是基於大量枯燥的銀行交易數據而來的。我們尋找到一種規範以便識別和挑選出源自我們後來定義的Troika Luandormat(TL)的交易。你可以將TL視為類似於TOR的服務,意在匿名化銀行交易。為了確定誰是系統的組織者以及誰是系統的用戶,我們必須尋找錯誤和錯誤的連結。我們最終通過仔細的數據分析發現,這些銀行家將這些交易放在一起時犯了一個小而致命的錯誤:他們僅使用三家離岸公司向代理付款,以便成立另外數十家自己參與的其他離岸公司,並交易數十億美元。這些只有數百美元的付款當然會淹沒在成千上萬筆大額交易中,因此我們必須找到它們並意識到它們是這個洗錢模式的一部分。在意識到這一點之後,我們就關注到了三駕馬車洗衣店。
這個調查項目的另一重大難題是如何確保所有調查成員的人身安全。我們所報導的人在本國和國外都非常有權勢,我們必須確保始終通過安全的渠道與俄羅斯、亞美尼亞和其他地方的記者進行溝通。最後但同樣重要的是,事實核查必須以多種語言在文檔和音頻進行交叉進行,因此需要花費大量時間和精力來確保我們的信息是準確的。
其他團隊能從中學到什麼:我們再一次認識到,這是一篇結合了傳統靠腿跑新聞和深刻的數據分析而來的深度調查報導。在數據和現實調查中來回切換的能力才能讓你發現隱藏的線索。我們有一位數據分析科學家和我們的調查團隊一起工作,事實證明這是我們的報導取得成功的關鍵因素之一。我們確保記者擁有多項獲取信息的能力和多條渠道,根據數據增強他們的技術能力。在我們進行成果共享的wiki中有一個部分詳細描述了如何通過不同系統訪問數據。在這裡,高級記者也可以分享他們現成的方法,以便其他人可以在他們感興趣的數據上應用這些方法。我們還從以前的項目中汲取經驗並將其應用到這個項目中。數據科學家和數據新聞記者們需要通過Signal來聯繫到合作團隊中的新成員並向他們解釋這整個體系是如何運作的,以及我們已經通過分析數據發現了什麼。這樣一來參與該項目的新記者不必從頭開始,使得新記者的融入變得更加容易,也提高了工作效率。
我們得出的另一個重要教訓是,不僅國家之間以及非常聰明的記者之間的合作可以構成一個很好的項目,各種信息洩露之間的合作也可以使項目更加全面。除了我們新發現的洩露文件外,三駕馬車自助洗衣店的記者們還使用了ICIJ先前調查的文件,包括 Offshore Leaks, Panama Papers 和Paradise Papers。至關重要的是,在某個時間點上,我們必須統一所有這些數據,因為它們之間現存的差距還包含了尚待調查的故事。
作品連結:
https://www.occrp.org/en/troikalaundromat/vast-offshore-network-moved-billions-with-help-from-major-russian-bank
https://cdn.occrp.org/projects/kremlins-laundromat/#/overview/companies
https://www.occrp.org/en/troikalaundromat/laundromat-money-leads-to-spanish-paradise
https://www.occrp.org/en/troikalaundromat/death-in-vienna
https://www.occrp.org/en/troikalaundromat/prince-in-wonderland
2. 最佳數據新聞報導(大型新聞編輯室)
榮譽獎:複製、粘貼、立法
獲獎類別:最佳數據新聞報導(大型新聞編輯室)
媒體機構:今日美國、 公共誠信中心、亞利桑那共和報
國家:美國
作者:這是一個團隊項目
評審團評語:亞利桑那共和報、今日美國和 公共誠信中心分析了美國所有50個州的擬議法律的用語,揭示了10000個幾乎相同的法案。他們嚴謹複雜的分析揭秘了一個真相:那些能夠影響到普通大眾日常生活的法律條文,其實都是政治說客和利益團體在各州政府裡閉門造車得出的。
媒體類型:大型
發表日期:2019年2月6日
項目介紹:「複製,粘貼,立法」標誌著新聞機構第一次詳細描述了特殊利益集團是如何通過「示範立法」來對各州立法進行幹預的。該系列說明了汽車經銷商如何使用示範立法來銷售召回的二手車;反墮胎倡導者如何進一步推動墮胎限制;由極右翼團體鼓吹的、被人稱為「政府批准的伊斯蘭恐懼症」的天主教教堂如何利用示範立法來減少他們以往在涉及虐待兒童案中的曝光。(這些報導發布於2019年2月6日,4月3日,5月23日,6月19日,7月17日和10月2日)
影響:各個州的人們都呼籲立法要求對法案語言的起源提高透明度。立法者被迫捍衛自己對示範法案的支持。一個面向公眾的示範立法追蹤工具於2019年11月啟動,記者和公眾可以通過該工具:
識別在全國範圍內引入的最新示範立法
識別在本州引入的最新示範立法
在全國範圍內搜索提及特定關鍵字的示範立法或主題
上傳他們要立即確認的一份文件,以辨別是否與自2010年以來引入的任何州立法重合
按數字查找特定的法案,以查看與之匹配的所有其他法案
查找特定的立法者並查看所有他們支持的包含樣本語言的法案。
作為項目的一部分,地方新聞機構能夠確定並採訪示範立法的主要贊助者,並確定在其所在州引發反響的關鍵問題。這些故事探討了示範立法的範圍及其對全國政策的驚人影響。國家和地方的報告顯示:
全國各州議會中引入的10000多個法案幾乎完全是從特殊利益方撰寫的法案中複製的。
數量最多的特殊利益法案條目-超過4000條-都旨在實現保守派的目標。
超過2100項與特殊利益集團相關的示範立法法案已成為法律。
示範法案相當於美國最大的未報告特殊利益運動,幾乎觸及了公共政策的每個領域。
起草帶有欺騙性的標題來掩蓋這些法案的真實意圖,其中包括「透明度」法案,該法案實際上使起訴公司變得更加困難。
由於模仿法案已與立法程序交織在一起,美國提案最多的的示範立法提案人聲稱,他不知道自己曾授權過72份最初由外界利益撰寫的法案
技術:在此之前沒有新聞機構試圖就在州議會中討論的法案中有多少是從特殊利益推動的法案中抄襲而來的做過調查。我們從第三方供應商Legiscan獲得了2010年至2018年間來自50個州的超過100萬條立法的元數據。我們還從州立法機關的網站上抓取了與這些法案相關的法案文本。此外,我們通過從來源獲取數據,從主張理立法的組織下載數據並自行搜索示範法,建立了一個由2000項示範立法數據組成的資料庫。這可以通過識別已知示範法並嘗試查找來源,或者找到提出示範法的組織並搜索他們所提倡的每個示範法來完成。
然後,我們比較了兩個資料庫,事實證明這很複雜。我們的團隊開發了一種算法,該算法依靠自然語言處理技術來識別相似的單詞和短語,並將資料庫中的每個示範法與立法者提出的法案進行了比較。相當於150臺計算機(虛擬機)連續運行了幾個月。即使具有這種計算能力,我們也無法將每個示範法與每個法案進行比較。為了減少計算時間,我們使用了關鍵字-槍枝,墮胎等。系統只會在監測到示範法與法案有至少一個共同關鍵詞之後才會進行比較。團隊還開發了一個匹配程序,也是一種面向公眾的新工具。通過這個工具,記者和公眾不僅可以識別過去的法案,還可以識別未來引入的示範法案,這些法案仍然具有新聞價值。
難點:很難估算這次分析的資料密集程度。這是我們首次嘗試自然語言處理。我們必須比較100萬條法案,每條法案長几頁,最長到100頁。從計算上看,規模非常複雜。我們必須深入了解如何部署一些我們大規模使用的軟體,並解決我們在此過程中面臨的問題。我們在雲服務上花費了數萬美元。每當我們對方法進行更改時,我們都必須重新運行此分析,我們經常這樣做。最終的分析和報告花費了六個多月的時間才能完成。我們從第三方供應商Legiscan獲得了2010年至2018年間來自50個州的超過100萬條立法的元數據。我們還從州立法機關的網站上抓取了與這些法案相關的法案文本。此外,我們通過從來源獲取數據,從主張立法的組織下載數據並自行搜索示範法,建立了一個由2,000項示範立法數據組成的資料庫。這可以通過識別已知示範法並嘗試查找來源,或者找到提出示範法的組織並搜索他們所提倡的每個示範法來完成。
其他團隊能從中學到什麼:合作的力量。三個機構分別建立了兩套分析工具用於分析樣本語言,採取了兩種不同的手段。經過今日美國的努力發現了至少10000條法案是幾乎完全抄襲了過去八年全國立法機關引入的樣本語言。公民誠信中心的工具致力於在全國大約6萬張條法案中識別通用語言,以標記以前未知的立法範本。這些工具結合在一起,可以對已確定的示範法案進行成功分析,並能夠確定新的示範立法。計算機比較以及十幾個州的實地報告顯示,模仿立法是美國最大的,未報告的特殊利益運動。示範立法主導了美國各州的議程,並幾乎影響了公共政策的每個領域。
作品連結:
https://www.usatoday.com/in-depth/news/investigations/2019/04/03/abortion-gun-laws-stand-your-ground-model-bills-conservatives-liberal-corporate-influence-lobbyists/3162173002/
https://publicintegrity.org/politics/state-politics/copy-paste-legislate/the-multistate-push-to-let-dealers-get-away-with-selling-you-a-defective-car
https://www.usatoday.com/in-depth/news/local/arizona/2019/06/19/abortion-laws-2019-how-heartbeat-bills-passed-ohio-missouri-more/1270870001/
https://web.model-legislation.apps.fivetwentyseven.com/
https://www.usatoday.com/in-depth/news/investigations/2019/07/17/islam-sharia-law-how-far-right-group-gets-model-bills-passed/1636199001/
https://www.usatoday.com/in-depth/news/investigations/2019/10/02/catholic-church-boy-scouts-fight-child-sex-abuse-statutes/2345778001/
https://publicintegrity.org/politics/state-politics/copy-paste-legislate/big-tobaccos-surprising-new-campaign-to-raise-the-smoking-age
3. 最佳數據新聞報導(小型新聞編輯室)
獲獎作品:法國製造
獲獎類別:最佳數據新聞報導(小型新聞編輯室)
媒體機構:DISCLOSE
國家:法國
作者:Mathias Destal, Michel Despratz, Lorenzo Tugnoli, Livolsi Geoffrey, Aliaume Leroy
評審團評語:「法國製造」作為一個調查報導,無疑證明了強大的新聞業是傳統報導、高級數據分析還有勇氣的集合。DISCLOSE使用高度機密的文件作為基礎來曝光並揭示法國軍方牽扯進葉門衝突的程度。這是一項艱巨而充滿風險的為了公眾利益的工作。該團隊採用了先進的數據新聞技術來大大提高工作效率,該技術用於挖掘,繪製地圖,進行事實檢查並展示其成果。
媒體類型:小型
發表日期:2019年4月15日
項目介紹:在進行了六個月的調查後,DISCLOSE報導了在葉門戰爭中如何將法國出售給沙特的武器用於對付平民。DISCLOSE披露了前所未有的秘密文件,並使用OSINT研究和數據分析來確立法國對葉門戰爭的責任。這項調查結合了人力資源,秘密文件和公開信息,使用衛星圖像跟蹤法國在葉門的武器及其影響。
影響:這篇調查報導在五家法國媒體同時刊登。該項目將法國向沙特出售武器的問題置於政治和民間討論的中心。議會聽取了陸軍部長和法國外交部長的講話。這些信息表明了法國政府對持續向沙特出口武器的謊言。數十個非政府組織呼籲政府停止向沙特運送武器,並且在法國進行了幾次反對武器運送的公開示威活動。揭露消息一個月後,政府在輿論的壓力下不得不兩次取消向沙特的武器交付,這是自阿爾及利亞戰爭以來的第一次。2020年1月,政府暫停向沙特運送炸彈。
技術:我們使用衛星圖像來證明葉門戰爭中確實使用過法國武器。我們觀看了在官方社交網絡上找到的數十個視頻,然後使用衛星視圖對這些視頻進行了地理位置定位。這樣我們就可以證明法國軍事裝備在葉門的存在。我們使用來自葉門數據項目的公開數據,以便了解軍事衝突範圍內法國造榴彈炮受害平民人數,並根據製造公司提供的信息計算他們的範圍。有了這些信息,我們就可以找到與這些武器有關的平民死亡的可能證據。我們使用了來自Marine Traffic的衛星圖像,網絡攝像頭和數據來追溯從法國運輸武器到沙特的船的航向。我們還分析了2015年3月26日至2019年2月28日之間記錄的19278例空襲的細節,結果表明:30%的轟炸是針對平民的。聯盟的意圖顯然是為了摧毀對葉門2800萬人的生存至關重要的基礎設施。我們在地圖上對所有爆炸案進行了地理定位,並在社交網站上找到了爆炸案的相關證據。
難點:「法國製造」項目必須進行最後調查,以觸及法國軍事機密所涵蓋的敏感話題,由於持續的衝突,實地調查變得困難甚至不可能。儘管存在這些問題,但目的是通過公開數據和開放源信息對葉門戰爭中的武器銷售及其使用進行調查。該項目最困難的部分是驗證並發布此秘密文檔。我們不僅要發布秘密文件,而且要使用法國軍方使用的相同情報工具來證明我們的武器對葉門戰爭的影響。最困難的部分是披露乘船運送武器的路線,但其信息仍被列為軍事機密。我們想表明,只有利用公開信息,我們才能調查被隱藏起來的秘密。「法國製造」項目是前所未有的長聯形式,它將數據新聞帶入了調查新聞學最困難的領域之一。
其他團隊能從中學到什麼:這個項目是一個示範,我們只能使用公開數據來調查武器交付,也可以從計算機屏幕上調查戰場。但是數據新聞業並不是非人性化的新聞,因為新聞需要信息來源和舉報人才能獲得信息。數據新聞也可以是對戰爭和武器貿易等較敏感主題進行調查的有力手段。
作品連結:
https://made-in-france.disclose.ngo/en/
https://youtu.be/BKUi1HmaJL0
https://theintercept.com/2019/05/17/france-takes-unprecedented-action-against-reporters-who-published-secret-government-document/
4. 最佳新聞應用
獲獎作品:來自俄羅斯的假資訊
獲獎類別:最佳新聞應用
媒體機構:TEXTY.org.ua
國家:烏克蘭
作者:Nadiia Romanenko, Nadja Kelm, Anatoliy Bondarenko, Yuliia Dukach
評審團評語:虛假信息可以在國際政治中發揮重要作用,在公眾對虛假信息的認識有限的情況下,它們顯得尤其重要。評審團很高興看到在烏克蘭開發的用於解決虛假信息問題的應用程式。該工具跟蹤在線媒體中俄羅斯虛假信息的敘述和操縱信息的內容和強度,並顯示整體動態。作為俄語和烏克蘭語的同類產品中的第一個,它允許用戶以不同的方式參與互動,以可視化方式作為交互式儀錶板,通過對每周的帖子進行分析,並通過提供瀏覽器附加組件來功能性地幫助每個公民識別操作性內容。該項目恰好顯示了一個優秀的新聞應用程式應該做的事,那就是使用戶能夠在更大的資料庫中找到自己的表達方式並做出自己的判斷,並且這個程序還正在解決當今新聞業面臨的一些最關鍵的挑戰。
媒體類型:小型
發表日期:2019年8月7日
項目介紹:TEXTY開發了數據採集與分析平臺和儀錶板工具https://topic-radar.texty.org.ua 顯示了操縱新聞中俄羅斯虛假信息主題的整體動態。我們每周都會對數千條新聞進行NLP處理,以檢測操縱性新聞,並按主題和元主題將其分組以顯示在交互式儀錶板上。我們還會根據分析結果發布每周評論(到目前為止,有21條)。此外,我們基於相同的平臺(適用於Chrome和Firefox)開發了「 Fakecrunch」加載項。它會自動向用戶發出有關操縱性內容的信號,並可用於收集關於潛在的低質量/偽造/操縱性新聞項目的建議。
影響:該項目旨在跟蹤線上媒體中俄羅斯虛假信息敘述和操縱信息的內容和強度。它提高了政府機構、民間社會組織、新聞工作者和專家對俄羅斯在任何一周內所宣傳的重大虛假信息主題的認識。列舉一個例子:烏克蘭副總理德米特羅·庫萊巴(Dmytro Kuleba)提到了這個項目,以此來說明俄羅斯大量虛假信息流向烏克蘭。這種定量方法使我們能夠概覽並從頭到尾放大廣闊的宣傳景觀,並跟蹤不同時間段內的主題。從2019年5月開始,根據該項目發布了21周的評論。每次評論都闡述了操作信息的主要敘述,這些敘述由我們的應用程式確定。texty.org.ua上每個出版物的平均受眾參與度約為8,000個用戶。
過去我們曾和其他媒體分享我們的評論,也和一些博客作者和大V進行分享。我們也得到了國際專家的積極反饋,例如Andreas Umland(德國),Lenka Vichova(捷克共和國)。用波蘭華沙的InnostutWolności的Maciej Piotrowski的話來說是:「有用的信息。有時我們會在InstututWolności的材料中共享它,有時用於分析。長期追蹤對於了解整體情況很有用。」在對附加功能提出了許多要求之後,我們決定開發該應用程式的第二個版本。該版本將於2020年4月(大約日期)發布,並且我們暫停了數據更新,直到新版本發布為止。
技術:數據從網站的 RSS 源或 Facebook 頁面上的連結下載。預處理存儲在 PostgreSQL 中的新聞項目數據。每個文本都準備好進行分析:標記化(分為語言單元-單詞和標點符號),詞形化以進行主題建模。使用自定義Python腳本來獲取(Scrapy),處理和存儲數據。然後,通過改進的操縱新聞分類器(基於ULMFiT的俄語和烏克蘭語模型,由TEXTY於2018年創建,在Pytorch / fast.ai中進行編程)對每個新聞項目進行了評估。該模型可從我們的github獲得。它估計新聞包含情緒操縱和/或錯誤論證的可能性。通過自動主題建模(NMF算法)將精選的操縱新聞(平均每周約3000條)分解為主題。我們手動編輯了結果新聞組:組合了相似的主題,丟棄了無關或過於籠統的新聞組。新聞應用程式中的每個子主題還通過新聞標題的樣本進行說明,該標題屬於新聞標題,方便新讀者了解每個主題。
難點:據我們所知,這是俄羅斯和烏克蘭語言的第一個此類工具和整個產品線。主要的挑戰是檢索準確的主題並按時間跟蹤它們。使用NMF(非負矩陣分解)(一種無監督的聚類方法)進行主題建模。當使用humal labels(懷疑這裡原文拼寫錯誤)時,與監督聚類的方式相比,結果的準確性較差。但是我們無法訓練主題分類器,因為我們不了解新聞中的所有主題,並且如果新聞議程發生變化,就無法輕易地更新監督模型。因此,我們不得不繼續使用無監督的非負矩陣分解方案。分析人員會審查本周的主題,並通過規則進行改進以修復無監督主題建模的可能錯誤。很多手動工作是該項目的難點。因為我們在每周的新聞樣本中檢測到主題,所以我們必須將它們匯總到儀錶板,來跟蹤較長時間的主題。我們通過分層非負矩陣分解(即每周集群一次)解決了這一挑戰。首先將儀錶板中的元主題進行聚類並由分析人員進行審核,以便每個每周主題與儀錶板上的一個元主題相關。但是對來自不同模型的聚類研究得不夠深入,其中很大一部分是手動完成的。
其他媒體機構可以從中學到什麼:長期跟蹤虛假信息使我們有可能看到哪些話題對俄羅斯當局最重要,哪些是對他們最大的刺激,以及他們將來打算在烏克蘭做什麼。我們的分析師得出的結論之一是,有證據表明,有來自俄羅斯的各種操縱新聞,可以在「失敗國家」(與烏克蘭有關)的統稱下進行邏輯組合。這場運動的目的是顯而易見的:它的目的是創造烏克蘭作為非國家的形象,這是一個與歷史邏輯背道而馳的人為國家實體。我們正在考慮將儀錶板作為分析人員進行進一步研究的有用工具,並將Fakecrunch附加程序視為在線閱讀器在日常生活中的可用工具。其他記者獲得了他們的資料來源。公眾獲得了有證據基礎的工具來進行媒體素養和社交媒體的自我控制。捷克共和國的倫卡·維喬娃(Lenka Vichova):「其中許多信息不僅進入烏克蘭的信息領域,而且進入捷克和斯洛伐克的媒體領域。因此,了解和做好準備是核心。在撰寫我自己的分析文章時,以及在捷克和斯洛伐克媒體的評論中,我都會使用你們的評論。」
作品連結:
5. 最佳可視化(大型新聞機構)
獲獎作品:全球汙染最嚴重的空氣與你所在的城市的空氣進行比較
獲獎類別:最佳可視化(大型新聞機構)
媒體機構:紐約時報
國家:美國
作者:Nadja Popovich, Blacki Migliozzi, Karthik Patanjali, Anjali Singhvi and Jon Huang
評審團評語:這個數據可視化作品起到這樣的作用:在解釋一個複雜而重要的主題時拓寬了可視化的邊界,使讀者能夠通過詳細、細緻的方式理解空氣汙染對公眾健康的危害,這種危害在全球範圍內造成數百萬人生病甚至死亡。它結合了絕佳的美感、故事性和互動功能。用戶可以通過預設示例進行學習,或提取和生成自己的故事並進行比較。在移動領域,它非常出色,包括 AR 實驗將數據運用到日常生活中。可視化通過數據建立同理心,利用最近新聞中的空氣汙染的案例進行研究,使看不見的空氣變得可見。數據使用的精確度與最好的可視數位技術以及用戶交互的完美結合,以一種引人入勝且有意義的方式完美地講述了這個複雜的故事。
媒體類型:大型
發表日期:2019年12月2日
項目介紹:被稱為PM2.5的室外顆粒物汙染每年導致全世界成千上萬的死亡和更多的疾病。我們創建了一個特殊的項目,以可視化方式顯示這種極具破壞性但通常是無形的汙染。交互模式使讀者能夠(安全地)呼吸與自己所在城市或城鎮的空氣,同時去對比世界上最惡劣的空氣,從而使他們對這種公共健康危害的規模有更深入的了解。
影響:這個空氣汙染可視化項目是《紐約時報》一年中閱讀量最高的故事之一,一天之內就獲得了超過一百萬的頁面瀏覽量。它還擁有最高的讀者參與度。讀者自發地直接利用社交媒體,分享自己城市的空氣汙染平均值以及該項目可視化效果的屏幕截圖,並對最近的空氣汙染狀況表示擔憂。如今,使空氣汙染對公眾更加切實可見尤其重要,因為美國的空氣品質在數十年的經濟發展之後已經惡化,而世界上許多人仍在繼續呼吸嚴重汙染的空氣。同時,越來越清晰的事實是,空氣汙染對人類健康的影響越來越大。包括聯合國和WHO在內的公共衛生界專家已和我們接觸,計劃將該項目用於教育目的。
技術:
粒子可視化和圖表:數據分析是使用Python完成的。故事中的視覺效果是使用WebGL和D3創建的。
AR:AR體驗是使用Xcode和Apple SceneKit創建的。(響應數據的AR場景是使用Xcode中的Swift創建的。)請注意,由於Android作業系統的技術限制,AR版本僅在《紐約時報》應用程式和iPhone上可用。
地圖:通過使用R和gdal轉換netCDF文件來渲染地圖。動畫是使用Adobe的After Effects和Illustrator完成的。
難點:我們希望該項目通過將人們的經驗(他們所在城市的平均空氣汙染水平)與最近新聞報導中的各種汙染空氣案例研究聯繫起來,通過數據產生同理心。為了實現這一目標,我們努力確保可視化在空間中具有正確的運動感覺,來呼應被汙染的空氣,同時仍將其反映為數據可視化,而不是準確反映特定時間和地點的汙染情況。我們就如何以顆粒,霧度等形式表示這種汙染提出了許多想法,並向觀眾展示了許多方法。最終目標是:通過科學的方法,讓人們感受到可視化主體與被可視化(汙染)之間的自然聯繫。
為了確保科學準確性,我們和六位研究顆粒物汙染的專家一同運行了可視化的構想,來更好地判斷應該如何顯示這些有害顆粒。最後,我們看似簡單的演示:在滾動(或輕擊)時用粒子填充單個屏幕(或AR中的房間),以營造一種用這種空氣「填充」肺部的感覺。我們的讀者對這篇文章的反應表明,我們實現了恰當的平衡。
其他媒體機構能從中學到什麼:我們希望人們能從中學到的一課是,可以通過可視化建立與數據的情感聯繫。我們給出故事指引,使讀者成為中心人物,使他們能夠利用自己對空氣汙染的經驗作為基準,用以判斷和了解其他地方的汙染規模。相對於從遙遠的地方來流於表面地展示數據,這個可視化作品能讓人們對所面臨的問題有更深入的了解。在技術方面,許多人評論了該項目對增強現實的創新使用。該項目利用增強現實技術使通常在3D空間中看不見的事物變得就在人們身邊。以前,《泰晤士報》和其他新聞編輯室的AR實驗主要包括將物體放置到太空(如《泰晤士報》的月球著陸項目)或創建一個新的3D空間進行探索(如《衛報》的增強現實項目,讓用戶體驗被單獨監禁是什麼樣的)。
部分對於AR體驗的讚揚:
「很顯然,這是我在新聞環境中見過的最引人注目的現實增強功能的使用。」——《華盛頓郵報》Chris Ingraham
「我一直(而且我仍然在很大程度上)對AR和VR的應用(尤其是在數據可視化中)持懷疑態度,但這個作品使我改變了主意:這個作品以一種與我們的生活和經歷都息息相關的方式進行了呈現。」——美國東北大學藝術媒體和設計學院教授,Paolo Ciuccarelli
作品連結:
6. 最佳可視化(大型新聞機構)
榮譽獎:為什麼你的智慧型手機讓你成了「簡訊脖」
獲獎類別:最佳可視化(大型新聞機構)
媒體機構:南華早報
國家:中國香港特別行政區
作者:Pablo Robles
評審團評語:評審團基於其卓越的技術和出色的圖形使用能力,以「榮譽獎」來表彰「為什麼您的智慧型手機會導致「簡訊脖綜合症」。該項目的敘述清晰易懂,並且交互性和非交互性的圖像散布在文本中,這意味著總是有一些有趣的東西吸引讀者。從靜態圖形到交互式圖形,再到帶注釋的視頻,還有各種各樣的視覺技術。雖然對"簡訊脖"綜合症背後的數據存在一些爭論,但評審團認識到整個敘述的出色表現。
媒體類型:大型
發表日期:2019年1月25日
項目介紹:現在,人們普遍認為手機對我們的日常生活至關重要。發信息已成為我們大多數人交流的方式,並導致遭受「簡訊脖」困擾的人數迅速增加。對於我們的可視化,「為什麼您的智慧型手機會導致您的「簡訊脖」綜合症」,我們研究了刷手機時脖子的角度如何使頭重增加了27kg。這反過來又會進一步影響我們的體態,並且如果你在走路時發簡訊會將你暴露在更多的危險情況中。
影響:這個數據可視化作品在社交媒體上引起了很多討論,並被翻譯成西班牙文由Atresmedia再次發表。
技術:我們按國家/地區收集了有關手機網際網路訪問的數據。使用dataviz和圖表,圖形以及我們自己的視頻錄像,詳細介紹了廣泛使用手機導致脊柱彎曲的原因。我們還錄製了十多個小時的視頻,以分析在香港人們在步行和過馬路時使用手機的情況。數據證實了昆士蘭大學的研究。我們還使用數據研究來探索手機成癮性,並解釋用戶如何在手機上進行「區域劃分」。我們希望通過這個故事能讓讀者了解自己的習慣,並讓他們知道自己的行為對自己的身體和周圍的人產生了怎樣的影響。
難點:我們錄製了十多個小時的視頻,來記錄香港街頭使用手機的情況,以佐證昆士蘭大學的一項學術研究。我們用短視頻來講這個故事,以演示使用手機時人的餘光會如何受到限制,步態會發生怎樣的變化,並說明人們邊打字邊走路時在街上和在公交車上有多麼危險。
其他新聞機構能從中學到什麼:我們相信,這種數據可視化有助於使讀者了解自己的習慣,並讓他們知道自己的行為對自己的身體和周圍的人產生了怎樣的影響。
作品連結:
7. 最佳可視化(小型新聞機構)
獲獎作品:丹麥騙局
獲獎類別:最佳可視化(小型新聞機構)
媒體機構:Pointer (KRO-NCRV)
國家:荷蘭
作者:Peter Keizer, Wendy van der Waal, Marije Rooze, Jerry Vermanen, Wies van der Heyden
評審團評語:荷蘭記者兼數據研究員彼得·凱澤(Peter Keizer)帶領讀者進入身份盜竊的陰暗世界。色彩鮮豔,大膽的設計簡潔明了,講述了一個偵探故事,該故事分析電子郵件和網站,篩選公司,並通過社交媒體追蹤到在菲律賓的丹麥詐騙公司員工。凱澤(Keizer)發現了134起身份盜竊案,並與一些受害者進行了聯繫。「這是我的照片和名字,但我對此一無所知。我一點都不喜歡。但是我不知道我現在該如何與那些男孩打交道,」抱怨一氣。whodunit格式通過顯示我們所有人在不知不覺中被欺詐的脆弱一面而在公眾中引起共鳴。這件作品可能不是我們傳統上認為的數據可視化,而是通過將信息轉換為視覺背景來講述引人入勝的故事,從而擴大了使用範圍。
媒體類型:小型
發表日期:2019年7月12日
項目介紹:在2019年的一天,我們收到一封明顯的垃圾郵件,要求我們在該網站上發布訪客博客。通常,我們會刪除它,但是在收到一封后續電子郵件之後,我們對這種騙局的工作方式感到好奇。我們決定自己尋找。通過電子郵件中的信息,我們進行了搜索,發現了一個由兩名丹麥騙子精心策劃的網絡,至少134人身份被盜。我們寫了一篇文章,讓讀者成為我們這篇調查報導故事的主導人。
影響:首次發布並進行可視化處理後,我們在事實發生後的四個月內進行了電視廣播。我們將在線製作轉換為電視節目,而不是通過我們的節目製作在線製作。在電視廣播中,我們還拍攝了調查員的屏幕,並嘗試從筆記本電腦後面進行所有操作。在第二次調查中,我們發現丹麥騙子改進了他們的騙局。他們通過AI偽造評論,聯繫人員並出售其內容。因此,我們進行了第二次可視化,其中解釋了如何識別這種更複雜的騙局。我們試圖聯繫儘可能多的受害者。他們中的大多數人都不知道自己的身份被用於這個騙局。
技術:我們不想以熟悉的方式講這個故事:最令人興奮的部分是逐步找到答案。因此,我們開發了一種將臺式機上的研究成果轉換到移動屏幕上的方法。我們使用OSINT技術,例如反向圖像搜索,Wayback Machine搜索,Google Dorks,在商會中搜索,數字取證來查找傳出的網址等,以揭示此騙局背後的複雜網絡。我們還建立了自己的身份被盜者資料庫。我們需要知道有多少人參與其中,以及他們是否對此騙局有所了解。最難找的人是Martyna Whittell,這是我們電子郵件發送者的虛假身份。她使用了一個現有人的照片。通過對照片進行地理定位,我們找到了真正的「瑪蒂娜」(她的名字叫Mia):我們在星巴克咖啡杯上在奧爾堡的一個校園裡找到了一張照片,並在Take Take團圓之旅的背景下找到了一張音樂會照片。最終,我們在Yandex中使用了人臉識別功能,以在合影中找到她的朋友,並在她的朋友列表中搜索了看起來像Mia的照片。
難點:我們研究中最困難的部分是找到Mia。我們可以在網上找到很多龐雜的信息來揭示騙局,但要找到我們的主要受害者卻很困難。此外,製作可在行動裝置上使用並讓讀者處於研究人員角度的可視化也是一個真正的挑戰。由於屏幕的方向,我們可以用臺式計算機直接模擬。迫使用戶旋轉屏幕將是大多數人退出可視化的重要原因。我們找到了一種製作帶有插圖的自定義屏幕的方法。在此示例中,這種方法也很好用,因為我們需要隱匿所有人的名字。我們將故事翻譯成英文,因為不僅荷蘭讀者對這個故事感興趣。
其他媒體機構可以從中學到什麼:最重要的教訓是:永遠不要將任何事情視為理所當然。一個好的調查故事可以使自己隱藏在每天收到的普通垃圾郵件中。此外,建立自己的資料庫並精通數字研究技術是現代調查新聞學的重要組成部分。我們認為,從臺式機到移動屏幕的轉換是成功的。我們發現許多讀者都滾動到了故事的結尾。
作品連結:
https://pointer.kro-ncrv.nl/artikelen/het-verhaal-achter-een-identiteitsroof#lang=en
https://pointer.kro-ncrv.nl/artikelen/dozens-of-identities-stolen-by-danish-online-entrepreneurs
https://pointer.kro-ncrv.nl/artikelen/our-tricks-for-identifying-victims-of-identity-fraud
https://pointer.kro-ncrv.nl/artikelen/online-oplichters-gaan-vaak-vrijuit
https://pointer.kro-ncrv.nl/artikelen/terugkijken-hoe-een-mysterieus-mailtje-ons-leidt-naar-online-oplichters-in-de-filipijnen
https://pointer.kro-ncrv.nl/artikelen/hoe-ontmasker-je-een-online-oplichter-in-7-stappen#lang=en
8. 創新(大型新聞機構)
共同獲獎作品:美聯社DataKit: 兼容性強的數據項目組織工具包
獲獎類別:創新(大型新聞機構)
媒體機構:美聯社
國家:美國
作者:Serdar Tumgoren, Troy Thibodeaux, Justin Myers, Larry Fenn, Nicky Forster, Angel Kastanis, Michelle Minkoff, Seth Rasmussen, Andrew Milligan, Meghan Hoyer, Dan Kempton
評審團評語:美聯社的DataKit是一項創新,它將改變許多數據報告者/編輯者/團隊的工作方式,並且無疑將對整個數據新聞界產生深遠的影響。它不僅是可以幫助數據記者更有效地協作的工具,而且該平臺已經被美聯社外部的參與者擴展。如果數據新聞是通過新聞性的變形來完成一種對於結構和可複製性的結合,那麼DataKit有望成為實現該結構並為每個新聞編輯室中的數據團隊提高效率和協作能力的工具。
媒體類型:大型
發表日期:2019年9月12日
項目介紹:美聯社DataKit是一種開源命令行工具,旨在幫助數據記者更有效地工作,數據團隊更有效地協作。通過簡化重複性任務並標準化項目結構和約定,DataKit使得在團隊成員之間共享工作更加容易,並使過去的項目保持井井有條,也易於訪問以供將來參考。Datakit具有可適應性和可擴展性:核心框架支持插件生態系統,以幫助度過數據項目生命周期的每個階段。用戶可以提交插件以針對自己的工作流定製DataKit。
影響:美聯社於2019年9月開放了其項目管理工具DataKit的源碼。我們的數據團隊已經在內部使用了兩年,用於我們所做的每個分析項目。它的目的既簡單又複雜:它通過幾個命令行指示,為R或Python項目創建了一個有條理的項目結構,包括數據、輸出、報告和文檔。之後,它會同步到GitHub或Gitlab,來創建一個項目並允許即時的推/拉功能。最後,它同步到S3,在這裡我們可以保留平面數據文件和輸出文件。以及我們與美聯社成員共享數據的data.world。
DataKit的發布是在ONA舉行的,吸引了大約60位會議參與者的注意,其中許多人在教室和新聞編輯室進行試用。它已被美國公共媒體的數據分析小組和個人用戶所採用,並已在馬裡蘭大學和密蘇裡大學的某些數據新聞課程中使用。3月,我們將在NICAR舉行另一個面向感興趣的數據記者的安裝聚會。有趣的是,該項目還收穫了新聞界的一些開源貢獻。幾位記者為DataKit構建了其他插件-例如,一個編碼器編寫了一個插件,用於將數據同步到Google雲端硬碟。DataKit的影響是根本的:通過創建即時和標準化的項目文件夾,它使我們能夠更快地移動並更好地進行協作,這意味著沒有數據記者在可複製的工作流之外工作。數據和代碼同步到任何團隊成員都可以找到的地方;每個項目的外觀和運行都相同。它創建了一個文檔齊全的項目資料庫,並將這些資料庫集中在一起方便查詢。
技術:DataKit是可擴展的命令行工具,旨在自動執行數據項目工作流程。它依靠Python核心技術和第三方庫來提供靈活而有針對性的工作流程,適合任何個人或團隊。DataKit的核心技術是:
通過cookiecutter模板,DataKit為Jupyter筆記本或RStudio項目創建了一系列文件夾和文件結構。它還將每個項目配置同步到正確的gitlab和S3位置,並加載特定的庫、依賴項和模板化的輸出形式(例如為匹配美聯社設計風格而定製的RMarkdown)。
美聯社已構建了四個插件:用於Gitlab和GitHub;適用於S3和data.world。另外,其他開源用戶也構建了其他插件,方便用戶根據自己的工作流程自定義DataKit,例如同步到其他數據源(Google雲端硬碟)和輸出(例如Datasette)。
難點:該項目最困難的部分是創建清晰,簡潔的文檔,以幫助其他人使用我們的開源軟體。我們以前從未開源過如此雄心勃勃的東西,因此開發時還處於對他人使用的情況進行預判的階段(儘管我們的團隊不定期使用GitHub,但我們創建了GitHub插件),同時我們也在理解,其他人安裝和使用DataKit時的難點。我們創建了DataKit來解決自己的難題-使我們的團隊更好,更快地工作,並且具有更高的精度和控制力。擁有DataKit意味著我們每天花費更少的時間來處理項目中雜亂且無聊的部分,例如查找舊文件和創建工作目錄,並能夠將更多的時間用於我們需要做的嚴肅的數據分析工作。美聯社是一個協作式新聞合作社,按照這種精神,今年有必要完全開放DataKit, 這個我們團隊最強大的工具之一,以便與他人共享。我們的目標之一是方便其他新聞編輯室訪問數據,我們希望通過DataKit來消除進行數據分析和共享的一些障礙。
其他媒體機構能夠從中學到什麼:在數據團隊中創建標準化的工作流將形成更快,更協同和更強大的工作體驗。眾所周知,數據工作流程很凌亂且難以複製-原始數據文件存儲在哪裡?以什麼順序運行腳本?有關這項工作的文檔在哪裡?最新版本是否已推送到GitHub?除首席分析師以外的任何人都可以訪問數據和腳本嗎?——DataKit就是用來處理這些問題的。美聯社的數據團隊希望其他人能夠擺脫的事情是,我們不必對每個項目都使用這些凌亂,不可複製和定製的工作流程。創建標準化的項目結構和工作流程會帶來很多便利
通過美聯社的DataKit,我們現在擁有一個不斷增長的數據和項目庫,即使在截止日期,我們也可以從中獲取,開發或更新代碼。我們還可以無縫地深入研究彼此的項目:一個人的項目看起來像另一個人的項目,並且文件和目錄位於同一位置,並帶有標準化的命名約定和適當的記錄。
DataKit可以使分析團隊更好,更快地一起工作。從2019年開始的一個現實例子:當我們今年夏天收到近五億行阿片類藥物分布數據,並在截止日期進行分析並準備乾淨的數據文件以與成員共享時,我們有六個人同時在相同的代碼存儲庫工作,沒有摩擦,沒有混亂。由於有了DataKit,美聯社獲得了一個獨家故事,並迅速與數百名成員共享了數據文件。
作品連結:
http://datakit.ap.org/
https://www.rjionline.org/stories/ap-datakit-intro
https://ona19.journalists.org/sessions/23627451/#audio
https://www.poynter.org/tech-tools/2019/data-journalism-solves-big-problems-but-its-an-organizational-mess-a-new-tool-from-the-ap-aims-to-fix-that/
https://github.com/associatedpress/datakit-core
9. 創新(大型新聞機構)
共同獲獎作品:沉默地帶
獲獎類別:創新(大型新聞機構)
媒體機構:El Universal
國家:墨西哥
作者:Esteban Román, Gilberto Leon, Elsa Hernandez, Miguel Garnica, Edson Arroyo, César Saavedra, Jenny Lee, Dale Markowitz, Alberto Cairo
評審團評語:你如何衡量尚未發生的事情?如果引起關注的主要因素不是輿論而是沉默,該怎麼辦?El Universal調查了有關墨西哥兇殺報導率下降的問題,這個項目是基於以下假設:記者受到恐嚇並被騷擾,導致了他們的沉默。通過將謀殺統計數據與新聞報導隨時間的變化進行比較,他們能夠顯示出何時出現了令人不安的沉默,以及沉默的數量增長了多少。
媒體類型:大型
發表日期:2019年6月13日
項目介紹:有組織的暴力犯罪是墨西哥面臨的最大犯罪威脅之一。記者為了避免成為目標,選擇保持沉默來保障人身安全。我們著手衡量這種沉默及其對新聞業的影響。為此,我們使用人工智慧對新聞報導進行量化和可視化,並分析了全國報導的差距。為了衡量該國每個地區的沉默程度,我們創建了一個公式,使我們可以觀察到這種現象隨時間的演變。
影響:全國各地都出現了一些類似於沉默的守則。我們懷疑在所有地區記者都沒有報導眾所周知的日常生活中的暴力,威脅,恐嚇和謀殺事件。故事發布後,記者找到我們並證實了這一點,並告訴我們他們一直面臨這一問題。通過與他們的合作,我們現在正在準備本故事的第二部分,來關注導致侵略的模式。希望這會在我們國家的地區出現某些情況(新聞報導和犯罪情況)時使我們產生警覺。
技術:我們的第一步是建立一個判斷新聞缺失的流程。我們瀏覽了有關暴力的文章,以了解它們與政府的官方殺人案件數量的比較情況。從理論上講,每起謀殺案都應至少與一份有關該事件的當地報導相對應。如果我們發現數據偏差,或者政府的報導突然與當地新聞報導大相逕庭,那麼就可以推斷出新聞工作者正保持沉默。一開始,對新聞文章進行分類似乎是不可能的。我們意識到需要找到一個可能在墨西哥擁有最多出版物的新聞檔案庫,以便我們跟蹤全國的每日報導。Google News在墨西哥各地收集的大量本地和國家新聞報導非常合適。這項工作要求我們確定正式記錄的兇殺案數量與Google新聞上這些殺人事件的新聞報導之間的區別。這要求算法能夠識別第一個報導的故事,然後查明事件發生的地點。有了這些信息,我們就能將媒體報導的事件與墨西哥2400多個城市的兇殺案政府報導聯繫起來。最後,為了衡量墨西哥每個地區的沉默程度,我們創建了一個公式,使我們可以觀察到這種現象隨時間的變化。結果數據顯示,未報告的死亡人數下降或達到高峰的情況非常驚人,這與新政府上臺或毒販死亡等事件相吻合。進一步的調查將使我們能夠解釋這些聯繫。
難點:最困難的部分是創建「沉默公式」,以衡量全國未報告的兇殺案的程度。每個地區報導的兇殺案之所以少,是因為背後有許多變數。因此,為了確保報導數量的差異與暴力和殺戮有關,我們必須排除或包括部分數據。這對於機器識別來說非常困難,因為西班牙語中通常用來表示這種覆蓋率的單詞也是其他事物的同義詞。我們必須(手動)驗證許多初始報告,直到獲得經過充分驗證的結果樣本為止。這花了我們半年時間。然後我們由於手頭上的可變因素而感到迷茫(報告的事件與已發布的故事之間存在差異;匹配不同網站就同一單個事件的報導;在我們分析的14年內墨西哥各地網際網路普及率的不確定性及其隨時間的變化..)。幸運的是,我們團隊的跨學科性質(與經濟學家,程式設計師,數據專家,設計師和新聞工作者一起)幫助我們找到了我們認為真正準確的答案。
其他媒體機構能從中學到什麼:不管衡量一個問題有多麼困難,總有一種解決方法,即使它並非你一開始就認為的那樣。
作品連結:
https://zonas-de-silencio.eluniversal.com.mx/
https://www.eluniversal.com.mx/nacion/sociedad/en-10-estados-guardan-silencio-sobre-homicidios
https://www.eluniversal.com.mx/nacion/sociedad/la-prensa-que-ya-no-habla-de-muertos
https://zonas-de-silencio.eluniversal.com.mx/metodologia.html
10. 創新(小型新聞機構)
獲獎作品:Funes: 一套反腐敗的算法
獲獎類別:創新(小型新聞機構)
媒體機構:OjoPúblico
國家:秘魯
作者:Gianfranco Rossi, Nelly Luna Amancio, Gianfranco Huamán, Ernesto Cabral, Óscar Castilla
評審團評語:隨著越來越多的具有潛在新聞價值的文檔作為數字數據常規地在網上提供,對這種大量的如洪水般泛濫的數據進行分類,並優先考慮記者的關注點,正成為數據新聞業的主要挑戰之一。秘魯OjoPúblico的「 FUNES」工具證明,即使是規模較小的媒體機構也可以開發算法來幫助解決特定類型文檔的問題。FUNES對歐洲針對秘魯情況開發的契約風險模型進行了改編。該算法使用從五個公共資料庫中抓取的數據,分析了成千上萬的秘魯公共採購文件。使用線性模型,它結合了20個風險指標(例如最近成立的承包商或無爭議的投標)來標記潛在的腐敗合同。它為OjoPúblico和區域媒體合作夥伴提供了大量的案例調查,並為讀者提供了一個交互式界面。Funes是自動故事發現領域的一個很好的具有開創性的工具,一些評委期待在未來這一領域的研究將會成為計算機輔助調查報導中的一個重要領域。
媒體類型:小型
發表日期:2019年11月25日
項目介紹:FUNES是一種算法,用於識別秘魯公共合同中的腐敗情況。該研究項目於2018年2月開始形成,並於同年9月正式啟動。在15個月的時間裡,一個由程式設計師,統計學家和新聞工作者組成的多學科團隊討論,分析,建立了資料庫,驗證了信息並開發了一個模型,我們稱之為FUNESs,是以阿根廷作家Jorge Luis Borges令人難忘的主角來命名。該算法對每個合同流程、實體和公司的風險評分。有了這些信息,記者就可以有選擇地進行優先調查。
影響:該項目是在Lavajato案的財政調查的背景下開發的,該案涉及巴西Odebrecht公司通過行賄來獲得負責公共工程建設的合同。FUNES對合同進行了分析,並在運行期間發現了大量存在腐敗風險的合同。這些合同中的一部分已經被調查,調查報告也被公開發表。FUNES是秘魯第一個開發的工具,也是拉丁美洲第一個分析工具,可以分析數百萬個數據,用於在公共採購中提供腐敗風險評分。FUNES指出,在2015年至2018年期間,秘魯政府批准了近200億美元的風險合同。這些合同被交付給沒有競爭的單個競標者,以及競標開始前幾天創建的公司。而這筆金額是Odebrecht公司為他們的腐敗行為所需支付賠款的20倍。其他的報導則披露了為社會保障項目中銷售牛奶的公司存在的腐敗行為。
該工具為讀者提供了一個友好的界面,該界面具有多個可視化效果,讀者可以在其中分析秘魯的公共合同情況。這個公開的工具引起了秘魯管理部門的興趣,他們要求分享方法論和可能性,以便他們能將FUNES引入到自己的設備中。FUNES警告成千上萬的合同存在風險。因此,鑑於調查結果的規模,OjoPúblico與區域媒體建立了聯盟,以分析和調查一些主要案件。每個人都注意到同一件事:當局現在開始對不定期的公共合同進行調查。調查仍在繼續。
難點:主要挑戰涉及以下方面:數據的構造,訪問和質量,團隊需要學習新的數據分析工具以及組建迄今對新聞研究尚不了解的多學科團隊。在秘魯,沒有開放的數據門戶可供招聘。在7個月的時間裡,腳本被開發出來並從一個平臺上提取數據,但是該平臺阻止了通過驗證碼進行的大規模訪問。我們的IP被阻止以避免數據下載,從而迫使團隊重新編寫代碼以使提取更加高效。一個用於保護數據的驗證碼經過7個月的時間被有關部門開發出來,用於防止數據被獲取。我們的IP被禁止下載數據,導致整個團隊只好重新寫代碼來使數據獲取更加有效率。為了完成信息收集,我們發出了20條信息獲取的請求。
另一個挑戰是在秘魯學習腐敗理論,統計數據和公共採購法。我們不是公開招標方面的專家,而且相關監管制度有15種之多。我們組織了與專家會議來詳細了解流程,將流程記錄在案並分析了每個法律規範。
還有一個挑戰是定義要監控的「腐敗」以及將用於開發算法的模型。我們查閱了許多論文並進行了採訪。最後,選擇了研究人員Mihali Fazekas推廣的統計模型。該項目使新聞團隊在算法,R程式語言,公共合同和可預測性方面獲得了紮實的知識。
其他媒體機構能夠學到什麼:我們了解到,新聞業要想進行反腐敗鬥爭需要將傳統的案例分析方法和海量數據分析結合到帶有算法模型的工具中,以使其能夠預測腐敗。對於他們而言,新聞團隊必須超越電子表格和開放式提煉,學習關係分析技術和R.,同時學會與數學家,統計學家,程式設計師和政治學家聚會和合作。
作品連結:
https://ojo-publico.com/especiales/funes/
https://ojo-publico.com/especiales/funes/rankings-de-riesgo.html
https://ojo-publico.com/especiales/funes/metodologia.html
https://ojo-publico.com/1499/proyecto-funes-riesgos-de-corrupcion-en-contratos-publicos
https://ojo-publico.com/1331/familia-lechera-los-millonarios-contratos-del-grupo-niisa-con-el-vaso-de-leche
https://knightcenter.utexas.edu/blog/00-21439-peruvian-investigative-site-ojo-publico-develops-algorithm-track-possible-acts-corrupt
https://altec.lat/iniciativa-funes-corrupcion-en-peru-que-esta-haciendo-el-periodismo/
11. 數據公開
獲獎作品:TodosLosContratos.mx
獲獎類別:數據公開
媒體機構:PODER
國家:墨西哥
作者:Eduard Martín-Borregón, Martín Szyszlican, Claudia Ocaranza, Fernando Matzdorf, Félix Farachala, Marisol Carrillo, Ricardo Balderas and Isabela Granados
評審團評語:TodosLosContratos.mx是一項巨大的數據公開工作。在清理並標準化了400萬份墨西哥政府合同之後,該團隊建立了一個網站,該網站提供了最重要的數字和簡便的方法進入這個大型資料庫。但他們並沒有止步於此。他們在精心設計的搜尋引擎和文檔齊全的API中發布了所有數據。該項目不僅為公眾提供了信息,而且還增強了其他新聞工作者和研究人員的能力。
媒體類型:小型
發表日期:2019年8月20日
項目介紹:TodosLosContratos.mx(所有合同)是一個數據新聞項目,已彙編了墨西哥聯邦政府在2001年至2019年之間籤訂的近400萬份公共合同。該項目包含了許多新聞報導,這些報導解釋了墨西哥採購系統中的腐敗和不良作風案例,並根據團隊專門為墨西哥人設計的算法進行了排名。該項目的目的是促進墨西哥合同制中的問責制,因此我們在QuiénEsQuién.wiki平臺和API中發布了所有數據,公開了分析算法的方法並發布指南來指導如何使用此工具進行調查。
影響:TodosLosContratos.mx的發布以及在QuiénEsQuién.Wiki中數據的上傳產生了三個主要影響:
1)簡化公共合同的新聞調查。使墨西哥聯邦政府的絕大多數合同在可用且可靠的搜尋引擎中發布,提高了記者的生產力。一些來自墨西哥媒體的記者(例如AnimalPolítico,Aristegui Noticias,El Universal,Cuestione)告訴我們這對他們很有幫助。還有Proceso等本地報紙,例如Zona Docs,BI Noticias,Lado B或Cuestione,以及包括西班牙語的AJ +和El Faro(薩爾瓦多)在內的國際媒體,他們也覺得很有幫助。
2)促進開放公共合同數據。出版之後,三個政府機構已與我們聯繫,來了解他們可以如何改進或將新數據上傳到我們的平臺。我們已為他們提供了有關如何改善其開放數據策略的建議;並且一旦他們發布數據,我們將更新QuiénEsQuién.Wiki和TodosLosContratos 2020版中的算法分析。
3)增加公民對公共採購的了解和興趣。作為該項目的結果,更多的人知道公共承包的工作方式,並且可以輕鬆地進行諮詢。對QuiénEsQuién.Wiki平臺的訪問量呈指數級增長,每周我們都會收到來自對合同或其參與者有疑問或澄清的人的消息。
技術:如此複雜的項目具有多個流程和關鍵技術:
1)數據導入:基於免費的Apache NiFi軟體,我們開發了一個導入器和Web刮板協調器。該模塊化軟體使我們能夠對可重複使用的組件(如數據清理模塊或數據更新模塊)進行簡單設置。
2)平臺和API:QuiénEsQuién.Wiki基於mongoDB + node.js,所有數據都託管在MongoDB資料庫的Kubernetes集群中,然後通過公共API公開,該API用西班牙語和英語進行記錄。另外,節點js中的模型客戶端可與NPM軟體包註冊表一起使用。該網站使用該API,並且與臺式機,平板電腦和行動裝置兼容。
3)算法分析:我們的「 groucho」引擎,用於分析OCDS數據標準中的未完成合同數據。該引擎是通過GPL許可證發布的,從而使其可重複利用而且公開透明。它是用Node.JS編寫的。
4)數據分析:為了微調算法分析引擎的參數,我們藉助Kibana(基於ElasticSearch資料庫引擎的開源數據可視化儀錶板)對數據進行了梳理,這有助於我們快速識別模式並檢測偏差。
5)數據可視化:主要使用D3.js庫,使用定製設計的基於Web的交互式圖形和地圖很好地呈現了我們的數據。
難點:對於這個項目,我們的跨學科團隊承擔了從64個政府發布的不同表格中數據清洗、編輯、轉換和分析400萬份合同的艱巨任務,其中最難的部分如下:
1)數據清洗:墨西哥政府沒有統一供應商名稱的做法,也沒有提供唯一的標識符。我們的「 lavadora empresarial」軟體(也稱為GPL)負責檢測具有不同拼寫和其他常見錯誤的重複項,同時避免合併不同但相似的公司。例如,這是QuienEsQuien.wiki中Televisa的頁面,其中顯示535個合同中23種不同名稱的拼寫。
2)數據轉換和編輯:使用每個源的特定映射將來自所有源的合同轉換為OCDS標準,這對於欄位值的複雜依賴性可能非常複雜。64個數據集以5種不同的數據結構發布,每個數據集在我們的Apache NiFi設置中需要不同的方式。這些資料庫包含重複的合同和同一合同過程的多個條目,這些條目只有在轉換為OCDS標準後才能進行編譯。
3)跨學科團隊中的數據分析:為了創建可以供記者、程式設計師和分析師使用的工具,我們花費了幾個月並進行了幾次長時間的會議。最終我們就鎖定合同中的特定違法行為的最佳方式,以及為什麼我們可以或者不可以用現有數據來進行評估的原因達成了一致,
其他新聞機構能夠從中學到什麼:分享我們的經驗教訓是該項目的主要目標之一,並鼓勵其他人效仿此類項目。正如我們所說的,我們所有的項目都基於免費的軟體解決方案,我們自己的代碼以GPL許可發布,我們所有的數據和方法論以CC-BY許可發布。並且我們所有的報告均正確引用了其來源。另外,我們已經用西班牙語和英語記錄了我們工具的使用情況,使我們所做的一切都可以完全重複使用。我們認為主要的收穫是可以根據公共合同數據來衡量腐敗,並且我們開始看到或許有一天能夠不再依賴腐敗認知調查。擁有一支致力於做出大膽假設並基於數據進行深入新聞分析的團隊,對於實現我們的影響目標,同時強調我們作為拉美地區最優秀的新聞機構之一而言是非常寶貴的財富。
作品連結:
https://www.todosloscontratos.mx/
https://www.quienesquien.wiki/
https://manualinvestigarcontrataciones.readthedocs.io/es/latest/
https://api.quienesquien.wiki/v2/docs/
http://www.elclarinete.com.mx/mas-de-medio-millon-de-pesos-han-costado-visitas-de-amlo-a-aguascalientes/
https://www.m-x.com.mx/al-dia/el-chef-de-las-estrellas-era-el-favorito-de-pena-nieto
12. 優秀青年數據新聞記者
獲獎人:Rachael Dottle
獲獎類別:優秀青年數據新聞記者
所屬機構:
FiveThirtyEight.com(538)、 IBM Data and AI, 自由撰稿人
國家:德國
評審團評語:瑞秋·多特爾(Rachael Dottle)因在538網(fourthirtyeight.com)上的出色表現而被評選為Sigma優秀青年記者。Rachael的數據報告和可視化效果非常有深度且具有啟發性,使讀者可以探索數據模式。她通過更深入地研究數據來顛覆先入為主的觀念。一個例子就是她關於共和黨和民主黨人住所的報導。「 ...僅僅因為共和黨人沒有在城市獲勝,並不意味著沒有共和黨人住在那兒。關於城鄉政治鴻溝已經做了很多討論,但事實上每個民主黨贏得的城市都有共和黨的地盤,尤其是當你考慮到城市的範圍並不僅僅只有市中心一帶時,」Rachael寫道。然後,她通過深入共和黨和民主黨在大都市地區的位置,讓讀者確切地了解她想表達的意思。她通過口語化的表達來突出她想要強調的信息。在介紹人口普查是如何一步步對「城市」的定義進行修改之前,她寫道「你會發現在這個地圖上標出的一些地方並不屬於你概念裡的的城市範圍。那就去問人口普查局吧。」這些只是她寫過的眾多報導中的一篇。從自家郊區歷史的轉變到引發讀者對於政治競爭和票選組織的思考,Rachael兼顧了各種政治層面的問題。她也寫過對於最忠實的大學足球迷的地理位置分布報導。我們從中看到了Rachel 對於球迷數據的深入分析,並且非常期待她能帶來更多的優秀作品。
記者介紹:作為數據新聞領域的新人,我站在那些指導和鼓勵我從事新聞工作的編輯、數據可視化同事和合作者的肩膀上。作為數據記者,我收集,分析,組織,中繼和可視化數據。我嘗試以透明且信息豐富的方式做到這一點,同時也擴展了我的報告和可視化技能。數據新聞學是必不可少的,而且越來越重要。與此同時,這一領域繼續以令人興奮和驚訝的方式不斷發展,這使我一方面為我的工作感到自豪,更為能夠看到和學習他人的作品而感到興奮。
過往經歷介紹:我曾經在538(FiveThirtyEight)和ABC新聞擔任數據新聞編輯。作為一名數據新聞記者,我研究小型數據可視化圖表來說明數據中的重點,並圍繞數據分析展開故事。我提供了我所做的各種大型和小型項目的連結。這些作品能夠代表我的報導能力,同時也能展示我通過數據來進行表達的能力。從編碼、報導再到設計,我用所有我能夠用到的工具來輔助我完成作品。我的每一篇報導都是融合的產物,這是作為一名數據新聞記者的天性使然,這也促使我的作品變得更加有深度,更加透明,也讓對數據理解能力不同的讀者能夠更好地理解我的作品。我希望我的作品能夠為讀者起到哪怕一點點啟發、教育和娛樂的作用。我認為我的工作經歷和作品能夠反映出作為一個剛起步的數據新聞人我所做的努力。
作品連結:
https://projects.fivethirtyeight.com/republicans-democrats-cities/
https://projects.fivethirtyeight.com/democratic-candidate-appeal/
https://projects.fivethirtyeight.com/college-football-ticket-sales/
https://fivethirtyeight.com/features/a-tale-of-two-suburbs/ https://projects.fivethirtyeight.com/2020-endorsements/democratic-primary/#all
https://fivethirtyeight.com/features/the-movement-to-skip-the-electoral-college-just-passed-a-major-milestone/