調查記者羅曼·阿寧:我用什麼工具保護隱私和處理數據的?

2020-12-15 澎湃新聞

原創 Olivier Holmey 全球深度報導網 收錄於話題#數據新聞6個

在這期「工具箱」欄目中,我們採訪了俄羅斯非營利調查新聞網站 IStories 的總編輯羅曼·阿寧。2009年,他就加入了「有組織犯罪和腐敗報告項目」,多年來參與了多宗腐敗案件的調查。在調查過程中,他需要高度保護個人隱私,同時對海量數據進行批處理,哪些工具幫助他實現了這些目標?

在這一期「工具箱」欄目中,我們採訪了33歲的俄羅斯非營利調查新聞網站 IStories 的總編輯羅曼·阿寧(Roman Anin)。

Istories 是 Important Stories(重要的報導)的簡寫,這個網站於今年在莫斯科上線,目前共有13名員工。短短幾個月內,它已經調查了各種不同的選題,如反對派政治家阿列克謝·納瓦利內(Alexei Navalny)遭到的迫害、國家廢物管理市場的裙帶關係以及可疑的新冠病毒抗體測試。

阿寧在摩爾多瓦出生長大,最初的目標是成為一名職業足球運動員。但在17歲時,他因家人移居俄羅斯而離開了足球青年隊。為了保持自己與這項運動的連接,他報考了莫斯科國立大學學習新聞學,希望成為一名體育評論員。2006年,他以體育記者的身份加入了莫斯科著名的報章《新報》(Novaya Gazeta)。

《新報》是一家處於水深火熱之中的媒體。長期以來,該報的調查文化非常濃厚,但自2000年以來,已經有6名員工被謀殺。因此,阿寧不是簡單地報導體育賽事,而是很快就開始挖掘足球領域的腐敗故事,包括操縱比賽等。

2008年8月,當他的大多數同事都在外出度假時,俄羅斯-喬治亞戰爭爆發了。《新報》派阿寧去前線報導。回來後,他就加入了該報的調查小組,一直到今年年初。在這個職位上,他報導了律師和稅務審計師謝爾蓋·馬格尼茨基(Sergei Magnitsky)揭露的臭名昭著的欺詐案;2014年索契冬奧會的建築合同腐敗醜聞;以及被指控為一個殺手團隊的幕後黑手的阿斯蘭·加吉耶夫(Aslan Gagiyev)。其中一些調查是他與「有組織犯罪和腐敗報告項目」(Organized Crime and Corruption Reporting Project,簡稱 OCCRP)合作進行的,阿寧自2009年以來一直是該項目的成員。

阿寧獲得了許多新聞獎項,其中2013年因對謝爾蓋·馬格尼茨基的報導而獲得奈特國際新聞獎(Knight International Journalism Award),並獲得了俄羅斯調查新聞界最負盛名的三個獎項:阿爾特姆·鮑羅維克獎(Artem Borovik award)、尤利安·謝梅諾夫獎(Youlian Semenov award)和安德烈·薩哈羅夫獎(Andrey Sakharov award)。他還因發起了IStories而獲得了國際記者中心2020年的奈特開拓者獎(International Center for Journalists』 2020 Knight Trailblazer Awar)。他對馬格尼茨基的報導引發了多個國家的刑事調查,而他對索契運動會的報導讓時任總統梅德韋傑夫下令調查。

阿尼寧在史丹福大學度過了2018-19學年,他是該年度奈特新聞獎學金的獲得者。在那裡,修讀了了編程和心理學課程——他說,這兩種技能對新聞業都很有用——也正是在這一年,他產生了創辦 Istories 的想法。

VeraCrypt

「VeraCrypt (https://www.veracrypt.fr/en/Home.html)可以讓你創建加密文件夾,在其中你可以安全地保存數據。在使用VeraCrypt之前,我使用了TrueCrypt,這是我從朱利安·阿桑奇那裡學到的。」

「我來倫敦是為了在維基解密中檢索美國駐俄羅斯大使館的電報。為了傳輸數據,我不能把它直接保存在我的筆記本電腦上或者雲端;我必須妥善保管它。為此,我將數據放在加密的文件夾中。如果有人檢查了我的筆記本電腦,他們將無法找到相關文件夾。即使他們找到了,他們也無法進行解密。」

「現在我用一個開源的工具VeraCrypt 來做同樣的工作。你可以在電腦上創建加密文件夾,如果需要,也可以上傳雲端。它還允許你偽裝文件夾,讓它們看起來不像數據文件夾,而是像應用程式或電影。」

「我每天都用VeraCrypt加密我所有的調查工作。」

LastPass

「LastPass (https://www.lastpass.com/)可以儲存加密過的密碼,它還可以在多個設備間同步,透過它可以在你每個設備上的安全儲存密碼。由於有了主密碼,你可以在LastPass上訪問你的所有密碼。這款工具可以讓你使用許多複雜的密碼,並頻繁地更改它們,而不必記住所有的密碼。我每天都在使用它。」

「我知道安全有多重要,因為我曾經被黑客攻擊過。黑客的手法非常複雜,我的SIM卡先是被封鎖了,他們複製了一張一樣的卡;然後他們請求恢復我的Gmail帳戶密碼到我的手機號碼上,於是他們在複製的 SIM 卡上收到了密碼。我的建議是,在腐敗和專制的地方,在兩步認證中,除了密碼之外,永遠不要將電話號碼用作恢復密碼或進行兩步驗證的方式(我會用 Google Authenticator (https://play.google.com/store/apps/details?id=com.google.android.apps.authenticator2&hl=en_GB&gl=US)作為進行兩步驗證的工具)。」

「但像我這樣的情況很少出現,大多數人被黑客攻擊是因為他們使用弱密碼,更糟糕的是,在不同的帳戶上使用相同的密碼。LastPass 可以幫助你避免這樣的情況發生。你可能會想:如果LastPass的伺服器被黑的話,我所有的密碼都會被破解嗎?答案是否定的。LastPass的伺服器確實被黑客攻擊過,但沒有一個密碼被洩露,因為LastPass本身不存儲密碼,只存儲密碼的「散列」版本(hash version),無法被破譯。」

OpenRefine

「OpenRefine (https://openrefine.org/)可以讓你清理混亂的數據。我在大多數情況下使用 Python 來進行這項工作,但是對於不會編程的人來說,OpenRefine 確實是一個很棒的工具。」

「想像一下,你有一個關於國家合同的電子表格,有數百萬行。在如此大量的數據中,肯定會有一些錯誤,例如供應商的名稱,或者日期會混淆,或者一些行會丟失,或者一些價格會以不同的格式書寫。那你要如何進行匯總呢?如何計算平均值呢?你必須首先將所有數據放在相同的格式中,我們稱之為清理數據。OpenRefine 讓你可以輕鬆做到這一點。」

「我在報導國家廢物管理市場的裙帶關係的故事中使用了 OpenRefine,因為我有成千上萬行關於不同地區不同垃圾填埋場的數據,而我想分析一下最大的垃圾填埋場在哪裡。」

「首先,我使用了一個名為 Tabula (https://tabula.technology/)的程序,它可以讓我將 PDF 文件中的表格提取到Excel中。然後我將這些 Excel 表格上傳到 OpenRefine 中進行清理。沒有 OpenRefine,我將不得不檢查電子表格的每一行,以確保所有的內容都是相同的格式。在過去,我常常花幾個月的時間來清理數據。」

IStories 團隊。羅曼·阿寧供圖

編程

「我通常會用 Python 和 JavaScript 兩種語言見編程。我主要使用Python來收集和分析數據,並執行一些自動任務,而我使用JavaScript——尤其是JavaScript的D3庫——來對數據進行可視化。」

「我們在 IStories 的第一個報導是關於政府採購合同的。在最近的俄羅斯憲法公投的背景下,我決定分析政府在這上面花了多少錢,具體花在了什麼地方。」

「沒有編程,這是不可能做到的,因為我已經整理了40萬份公開的合同。我需要分析它們,找出最大的單,對它們進行分類,找出其中的規律。我用 Python 分析了這些數據,也讓這篇報導成為我們最受歡迎的文章之一。在調查中發現,俄羅斯政府花了很多錢購買了成千上萬的口罩和防護設備供投票站官員使用,而醫生在新冠疫情爆發期間卻缺乏防護設備,這也告訴讓你看到俄羅斯政府的優先事項是什麼。」

「我在這個故事上花了大約一周時間,如果沒有編程,這是不可能的。我怎麼可能在一周內分析40萬份合同?」

「在那次調查中,我用 Python 編寫了一個小程序,它可以抓取聯邦政府採購網站每天發布的信息,並將這些數據與公司登記處的信息相結合。然後,它會對這些合同中提到的供應商進行了一項很表面但非常有用的分析:公司是什麼時候成立的?有多少人在公司工作?公司的營業額是多少?誰擁有這些公司?等等。然後,這個小程序會將結果輸出成一個HTML文件,每天通過電子郵件發給我和我的記者,這為我們節省了很多時間。」

「我以前有空的時候,就會時不時的去查一下政府的採購資料庫。現在一切都是自動完成的。我只需幾秒鐘就能讀完自動生成的文件。」

俄羅斯商事法院資料庫

「俄羅斯擁有世界上最好的商業法庭公共資料庫,完全免費,而且可以在中間以關鍵詞進行搜索。在大多數法院資料庫中,你只能搜索當事人的姓名,但在這個資料庫中,你可以在裁決全文中搜索任何關鍵詞,然後以PDF格式輸出結果。」

「但該資料庫不能搜索向法院提交的材料或聽證會的記錄,只能搜索判決書。但這些判決書總結了案件的情況,並附上了法官的判詞,所以它們是非常有用的資源。」

「當我在調查一家公司時,我會在這個資料庫中搜索它的名字,看看它是否是否曾捲入了任何訴訟糾紛。」

「有一次,我突發奇想,在資料庫中以 『欺詐』、『數十億』和『俄羅斯天然氣工業股份公司』作為關鍵詞進行檢索,看看俄羅斯天然氣巨頭俄羅斯天然氣工業股份公司是否參與了任何涉及數十億盧布的欺詐案件。我發現了一個案件,在這個案例中,稅務官員正在起訴俄羅斯天然氣工業股份公司的一家子公司,因為它通過一家離岸公司以高價購買設備。我最後寫了一篇關於此事的報導。」

聯合國商品貿易資料庫和 Import Genius

「我最喜歡的在線資料庫之一是聯合國商品貿易統計資料庫(United Nations Comtrade Database,https://comtrade.un.org/),它可以讓你看到不同國家之間的進出口數據。它非常容易使用,並允許你按特定的進口/出口國家、交易的產品和時間段進行搜索。」

「在俄羅斯對不同的歐洲國家實施制裁後——俄羅斯不會從實施制裁的國家進口一些產品。如果你想知道這將如何影響俄羅斯的進口,可以在聯合國商品貿易統計資料庫中,將俄羅斯設置成進口國,將其他相關國家作為出口國,然後它就會告訴你有多少產品從相關國家進口到了俄羅斯。我經常使用這個資料庫,包括了解俄羅斯將武器出口到哪些國家(非官方交易不會被包括進這個資料庫)。」

「我上次使用它是在8月4日黎巴嫩首都貝魯特發生硝酸銨大爆炸之後。據新聞報導,運載這些貨物的船隻在前往莫三比克的途中在貝魯特被攔截。我想知道莫三比克是從哪裡購買這些爆炸物,之後發現其大部分是來自烏克蘭。雖然資料庫沒有顯示這批特定貨物的原產地,但可以向我們展示莫三比克進口硝酸銨的情況。」

「想了解具體的出貨情況,可以用另一個資料庫 Import Genius,我很喜歡它,但是它很貴,而你只有訂閱才能使用它。(自2020年10月起,每月費率從99美元到399美元不等)」

「它可以為你提供具體貨物的數據,以及參與這些進出口的各方的數據。你可以在上面搜索你感興趣的公司名或交易登記號。」

往期「工具箱」欄目文章:https://cn.gijn.org/category/toolbox/

作者簡介

Olivier Holmey 是住在倫敦的記者兼翻譯。他的作品曾發表在《泰晤士報》(The Times)、《私家偵探》(Private Eye)、《尼曼新聞實驗室》(Nieman Lab)等媒體上。

全球深度報導網

cn.gijn.org

工具 | 數據 | 調查 | 深度 | 可持續

原標題:《調查記者羅曼·阿寧:我用什麼工具保護隱私和處理數據的?》

閱讀原文

相關焦點

  • 2020年,調查記者們最喜歡的工具是?
    原創 Brian Perlman 全球深度報導網2020年,「工具箱」欄目採訪了來自世界各地的12位調查/數據記者,詢問他們最常用的工具是什麼,在這篇文章中,我們將他們最為推薦的工具放到了一塊,看看來自世界各地的記者們最喜歡的工具有哪些吧!
  • 換臉app隱私保護狀況調查
    中國青年報客戶端北京9月6日電(中國青年報·中國青年網記者陳璐 實習生 張芸倩)「僅需一張照片,出演天下好戲」的APP「ZAO」一上線火速爆紅,但同時迎來了公眾不斷對於其「霸王隱私協議」的責問,最終在上線5天後,「ZAO」團隊最終選擇了道歉並修改使用協議,「全面保護個人信息和數據安全
  • 給數據加「噪音」,差分隱私如何保護用戶數據安全和隱私
    對於一家人工智慧公司來說,數據是他們訓練、調整算法和模型的關鍵,也是安身立命之本。但要安全處理數據,並讓數據產生自己想要的結果,並不簡單。為了應對攻擊,有研究人員提出了一種數據加密技術,稱為差分隱私。《MIT科技評論》評選的2020年十大突破技術中,就有差分隱私。《MIT科技評論》認為未來數據保護的難度會越來越高,解決這個問題的方法之一就是差分隱私,這種技術可以建立信任機制。什麼是差分隱私那麼什麼是差分隱私?
  • 探討大數據安全與隱私信息保護
    論壇圍繞網絡安全領域重大社會需求和供給側技術發展前沿,就大數據安全面臨的挑戰、隱私信息保護等方面展開研討交流。  論壇以「大數據安全與隱私信息保護」為主題,邀請國家信息中心副主任馬忠玉,審計署原辦公廳巡視員兼信息辦主任周德銘,國家信息中心辦公室副主任、國信衛士網絡空間安全研究院網絡治理研究室主任呂欣,大數據協同安全技術國家工程實驗室副主任左英男等嘉賓,圍繞政務信息共享的信息安全保障、網絡空間數據治理、大數據時代的身份安全管理、大數據安全和隱私保護技術框架等議題,分享了最新研究成果,為產業界與國家工程實驗室等學術機構建立合作平臺
  • 《在線學習中的個人數據和隱私保護手冊》發布
    本次研討會圍繞疫情影響下在線學習期間的教育數據安全和個人隱私保護,以及如何有效整合政府、學校和企業的力量,來保護數據和隱私安全等話題展開討論,並發布了《在線學習中的個人數據和隱私保護:面向學生、教師和家長的指導手冊》(以下簡稱《手冊》),旨在幫助教師、學生、家長樹立安全意識,為教育管理者建立在線教育數據保護制度提供參考,推動在線教育健康發展。
  • 教育大數據隱私保護機制與技術研究
    儘管教育領域在數據採集、傳輸、存儲和應用階段有規範的處理措施,但教育行業仍是非常容易受到公開披露的行業之一。然而,實施教育數據的隱私保護措施仍然是一個非常龐大繁雜的過程,隨著大數據技術的不斷提升,隱私洩露風險也在不斷增加,亟須採取可靠的安全防範措施和隱私保護技術。
  • 美國數據隱私保護法案來臨,明年1月生效,現僅2%企業合規
    CCPA,據其官網介紹,是一個隱私保護條例,用於保護個人數據,是美國加利福尼亞州出臺的地方法律。這一法律其實是 2018 年通過的,幫助消費者在訪問、刪除和分享企業收集到的個人數據上賦予了新的權利。 具體而言,收集消費者數據的企業必須披露收集的信息、收集信息的商業目的、以及會共享這些信息的所有第三方組織和機構。
  • 大數據時代,如何更好的保護隱私
    那麼,在大數據時代,我們該如何更好的保護隱私?網絡圖片。  如何在維護個人隱私權和數據利用之間保持平衡?  一種觀點認為,應該更加注重隱私的保護,這樣做的後果可能就是阻礙數字經濟的發展。而反對觀點則認為,應該更充分地利用數據,但這有可能導致隱私保護不力。
  • 陳根:大數據時代下隱私洩露頻繁,拿什麼保護我們的隱私?
    儘管暴露出來的數據包括有限的「個人身份信息」,比如真實姓名、生日或電子郵件地址,但研究人員警告說,一些黑客可能會利用這些照片和其他各種信息來識別許多用戶的身份。研究人員表示,尚不知道是否有人搶在他們之前發現了這些暴露的隱私數據,如果有的話就有可能產生欺騙、勒索和其他可怕的在線濫用。
  • 數據脫敏:數據大爆炸時代隱私保護利器
    【IT168 資訊】數據脫敏(Data Masking),又稱數據漂白、數據去隱私化或數據變形。百度百科對數據脫敏的定義為:指對某些敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護。這樣,就可以在開發、測試和其它非生產環境以及外包環境中安全地使用脫敏後的真實數據集。
  • 探尋大數據邊界:商業化與隱私保護應雙贏
    《中國經營報》:大數據時代,人們習慣在線解決一切,但很多時候需要付出一些隱私才能得到服務,為了換取網絡服務的個性化和方便性,用戶很容易忽視對個人隱私和權利的保護,你認為如何解決這種矛盾和困境?張韜:數字經濟時代,享受個性化服務是需要個人提供一定的個人信息作為「代價」。
  • 疫情大數據回顧系列三:數據隱私保護向左還是向右?
    關於數據的隱私我們先從疫情期間幾個事件說起,一個是武漢返鄉人員信息被洩露事件,政府為了有效的進行疫情防控,通過大量數據採集來了解人員移動情況,以便做出隔離、監控和協助等措施本身是件好事,但這些信息直接暴露在網上,就有悖初衷了,據網友爆料,多地武漢返鄉人員在配合調查後,相關個人信息被洩露,包括姓名、家庭住址、電話號碼、身份證號和返回車次等等,這些信息又通過各個微信群傳播
  • 蘋果的差分隱私對你的數據意味著什麼?
    差分隱私並非蘋果首創;學術界多年前就開始研究這一概念。但隨著iOS 10的逐步推出,蘋果將開始使用差分隱私來收集並分析來自鍵盤、Spotlight和Notes的用戶數據。 差分隱私的原理是用算法加擾個人用戶數據,使之無法回溯到個人,然後對數據進行批量分析,得出大規模的趨勢規律。其目標是保護用戶身份信息和數據細節,同時提取機器學習所需的通用信息。
  • GEO:網際網路大數據技術藍皮書之隱私保護
    二、什麼是隱私數據研究用戶隱私保護技術,首先要明確什麼是用戶隱私數據,GEO對用戶隱私數據做了如下分類:但嚴格來說,這些數據還是會涉及用戶隱私,並非絕對安全。三、國內外相關法律法規在用戶隱私安全保護方面,國外起步較早,形成了許多法律法規,國內目前還處於起步階段:
  • 實測多款APP涉及個人隱私權限 大數據時代你的信息該如何保護?
    如何管好越界的APP,保護用戶的隱私信息安全,是亟待解決的問題。實測多款APP涉及個人隱私權限就在前不久,有網友稱,只要用微信登錄「大眾點評」APP,個人在酒店、餐廳等地方的籤到與點評信息,就會出現在好友面前,想刪都刪不掉。於是引發了輿論激烈的聲討,最終大眾點評道歉,並表示將火速整改。
  • 學習《民法典》26:民法典中的隱私是指哪些內容?怎樣保護
    什麼是隱私?《民法典》第1032條第二款:「隱私是自然人的私人生活安寧和不願為他人知曉的私密空間、私密活動、私密信息。」【拿什麼來拯救我的隱私】在人類發展的歷史長河中,社會數據的產生經歷了一個從量到質的飛躍,從未有任何一個時期出現過如今天一般的海量數據,隱私的概念和範圍不斷溢出,並在大數據時代呈現數據化、價值化的新特徵。
  • 個人隱私無小事,大數據時代需要怎樣的隱私保護技術?
    數據時代的隱私保護正在成為備受大眾、監管、企業等多方關注的話題。隱私計算迎元年,聯邦學習讓數據「可用不可見」2020年,《數據安全法(草案)》、《網絡數據安全標準體系建設指南(徵求意見稿)》、《電信和網際網路行業數據安全標準體系建設指南(徵求意見稿)》等監管政策相繼出爐,數據安全問題備受重視,隱私計算有望迎來新的發展突破。
  • 騰訊深陷窺私門危機調查:360發起隱私保衛戰
    網民的隱私到底能否得到保障?這兩家公司現在愈演愈烈的這場爭鬥究竟是怎麼回事?現在又發展到什麼程度?記者進行了一番調查。這次爭鬥的導火索是360安全衛士在9月27日宣布發布的一款隱私保護器,它專門曝光窺私軟體,而當時這一軟體唯一支持監控的軟體,就是騰訊的即時通訊軟體QQ。
  • 如何尋求數據開發與隱私保護的平衡
    日本構建個人信息保護制度擅取各家所長,汲取了美國隱私權理念和歐盟立法模式經驗,建立了具有本國特色的個人信息保護體系,或可成為供我國參考和借鑑的「第三種模式」。 醫療數據是敏感私密的個人數據,毋庸置疑需要強化對個人醫療數據隱私相關權利的保護,但隱私權的保護不應以抹殺信息價值為代價。
  • 經期app擅自分享隱私數據給臉書,數據信息安全保護再響警鐘
    據BuzzFeed News9月10日報導,英國公益組織Privacy International調查顯示,數款月經追蹤app會將女性月經周期、性行為時間、避孕方式、痛經等隱私信息直接分享給臉書,是為讓臉書向用戶展示有針對性的廣告。