我是一名數據科學家,但我對大數據持懷疑態度

2020-11-28 36kr

神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。

編者按:都說未來是數據時代。數據說明一切,數據不會騙人。數據是羅塞塔之石,可破譯一切人類代碼。現實果真如此嗎?紐約大學數據科學教授Andrea Jones-RooyJuly不同意這種說法。因為數據並不是客觀的現實,它也是由人來定義的,會存在各種偏差。所以我們需要仔細甄別,周全考慮。原文標題是:I’m a data scientist who is skeptical about data

幾千年來,我們一直都在靠軼事、直覺以及老太太的故事來做為我們觀點的證據,今天我們大多數人都要求大家要用數據來支持自己的論點和想法。無論是治癒癌症,解決職場的不平等,還是贏得選舉,數據現在都被認為是羅塞塔石,幾乎可以破譯人類所有現存的代碼。   

但在這一片狂熱當中,我們已經將數據與真相混為一談。這種認知,對我們理解、解釋以及改進我們所關心的事物的能力,會產生危險的影響。

我這麼講對自己是有風險的。我是紐約大學數據科學教授和企業的社會科學顧問,我為他們進行定量研究,幫助他們理解和改進多樣性。我靠數據謀生,但我卻總發現不管我跟學生還是客戶交談時,我都要提醒他們數據其實並不是現實的完美體現:數據這東西基本上是人類的杜撰,因此會受制於偏見和局限,以及其他隨之而來的不完美。  

這種誤解最清晰的表現是從會議室到教室都能聽到的問題,當好心人試圖弄清楚棘手問題的真相時:

「數據是怎麼說的?」

數據什麼都沒說。說話的是人類。他們說的是數據當中他們注意到的或者要尋找的東西,數據從一開始之所以存在,是因為人類選擇去收集它們,並且利用了人類製造的工具去收集數據。        

數據說明不了問題的任何東西,它的作用不會大過可以造房子的錘子或者做馬卡龍的杏仁粉。數據是發現的必要因素,但是你需要有人來選擇它,塑造它,然後把它變成洞察。

因此,數據的有用程度只能跟它的質量以及掌握它的人的技能一樣。(如果你曾經試過製作馬卡龍就知道我說的了。我就試過。我們只能說那種數據肯定不符合法國糕點店的標準。)

因此,如果數據本身不能做任何事情或者說明不了任何東西的話,那數據是什麼?

數據是什麼?  

在某個時間和地點,數據是這個世界某個方面不完美的相似物。(我知道,這個定義遠不如我們所希望的那麼性感。)這是當人們想要了解關於某個東西的一些東西,試圖去測量它,然後以特定方式去組合這些測量值時的結果。

以下是我們會把不完美引入到數據當中的四種主要方法。

但是,這些錯誤並不意味著我們應該拋棄所有數據,意味著一切都是不可知的。而是意味著要深思熟慮地進行數據收集,問問我們自己可能錯過了什麼,並對收集更多數據表示歡迎。

這種觀點不是反科學或反數據。相反,這兩者的優勢來自於清楚我們自身工作的局限性。意識到可能會出現的錯誤可令我們的推斷更加強大。

首先是隨機偏差。隨機錯誤發生在當人類決定要去測量某些東西之時,由於設備損壞或他們自己的錯誤,導致記錄的數據是錯誤的。其形式可以是將溫度計掛在牆上測量溫度,或者用聽診器來計算心跳。如果溫度計壞了,它可能無法告訴你正確的度數。聽診器可能沒壞,但是計數的人可能會錯過一次心跳。 

隨機錯誤會對我們的餘生造成很大的影響(當我們沒有勤勉地記錄溫度和心跳時),其形式之一是醫療篩檢中的誤報。例如,乳腺癌的誤報意味著篩檢結果說患有癌症,但其實沒有。發生這種情況的可能原因有很多,其中大部分可歸結為在將關於世界的事實(是否患有癌症)轉化為數據(通過乳房X線照片和人得出數據)的過程中的失誤。   

這種錯誤造成的後果也是非常真實的。研究表明,誤報可導致出現多年負面的心理健康的後果,哪怕患者的身體狀況良好。從好的方面來說,對誤報的恐懼也會導致對篩查更加小心謹慎(......這會進一步增加誤報的可能性,算了不說了,這離題了)。    

一般來說,只要我們的設備沒壞並且我們努力做到了最好,我們希望這些錯誤在統計上是隨機的,因此會隨著時間的推移而慢慢被中和掉——儘管如果你的醫療篩查是錯誤之一的話,這並不算一個很大的安慰。

其次是系統偏差。系統誤差是指這樣一種可能性,即某些數據以犧牲其他數據為代價不斷進入到你的數據集,從而可能導致你對世界做出錯誤的結論。這可能是由於許多不同的原因而導致的:你抽樣誰,什麼時候抽樣,或者加入你的研究或填寫你的調查的人是誰。 

選擇偏差就是一種常見的系統誤差。比方說,用來自Twitter推文的數據來理解公眾對特定問題的情緒如何,這種作法是有瑕疵的,因為我們大多數人都不會發推文——而且那些發推的人並不總是將自己的真實感受示於人。相反,來自Twitter的數據集就是:一種了解方式,通過它可以知道選擇了參與到該特定平臺的部分人跟世界分享了什麼東西,僅此而已。 

2016年的美國總統大選就是例子,一系列的系統誤差可能導致了民意調查錯誤地偏向於希拉蕊·柯林頓。人們很容易得出結論認為其實一切民意調查都是錯誤的——也許是,但跟我們平時想像的可能不一樣。  

有一種可能性是選民不太可能會報告說自己將投票給川普,因為大家認為這是不受歡迎的選擇。我們稱之為社會期望偏差。停下來思考一下這個問題很有幫助,因為如果我們事先對這種偏差更加警惕的話,我們可能就會將它植入到我們的模型裡面,從而更好地預測選舉結果。 

令人遺憾的是,醫學研究的系統偏差也到處可見:醫學研究的對象往往是那些已經生病並且有手段找醫生或者參加臨床試驗的人。作為克服這一缺點的辦法之一,可穿戴技術的發展稍微令人有點興奮。比方說,如果有Apple Watch的每個人都可以將他們的心率和每天的步數發送到雲端,那麼我們就會擁有更多的數據,而且偏差更小。但這可能也會引入一種全新的偏差:現在的數據有可能會偏向西方世界的富裕成員。     

第三是選擇測量內容選擇偏差。當我們以為我們正在測一樣東西,但事實上測的卻是其他東西時就會發生這種情況。 

有很多公司對想辦法做出更客觀的招聘和晉升決策都比較感興趣,我跟他們有過合作。為此他們往往會求助於技術:我們如何給經理提供更多的數據,好讓他們做出更好的決策?我們怎麼才能應用正確的篩選條件來確保招聘人員能找到最優秀的人才?

但很少有人會停下來問一下自己在測量的數據是不是他們想要測量的東西。比方說,如果我們正在尋找頂尖的求職者,我們可能更青睞那些上名牌大學的人。但這可能並非衡量人才的手段,而是衡量社交網絡成員不僅僅是衡量人才的標準,它可能只是衡量你是否具備某些社交網絡成員資格的一種標準,這種資格能為某些人提供一系列「合適」的機會,讓他們得以能進入一所優秀的大學。一個人的GPA成績可能是衡量一個人選擇自己能勝任的課程的能力很好手段,而他們的SAT成績可能是他們父母在請私教方面的財力的一種可愛的表達。

企業以及我的學生對最前沿的方法論如此痴迷,以至於他們都忽略了一個更深層次的問題:為什麼我們要用這種方式去衡量這個?還有沒有可以更徹底去了解人的方式?而且,根據我們手上的數據,我們如何對過濾器進行調整才能減少這種偏差?    

最後一個,是排除偏差。當數據集裡面系統性地忽略了某個群體時就會發生這種情況,而這就會為進一步的排除創造出先例。 

比方說,現在女性比男性更容易死於心臟病,這被認為主要是因為大多數心血管數據都是基於男性的,而男性經歷的症狀與女性的不同,從而導致診斷的不正確。  

關於白人女性在美國競選政治職位時的表現的數據目前有很多,但是有色人種的就不是很多,相對於競選過程當中的白人女性,她們會面臨著不同的偏差。在我們進行這些研究之前,我們就會試圖從有關橙子的數據推斷出蘋果——但其結果要比一盆不均衡的水果沙拉要糟糕得多。    

選擇去研究一樣東西還可以激勵對該專題進行進一步的研究,這本身就是一種偏差。由於根據現有數據集做東西要比創建自己的數據集更容易,因此研究人員經常會圍繞著某些主題展開研究——比如參與競選的白人女性或男性的心血管健康——而犧牲了其他人。如果你反覆多次如此這般,突然之間的男性就成了默認的心臟病研究對象,而白人女性就成了默認的政治參與研究對象。

其他的例子比比皆是。衡量「領導力」可能會激勵大家在會議中表現得更加積極,從長遠來看這會破壞溝通。給SAT中增加「逆境」分可能會慫恿父母搬到不同的社區,以便讓他們的得分更高。

我看到這在多元化領域也產生了影響:DiversityInc等嘗試蘋果公司多樣性的組織已經選擇若干用來獎勵公司的指標——比方說,「領導認可」的衡量標準是是否設有首席多元化官(Chief Diversity Officer)。為了給這個方框打勾,它可能會刺激一些並無任何實際用途的行為,比如任命一個沒有實權的CDO。 

為什麼我們仍然需要相信數據

在反智主義、假新聞以及另類事實和偽科學橫行的時代,我其實非常不願意這麼說。有時我感覺我們科學家幾乎都沒有堅持下去。但我相信數據和科學之所以有用,並不是因為它是完美的和完整的,而是因為我們認識到我們自身努力的局限性。就像我們想要用統計數據和算法對事情進行仔細分析一樣,我們也需要仔細地收集數據。我們有多謙卑,對自身局限性的認識有多深,我們自己就有多強。 

這並不意味著要拋棄數據。這意味著當我們的分析中包含有證據時,我們應該考慮影響其可靠性的偏差。我們不應該僅僅去問「它說明了什麼?」而且還要問,「 數據是誰收集的?他們是怎麼做的?那些決定是如何影響結果的?」

我們需要去質疑數據,而不是僅僅因為我們已經把一個數字分配給某個東西,就假設那個東西突然之間就變成冰冷的真相。當你遇到一項研究或一個數據集時,我懇請你問問自己:這幅圖中可能缺了什麼?還有沒有其他辦法可以去考慮究竟發生了什麼?這個特定的衡量手段包含了什麼,排除了什麼,激勵了什麼?

我們需要對數據考慮周全,因為我們正在開始關注統計數據,算法和隱私。只要數據被認為是冰冷、確切、絕對可靠的事實,對我們周圍的世界,我們就有可能產生並且強化許多不準確的理解的風險。

原文連結:https://qz.com/1664575/is-data-science-legit/

譯者:boxi。


相關焦點

  • 玻璃蛙到底算不算透明生物,科學家們還持懷疑態度!
    這種現象非常神奇,因而也引起了很多科學家的關注。最近,科學家們終於找到了它能夠透光的原因。首先,對於玻璃蛙到底算不算透明生物,科學家們還持懷疑態度。這是因為,玻璃蛙的透明並非是均勻分布在全身,而是主要集中在後半部分身體。在它的背部,還是有很多色素沉澱的。因此,有些科學家更願意稱之為「半透明生物」。
  • 大數據招聘,我就這樣被算法選中
    他們的工作屬於大數據的範疇,大數據就是利用計算機來收集和分析各種各樣的信息,執行許許多多的任務,不管是推薦圖書、在網站上投放有針對性的廣告,還是預測治療效果或股票價格。 讓算法幫你,發現那些未被人發現的人才近來,越來越多的學者和企業家將大數據應用在人力資源管理和人才搜尋的過程中,創建了一個叫做勞動力科學的新領域。
  • 8年了,我終於敢介紹自己是一名科學家
    「你好,我是一名科學家。」自我介紹的時候,你會這麼說嗎?Shipra Jain在英國愛丁堡大學擔任博士後研究助理,以下是他的故事。 去年四月,我第一次介紹自己是一名科學家。那是在維也納舉辦的歐洲地球科學聯盟大會上,是關於地球系統科學最為盛大的學術會議之一。8年多來,我一直從事大氣與氣候研究,目前我在英國愛丁堡大學從事第三份博士後工作。
  • 數據科學家和數據分析師的區別在哪兒?
    數據科學家和數據分析師的區別在哪兒?數據科學家和數據分析師在所用程式語言、平臺/工具,以及所解決的問題方面都有共同之處。  有人會說,要成為一名數據科學家,要先從數據分析的工作做起。數據科學與數據分析用完全不一樣的工具和程式語言,數據科學是數據分析的一種形式,因為最終你是在與數據打交道轉換格式,進行可視化得出可用的結論。
  • 數據科學專業是否會「被自動化」?
    對其保留一定態度我個人對Uber的「預測即服務」目標持懷疑態度。弄清楚要預測的內容並不容易,作為一名負責充實模型各個組成部分的架構師,經驗豐富的數據科學家可能是無價的,因此可以跨越太簡單和太複雜之間的界限。識別有效的數據(並找到它)一旦確定了要預測的變量並為我們的模型整體繪製了簡潔的流程圖,我們就準備好了嗎?錯,首先我們需要弄清楚我們是否擁有所需的所有數據。
  • 只因為這位科學家「算錯」一個數據
    當時,德國國內有頂尖的科學家。就僅哥廷根大學這一個大學就誕生了不少拿到了諾貝爾獎的人物。因此,在研製原子彈這件事上,德政府一直持一種志在必得的態度。但是由於德國的種族清洗政策,當時的很多科學家都在納粹的威脅之下被迫離開了德國,其中最著名的就是愛因斯坦。但是,有一名厚後世非常知名的大物理學家維爾納·卡爾·海森堡卻成為了德國原子彈研製的領導人物。
  • 如何成為一名大數據工程師?
    現實的情況是這樣的,無論公司屬於哪個行業,要想在當今競爭激烈的市場環境中取得成功,需要一個強大的軟體架構用來存儲和訪問公司數據,最好從公司創立一開始就要搭建它。在如今有時候有數據的地方就叫大數據,這未免有些誇張,在本文中統稱為數據工程師和數據科學家。先了解一下,數據工程師究竟做什麼事?一個人怎麼樣成為數據工程師?我們將討論這個有趣的領域以及如何成為數據工程師。
  • 我是如何10天通過谷歌雲專業數據工程師認證的?
    圖片來源:pexels.com/@wdnet如果你想使用谷歌雲產品並且具備以下條件,建議參加考試:· 是一名數據工程師· 想要成為一名數據工程師· 想要創立一家科技公司· 是一名數據科學家,想要了解整個數據傳輸過程為什麼要參加考試?
  • 我想當一名科學家!
    小學總愛寫《假如我長大以後》、《未來的我》等文章,「我長大以後要當一名科學家」,「我要當一名醫生」「我要當老師」……這些職業已經是我們知道的全部。科學家到底要幹什麼?沒有人想過,在那個熱衷成為科學家的年代裡,每個人都有一顆要研究宇宙奧秘的心。慢慢的上了初中,對職業有了基本的認識,說科學家的人漸漸少了。
  • 一名數據分析師的「實戰解碼」
    在劉志成辦公室裡,人工智慧與大數據技術、數據挖掘與預測分析等書籍塞滿一書櫃……劉志成認為,「追技術」是技術工作者的天性。當下,大數據、人工智慧等新技術日新月異,他一直思考著如何將這些新技術手段應用到工作中。「大炮巨艦時代,誰的火力強,誰就能打贏一場戰爭。但現在不一樣了。」
  • 最奇葩的撤稿理由——我們的數據被新冠大流行吃掉了
    但更令人關注的是,面對質疑,第一作者聲稱由於Covid-19大流行的限制使得他們無法恢復原始數據。這恐怕是小編見過的最奇葩的撤稿聲明。根據科睿唯安的Web of Science中的記錄,這篇論文已被引用了16次。
  • 移動醫療大數據的幾個偽命題:大數據的陷阱與小數據的重要性
    當然把大量的人的小數據整合起來可以視為大數據分析,但是前文Dr.2也說過,有的時候整體平均趨勢對個人是無價值的,甚至有害的。前天看個笑話,有個身高1.8米的人問大數據科學家能不能過前面這條河,科學家經過全河流域的大數據分析後,得出平均水深1.2米,於是他放心地趟過去,結果淹死了!
  • 晚年錢學森:「我是大科學家錢學森!」
    作者:葉永烈「我是大科學家錢學森!」錢學森是一個謙遜的人,他從未稱自己是「大科學家」。
  • 每個數據科學家都必須了解的5大統計概念
    統計和數據科學的重要支柱任何數據科學家都可以從數據集中收集信息-任何優秀的數據科學家都將知道,紮實的統計基礎可以收集有用和可靠的信息。 沒有它,就不可能進行高質量的數據科學。我從哪說起呢?以下是每個數據科學家都應該知道的前五個統計概念:描述性統計,概率分布,降維,過採樣和欠採樣以及貝葉斯統計。讓我們從最簡單的一個開始。
  • 【燃情法院 築夢天橋】我叫解夢影,我叫梁曉琳…我是一名法官助理
    首先,讓我印象深刻的是我院嚴謹的工作作風和精益求精的工作態度。我相信自己終會用行動繪就一幅燦爛的人生藍圖,切實做到為人民服務,成為一名合格的天橋法律人。 感於心,踐於行 梁曉琳作為一名以法官助理身份考入而被分配到綜合部門的新人,剛開始我是懵懂的、無措的。綜合辦公室是一個什麼性質的部門,工作內容是什麼,我在這裡可以做些什麼……這些疑問伴隨著我,擁我踏入這個部門。
  • CPDA數據分析師講堂:如何避免大數據項目的危害
    ,通過使用支持業務領導者,分析師,數據科學家,開發人員和數據工程師之間強大的團隊合作的敏捷方法,組織可以利用更短的增量開發周期,用戶可以根據中間交付成果進行合作並提供反饋,並相應地調整項目。,釋放大數據平臺的潛在價值,以及如何利用集中化各種數據來支持創新應用程式。
  • 美國招聘網站最新報告:AI碾壓金融成薪資最高行業 35位數據科學家...
    然而,有時人們不是很理解「數據科學」和「數據科學家」這類詞。 DataCamp的數據科學家Hugo Bowne-Anderson博士接觸了35位一線數據科學家,描述了他們的日常工作內容。 數據科學家是做什麼的。我們現在至少在科技行業內,了解數據科學的運行方式。首先,數據科學家要奠定堅實的數據基礎,以便執行可靠的分析。
  • 論量子力學,對量子力學持懷疑態度,電子,夸克還有更小微粒組成
    對量子力學持懷疑態度,人為強加對粒子的運動作出解釋,沒有深入比電子,夸克更小的微粒組成,更小的微粒組成原理肯定比量子力學更能解釋粒子的運動,而不是量子力學虛無縹緲的數學解釋,量子力學被推翻的時候科學肯定獲得了很大進步量子力學不一定是對的,電子
  • 不學好數學也想當數據科學家?不存在的
    大數據文摘作品編譯:文明 修竹 高寧 天培數據科學家需不需要有紮實的數學基礎呢?為什麼數據科學依舊離不開數學?我們又需要會哪些數學知識?讓我們聽這位大咖一一道來。作為一名技術開發工程師,我的日常工作內容主要涉及半導體物理,矽製造過程的有限元模擬,以及電子電路理論。當然,這其中會涉及一些數學,但令人難過的是,我並沒有用到過數據科學家們所需要的那些數學。
  • 「我也要成為一名理論計算機科學家!」——訪南京大學教授尹一通
    2019年10月,南京大學教授尹一通因「在數據複雜性理論和計算相變理論方面所做出的突出貢獻」獲得2019年「CCF-IEEE CS青年科學家獎」。CCCF 動態欄目編委特別採訪了尹一通教授,請他分享在科研教學中的寶貴經驗。