【LeCun發聲】牛津大學專家:Facebook不算數據洩露,你們都錯了

2020-12-17 新智元

新智元編譯

來源:Medium 作者:Chris Kavanagh

編譯:文強,克雷格

【新智元導讀】吃瓜群眾要的反轉來了——關於鬧得沸沸揚揚的Facebook「數據門」,實際上,公眾可能存在很大誤解。首先,媒體報導的FB數據「洩露」,用詞是錯誤的,劍橋分析獲取用戶數據的方法,是一種常見的數據共享協議。此外,被獲取的數據並非Facebook的內部數據,而是使用第三方程序從Facebook獲取的用戶配置文件。Facebook之所以遭遇了「自創建以來最大危機」,很大原因是這些數據可能被拿去幫助川普贏得大選,以及英國脫歐。但事情的真相,果真如此嗎?

Facebook首席科學家Yann LeCun,在與法國總統會晤以及發表各種演講的繁忙日程中,今天默默轉發了一條Twitter:

你所知道的(幾乎)有關劍橋分析的一切都是錯誤的。

Facebook數據門爆出以後,幾乎沒有聽到這位大佬發聲。這次的轉發,顯然代表了一些觀點。

這篇文章說了什麼?Facebook要來個驚天大逆轉?

你聽說的Facebook數據門

如果你有在關注新聞,Facebook以及一家名為「劍橋分析」(Cambridge Analytica)的公司登上了很多頭條。

報導的基本情況是這樣的:

英國一家有貓膩的數據分析公司,在一位24歲的科技天才的幫助下,開發出一種新的技術,「黑入」(hack)Facebook並竊取了5000萬用戶檔案。然後,他們使用這些數據,幫助川普競選,也和英國脫歐有關聯,方法是通過有針對性的廣告,從心理上操縱選民。結果是Vote Leave「贏得」英國脫歐公投,川普當選美國總統。

不幸的是,上面的總結,幾乎所有內容都是錯的,或者存在誤導。

用戶自己授權,你可能也做過

首先,沒有「黑客襲擊」(hack)發生。

收集的數據是從Facebook用戶配置文件中截取的(scraped),這件事發生在用戶授予第三方應用程式訪問其數據的權限的以後。你還記得在訪問一個陌生網站,或者玩Candy Crush這類小遊戲登錄時,彈出的那些小窗口嗎?

你沒有為這些網站重新設置密碼,而是授權使用Facebook帳號登錄,就是這些。

沒有用過Facebook,但是允許XX使用微信/微博/XX帳戶登錄,這你總該有印象吧。

一位名叫Aleksandr Kogan的劍橋學者——不是劍橋分析公司,也不是劍橋分析公司的內部舉報人Christopher Wylie ——製作了一個「測試你的個性」應用程式,將其安裝在亞馬遜的Mechanical Turk眾包網站上,然後通過向使用這個應用程式的人支付2-4美元,來幫助推廣這個應用程式,同時,使用獲得的授權來收採集數據。

27萬用戶安裝了這個應用程式,你可能以為有27萬用戶信息被採集了,但實際上這個應用程式從5000萬個配置文件中收集數據。

5000萬?!?

沒錯。再看2014年的時候,Facebook有一項名為「好友權限」(friendspermission)的功能,允許開發者不僅訪問安裝他們應用的人的用戶配置,還能訪問這個人所有朋友的配置文件(user profiles)。防止這種情況發生的唯一方法是切換隱私設置,絕大多數Facebook用戶都不知道這項功能。

而好友權限正是Kogan將27萬權限變為5000萬配置文件數據的方法。

刪除好友數據訪問權限,招致開發人員不滿

Facebook用戶在不知情或者沒有授權的情況下,數據被拿去與朋友共享,這件事是當時許多隱私權倡導者都注意到了的嚴重問題。因此,在2015年,面對越來越多的批評和壓力,Facebook刪除了該功能,並表示自己願意給予用戶更多的控制權。這個決定引起了開發人員的驚恐,因為訪問好友配置文件的功能非常受歡迎(參閱2014年Facebook發布這些更改後的評論)。

前Facebook經理Sandy Parakilas向彭博社報告稱,在停用前,當時有「數十甚至數百萬的開發者」都在使用這項功能。

關閉「好友權限」功能以後,有開發人員站出來說,「一家號稱致力於讓世界變得更開放和連接的公司,怎麼能移除訪問社交信息權限從而限制其開發者社區的能力,讓我們的應用程式變得更加封閉,與我們的用戶隔離開?我說的主要就是移除好友權限功能……」

回顧一下,現在有兩點需要記住:

1、我剛剛描述的任何內容都不涉及「黑客攻擊」Facebook或利用漏洞。相反,這一切都是圍繞Facebook提供給所有開發人員的一個功能(feature),(至少)數以萬計的開發者已經使用了這一功能。

2、收集的數據不是Facebook內部數據。這是開發者從下載應用程式(和他們的朋友)的人的配置文件中獲取的數據。Facebook擁有更多的用戶數據,但這些數據不是對外公開的,這一點適用於所有使用其平臺的用戶。除了Facebook,沒有人可以訪問Facebook擁有的數據。這一點,幾乎所有報導這起事件的記者都沒有抓住,他們多次將「Facebook內部數據」與使用第三方應用程式從Facebook用戶配置文件獲取的數據等同起來。但這兩件事是非常不同的。

Facebook說謊了嗎?

因此,在你看新聞時,第二點的重要性就變得顯而易見:

Facebook英國政策主管SimonMilner在被問到Cambridge Analytica是否有Facebook數據時,告訴國會議員說:「沒有。他們可能擁有很多數據,但不會是Facebook用戶數據。這可能是他們自己在Facebook上收集的用戶數據,但這不是我們提供的數據。」

這段話在報導中,被作為Facebook向政治家謊報其與Cambridge Analytica關係的證據。但是,當你了解到Facebook的內部數據與外部開發者在Facebook上收集的數據之間的差異後,很明顯,Facebook政策總監說的話,很可能是真實的。

那劍橋分析公司又是怎麼回事呢?

他們付錢讓Kogan收集這5000萬份配置文件。但現狀是,Kogan說是Cambridge Analytica先來找的他,但Cambridge Analytica卻說是Kogan來找的他們。

真正的違法行為是……

無論情況如何,真正的違法行為出在這裡:不是Facebook內部數據洩露,而是Facebook的數據共享政策。Facebook允許開發者從他們的應用中收集他們想要的所有用戶數據,但開發人員不能倒賣這些數據給第三方——這條規定從2014年就已經存在。

然而,不管Facebook的官方政策如何,他們似乎沒有花費太多的精力來監督開發者,也沒有跟蹤這些開發者收集的數據是如何使用的。這可能就是為什麼當Facebook首次發現Kogan已在2015年向Cambridge Analytica出售一些數據時,他們得到數據已被刪除的書面確認就沒有再追究了。

數據黑市

事實上,(至少)成千上萬的開發者可以訪問這些信息,這意味著在Facebook上收集的數據不可避免地被出售或以其他方式提供給廣泛的第三方。同樣,一位心懷不滿的前Facebook經理也證實了這一點:

當被問到Facebook對外部開發者的數據有何種控制時,他回答道:「沒有。完全沒有。一旦數據離開Facebook伺服器,就沒有任何控制權,也無法知道發生了什麼。Parakilas表示,他一直推測對於那些傳給外部開發人員的Facebook數據,有一個「黑市」存在。

因此,Facebook數據收集普遍存在,而且,有許多開發者都擁有超過27萬用戶的應用程式,可以從中收集大量用戶數據——那為什麼劍橋分析公司會受到媒體如此多的關注?

這個問題的答案似乎主要是記者,特別是Observer的Carole Cadwalladr如何構思了這個故事。大部分報導都從兩個角度切入。首先,來自Cambridge Analytica內部的舉報人揭示了Facebook數據的「重大違規」,這是我們前面剛剛說的,其次,這一「違規」與川普總統競選的成功有關。

第二個角度……來看看這位吹哨人

這第二個角度與第一個角度一樣令人懷疑,而且嚴重依賴Chris Wylie這位粉絲頭髮的前劍橋分析員工所作的誇誇其談。

Carole Cadwalladr花了好幾年的時間在各種採訪中解釋說,她不是作為調查記者,而是作為特寫作家。這意味著她專注於研究「故事的人性」,或者換一種說法——她研究Chris Wylie。

這種做法有利有弊,但最大的缺點在於太投入和依賴故事,使她和後續的報導接受了Wylie的敘述,這恰好讓Carole Cadwalladr把他描繪成一個處於全球政治陰謀中心的年輕策劃者。

Cadwalladr完全贊同Wylie的陳述,在報導中Cadwalladr將他形為「聰明、有趣、刻薄(bitchy)、深刻、智力貪婪,引人注目」......「不可思議的年輕人......」「他的職業生涯軌跡像他生命中迄今為止的大多數方面一樣非凡、荒謬、難以置信的」、」Wylie為創意而活,他一次說話十幾個小時「、「Wylie把他的注意力全部轉移到了一些東西上——他的戰略大腦,他對細節的關注,他計劃前進12步的能力——有時看起來有點恐怖」、」他非凡的才能包括那種使得House of Cards看起來像英國大烘烤的高級政治技巧。「

哇...真是個好人。

Cadwalladr的以人為本的方法可能會提供更易讀的文章,但它也有助於掩蓋相關的技術細節,而只利於提供Wylie及其朋友和同事的聳人聽聞和個人軼事。如果對這些細節進行足夠的批判性審查,那麼這些細節可能會很有見地。相反,Cadwalladr似乎已經完全接受了Wylie的敘述:「當我親自見到他時,我已經每天與他談話幾個小時。」

缺乏證據

所以,讓我們來解釋一下這個問題,並且更多地關注一下Wylie的敘述主張:

史蒂夫·班農想把大數據武裝起來......不難相信。劍橋分析公司聲稱能夠提供有效的心理靶向和操縱工具......當然是對的。Chris Wylie本人參與了一些陰暗的業務,並認為自己是部分責任人......當然。劍橋分析的自我宣傳聲明實際上等同於他們提供的服務的有效性......嗯。最後一點是最重要的,也是最缺乏證據。

這種導向可能是指的川普的驚人勝利,但這裡有很多混雜因素。川普是贏了,但是他贏得了現代歷史上最不受歡迎的民主黨候選人的競選,民主黨當時試圖第三次總統當選(自20世紀40年代以來一直沒有實現)。此外,川普以微弱的優勢獲勝,實際上失去了大部分民眾選票。

劍橋分析的廣告,真的那麼有效?

這些都可以證明劍橋分析公司的心理定位有多精確嗎?最好的方法是查看劍橋分析公司成功與失敗的相關記錄。

不幸的是,我們無法訪問他們的完整客戶名單,但我們確實知道,當他們第一次嶄露頭角時,是為Ted Cruz總統競選工作服務,Ted Cruz是共和黨參議員,被川普在共和黨的初選中幹掉

我不是第一個注意到這種明顯矛盾的人,《VICE》的專欄作家Martin Robbins曾在《Little Atoms》上撰文提出了同樣的觀點。

因此,共和黨初選的故事實際上是劍橋分析公司的華麗數據科學團隊被一個擁有一千美元網站的老兄毆打。要把這一驚人的故事變成一個無與倫比的故事,讓川普不可阻擋地走向勝利,這是一個相當大的挑戰。他們還為誰工作過?如果沒有客戶名單,挑選優勝者是很容易的。

劍橋分析聲稱使用的技術涉及使用社交網絡數據來構建算法,以準確預測給定個人的個性和心理狀態下的消息類型。當他們談論使用心理學來微觀選民時,這就是故事的意思。但是,關於這種技術的有效性很多要求被誇大了。

作為爭論核心的劍橋學者Kogan提出了類似的論點。他聲稱自己正被當成替罪羊,並認為他收集的人格概況證明對於進行微目標所需的預測並不特別有用:

事實上,從我們對該主題的後續研究中,「他寫道,」我們發現,我們給予SCL的預測使得所有5個人的人格特質錯誤的可能性高出6倍,因為這是為了讓他們全部正確。簡言之,即使數據被運動用於微型定位,也可能實際上只會傷害他們的努力。

Kogan所說的話未必公正,但他的主張符合各種研究,這些研究顯示,惡意的社交媒體操縱並未取得令人矚目的成果。舉例來說,有爭議的Facebook「精神控制」研究,最近幾天我聽到了幾位記者的推薦。但在報導這項研究時,似乎總是缺少它的不足之處。

Facebook的「精神控制」研究和陰謀論

Facebook對近689000名用戶進行了一項實驗,在該實驗中,它調整了運行新聞feed的算法,以顯示更多來自好友的狀態更新,這些信息包含了積極或消極的詞彙。

正如任何研究人員所知道的那樣,在如此大的樣本中,你肯定會發現群體之間有顯著的統計學差異。一個更重要的標準是這樣的大群體的影響是多大。

在Facebook的研究中,這相當於一個真正可怕的差異:那些看到負面更新較少的人,在狀態更新中每100個單詞中多使用約0.05個積極詞,而那些看不到積極更新的人,每100個使用約少1個正面詞

這是正確的,Facebook可能已經能夠操縱人們在更新中每100個單詞使用大約1個較少的正面單詞。如果將其描述為Facebook無能為力,更大的幹預將產生更大的影響,這將是錯誤的,但重要的是要正確看待事情。

真正的故事

真正的故事並不是Kogan,Wylie和劍橋分析開發了一些令人難以置信的高科技去黑Facebook。這就是說,除了Kogan的數據銷售之外,他們使用的數據在在2015年之前都是被Facebook所許可的。

自從這個故事被曝光後,劍橋分析就被認為是一個相當令人討厭的、不道德的公司——至少在它如何推銷自己給潛在客戶的過程中是這樣。

但是,媒體報導的關於其操控性權力的大多數報導,只是對劍橋分析公司(以及Chris Wylie)自我宣傳的一種不重要的反諷。問題是,幾乎沒有證據表明該公司能做它號稱能做到的事情,也沒有足夠的證據表明它不像它喜歡假裝的那樣有效——看到Ted Cruz現在不是總統的就是公司能力無效的事實。

沒有人完全不受市場營銷或政治信息的影響,但幾乎沒有證據表明劍橋分析公司比其他類似的公關或政治拉票公司更能夠針對選民。政治目標和虛假宣傳運動,包括俄羅斯推動的運動,肯定會對最近的選舉產生影響,但它們是否是關鍵因素?他們是否比科米宣布他在美國大選前一周「重啟」希拉蕊電子郵件調查的影響力更大?還是Brexiteers聲稱每周都有歐盟從NHS偷走2.5億英鎊?讓我感到懷疑。

澄清一下,我並不是在說劍橋分析和Kogan是無辜的。至少,很明顯,他們正在做的事情與Facebook的數據共享政策背道而馳。同樣的,Facebook在允許開發者訪問其用戶的私有數據方面顯得太過漫不經心。

我想說的是,劍橋的分析人士並不是他們被廣泛描繪的傀儡大師。它們對自己的能力提出了很多誇張的說法,並因此得到了很多關注。

***

數據安全和個人隱私問題已經越來越深入人心,Facebook在這起事件中的過錯不在「數據洩露」,而是數據共享策略,而這一點,影響更加深刻、在這個社交網絡的大數據時代,關係到千千萬萬開發者,以及我們每個人作為用戶。

這件事跟中國人關係可能更大,正如李彥宏所說:「中國人更加開放,或者說對於這個隱私問題沒有那麼敏感。如果說他們願意用隱私換,或者交換便捷性或者效率的話,很多情況下他們是願意這樣做的。」

原文連結:https://medium.com/@CKava/why-almost-everything-reported-about-the-cambridge-analytica-facebook-hacking-controversy-is-db7f8af2d042

相關焦點

  • Facebook高管接連發聲 為數據洩露事件道歉
    在數據洩露事件發生多日之後,Facebook的高管們終於正式為此事公開道歉。他表示,公司有責任保護用戶數據,「如果我們做不到,就不配服務你們。」他表示,這次事件的根源在於,一位劍橋大學的研究人員曾經在Facebook上放上了一個個性測試應用,並被大約30萬用戶安裝。
  • Facebook高管發聲:廣告主對數據洩露事件情緒穩定
    文 | KristenFacebook全球營銷解決方案副總裁Carolyn Everson表示,她在執行長Mark Zuckerberg出面就數據洩露事件發表講話之前就開始了她的「維護Facebook名譽之旅」。
  • 伯格首次發聲回應 Facebook用戶數據遭洩漏黑幕
    然而最近該軟體被爆出了一條不好的消息,是關於用戶數據洩漏的,具體怎麼回事讓我們一起來看看吧。扎克伯格首次發聲是怎麼回事_扎克伯格為什麼發聲,3月22日凌晨,Facebook CEO扎克伯格在洩露醜聞後首次發聲,他承認對Facebook數據洩露事件負有責任,並表示:「我們有保護用戶數據的責任,正打擊平臺對數據的濫用。
  • Facebook醜聞後扎克伯格首次發聲 承認對洩露事件負有責任
    Facebook表示,扎克伯格和營運長雪莉-桑德伯格(Sheryl Sandberg)都在潛心解決幕後的擔憂。Facebook的一位發言人說:「馬克、雪莉和他們的團隊正夜以繼日地工作,以獲取所有的事實,並採取適當的行動向前推進,因為他們明白這個問題的嚴重性。」
  • Whatsapp聯合創始人:是時候刪除Facebook了
    Brain Acton在「是時候了」的推文後面,加上了「刪除Facebook」(#deletefacebook)的標籤。截至發稿,「delete facebook」尚未成為推特的熱門話題。Brain Acton是第一個就Facebook洩露用戶信息事件公開發聲抵制的科技大佬。
  • 微眾銀行嚴控數據洩露風險
    近年來,隨著網際網路應用的深入普及和國家「網際網路+」戰略的實施,數據安全問題逐漸成為各行各業關注的焦點,近期facebook用戶數據洩露事件更是為網際網路行業敲響了警鐘。作為國內首家網際網路銀行,深圳前海微眾銀行開業3年來,客戶和業務規模高速增長,如何管理好該行億級客戶和高並發交易產生的海量數據,並確保其安全,成為該行面臨的重要課題。
  • 扎克伯格首次發聲是怎麼回事 FacebookCEO扎克伯格首次發生對用戶...
    扎克伯格首次發聲是怎麼回事_扎克伯格為什麼發聲,3月22日凌晨,Facebook CEO扎克伯格在洩露醜聞後首次發聲,他承認對Facebook數據洩露事件負有責任,並表示:「我們有保護用戶數據的責任,正打擊平臺對數據的濫用。
  • 牛津大學VS劍橋大學,官方數據大公開
    ,不僅從申請國籍,申請人提交的A-LEVEL成績以及每個科目錄取,對應每個學院申請的成功率和人數都有做每一步統計,可以看出中國大陸和中國香港作為申請英國主力軍,無論從申請人數還是申請成功率都是相當可觀,這份精細的統計讓我們對於劍橋的申請更加充滿了新的期待!
  • 害怕數據洩露,成為下一個Facebook嗎?大牛面對面講述實戰經驗!
    數據資產的發現和保護一直是個老大難問題,十多年來各種安全技術方案層出不窮,但似乎數據洩露的狀況並沒有得到改善,反而越來越嚴重,Equifax、Facebook的數據洩露事件,都給我們敲響了警鐘。數據資產的發現和保護一直是個老大難問題,十多年來各種安全技術方案層出不窮,但似乎數據洩露的狀況並沒有得到改善,反而越來越嚴重,Equifax、Facebook的數據洩露事件,都給我們敲響了警鐘。
  • 5億微博用戶數據洩露?暗網無人交易,專家建議用戶勤改密碼
    「Telegram並非暗網,但裡面是匿名且使用虛擬貨幣交易,在微博數據被指洩露之後,過來測試湊熱鬧的人變多了。」另一位網際網路企業的安全專家告訴澎湃新聞記者,加入Telegram平臺的社工群後,提供查詢服務的是機器人,用戶既可以根據微博ID查詢手機號碼,也可以根據姓名、身份證號、QQ來查詢。
  • 近期國內外重大數據洩露事件
    2020年還未過半,「數據洩露」這樣的字眼卻顯得異常活躍。全球各地深受數據洩露事件的困擾,同時也造成了重大損失。根據IBM最新的數據洩露年度成本研究,平均數據洩露成本現在高達392萬美元。這些費用在過去五年裡增加了12%。據FireEye估計,不到一半的組織準備好面對網絡攻擊或數據洩露。
  • 大規模線上教育推行增加了學校信息數據洩露風險?學校也很無奈
    說到個人信息洩露導致的後果,大家第一印象應該是電話推銷騷擾、廣告簡訊轟炸以及電話詐騙,這些都是不法分子通過在運營商竊取的用戶數據信息產生的利益鏈導致的。>區大學數據受到一駭客團夥攻擊並被竊取了訪問權限,以此向學校敲詐價值約784萬人民幣的美金,學校最終還是息事寧人的向勒索團夥支付了相應金額才重新獲得對大學的數據信息訪問權限,但學校的師生信息與教育計劃洩露是不可避免了。
  • 誰該反思Facebook數據洩露這場災難?
    我們從數據範圍、數據獲取、Facebook能做什麼和數據應用四個環節分析一下這個事件的來龍去脈以及Facebook需要承擔的責任。   Facebook並未洩露未被授權發布的個人隱私   Facebook本質上只是一個公告板,基於社交關係連結的個人公告板。
  • 下一個被洩露數據「吃掉」的,可能就是你!
    但這一次,我擔心的是,管理系統和公共部門之惡也難辭其咎。那些洩露、倒賣徐玉玉隱私數據的人,就是騙局的「助攻」和幫兇。   半年前,我離開阿里巴巴,在杭州註冊開辦了自己的新公司。我清楚地記得,在走出當地工商局的第二天,騷擾電話就來了:請問是觀數的塗總嗎?你們需要開發票嗎?需要購買複印機嗎?需要財務服務嗎?需要律師服務嗎?林林總總,不一而足。
  • 來牛津,思維能力最重要——專訪牛津大學校長Andrew Hamilton
    2004年10月至2008年10,他是耶魯大學的教務長(Provost)。2008年6月3日,被正式認命為為牛津大學校長。2009年10月6日正式成為牛津大學第271任校長。牛津大學價值的傳遞牛津(Oxford)字面意思指牛可涉水而過的地方,也是唯一一個意譯過來的外國大學的名字。牛津大學是英語系國家中最古老的高校,久遠的建校日期連他們自己都無從考證。
  • 洩露14萬孕婦基因庫?華大基因:不存在數據出境
    10月24日晚間,科技部公開公布人類遺傳資源行政處罰信息,深圳華大基因科技服務有限公司(華大基因)、藥明康德和艾德生物A股三家上市公司榜上有名,另外三家也是明星機構,包括復旦大學附屬華山醫院、阿斯利康、昆皓睿誠。
  • 牛津大學出版社專家談:vipjr給中國孩子最好的教育
    (原標題:牛津大學出版社專家談:vipjr給中國孩子最好的教育)
  • 名校數據學位巡禮|牛津大學社會數據科學博士簡介
    導讀為跟進「名校數據學位巡禮」板塊,察言觀數今天奉上「牛津大學社會數據科學博士」招生簡章。社會數據科學博士是牛津大學網際網路學院聯合統計學、工程科學、社會科學等院系2019年開設的新項目,申請截止日期為2019年11月15日。該項目為申請者提供關於人類行為非結構化數據前沿研究的機會,體現了社會學與數據科學的融合。
  • 加拿大西門菲莎大學發現數據洩露事件
    加拿大西部著名學府之一的西門菲莎大學(SFU)在2月28日發現數據洩露事件。被暴露的數據包括:SFU Computing ID、SFU的學生和員工ID、名字、生日、SFU郵箱、外部電子郵箱、課程註冊信息以及經過加密的密碼等。
  • 國家級數據洩露發生了,原來這就叫世界末日
    但真正的末日,也未必就是想像中的一番血雨腥風,在宅宅看來,一次國家級數據洩露足矣。啥級數據洩露,遭罪的總是老百姓在講究以和為貴的今天,戰爭這倆字距離我們已然遙遠......然而,真的很遠嗎?據外媒報導,近日vpnMentor公司的安全專家發現,厄瓜多發生了一起重大數據洩露事件,2000萬厄瓜多公民的隱私數據遭到洩露。雷鋒網得知,這些數據原本存儲在配置錯誤的Elasticsearch伺服器上,由於處於不安全狀態,其包含的完整PII、婚姻狀況、結婚日期、教育水平、財務記錄和汽車登記信息等數據被公之於眾。