新智元編譯
來源:Medium 作者:Chris Kavanagh
編譯:文強,克雷格
【新智元導讀】吃瓜群眾要的反轉來了——關於鬧得沸沸揚揚的Facebook「數據門」,實際上,公眾可能存在很大誤解。首先,媒體報導的FB數據「洩露」,用詞是錯誤的,劍橋分析獲取用戶數據的方法,是一種常見的數據共享協議。此外,被獲取的數據並非Facebook的內部數據,而是使用第三方程序從Facebook獲取的用戶配置文件。Facebook之所以遭遇了「自創建以來最大危機」,很大原因是這些數據可能被拿去幫助川普贏得大選,以及英國脫歐。但事情的真相,果真如此嗎?
Facebook首席科學家Yann LeCun,在與法國總統會晤以及發表各種演講的繁忙日程中,今天默默轉發了一條Twitter:
你所知道的(幾乎)有關劍橋分析的一切都是錯誤的。
Facebook數據門爆出以後,幾乎沒有聽到這位大佬發聲。這次的轉發,顯然代表了一些觀點。
這篇文章說了什麼?Facebook要來個驚天大逆轉?
你聽說的Facebook數據門
如果你有在關注新聞,Facebook以及一家名為「劍橋分析」(Cambridge Analytica)的公司登上了很多頭條。
報導的基本情況是這樣的:
英國一家有貓膩的數據分析公司,在一位24歲的科技天才的幫助下,開發出一種新的技術,「黑入」(hack)Facebook並竊取了5000萬用戶檔案。然後,他們使用這些數據,幫助川普競選,也和英國脫歐有關聯,方法是通過有針對性的廣告,從心理上操縱選民。結果是Vote Leave「贏得」英國脫歐公投,川普當選美國總統。
不幸的是,上面的總結,幾乎所有內容都是錯的,或者存在誤導。
用戶自己授權,你可能也做過
首先,沒有「黑客襲擊」(hack)發生。
收集的數據是從Facebook用戶配置文件中截取的(scraped),這件事發生在用戶授予第三方應用程式訪問其數據的權限的以後。你還記得在訪問一個陌生網站,或者玩Candy Crush這類小遊戲登錄時,彈出的那些小窗口嗎?
你沒有為這些網站重新設置密碼,而是授權使用Facebook帳號登錄,就是這些。
沒有用過Facebook,但是允許XX使用微信/微博/XX帳戶登錄,這你總該有印象吧。
一位名叫Aleksandr Kogan的劍橋學者——不是劍橋分析公司,也不是劍橋分析公司的內部舉報人Christopher Wylie ——製作了一個「測試你的個性」應用程式,將其安裝在亞馬遜的Mechanical Turk眾包網站上,然後通過向使用這個應用程式的人支付2-4美元,來幫助推廣這個應用程式,同時,使用獲得的授權來收採集數據。
27萬用戶安裝了這個應用程式,你可能以為有27萬用戶信息被採集了,但實際上這個應用程式從5000萬個配置文件中收集數據。
5000萬?!?
沒錯。再看2014年的時候,Facebook有一項名為「好友權限」(friendspermission)的功能,允許開發者不僅訪問安裝他們應用的人的用戶配置,還能訪問這個人所有朋友的配置文件(user profiles)。防止這種情況發生的唯一方法是切換隱私設置,絕大多數Facebook用戶都不知道這項功能。
而好友權限正是Kogan將27萬權限變為5000萬配置文件數據的方法。
刪除好友數據訪問權限,招致開發人員不滿
Facebook用戶在不知情或者沒有授權的情況下,數據被拿去與朋友共享,這件事是當時許多隱私權倡導者都注意到了的嚴重問題。因此,在2015年,面對越來越多的批評和壓力,Facebook刪除了該功能,並表示自己願意給予用戶更多的控制權。這個決定引起了開發人員的驚恐,因為訪問好友配置文件的功能非常受歡迎(參閱2014年Facebook發布這些更改後的評論)。
前Facebook經理Sandy Parakilas向彭博社報告稱,在停用前,當時有「數十甚至數百萬的開發者」都在使用這項功能。
關閉「好友權限」功能以後,有開發人員站出來說,「一家號稱致力於讓世界變得更開放和連接的公司,怎麼能移除訪問社交信息權限從而限制其開發者社區的能力,讓我們的應用程式變得更加封閉,與我們的用戶隔離開?我說的主要就是移除好友權限功能……」
回顧一下,現在有兩點需要記住:
1、我剛剛描述的任何內容都不涉及「黑客攻擊」Facebook或利用漏洞。相反,這一切都是圍繞Facebook提供給所有開發人員的一個功能(feature),(至少)數以萬計的開發者已經使用了這一功能。
2、收集的數據不是Facebook內部數據。這是開發者從下載應用程式(和他們的朋友)的人的配置文件中獲取的數據。Facebook擁有更多的用戶數據,但這些數據不是對外公開的,這一點適用於所有使用其平臺的用戶。除了Facebook,沒有人可以訪問Facebook擁有的數據。這一點,幾乎所有報導這起事件的記者都沒有抓住,他們多次將「Facebook內部數據」與使用第三方應用程式從Facebook用戶配置文件獲取的數據等同起來。但這兩件事是非常不同的。
Facebook說謊了嗎?
因此,在你看新聞時,第二點的重要性就變得顯而易見:
Facebook英國政策主管SimonMilner在被問到Cambridge Analytica是否有Facebook數據時,告訴國會議員說:「沒有。他們可能擁有很多數據,但不會是Facebook用戶數據。這可能是他們自己在Facebook上收集的用戶數據,但這不是我們提供的數據。」
這段話在報導中,被作為Facebook向政治家謊報其與Cambridge Analytica關係的證據。但是,當你了解到Facebook的內部數據與外部開發者在Facebook上收集的數據之間的差異後,很明顯,Facebook政策總監說的話,很可能是真實的。
那劍橋分析公司又是怎麼回事呢?
他們付錢讓Kogan收集這5000萬份配置文件。但現狀是,Kogan說是Cambridge Analytica先來找的他,但Cambridge Analytica卻說是Kogan來找的他們。
真正的違法行為是……
無論情況如何,真正的違法行為出在這裡:不是Facebook內部數據洩露,而是Facebook的數據共享政策。Facebook允許開發者從他們的應用中收集他們想要的所有用戶數據,但開發人員不能倒賣這些數據給第三方——這條規定從2014年就已經存在。
然而,不管Facebook的官方政策如何,他們似乎沒有花費太多的精力來監督開發者,也沒有跟蹤這些開發者收集的數據是如何使用的。這可能就是為什麼當Facebook首次發現Kogan已在2015年向Cambridge Analytica出售一些數據時,他們得到數據已被刪除的書面確認就沒有再追究了。
數據黑市
事實上,(至少)成千上萬的開發者可以訪問這些信息,這意味著在Facebook上收集的數據不可避免地被出售或以其他方式提供給廣泛的第三方。同樣,一位心懷不滿的前Facebook經理也證實了這一點:
當被問到Facebook對外部開發者的數據有何種控制時,他回答道:「沒有。完全沒有。一旦數據離開Facebook伺服器,就沒有任何控制權,也無法知道發生了什麼。Parakilas表示,他一直推測對於那些傳給外部開發人員的Facebook數據,有一個「黑市」存在。
因此,Facebook數據收集普遍存在,而且,有許多開發者都擁有超過27萬用戶的應用程式,可以從中收集大量用戶數據——那為什麼劍橋分析公司會受到媒體如此多的關注?
這個問題的答案似乎主要是記者,特別是Observer的Carole Cadwalladr如何構思了這個故事。大部分報導都從兩個角度切入。首先,來自Cambridge Analytica內部的舉報人揭示了Facebook數據的「重大違規」,這是我們前面剛剛說的,其次,這一「違規」與川普總統競選的成功有關。
第二個角度……來看看這位吹哨人
這第二個角度與第一個角度一樣令人懷疑,而且嚴重依賴Chris Wylie這位粉絲頭髮的前劍橋分析員工所作的誇誇其談。
Carole Cadwalladr花了好幾年的時間在各種採訪中解釋說,她不是作為調查記者,而是作為特寫作家。這意味著她專注於研究「故事的人性」,或者換一種說法——她研究Chris Wylie。
這種做法有利有弊,但最大的缺點在於太投入和依賴故事,使她和後續的報導接受了Wylie的敘述,這恰好讓Carole Cadwalladr把他描繪成一個處於全球政治陰謀中心的年輕策劃者。
Cadwalladr完全贊同Wylie的陳述,在報導中Cadwalladr將他形為「聰明、有趣、刻薄(bitchy)、深刻、智力貪婪,引人注目」......「不可思議的年輕人......」「他的職業生涯軌跡像他生命中迄今為止的大多數方面一樣非凡、荒謬、難以置信的」、」Wylie為創意而活,他一次說話十幾個小時「、「Wylie把他的注意力全部轉移到了一些東西上——他的戰略大腦,他對細節的關注,他計劃前進12步的能力——有時看起來有點恐怖」、」他非凡的才能包括那種使得House of Cards看起來像英國大烘烤的高級政治技巧。「
哇...真是個好人。
Cadwalladr的以人為本的方法可能會提供更易讀的文章,但它也有助於掩蓋相關的技術細節,而只利於提供Wylie及其朋友和同事的聳人聽聞和個人軼事。如果對這些細節進行足夠的批判性審查,那麼這些細節可能會很有見地。相反,Cadwalladr似乎已經完全接受了Wylie的敘述:「當我親自見到他時,我已經每天與他談話幾個小時。」
缺乏證據
所以,讓我們來解釋一下這個問題,並且更多地關注一下Wylie的敘述主張:
史蒂夫·班農想把大數據武裝起來......不難相信。劍橋分析公司聲稱能夠提供有效的心理靶向和操縱工具......當然是對的。Chris Wylie本人參與了一些陰暗的業務,並認為自己是部分責任人......當然。劍橋分析的自我宣傳聲明實際上等同於他們提供的服務的有效性......嗯。最後一點是最重要的,也是最缺乏證據。
這種導向可能是指的川普的驚人勝利,但這裡有很多混雜因素。川普是贏了,但是他贏得了現代歷史上最不受歡迎的民主黨候選人的競選,民主黨當時試圖第三次總統當選(自20世紀40年代以來一直沒有實現)。此外,川普以微弱的優勢獲勝,實際上失去了大部分民眾選票。
劍橋分析的廣告,真的那麼有效?
這些都可以證明劍橋分析公司的心理定位有多精確嗎?最好的方法是查看劍橋分析公司成功與失敗的相關記錄。
不幸的是,我們無法訪問他們的完整客戶名單,但我們確實知道,當他們第一次嶄露頭角時,是為Ted Cruz總統競選工作服務,Ted Cruz是共和黨參議員,被川普在共和黨的初選中幹掉。
我不是第一個注意到這種明顯矛盾的人,《VICE》的專欄作家Martin Robbins曾在《Little Atoms》上撰文提出了同樣的觀點。
因此,共和黨初選的故事實際上是劍橋分析公司的華麗數據科學團隊被一個擁有一千美元網站的老兄毆打。要把這一驚人的故事變成一個無與倫比的故事,讓川普不可阻擋地走向勝利,這是一個相當大的挑戰。他們還為誰工作過?如果沒有客戶名單,挑選優勝者是很容易的。
劍橋分析聲稱使用的技術涉及使用社交網絡數據來構建算法,以準確預測給定個人的個性和心理狀態下的消息類型。當他們談論使用心理學來微觀選民時,這就是故事的意思。但是,關於這種技術的有效性很多要求被誇大了。
作為爭論核心的劍橋學者Kogan提出了類似的論點。他聲稱自己正被當成替罪羊,並認為他收集的人格概況證明對於進行微目標所需的預測並不特別有用:
事實上,從我們對該主題的後續研究中,「他寫道,」我們發現,我們給予SCL的預測使得所有5個人的人格特質錯誤的可能性高出6倍,因為這是為了讓他們全部正確。簡言之,即使數據被運動用於微型定位,也可能實際上只會傷害他們的努力。
Kogan所說的話未必公正,但他的主張符合各種研究,這些研究顯示,惡意的社交媒體操縱並未取得令人矚目的成果。舉例來說,有爭議的Facebook「精神控制」研究,最近幾天我聽到了幾位記者的推薦。但在報導這項研究時,似乎總是缺少它的不足之處。
Facebook的「精神控制」研究和陰謀論
Facebook對近689000名用戶進行了一項實驗,在該實驗中,它調整了運行新聞feed的算法,以顯示更多來自好友的狀態更新,這些信息包含了積極或消極的詞彙。
正如任何研究人員所知道的那樣,在如此大的樣本中,你肯定會發現群體之間有顯著的統計學差異。一個更重要的標準是這樣的大群體的影響是多大。
在Facebook的研究中,這相當於一個真正可怕的差異:那些看到負面更新較少的人,在狀態更新中每100個單詞中多使用約0.05個積極詞,而那些看不到積極更新的人,每100個使用約少1個正面詞。
這是正確的,Facebook可能已經能夠操縱人們在更新中每100個單詞使用大約1個較少的正面單詞。如果將其描述為Facebook無能為力,更大的幹預將產生更大的影響,這將是錯誤的,但重要的是要正確看待事情。
真正的故事
真正的故事並不是Kogan,Wylie和劍橋分析開發了一些令人難以置信的高科技去黑Facebook。這就是說,除了Kogan的數據銷售之外,他們使用的數據在在2015年之前都是被Facebook所許可的。
自從這個故事被曝光後,劍橋分析就被認為是一個相當令人討厭的、不道德的公司——至少在它如何推銷自己給潛在客戶的過程中是這樣。
但是,媒體報導的關於其操控性權力的大多數報導,只是對劍橋分析公司(以及Chris Wylie)自我宣傳的一種不重要的反諷。問題是,幾乎沒有證據表明該公司能做它號稱能做到的事情,也沒有足夠的證據表明它不像它喜歡假裝的那樣有效——看到Ted Cruz現在不是總統的就是公司能力無效的事實。
沒有人完全不受市場營銷或政治信息的影響,但幾乎沒有證據表明劍橋分析公司比其他類似的公關或政治拉票公司更能夠針對選民。政治目標和虛假宣傳運動,包括俄羅斯推動的運動,肯定會對最近的選舉產生影響,但它們是否是關鍵因素?他們是否比科米宣布他在美國大選前一周「重啟」希拉蕊電子郵件調查的影響力更大?還是Brexiteers聲稱每周都有歐盟從NHS偷走2.5億英鎊?讓我感到懷疑。
澄清一下,我並不是在說劍橋分析和Kogan是無辜的。至少,很明顯,他們正在做的事情與Facebook的數據共享政策背道而馳。同樣的,Facebook在允許開發者訪問其用戶的私有數據方面顯得太過漫不經心。
我想說的是,劍橋的分析人士並不是他們被廣泛描繪的傀儡大師。它們對自己的能力提出了很多誇張的說法,並因此得到了很多關注。
***
數據安全和個人隱私問題已經越來越深入人心,Facebook在這起事件中的過錯不在「數據洩露」,而是數據共享策略,而這一點,影響更加深刻、在這個社交網絡的大數據時代,關係到千千萬萬開發者,以及我們每個人作為用戶。
這件事跟中國人關係可能更大,正如李彥宏所說:「中國人更加開放,或者說對於這個隱私問題沒有那麼敏感。如果說他們願意用隱私換,或者交換便捷性或者效率的話,很多情況下他們是願意這樣做的。」
原文連結:https://medium.com/@CKava/why-almost-everything-reported-about-the-cambridge-analytica-facebook-hacking-controversy-is-db7f8af2d042