獵雲網9月12日報導 (編譯:小白)
作者簡介:Mr. Rudder,OkCupid的總裁兼聯合創始人之一,著有「Dataclysm」一書。在本文中,他指出了網絡服務提供商收集用戶數據是完善服務的必要手段之一。但是這種數據收集必須要有規範的底線標準作為監控。
OkCupid,一個我參與建設的約會網站,今夏對外宣稱說通過對其小部分用戶數據的測試,證明了他們所用的匹配算法是十分有效的。我們一直在利用網站的數據來完成某些測試,我們之所以關注這些測試是因為這些數據結果有助於我們提高用戶的體驗。測試很簡單,而且每個數據提供者都會在試驗結束後被告知。
但是人們得知我們所做的試驗後,對此十分牴觸。回想起來,是我們公布測試結果的方式觸怒了公共大眾。我們在我們自己的博客上提到了這項測試,向大家解釋了我們的測試結果,卻對測試的目的隻字未提。用戶數據的收集和分析極具敏感性和複雜性。我們對一項重要問題的分析變得如此令人討厭,而且很多人甚至認為我們私下裡根本不把用戶的感情生活當一回事。這是個令人不安的想法,即使事實並非如此。然而,我們可以為我們發布測試結果的方式向公眾道歉,但是此問題引發的強烈抗議帶來的一系列更大的問題,是OkCupid和其他任何一家公司都無法解決的。
和其他數據專家一樣,我擔心這些辯論會錯過一些珍貴的機會——在6月份的一次辯論中Facebook透露,它已經改變了它的新算法。網際網路積累了大量的信息,在這些信息背後隱藏著不可估量的社會潛力。用戶為公司提供的數據幫助他們改進了他們的網站、獲得利潤;這是眾所周知的事實。但是相同的數據也可能阻礙對社會的重新認識和發現新科學。
OkCupid的實驗以制定更優秀的匹配為終極目標測試了我們對共同性的評估。對任何兩個兩戶,我們通常以兩人之間興趣愛好的相似程度來評估匹配的可能性。但是在這項測試中,我們用「placebo」替換了我們的猜測,「placebo」是針對某一對用戶的隨機數字。實際上,我們一直忽視了共同興趣愛好在預測兩人之間吸引力的作用(基於「異性相吸」的可能性或者共同興趣愛好根本與吸引力無關的想法)。但是其他用戶用來選擇另一半的信息——例如個人簡介,照片以及個人陳述等等,我們依舊保留著。
我們發現具有相同興趣愛好的兩個人確實能夠相處的更好,但我們還發現如何定義這個相似程度對結果具有重要的影響。也就是說,人們不會憑空找到「很多相同點」,即使是像我們這樣成功的網站——我們還是需要對這個共同性多加注意。我們相應地改變了OkCupid的界面,現在我們更強調相似程度值的高低。
與此同時,我們把共同愛好的「定義」歸入到我們的心理檔案中,與過去十年中我們在人們身上發現的其他數百件事情歸類到一起。在這些發現中,有女性法官的嚴厲程度是男性法官的兩倍,有人們眼中的美會像物理數值一樣呈指數增長——比如芮氏規模,有政治在約會中的作用並沒有你想的那麼重要,也有白人喜歡討論他們的頭髮。
我們的工作是幫助人們走到一起。基於這個原因,我們在人們是如何走到一起這個問題上做了很多的研究。
其他的網站,有著不同的目的,因此也著力於研究其他方面的事情。總而言之,我們正在努力了解人性。社交網站正在重塑社會學——它把社會學從過去傳統的調查問卷和實驗室中解放出來從而走進真實的生活中。
在網上,你有好友,情人,也有敵人,有那麼幾次你甚至強烈的感覺到沒人知道你在做什麼。表面上看來確實如此——當然除了你的電腦機械地記錄著這一切。一旦收集並隱去個人信息,那些記錄的數據,不管是從試驗中收集的還是用戶直接提供的,都能夠告訴我們,我們的生活是一個什麼樣子。
OkCupid偶爾會與公司外的學者合作改進我們的發現,但是有些公司已經將這種合作關係內部化了。Facebook就為自己建立了一個世界一流的研究團隊,專門解析他們數據結果的學術價值。就在過去一年裡,他們追蹤了我們為了研究謠言傳播方式的而分享到狀態更新上的模因;他們發布了一篇對情侶之間朋友關係絡的調查論文(令人驚訝的是在這篇論文裡發現,一個分散的朋友關係網可以使婚姻更加穩固);他們還跟蹤了當人們開始集體遷移到城市中心時,東南亞村莊人口減少的情況。
Google也有對社會研究進行投資。Seth Stephens-Davidowitz,Google社會研究的一位科學家,最近利用搜索數據對美國社會的同性戀人群進行了估計。他證明了意見的不寬容是如何讓兩人保持親密的關係。他給我們看了一組圖片,和壓抑的情感代價有關:搜索「我的丈夫是同性戀嘛」這個內容在那些禁止同性戀結婚的州更為常見,同樣的情況如Craigslist網站上匿名同性戀性行為的帖子數量。如他所說,「有大量的秘密在美國沒有被公開,這些可以直接被歸咎於對同性戀不寬容導致的。」他用我們收集的數據解釋說。
這些研究的可能性根據人所處的環境、身份等不同而各不相同,它的獨特之處是可以發現隱藏的故事,因為數據揭示了我們正在做什麼,而不僅僅是我們正在說什麼或者我們希望做什麼。特別是Facebook,由於它在全世界的廣泛流行,使得它的研究人員可以了解到其他研究人員無法接觸到的人群。我曾經親眼見到OkCupid的消息模式是如何出賣我們對黑人用戶的偏見——這種偏見甚至依然存在沿海,高層次,看上去進步的觀眾中間。在Google,他們還發現美國人每年搜索種族笑話的次數至今仍保持者數百萬次。這些都是值得我們了解的。
至今仍有許多倫理問題有待解決。我發現網站和他們的用戶之間最直接的溝通交流還需要改進。我們如何在保護個人隱私的同時又繼續使得缺乏明顯個人信息的數據存在其本身的意義呢?我們又該怎麼保證用戶不會處在任何的風險中?什麼是在允許的範圍,什麼又是應該被禁止的呢?
傳統的科學多年來一直都在尋找這個答案。數據科學已經開始制定標準,但是它必須馬上成熟起來。我希望與科技公司能有更多的合作(以及較少的指責),對於科學家和學者,我們將努力把過去的研究方法轉變到我們的新媒體中去。
我們生活在一個隱私越來越少的世界。技術掌握了我們生活中重要的部分。這是一個事實——由我們這些網絡創建者以及用戶們共同創造的。
我們都知道技術公司所創造的巨大財富,但是許多業內人士認為其中有著某些極具知識和價值的東西。我是其中之一,同時我也渴望看到價值的實現:從我們所知道的新的知識到一個永恆的好處。
Source:TC