大數據殺熟背後,是我們裸奔的隱私

2021-01-18 和訊網

  作者 | 漢陽樹

  數據支持 | 勾股大數據

  最近發生了一件令人氣憤的事情。

  我一般出差都是選擇一個固定品牌的酒店,稱之為A酒店吧,因為感覺價格合適,質量又比較穩定。久而久之,每到一個地方,我都會通過手機中某個APP選擇附近的A酒店,因為每次在APP中顯示的價格波動不大,便沒有多留意。

  但是上次通過手機訂好房間後,到了酒店大堂,發現這裡有顯示實時房間價格的電子顯示屏,不知道你們有沒有注意到,很多酒店都並沒有這種裝置。看到電子屏相同的標準間比我訂的價格便宜很多,我好奇是不是由於下單的時間原因,但在反覆對比後,我發現並不是,我用app訂的價格就是貴了一些,而前臺客服的手機APP裡顯示的價格就明顯低了很多。

  我問了我身邊的朋友們,發現針對老用戶收更高價格的現象並不少見——上班族們往返打車的路段往往會比不常在此路段打車的人收費更高;反覆搜索某個型號商品後會發現商品的價格在逐漸上漲,選擇越來越少;甚至於部分購物網站會搜集不經常給評論或者很少給出差評的數據,進而商家可以利用這些數據向他們發出質量較次的產品。

  如今有一個名詞來描述這種現象——大數據殺熟。

  1

  殺熟的背後,信息洩露日益普遍

  而大數據殺熟別後,反映的不過是日益嚴重的個人信息洩漏現實的冰山一角。

  通過收集與分析消費者社會屬性、生活習慣、消費行為等主要信息的數據之後,完美地抽象出一個用戶的商業全貌,稱之為用戶畫像。用戶畫像為企業提供了足夠的信息基礎,能夠幫助企業快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。

  在知乎「信息洩露可以有多恐怖?」話題下面有5000多條回答和6000多萬的瀏覽量。

  如果你曾經使用過支付寶或者微信的消費貸,那麼你大概率會隔三差五地接到各種小額貸款的簡訊或者電話;如果最近曾將開過股票帳戶的話,你估計最近會收到很多配資的簡訊;連你自己都忘記何時註冊了一個在線學習英語的帳戶,但是你仍然會頻繁地受到各種推銷電話的騷擾。

  2

  到底是誰洩露了我們的信息

  我用一個陌陌軟體的安裝過程來舉例APP會獲取我們什麼信息以及怎樣獲取信息。

  在應用市場搜索陌陌後,在應用詳情介紹下的應用權限項裡,可以看到系統顯示該應用獲取了14個敏感隱私權限。

  當然有人會說你可以在安裝過程中不接受啊。在我實際安裝過程中,首先彈出來的頁面就是下面這個,沒有不接受選項。在選擇一鍵開啟之後,會一一顯示是否接受這三個選項的界面,如果不接受的話就不能啟動陌陌。所以這三個是必須接受的,當然作為一款社交軟體,這個是可以接受的。

  接下來進入手機登錄頁面,當然你也可以選擇微信或者qq登錄,當時你仍然要綁定手機號。這裡最關鍵的就是最下面這一行不起眼的小字:註冊即表示同意《陌陌用戶協議》和《默默隱私權政策》。

  分別點開之後,《陌陌用戶協議》共計10791個字,《陌陌隱私政策》共計8674字。我分別在其中截取了一些內容:

  最後陌陌還保留了最終解釋權。

  陌陌在該處詳細列舉了用戶信息的收集和使用:

  如:

  除了以上這些較為容易理解的條款之外,協議中還有大量很多普通人難以理解的條款。一般人註冊這些帳號時,很少會關注這些隱私協議,基本都是秒按同意安裝。在這個過程中,你也就是默認了商家對你的諸多信息進行採集和利用。

  目前絕大多數APP都有這種隱含的協議,搜索軟體、購物軟體、社交軟體、地圖軟體、聽歌軟體,我們在接受算法帶來的更好的使用體驗時,放棄的是我們部分的隱私權作為代價。有些放棄也許是我們願意的,有些放棄是被迫的,或者是不知不覺的。

  除了這種通過單個APP內數據的採集信息的方式,還有一種是基於設備的採集方式。一些第三方數據服務公司通過各種開發者服務的SDK嵌入在各類APP中,通過各種各樣的APP獲取海量的和提供服務息息相關的匿名設備行為數據。

  對比之下,其他APP收集到的用戶信息僅僅是該領域內的信息,例如汽車類APP往往收集到的僅僅是用戶與「汽車」相關的信息,美妝類APP往往收集到的僅僅是用戶與「化妝品」相關的信息,在APP所針對的領域之外,用戶的其他信息都是模糊的。

  但是這種基於設備的採集方式,通過一定的人工智慧,機器學習,算法加工等,就能大概勾畫出這個手機設備持有者的一些特徵和行為標籤,並建立立體的、精準的用戶畫像。例如手機中裝了一堆美妝APP、大姨媽監測軟體、鏈家和安居客等軟體,且經常打開海淘軟體的用戶,大概率是一個打算買房的消費水平較高的女性,用戶畫像十分立體。

  3

  如何形成用戶畫像

  以上所說的仍然只是信息的採集,就好比是原材料,通過海量數據提取出真金白銀,最後形成具有商業價值的特徵數據,這需要考驗數據公司的大數據處理和分析技術,而不同的技術能夠產生的數據精度存在很大的差距。

  用戶畫像構建流程主要包括三部分:基礎數據收集、行為建模和構建畫像。其中數據處理的差異就體現在行為建模這一環中。

  在行為建模這一過程中,需要抽象出能夠代表實物的一些典型特徵,對於人類來說,比如身高、體重、膚色、眼睛大小等等。然後通過機器學習的方法,構建一個類似於Y=kX+b的算法,其中X代表已知信息,Y代表用戶畫像,通過不斷的精確k和b來精確Y。

  我們通過網易雲音樂來介紹建模過程。相信很多人都知道網易雲音樂會根據你之前的聽歌習慣來給你推薦新的歌曲,在這背後,也是由算法來支持的,而且這種算法也在持續的改進,最終推薦的歌曲也會越來越滿足特定用戶的口味。

  這裡嘗試介紹一種簡單的算法,其核心是數學中的「多維空間中兩個向量夾角的餘弦公式」。此處引用了知乎「網易雲音樂的歌單推薦算法是怎樣的?」下邰原朗的回答:

  以三首歌來舉例子,《最炫民族風》,《晴天》,《Hero》。

  A,收藏了《最炫民族風》,而遇到《晴天》,《Hero》則總是跳過;

  B,經常單曲循環《最炫民族風》,《晴天》會播放完,《Hero》則拉黑了

  C,拉黑了《最炫民族風》,而《晴天》《Hero》都收藏了。

  這裡可以看出,A,B二位品味接近,C和他們很不一樣。那麼問題來了,說A,B相似,到底有多相似,如何量化?

  我們把三首歌想像成三維空間的三個維度,《最炫民族風》是x軸,《晴天》是y軸,《Hero》是z軸,對每首歌的喜歡程度即該維度上的坐標,並且對喜歡程度做量化(比如: 單曲循環=5, 分享=4, 收藏=3, 主動播放=2 , 聽完=1, 跳過=-1 , 拉黑=-5 )。

  那麼每個人的總體口味就是一個向量,A君是 (3,-1,-1),B君是(5,1,-5),C君是(-5,3,3)。我們可以用向量夾角的餘弦值來表示兩個向量的相似程度, 0度角(表示兩人完全一致)的餘弦是1, 180度角(表示兩人截然相反)的餘弦是-1。

  根據餘弦公式, 夾角餘弦 = 向量點積/ (向量長度的叉積) = ( x1x2 + y1y2 + z1z2) / ( 跟號(x1平方+y1平方+z1平方 ) x 跟號(x2平方+y2平方+z2平方 ) )。 A君B君夾角的餘弦是0.81 , A君C君夾角的餘弦是 -0.97。

  以上是三首歌的情況,對於多首歌也可以進行如法炮製,建立N維N首歌的坐標系。以上的思想核心就是,一個和你聽歌習慣特別相似的人,那麼他喜歡聽的其他歌也大概率是你喜歡聽的歌。這是建立在以人為本的基礎上。

  還有一種思想是建立在以物為本的基礎上,簡單說,就是買了X物品的人,一般都會買Y。比如網易雲音樂新來了一個用戶D,只知道她喜歡最炫民族風,那麼問題來了,給她推薦啥好呢?

  如下圖,數字代表對某首歌的好感度。通過將A/B/C三人對最炫民族風和其他兩首歌的好感度之差求平均,得出一般人對這些歌好感度差值的平均值。最後求出D對於另外兩首歌的好感度。

  現實中,由於數量量更大,算法也更加複雜,所以最後得出的預測值精度也會更好。同樣的,也有海量的模型用於預測其他類型的用戶特徵。

  4

  我們能保護我們的隱私嗎?

  在瀏覽器中搜索「如何保護隱私」,我們可以得到大量保護隱私的技巧,比如說不在公共區域登錄wifi,及時清除上網數據,在安裝手機APP時注意有沒有不合理的隱私獲取請求、遠離那些測試自己的心理年齡愛情運勢的小網站等等。

  然而網絡的發達和各種手機應用的興起本質是服務我們的生活,如今我們為了保護隱私反而不得不小心謹慎,這必然是捨本逐末的。再者,就算你小心謹慎,你採取的這些防護措施在多大程度上真的可以保護你的隱私?

  前段時間的一篇爆款文章《為什麼我的兒子不沉迷遊戲?》,講的是一個資深遊戲策劃現身說法如何讓孩子不沉迷遊戲。在文中,作者提到商業化的網路遊戲,都是為讓玩家沉迷所設計的。每一個爆款遊戲背後都是成百上千的經驗豐富的工程師、遊戲策劃甚至心理學家,在反覆揣摩怎樣將遊戲設計的讓人上癮,遊戲產品也在持續反覆迭代。

  勢單力薄的個人該如何與這種精心設計的誘惑向對抗?同樣的,數據公司也會絞盡腦汁地採用新的技術來採集你的數據,你們兩者根本就不在同一個維度。

  26年前《紐約客》封面的漫畫上,洋洋得意地宣揚「在網際網路上,沒人知道你是一條狗」。

  然而26年的今天,利用大數據,你是黑是白、住在什麼地方、吃什麼牌子的狗糧、喜歡在哪裡散步這些都是可以獲取的。

  在龐大的數據面前,人類越來越像一個提供輸入的變量角色。你使用的APP,正在試圖了解和定義你。

本文首發於微信公眾號:港股那點事。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

(責任編輯: HN666)

相關焦點

  • 何為大數據殺熟
    何為大數據殺熟? 「大數據殺熟」主要的邏輯:只要你在網際網路上有留下痕跡,企業就可以通過各種手段,包括不僅限於買賣數據、濫用權限等來獲取用戶的訪問/瀏覽/購買等行為數據,收集消費者的信息,分析消費偏好、消費習慣、收入水平等信息,建立用戶畫像/用戶行為,對不同群體/不同行為的用戶進行歸類,方便實施不同的營銷手段,以達到利益最大化的差別化價格策略。
  • 美團「大數據殺熟」背後的倫理之困
    來源:《財經》雜誌原標題:美團「大數據殺熟」背後的倫理之困近來,一篇《我被美團會員割了韭菜》刷屏各大網站,更衝上了微博熱搜,美團傾刻間身陷「大數據殺熟」漩渦。這則回應沒有承認是「大數據殺熟」,不過是技術問題,程式設計師得背鍋了。僅僅一次「殺熟風波」,12月18日美團股價大跌 3%,逾 400 億市值瞬間蒸發。美團到底存不存在「大數據殺熟」,已不再是問題的關鍵。
  • 警惕大數據「殺熟」背後的算法權力
    核心觀點:大數據「殺熟」與數字經濟中的算法權力問題密不可分。當消費者個人數據成為數字經濟中的「流通物」而被獲取和使用時,任何情況下都要考慮到對這些數據的保護,而企業對消費者個人數據的挖掘和使用必須讓消費者知情並經過消費者的授權。
  • 平臺屢陷「大數據殺熟」背後 - 西寧晚報·數字報刊
    近日,有外賣平臺陷入「大數據殺熟」質疑,由此引發公眾對多個網絡平臺曾陷「大數據殺熟」爭議的再度關注。 2018年,「大數據殺熟」問題開始進入公眾視野。根據北京市消費者協會於2019年初進行的調查,有超過五成的受訪者表示有過被「大數據殺熟」的經歷。
  • 外賣平臺涉嫌大數據殺熟,處理不能「自說自話」
    對於涉嫌大數據殺熟的行為,司法該如何有效介入?作為監管部門和服務提供單位,應各自承擔起怎樣的責任?上述問題,必須在平臺發展運營的過程加以解決。倘若失去對消費者權益的尊重和保護,也就難以建立起人們的安全感,間接失去了公平互信的市場。<br/><br/>  事發之後,平臺方迅速回應用戶關切值得肯定,但不能就此戛然,第三方調查取證,汲取教訓並提升產品和服務水平,才是題中應有之義。
  • 外賣大數據殺熟說明了中國網際網路的短視,而外國企業用大數據創新
    近期外賣企業大數據殺熟受到知名媒體的批評,同時也證明了這一事實,由此可以看出中國網際網路行業的短視,相比之下外國企業卻是利用大數據進行創新,這或許就是中外網際網路行業最大的不同吧。大數據殺熟的疑問其實早已存在,例如此前的網約車企業殺熟就曾引發巨大的爭論,不過當時並未有權威機構對此證實,而相關的網約車企業也迅速對此否認。這次外賣企業以大數據殺熟則得到了知名媒體的證明,說明了中國網際網路企業確實有利用它們掌握的大數據謀求更豐厚的利潤,宰割國內消費者。
  • 大數據殺熟:人眼有5.76億像素卻總看不透人心,但大數據行!
    最近美團、飛豬因「大數據殺熟」而被浙江消保委點名,這不就預熱起來了。10月19日,浙江消保委發布2020年第三季度受理投訴分析,點名曝光了美團、飛豬等在線平臺存在退訂難、大數據殺熟、虛假宣傳等問題。什麼是殺熟?通常就是相同的商品或服務,平臺對「熟客」索價高於「生客」的現象,這叫。熟客要交忠誠稅。
  • 反壟斷破除大數據「殺熟」頑疾
    12月17日,「大數據殺熟」又被頂上微博熱搜,這一次的主角是美團。打車軟體對相同客戶採取不同定價,訂酒店會員比普通用戶花錢更多……近年來,「大數據殺熟」頻上熱搜。
  • 「大數據」殺熟再現市場,你被「坑」過嗎?要如何解決這個問題?
    隨著網際網路的技術的發展,手機成為了很多人最親密的「戰友」,訂餐、打車、住宿、網購、電影等等均可以在手機上實現,由於在下載安裝APP時,無一都要求必須授權讀取我們的各類信息(位置、相冊、簡訊、通訊錄、機器識別碼、存儲內容等等),所以我們在各類APP前面其實屬於「裸奔」的狀態,由此也引出了一系列大數據殺熟事件
  • 大數據殺熟行為10月1日起明令禁止 大數據殺熟是什麼意思
    國慶將至,一條與在線旅遊相關的話題——「大數據殺熟行為10月1日起明令禁止」登上微博熱搜榜第11名。根據《在線旅遊經營服務管理暫行規定》第十六條,在線旅遊經營者不得利用大數據等技術手段,針對不同消費特徵的旅遊者,對同一產品或服務在相同條件下設置差異化的價格。根據微博眾多網友評論可以看到,住宿、出行、票務、電商購物等領域或多或少可能存在大數據殺熟的案例。大數據殺熟是指同樣的商品或服務,老客戶看到的價格反而比新客戶要貴出許多的現象。
  • 大數據殺熟是什麼意思?大數據殺熟行為明令禁止是怎麼回事?
    大數據殺熟是指同樣的商品或服務,老客戶看到的價格反而比新客戶要貴出許多的現象。經營者運用大數據收集消費者的信息,分析其消費偏好、消費習慣、收入水平等信息,將同一商品或服務以不同的價格賣給不同的消費者從而獲取更多消費者剩餘的行為。
  • 美團外賣大數據「殺熟」,程式設計師成了「接鍋俠」,簡直不講武德!
    但不可否認,數據和算法成為更有力量的工具後,我們在現實生活中的羸弱也可能變得更加隱蔽。 1、大數據殺熟並不準確,大數據宰客更熨帖 其實大數據殺熟,是一個通俗的說法,並不準確,更貼切的應該叫「大數據宰客」。既然是宰客,就不會刻意區分什麼「生熟」,判斷的核心依據是用戶對價格敏感程度。
  • 為什麼大數據不殺熟 ——線上購物中的隱私披露與定價策略
    所以,商家可以根據我們的隱私數據對我們進行價格歧視,即「大數據殺熟」。那麼,如果商家承諾不根據隱私為我們進行個性化定價,我們會以更低的價格買到心儀的商品麼?今天推介的文章是Ichihashi發表在American Economic Review上的文章Online Privacy and Information Disclosure by Consumers。
  • 大數據殺熟,為什麼越來越肆無忌憚?
    當年,攜程遭網友多次爆料,在機票、高鐵、酒店價格上進行大數據殺熟,攜程回應稱平臺從未有過該行為,此後依然頻繁爆出新老用戶價格不對等的情況。殺熟機制受益於大數據技術的發展,當大數據技術越發達,智能化程度越高,當平臺經營者擁有市場支配地位、數據的收集與運用能力,將會積累起隱性侵害熟客消費者的能力。張敏解釋道,目前大數據殺熟算法主要依託類線性空間算法、類線性時間算法和並行算法等技術。
  • 大數據時代下,你被「殺熟」了嗎?
    大數據時代下,你被「殺熟」了嗎?相信大部分人的回答是肯定的。殺熟,顧名思義,就是指商家通過分析常客的消費習慣來制定對應的套餐,使得名義上相同的商品在熟客和生客之間有區分,即熟客收到的產品的性價比更低,也因此,商家在熟客這裡獲利更大。
  • 美團會員成「韭菜」,大數據殺熟是如何收割用戶的?
    像這樣的案例不勝枚舉,可以說國內各大網際網路平臺已經陷入了大數據殺熟的重災區。 近日,美團大數據殺熟事件,再次引發輿論關注。 從2018年3月開始,大數據殺熟一詞進入公眾的視野,據《中國青年報》對2008名受訪者的調查,51.3%的受訪者表示自己遇到過網際網路企業大數據殺熟的情況,63.4%的受訪者認為網際網路企業利用大數據殺熟的情況普遍。
  • 美團終究還是「大數據殺熟」了
    美團終究還是「大數據殺熟」了 馬微冰,蔣澆 發表於 2020-12-18 14:20:04 在大數據構築起的網際網路時代,殺熟事件屢見不鮮,這次被意外曝光的是美團。
  • 還在網際網路下「裸奔」?看密碼學大牛如何破解用戶數據隱私難題
    一直以來,用戶從不強調自己是自己數據的主人,相反地,網際網路的潛規則是,所有用戶都是平臺的數據的勞工,用戶在不斷為平臺輸出有價值的數據而不自知。 至少過去很長的一段時間裡,網際網路內大部分的用戶都在「裸奔」,槍響之前,每個人都認為隱私洩露離自己很遠。
  • 深圳將出臺國內首部數據領域綜合性地方立法,禁止大數據殺熟
    本文轉自【中工網-工人日報】;2020年12月28日,廣東深圳市六屆人大常委會第四十六次會議首次審議了《深圳經濟特區數據暫行條例(草案)》(以下簡稱《草案》)。這是我國首部數據領域的綜合性專門立法,首次提出「數據權益」保護,明確規定收集、處理涉及隱私的個人數據須得到明示同意。
  • 大數據殺熟:鈍刀子割肉 真相讓人痛
    在知乎一則與「大數據殺熟」相關的話題下,一共有近兩萬關注者,超過三千條評論,其中超過六成用戶表示,自己在預訂酒店、機票、門票時,被OTA平臺殺熟。令人費解的是,網際網路時代,資訊如此發達,貨比三家也僅需點點滑鼠、滑滑屏幕就可以完成,為何還會有如此多的用戶「控訴」曾被平臺殺熟?而大數據殺熟到底是不是很多網絡平臺的「潛規則」?如果是,那麼這種殺熟利用的究竟是技術優勢,還是人性的弱點?忠實用戶的信任,讓大數據殺熟「鈍刀子割肉」