大數據分析看如何成為美人

2021-02-17 SAS中文論壇

回復「朝陽35處」可查看「說人話的大數據」系列合輯

這篇文章探討的是女性吸引力,但沒有通常看到的照片分析之類的東西。相反,我們採用過去的女人圖片,分析她在男同胞們頭腦裡產生的反應。 我們將展示以下顯著的現象:


• 男人們作為一個群體對女性長相越有分歧,最後喜歡她的人越多。 • 男人們通常會忽視掉那些僅僅可愛的女生。 • 事實上,有些男人認為她長得醜,這反而會幫到這個女人。


公 正性警告:我們將把女性作為客觀對象來討論,不惜筆墨。本文的目的是分析OkCupid網站的數據,沒有一點點客觀對象化是不可能的。不久會輪到把男性作 為客觀對象來分析展示給大家。按照慣例,本文中沒有任何分析(名人的例子除外)是我個人的觀點。所有數據均是從實際用戶活動中收集的。

1. 咱們從頭開始。

所 有的人,尤其是男人們花費大量精力搜索、瀏覽和聯繫我們最熱門的用戶。正如以前提到的,受歡迎女性收到的交友信息大約是相貌平平女性的4倍(備註:原文用 4X表示),是醜女收到的25倍(備註:原文用25X表示)。深陷信息中會把網站用戶,尤其是女性嚇跑。因此,我們必須分析和重新指導這個趨勢,以免 OkCupid成為sausageparty那樣的網站。


幾乎每隔一段時間,我們都會運行下面這樣的分析圖,顯示以5000名女性為例,按吸引力排序,在上一個月中能收到多少信息。


這 些圖按種族、位置、年齡、檔案完整程度、登錄活躍程度等做了調整——這些人之間唯一有意義的不同點是她們的長相。運行許多這樣的圖之後,我們開始問自己: 還有什麼原因導致X廣泛分布,尤其是佔了圖中一半數量的「長相高於平均水平」人收到的信息量有多有少。難道僅僅是隨機現象?


下面是這個女性的分析:

她得到的關注比下面的女性要高:


…儘管根據我們的用戶反饋,她們都是美人

2. 美麗(7分)並不相同

為了解釋這種現象,第一步就是用數學方法來區分吸引力的程度。 比如,採用經典的10點分來作為「長相」的滿分,如果一個人的評分為7,這可能是因為每個看到她的人都會這樣想:她非常可愛。


但是極有可能出現的卻是下面這種情況:


如果我們只知道她的評分為7,是沒法看出她屬於上面哪一類的。也許對於有些人來說假設的滿分美女是不同凡響、引領潮流的,而其他人認為美女是享樂主義的。誰知道呢? 事實證明,這種分布的觀點非常重要。

3. 名人照片:拋磚引玉 和 說明

讓我們來看看一些著名人物的評分的分布情況是什麼樣的。我猜想,比如說女演員克裡斯汀.貝爾的長相評分大致是這樣的:


貝爾小姐被大眾認為是美女,但她的分數看上去並不像是一個超級名模或者什麼頂尖人物。她可能在「非常美」的評分範圍只能得到幾票,大多數的票數在「非常有吸引力」左右,沒人把她的票投在圖表左端的「不吸引人」上。


相比較而言,梅根·福克斯可能得到這樣的評分:


圖表最右邊,可能有很多的帥哥覺得她是最性感的。在最左邊,少數人看過她的電影。


與貝爾小姐不同,福克斯女士讓人們產生了強烈的反應,即使有時這種反應不是正面的。

4. 現實生活的人們

現在讓我們回頭再來看前面的兩個真實用戶,這一次用她們的圖表。 OkCupid網站按從1到5星級評價長相,所以其它討論都以此為根據。本文展示的所有用戶都是慷慨的女性,她們有足夠信心允許我們在網站上做分析,感謝她們。好了,這裡有:


正如你看到的,儘管上面這兩名女性的吸引力評分非常接近,她們收到的投票 模式卻有所不同。左邊的評分顯示人們有所共識,右邊的評分顯示了意見分歧。


再細緻一點說來就是:

左邊的女士,在絕對意義上,認為稍微更有吸引力

右邊的女士,相對多達142%的人們給了她最低分

然而,右邊女士收到的交友信息是左邊女士的3倍。


當我們開始用其他」長相和側臉相似,但收到的交友信息數不同」的人來配對時,這種模式一次又一次呈現。收到消息少的女性通常被認為有一貫的吸引力,而收到消息多的女性往往在男人看來吸引力有分歧。下面再舉幾個例子:


男人對女性長相越有分歧,就有越多的人喜歡她。 我 們感覺似乎能發現什麼,所以,作為數學書呆子,穿上運動褲。然後做了一些分析。 我們的第一個結論是:對女性評分數和她收到的交友信息數量做標準差比較,發現,男人們對女性長相評價的分歧越多,就有越多人喜歡她。對此繪製的喜好偏差與 收到的交友信息的關係曲線如下,再舉一些例子。


圖中沿曲線標識的女性在吸引力排名中大約為前80%。


這得用一點算術,而且很難用簡單的折線圖來解釋。基本原理是:根據女性得到的投票數,用一個公式來預測女性能得到多少關注量,關注量的計算是基於曲線上的投票數。用這個公式,我們可以把「男人認為女性長得怎麼樣」翻譯成「她能得到多少關注」。

我們得出的公式看上去不透明,但是用它計算,就會看到人們有趣的觀點,以及男人們會向哪些女性示好。


*******************************************

如果你對代數感興趣

我們以43000名女性的數據作為樣本用回歸法分析。 為保證前提一致,所有這些女人是異性戀, 年齡介於20和27歲之間,而且住在同一個城市。本文中給出的公式是降低m3,使其p值非常接近1後,第二次回歸得到的最佳結果 。


Msgs是觀察期內女性收到消息數量。常數k反映了她在整個網站的活動水平。對於這個方程, R2 = .28, 這在實驗或問題研究中並不是一個大數字,但應用在真實的社會環境中非常好。


*******************************************


需要搞明白,最重要的是ms代表男人對她長相評價的投票,以此算出她收到的交友信息數曲線,譬如:


那些前面帶正號的投票數(ms):表示男人會發信息給女性,前面帶負號的:說明要減去信息數量。這個公式告訴我們的有以下信息: 認為你火辣(hot)的男人越多,你收到的信息就越多。 

我們怎麼知道此原理的——m5前面的0.9是最大的正數,也就是說,認為你很迷人(投票給你一個滿分』5′)的傢伙們是給你發信息最多的貢獻者。這當然是個預測結果,提示給我們:公式是能講得通的。 覺得你可愛(cute)的男人,實際上應從你收到的信息中減掉。 我們怎麼知道此原理的——因為m4前面的係數0.1是負數。這就說明,給你投票為』4′ 的人,認為你長相高於平均水平的那些人,實際上應從你收到的信息中剔除。非常令人驚訝。事實上,當你把它和m1前面的正數一起看,我們的公式從統計上看能說得通:


如果有人認為你不火辣(hot),那麼最好接下來他們認為:你醜。


這是一個非常瘋狂的結論,但我們每次計算——通過變換約束值,嘗試不同的數據樣本等,這個理論都會顯現生效。

5. 我們的想法是怎麼回事

所以這便是我們的悖論:當有些人認為你丑時,其他人更有可能發消息給你。而當有些男人覺得你很可愛時,其他男人對你倒是缺乏興趣。為什麼會出現這種情況?也許得用點博弈論來解釋:


假設你是個男人,並真地對某人感興趣。如果你懷疑其他男人都不感興趣,就意味著更少人來競爭。因此,此想法會激勵你給她發送消息。你可能會想:也許她很孤單……也許她恰好在等待一個欣賞她的人……至少我不會埋沒在人群裡……也許這些小心思,加上事實上你真地覺得她漂亮,會促使你行動。發給她你精心考慮過的完美的開場詞。


「最近好嗎」


另一方面,』4′票佔多數的女人,通常被認為可愛,但並不火辣,看上去的情形可能比實際上更受歡迎。一般男人會這樣考慮:她的魅力明顯足以吸引其他人和她交往。但不足以使男人不顧一切地給她發交往信息。這就是可愛的矛盾之處。
整個情形看起來是這樣:


6. 最後:這對你意味著什麼?

我不認為每個女人都關心是否其他人關注她。但是如果你關心的話,上面的分析有什麼實際意義呢? 好吧,從根本上,改變你的整體吸引力很難(也就是開篇我們討論的長相評分)。但是你創造出來的差別是掌控在自己手中的,很簡單,即:把差別最大化:


採用任何你認為有些人不喜歡的方式,突出展示出來。

正如你可能已經注意到的,帶紋身和穿孔的女性似乎憑直覺把握了這個原則。她們炫耀自己與眾不同之處,才不管人家喜不喜歡呢。而且她們得到很多人的關注。


但我們的建議可以適用於任何人。瀏覽OkCupid網站時,我發現眾多照片顯然在儘可能減少一些不具吸引力的特徵——一個可能超重的人從生活照中剪切出來的頭像就是典型的例子。我們有些算法表明:消減你的「瑕疵」 達到的效果會是相反的。如果你有點小胖,展示出來。如果你有一個大鼻子,展示出來。如果你有一個奇怪的暴牙,展示出來:從統計學上來說,不喜歡它的男人只會幫到你,那些喜歡它的人會更興奮。

轉自:愛數據網;

版權聲明:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯繫。

2月原創好文回顧,請點擊閱讀:

7扇門|99%信貸調查員不知道的事

朝陽35處|養娃聖地居然有TA?大數據揭露不能不說的秘密

零道書院|世界末日現場,程序猿一鍵重啟了世界

7扇門|武功秘籍大揭秘——反欺詐降龍十巴掌

朝陽35處|少林七十二絕技:特徵工程進階

零道書院|豆瓣的混合開發框架 -- Rexxar項目實踐

7扇門|大數據時代,一張保單多少錢?

朝陽35處|數據科學的江湖:劍宗與氣宗之爭

零道書院|「羊毛黨」最怕啥?

朝陽35處|為了拜年,處座竟曝了這麼多料

相關焦點

  • 大數據學習:Spark是什麼,如何用Spark進行數據分析
    什麼是Apache Spark?從速度的角度看,Spark從流行的MapReduce模型繼承而來,可以更有效地支持多種類型的計算,如交互式查詢和流處理。速度在大數據集的處理中非常重要,它可以決定用戶可以交互式地處理數據,還是等幾分鐘甚至幾小時。Spark為速度提供的一個重要特性是其可以在內存中運行計算,即使對基於磁碟的複雜應用,Spark依然比MapReduce更有效。
  • 美團點評開放吃喝玩樂大數據,深度分析大數據如何助力產業升級!
    ,主要是吃啥、玩啥、去哪、看啥四大分類,在這些數據大類下還有二級類細分更多數據,這些數據實時通過中國地圖顯示出來,同時還有細分品類的TOP排行。 在上海交大、北大和清華大學研究生院進行O2O助力產業升級的培訓中,我為學員詳細分析了大數據的「5V」,其中最主要的一個部分就是「Value」,也就是大數據的價值數據部分。在所有商業化的數據中,最有價值莫過於「交易數據」。
  • 清研智庫:地理空間信息如何助力大數據分析?
    大數據分析幾乎影響到了經濟的每一個領域,毫無疑問它也在改變著我們處理地理空間數據的方式。不過,這種影響是雙向的。分析更多數據的能力使地理空間數據比以往任何時候都更強大、更有價值,取材自物聯網的地理空間信息正在為大數據分析注入超級動力。
  • 上菜Ⅱ:看大數據是如何走進廚房的
    前有「舌尖」系列的全民狂歡,眼下正有BTV生活頻道 「上菜」的來勢洶洶。準確地說,「上菜」這檔美食美景真人秀節目才更具「全民」狂歡色彩,by the people for the people,大數據取之於民用之於民,作為國內首檔美食大數據節目,「大數據」還真的不是空喊幾聲的噱頭。大數據+電影,大數據+金融,大數據+電商……「大數據+」似乎已經成為了萬能搭配。
  • 解讀2020數據分析技術十大趨勢,看DataFocus如何持續創新!
    解讀Gartner 2020數據和分析技術十大趨勢,看DataFocus如何持續創新! 新冠疫情對數據分析領域有什麼影響?新的技術又將帶來哪些機會?每個數據分析領域的創新者和從業者都在關注著這些問題。
  • 大數據行為分析3大主要功能
    ,也能夠有效隨時的收集海量的數據,達到快速分析的效果,確保大數據行為分析的響應,可是到底包含哪些常見的功能?******眾多產品的一種體驗,建議用戶需要辨別真偽,擦亮雙眼,在考核大數據行為分析時,必須要確保對於幾個要素進行評估,這是大數據行為分析過程中重要的關鍵,也能夠有效隨時的收集海量的數據,達到快速分析的效果,確保大數據行為分析的響應,可是到底包含哪些常見的功能?
  • 辦公必備的大數據分析利器,數據分析工具推薦
    說到數據分析,很多小夥伴可能第一時間聯想到複雜的算法,龐大的數據,甚至是讓人眼花繚亂的代碼。但實際上,運營做數據分析並不需要懂這些,關鍵是你對業務流程的理解,以及用數據解決問題的思維。本文將介紹在一些領域被高頻率使用,且不可缺少的大數據分析利器,使用尚可的數據分析工具。
  • 如何使用Excel進行數據分析?
    1.注意事項數據分析的對象雖然不僅僅局限於純粹的數字類信息,但是Excel 分析工具只能對數據類信息進行處理。因此在使用Excel 分析工具時要靈活地將文字、圖形類信息轉化為數據信息。其方法是用數字代碼來代替非數值類信息。
  • 不會代碼,如何自助進行數據分析?
    不會代碼,能否自助進行數據分析?數據分析師一般需要有紮實的SQL基礎、有統計學基礎、能熟練使用Excel且至少掌握一門數據挖掘語言等素質。那麼,對於不懂代碼、沒有SQL語言基礎的業務人員,能否進行數據分析呢?
  • 數據分析如何選擇行業
    顯然我從事的職業沒有數據發展的通道,如果我轉而做BIM,然後再去做建築行業的數據分析,也未嘗不可,至少我所學過的知識不會變成沉沒成本,因為畢業太久,即使師出同門也早已走向不同方向,我從事建築行業的數據分析也要重頭開始,而且建築行業的數據分析屬於小眾,並不如電商,網際網路金融這麼多需求量大,所以決定放棄所學專業和專業知識。
  • Excel操作技巧:常見的統計分析方法,讓你成為數據分析高手!
    昨天的文章中,我給大家分享了數據統計分析的第2步,數據整理的具體方法:1、表格規範化2、智能表格今天的文章,我來給大家具體講解一下數據統計分析的第3步——統計的分析具體方法。這裡有幾個技巧,大家可以學習一下:1、統計分析方法2、數據透視表學會這幾點,你才能真正成為數據分析高手。技巧1:統計分析方法對於很多職場新人來說,看到這樣一張數據表格,完全不知道如何下手,沒有分析的方向。不知道要從哪些角度,去分析這些數據,這是因為他們還沒有學習具體的統計分析方法。
  • 對比解讀五種主流大數據架構的數據分析能力
    隨著大數據技術的發展,數據挖掘、數據探索等專有名詞的曝光度越來越高,但是在類似於Hadoop系列的大數據分析系統大行其道之前,數據分析工作已經歷了長足的發展,尤其是以BI系統為主的數據分析,已經有了非常成熟和穩定的技術方案和生態系統,對於BI系統來說,大概的架構圖如下:
  • 大數據如何賦能產品-用戶特徵分析
    編輯導語:大數據是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的數據集合,從目前大數據發展的趨勢來看,它不僅會成為一個蓬勃發展的行業,在其他行業的應用也有非常廣闊的空間。本文作者就提出了用大數據賦能產品的想法,從而更好的進行用戶特徵分析。
  • 如何用決策樹模型做數據分析?
    編輯導語:在這個大數據時代,數據對於各行各業的重要性不言而喻,因此有越來越多的企業開始重視並且運用數據分析。數據分析的方法有很多種,今天,本文作者為我們介紹了決策樹模型的分析方法,讓我們一起來看看如何用決策樹模型做數據分析吧。
  • 數據分析,如何解決複雜的企業問題
    這時候如果有個人冒出來,說:「你們做數據的不是會人工智慧大數據嗎,就不能我們照常幹,你們Duang一下就分析的一清二楚嗎。肯定是你能力不行」……是不是你也想打爆他的狗頭了。 凸(艹皿艹 ) 部門利益有衝突 指標含義不清楚 原始數據內容亂 相關流程要改動 這些才是老鳥眼中真正難解決的問題。
  • ☞【案例】工業大數據技術應用分析
    ☞【案例】工業大數據技術應用分析近年來,發展智能工廠成為全球製造業的顯學,隨著人力短缺、工資上漲、產品交期越來越短、市場需求變動大等問題出現,製造業正面臨新一波轉型挑戰,如何在控制生產成本的同時,還能提高生產力與效率
  • 蘋果手機崩潰數據在哪看?如何進行分析?-創戴
    在我們的生活中,不管是在地鐵上、公交上、還是餐飲店、超市,幾乎人人都拿著手機在看,根據有關數據表明,女孩子用蘋果手機比男人要多10%。 那麼問題來了,女孩子一般在入手蘋果手機的時候,也會擔心、糾結、懷疑自己會不會買到有問題的手機,或者是別人使用過的手機,為此反覆地徘徊著。
  • 面向初學者的數據分析知識,讓你快速了解數據分析
    編輯導語:大數據是網際網路發展到一定階段的必然產物,身處於大數據時代的我們每天都會活在一連串的數據裡。因此,為了高效併合理地運用這些數據,數據分析行業迅速崛起。到現在,越來越多的人看到了數據分析的未來和前景,本文作者總結了初學者應該掌握的數據分析知識,幫助你快速掌握數據分析技巧。一、什麼是數據分析?
  • 從數據可視化到交互式數據分析
    從數據分析中獲得的更多理解將如何使你更接近你的目標?(2)生成問題難題說明通常太高級且寬泛,無法直接轉換為數據分析操作(這個問題經常被忽視且未被充分理解)。通常,需要將難題(隱式地,或者更好地,顯式地)轉換為許多數據分析問題。
  • 審計大數據信息化面臨的挑戰有哪些_審計大數據分析工具
    國家對審計也是做出了很多積極地相應政策,習總書記表示大數據技術、智能技術作為中國經濟提質增效、轉型升級的新引擎,加速轉動。胡澤君審計長 也表示積極推進大數據審計,堅持科技強審,通過信息化、數位化,努力提高審計監督的質量和效益。