老鐵們,你們那裡天氣還好嗎?
城市氣溫沒到40度的朋友請不要回答,因為我們不熟。
合肥酷暑之下,小採只想空調西瓜WiFi。
然鵝,有那麼一群人,總能靜下心來搞數據。也許是為工作,也許只為消遣,不管出於什麼目的能將採集玩的這麼溜就很讓人服氣了。好啦,請開始你們的表演~
01
基金哪家強,爬爬就知道
爬取某個著名的財經網站的所有基金的數據。我們從基金首頁,爬出所有基金的編號,基金名字和基金的url,共6500多值。
多線程取分別處理每一個基金網頁的數據,解析每一個基金網頁,我們希望提取以下基金的重要信息:
近1個月、3個月、6個月、1年、3年、成立以來的漲幅。
希望通過數據知道:
累計成立漲幅最大的基金
累計1年漲幅最大的基金
累計6month漲幅最大的基金
累計3month漲幅最大的基金
然後取個交集,看看有沒有全能王,我們的投資是以穩健為主,穩子當頭,漲多漲少不要緊,關鍵是要漲,而且穩那我們把成立以來,3年來,1年來,6month,3month,1month 看看有沒有全都漲的,沒有虧過的。當然我們還可以分析一下其他維度的數據,比如成立的時間,幾星級好評的基金等等~找到最強基金根本不是問題,俗話說得好,人不理財,財不理你啊。
02
透過歌詞 我看到了這樣的周杰倫
爬取周董所有的專輯(從最開始的到最新的<周杰倫的床邊故事>)歌詞,啊,也不過才207K的txt ,然後對文件進行分詞,發現了一些結論:
結論一:出現頻率 top20 的詞語,滿滿的都是文藝、傷感、愛情 :
我們 / 怎麼 / 沒有 / 微笑 / 離開 / 愛情 / 回憶 / 不要 / 開始 / 如果 / 不會 / 已經……
(隨機排列一下,是不是就可以模仿方文山寫歌詞了。)
結論二:杰倫喜歡媽媽勝過爸爸,喜歡外婆勝過爺爺以及外公(歌詞中沒有出現奶奶)
啊哦,聽媽媽的話,外婆,爺爺泡的茶~~~
結論三:杰倫喜歡黑色、白色勝過其他顏色
結論四:杰倫最喜歡的語氣詞是oh~
總結:只是從歌詞來看,大概杰倫就是一個穿著黑白帽衫,表面上酷酷的,但是骨子裡滿是深情、文藝, 喜歡喝爺爺泡的茶,聽媽媽的話,愛外婆的 ,嘴裡時不時地冒出一句『哎呦,不錯哦』 的五好青年。
03
杜甫和李白是CP還是單相思?
唐代詩人之間的社交也蠻混亂,聽聞杜甫非常喜歡李白,但李白卻不太感冒,不如把唐詩全採下來分析一下唐詩人的社交究竟如何~
全唐詩數量太多,一共四萬多首,還要調出每個詩人的別名(利用CBDB查找詩人的別名
CBDB由很多張表組成,每張表記錄了人物的不同信息,我們只用到了其中兩張表,人物的主要信息表:BIOG_MAIN和人物的別名表:ALTNAME_DATA)
最終是選取了七百多位著名詩人,然後來檢查一下李白和杜甫之間的引用關係:
不錯,杜甫確實寫了12首與李白有關的詩,而李白則只有3首與杜甫有關的詩。
可憐的杜甫喜歡李白喜歡到做夢都想見的地步:三夜頻夢君,情親見君意(夢李白)。而李白呢,卻向孟浩然表白:吾愛孟夫子,風流天下聞(贈孟浩然)。然而孟浩然的好基友則是王昌齡:數年同筆硯,茲夕間衾裯(送王昌齡之嶺南),恩,還是詩人有情調~
04
1.6萬部電影,華語電影爛片王竟是古天樂
某天,工作量不飽和,就在公司上網隨便搜了部電影來看,本來還期待著看完能夠為搬磚提供靈感,在把進度條拖了 11 次,朋友圈刷了 6 遍之後,我終於從故事中退了出來。
為了避免日後踩到更多雷人的爛片,我決定從豆瓣上把 2002 至 2017 年的電影信息都扒下來,掃一掃有哪些「雷區」。在對數據進行了清理後,我最終得到了一萬六千多部電影來做數據分析。
為了找出「爛片王」,我把豆瓣評分在六分以下電影的演員提取了出來,並保留了每部電影的前四位演員(電影的主演不會太多,一般都是男一女一,男二女二)。
接著我又將出現在同部電影的演員進行組合,然後畫出了出演最多爛片的演員的社交網絡(前 50 位):
結果很驚人,爛片演員的「王中王」竟然不是大家心目中的小鮮肉,而是古天樂!
我嚇得趕緊回看數據,才發現,在這 16 年裡,古天樂一共接了 60 部左右的電影,其中竟有一半是低於 6 分的,也就是說,古 Sir 的爛片產量已經達到了平均一年 2 部。
而他口碑最低的一部,甚至只有 2.9 分——2016 年的《封神傳奇》,據說這是一部感動了其他爛片的神作。只能說他挑的電影眼光不太好。
看過了演員,我們再來看看導演。經過一番統計篩選,我挑出了爛片量 top 的導演:
「王晶」這個名字,已經成為了爛片指標物,以後看到這個名字,大家可以盡情躲開。
如果說王晶的表現有明顯 flop 的話,那郭敬明倒一直是正常發揮,只要是他執導的電影,不要說 6 分了,上 5 分都難。
好片不常有,且看且珍惜。
05
中國姓氏大數據,看看你的本家
一份天朝公民的姓氏、年齡、籍貫數據整出的中國姓氏排行榜。我為這個排行榜設計了豐富的內容:普遍指數、抱團指數、奔波指數、裝逼指數、風雅指數等。
普遍指數
普遍指數=姓氏人口數量
毫無懸念,「王」姓以佔據中國人口8.1%的比例、接近1億的人口總數,奪得了中國第一大姓、地球第一大姓、宇宙第一大姓的桂冠。
恭喜隔壁老王!
那麼,老王們都在哪裡呢?
除了老王,老張、老李也表現不俗,分獲宇宙第二、第三大姓的榮譽。這三大姓加起來,估算約佔據中國總人口的22%。總的來說,「王張李劉陳楊趙周吳徐」10大姓佔據了中國總人口的43%;順序不再是趙錢孫李周吳鄭王啦~
抱團指數
抱團指數=各姓氏在各省分布的基尼係數。
研究結果表明,抱團指數最高、也就是空間集聚度最高的三個姓氏分別為:覃、麥、樸,三姓的基尼係數都在0.82以上,而且三個姓都是相對較小的姓。
裝逼指數
裝逼指數=名字長度在4字或以上的人口數量佔該姓氏人口數量的比例。
嚴格來說,裝逼指數最高的其實是「歐陽」和「諸葛」。但考慮到複姓和少數民族姓氏的逼格並不是裝出來的,我們只好排除掉這些本來就很有逼格的姓氏,只看單字大姓TOP20的裝逼情況:
風雅指數
風雅指數=名字中不包括「取名用字頻率TOP1000」的人數佔該姓氏總人數的比例。
風雅指數最高的10個姓為:
你是這些風雅姓氏的主人嗎?如果姓氏不夠逼格,取個逼格高的名字也是極好的。那就要注意了,千萬別用下面這些字:
炎炎夏日,分享幾個案例供大家消遣,大神們不妨啟動手中的火車採集器,也來玩些趣味採集和分析,可能比他們更炫酷哦~
其實這種天氣呀,想透心涼也不是沒有辦法的,你可以看看錢包,查查銀行卡餘額呀,你看看臉稱稱體重再想想自己的歲數呀~~