本文沒有太多廢話,都是關於數據的乾貨,包括可視化圖和代碼,諾貝爾獎就不用介紹了,如果有需要詳細了解,可以百度百科自取。數據源不需要大動幹戈的收集,諾貝爾獎組織的網站實際上有一個頁面列出了獲獎者及其年齡,所以搜索數據並不需要太多時間和精力,官網已經幫你準備好了。
本文只進行了關於年齡的分析,官網上有不少關於獲獎原因、獲獎特殊性等其他信息,有興趣的小夥伴可以去進行文本分析,或者製作詞雲圖。參考歌詞詞頻圖的思路。本文感興趣的數據隱藏在html文件中,可以輕鬆地進行一些分析。我做的第一件事是下載該html文件,並將其存儲在本地。從html文件中抓取數據。
一、想知道諾貝爾獎獲得者的平均年齡?59.14歲
低齡組(少年天才)
年齡17(1)
2014年諾貝爾和平獎Malala Yousafzai,「反對剝奪所有兒童和青少年接受教育的權利」
年齡25(1)
1915年諾貝爾物理學獎勞倫斯布拉格,「通過X射線分析晶體結構的服務」
2. 高齡組(老驥伏櫪,志在千裡)
年齡88(2位)
2002年諾貝爾物理學獎Raymond Davis Jr.,「對宇宙物理學的開拓性貢獻,特別是對宇宙中微子的探測」
2007年諾貝爾文學獎多麗絲·萊辛諾貝爾文學獎,「這位女性經歷的史詩家,擁有強大的質疑能力和遠見卓識」
年齡89(1位)
2012年經濟科學獎Lloyd S. Shapley,「關於穩定分配理論和市場設計實踐」
年齡90(1位)
2007年經濟科學獎Leonid Hurwicz,「為機械設計理論奠定了基礎」
我做的另一件事是修改html並在div標籤上放一個id,幫助我找到我想要的數據。在瀏覽之後,包含有關獲獎者及其年齡的所有數據的div沒有類,ID或其他任何可識別的內容。它實際上只是一個div標籤,當你嘗試從DOM自動化數據收集時,類和id是關鍵。但是自從我下載了這個頁面之後,我就可以在我需要抓取的div上添加一個id,並且不必使用標籤來處理它。
每個獲勝者的相關信息在該div中的結構非常好。為了組織信息,我為每個獲獎者創建了一個類,並輸入數據。(詳情見如下代碼)
從這裡開始,獲得每個獎項的獲勝者年齡的平均值和可視化。(詳情見如下代碼)
上面的代碼為每種獎品類型列印出一個小csv表,並為每個獎品創建直方圖和擬合分布,以及每個人的年齡,無論獲獎類型是和平獎、物理學獎還是經濟學獎。
諾貝爾獎獲得者的平均年齡是59.14。看來我們都還有時間,難道不是嗎?
二、數據探索,有趣的發現
最年輕的贏家:
化學:35 歲文學:42 歲和平:17 歲生理學或醫學:32歲 經濟學:51歲
最年長的贏家
化學:85 歲文學:88 歲和平:87 歲生理學或醫學:87 歲經濟學:90 歲物理學:88歲
總的年齡分布是非常正常的。有一對年輕的夫婦是2014年和平獎得主馬拉拉優薩福扎伊(Malala Yousafzai),以及1915年的物理學獎得主威廉勞倫斯布拉格(William Lawrence Bragg),他和他的父親一起獲得了x射線的發現工作。除了這些贏家,其餘的似乎都在60歲左右。
按獎項,最年長的贏家們年齡非常接近,而最年輕的贏家們年齡差距則較大。諾貝爾文學獎的評價獲獎年齡是64.56歲。有趣的是,考慮到諾貝爾經濟學獎不是像其他獎項那樣在1895年開始的,而是在1969年開始頒發,屬於最年輕的獎項。(完)
親愛的數據
出品:譚婧
美編:陳泓宇