豆瓣Top250熱門電影分析
業餘打發時間看電影是個不錯的選擇,但是如果看了一部無聊糟心的電影就得不償失了,所以一些電影方面的榜單就出現了,可以為這些選擇困難患者提供一個不錯的指南,那些是經典是值得看的,而那些電影不值得你浪費一兩個小時的時間。在電影榜單方面,國外最出名的自然是IMDB Top250,這個榜單收集了全球觀眾評選出的最好看的250部電影,國內最知名的榜單應該是豆瓣電影Top250, 主要反映了國內觀眾的觀影品味(雖然有人可能會說豆瓣的觀影品味可能偏文藝一些)。對於這兩個榜單,雖然對部分電影的排名多少有些爭議,但是總體來說大家覺得對著這個榜單看電影,碰到爛片的概率還是較小的。
所以今天我們來對豆瓣Top250熱門電影進行分析
將之前爬取到的豆瓣電影進行簡單的可視化:數據列表保存為CSV格式,如圖
導入數據 做好準備
#!-*- coding:utf-8 -*-import pandas as pdimport numpy as npimport matplotlib.pylab as pltimport refrom numpy import rankfrom builtins import mapfrom datashape.coretypes import Map#http://www.jianshu.com/p/0a76c94e9db7 參考了簡書上的餅狀圖教程#切換工作目錄,IPython運行%pylabMovie=pd.read_csv('./doubanmovietop.csv') #數據讀取檢查數據頭
Movie.head()
豆瓣電影Top250 評分餅狀圖
評分的分布餅圖代碼:
#Rating pieRating=Movie['rating_num']bins=[8,8.5,9,9.5,10] #分區(0,8],(8,8.5]....rat_cut=pd.cut(Rating,bins=bins)rat_class=rat_cut.value_counts() #統計區間個數rat_pct=rat_class/rat_class.sum()*100#計算百分比rat_arr_pct=np.array(rat_pct)#將series格式轉成array,為了避免pie中出現namef1=plt.figure(figsize=(9,9))plt.title('DoubanMovieTop250\nRatingDistributin(0~10)')plt.pie(rat_arr_pct,labels=rat_pct.index,colors=['r','g','b','c'],autopct='%.2f%%',startangle=75,explode=[0.05]*4) #autopct屬性顯示百分比的值plt.savefig('MovieTop250.RatingDistributin(0~10).png')f1.show()#explode:將某部分爆炸出來, 使用括號,將第一塊分割出來,數值的大小是分割出來的與其他兩塊的間隙#labeldistance,文本的位置離遠點有多遠,1.1指1.1倍半徑的位置#autopct,圓裡面的文本格式,%3.1f%%表示小數有三位,整數有一位的浮點數#shadow,餅是否有陰影#startangle,起始角度,0,表示從0開始逆時針轉,為第一塊。一般選擇從90度開始比較好看#pctdistance,百分比的text離圓心的距離#patches, l_texts, p_texts,為了得到餅圖的返回值,p_texts餅圖內部文本的,l_texts餅圖外label的文本電影出品年的分布餅圖:
#year pieyear=Movie['date']for i in year.index:if len(year[i])>4: year.drop(i,inplace=True) # year.drop(i,inplace=True) 去除多個年代的特例,inplace重要,修改改變原值year=year.astype(int)bins=np.linspace(min(year)-1,max(year)+1,10).astype(int) #產生區間,bins一般為(,]的,所以+1year_cut=pd.cut(year,bins=bins)year_class=year_cut.value_counts()year_pct=year_class/year_class.sum()*100year_arr_pct=np.array(year_pct)color=['b', 'g', 'r', 'c', 'm', 'y', (0.2,0.5,0.7), (0.6,0.5,0.7),(0.2,0.7,0.1)] #RGB 0-1之間的tuplef2=plt.figure(figsize=(9,9))patches,out_text,in_text=plt.pie(year_arr_pct,labels=year_pct.index,colors=color,autopct='%.2f%%',explode=[0.05]*9,startangle=30)plt.title('MovieTop250\nYears Distribution')f2.show()# plt.savefig('MovieTop250_YearsDistribution.png')豆瓣電影Top250,電影排名&評價人數&電影評分的散點圖:
#評價人數 rank=np.array(Movie.index,dtype=int)+1#index start from 0 Movie['0']=rankf3=plt.figure(3,figsize=(12,10))plt.scatter(x=Movie['0'],y=Movie['comment_num'],c=Movie['rating_num'],s=80)plt.title('Douban Movie\nRank and Rating People by Rating',fontsize=20)plt.xlabel('Rank',fontsize=15)plt.ylabel('Rating People',fontsize=15)plt.axis([-5,255,0,750000]) #x軸坐標範圍plt.colorbar() #顯示colorbarplt.savefig('DoubanMovie_Rank_and_RatingPeople_by_Rating.png')plt.show()按電影國家分類柱狀圖
#!-*- coding:utf-8 -*-import pandas as pdimport numpy as npimport matplotlib.pylab as pltfrom matplotlib.font_manager import FontProperties #fontproperties的模塊,pyde自動添加的,好評Movie=pd.read_csv('./doubanmovietop.csv',encoding='utf-8')country_iter=(set(x.split(' ')) for x in Movie['guojia']) #generator生成器,分解字符串countries=sorted(set.union(*country_iter)) #Return the union of sets as a new set.#*country_iter:This works for any iterable of iterables.df=pd.DataFrame(np.zeros((len(Movie),len(countries))),columns=countries)#創建一個0DataFrame,np.zeros()內為要tuplefor i,gen in enumerate(Movie['guojia']): df.ix[i,gen.split(' ')]=1#第i條數據的country置為1num_of_country=df.sum() # print(num_of_country)num_of_country[4]=num_of_country[1]+num_of_country[2]+num_of_country[4] #(1964中國大陸中國大陸重映)和中國大陸合併# num_of_country.pop('中國')# print(num_of_country)num_of_country.sort_values(inplace=True,ascending=False)f1=plt.figure()for i,gen in enumerate(num_of_country[:10]): plt.bar(i,gen) #i為bar的起始橫坐標,gen為縱坐標,寬度默認names=list(num_of_country.index)plt.xticks(np.arange(10),names,fontproperties='SimHei',rotation =60) #在圖中顯示中文字符要加上fontproperties='SimHei'plt.ylabel('Movie Number')plt.title('Douban Movie\nMovie Distribution by Countries')# plt.savefig('Movie_Distribution_by_Countries.png')f1.show()#因為有些影片為多國合作的,也算各自國家的吧。#過濾了很多只有一兩部的國家,果然還是美帝有金坷垃,畝產一萬八影片類型分布柱狀圖:
影片類型分布代碼: