近期,蛋殼公寓「爆雷」事件持續發酵,期間因拖欠房東房租與租客退款,蛋殼公寓陷入討債風波,全國多地蛋殼公寓辦公區域出現大規模解約事件,而作為蛋殼公寓總部所在地北京,自然首當其衝。
為了應對大規模的解約,北京在全市已經設立了100多個蛋殼公寓矛盾糾紛接待點,包含了蛋殼公寓涉及到的12個區,這些接待點下沉到了街道甚至社區,以方便涉及蛋殼公寓事件的房東和租客諮詢和處理糾紛。
長租公寓爆雷,不少年輕人不得不流離失所,構成疫情下的另一個經濟寫照,事態何去何從,值得關注。本文從數據角度出發,爬取了蛋殼公寓北京區域共6025條公寓數據,清洗數據,並進行可視化分析,為大家了解蛋殼公寓提供一個新的視角。本文數據分析數據集在文末查看完整版獲取方法。
數據獲取
蛋殼公寓網頁結構相對簡單,數據結構統一,簡單的url翻頁構造即可。需要注意的是極少數網頁會返回404,需要添加判斷過濾掉。本文用request請求到數據,用xpath對返回的數據進行解析,最後以追加模式將數據存儲為csv文件。
由於代碼運行過程中中斷了幾次,最終將數據保存為以下幾個csv文件中:
數據處理
導入數據分析包
導入數據並合併
找到文件夾中的所有csv文件,遍歷讀取數據,最後用concat方法合併所有數據。
數據去重
數據爬取過程中有中斷,因此可能存在重複爬取的情況,需要去重處理。
查看數據
用df.info()方法查看整體數據信息,結合預覽的數據,我們可以很容易發現,價格和面積欄位不是數字類型,需要轉換處理。樓層欄位可以提取出所在樓層和總樓層。
數據類型轉換
在欄位類型轉換時報錯,檢查發現是數據存在一行髒數據,因此先刪除髒數據再做轉換即可。數據類型轉換用到astype()方法,提取所在樓層和總樓層時根據字符"/"分列即可,採用split()方法。
地鐵欄位清洗
地鐵欄位可以提取出地鐵數和距離地鐵距離。地鐵數通過統計字符"號線」的數量來計算,而距離地鐵距離通過正則表達式匹配出字符"米"前面的數字即可。為方便理解,這裡直接構造函數進行清洗。
保存數據
數據清洗完畢後,用df.to_excel()將數據保存為excel文件。
數據可視化
導入可視化相關包
各行政區公寓數量
根據清洗後的數據繪製北京蛋殼公寓分布地圖,我們可以很清晰的看到蛋殼公寓的布局,朝陽區和通州區是蛋殼公寓主要分布區域,延慶、密雲、懷柔、平谷和門頭溝地區蛋殼公寓分布極少。
從各行政區數量上來看,朝陽區和通州區蛋殼公寓數量均超過1000個,朝陽區遙遙領先其他地區,共計1877個,通州區緊隨其後,為1027個。
小區公寓數量TOP10
從小區數量來看,新建村小區、花香東苑和連心園西區蛋殼公寓數量最多,均超過50個。這也意味著,這些小區的租戶受蛋殼風波的影響相較於其他小區更大。
蛋殼公寓租金分布
對租金進行區間分段,我們發現,北京蛋殼公寓的租金還是相當有吸引力的,超過一半的公寓租金在2000-3000元/月。2000元/月以下的公寓數量佔比也高達26.13%。
各行政區租金分布
我們繼續將地區因素引入租金分析中,發現,不同行政區內的租金分布也存在較大差異。以朝陽區為例,2000-3000元/月的公寓佔比最多,而通州區1000-2000元/月的公寓佔比更多。這也很容易理解,畢竟所處的區位和經濟發展狀況差異較大。
蛋殼公寓樓層分布
從北京蛋殼公寓的樓層分布來看,10層以下佔比高達73.92,高層和超高層不是蛋殼公寓的理想選擇。
蛋殼公寓戶型分布
從北京蛋殼公寓的戶型分布來看,3室1衛為主,共計2783個,其次才是4室1衛。這與深圳蛋殼公寓以4室1衛為主的情況存在較大差異。
蛋殼公寓面積分布
從北京蛋殼公寓的面積分布來看,86.77%的公寓面積不足20㎡。北京10㎡以下的蛋殼公寓佔比達到了21.2%,即便如此,這個數字仍不足深圳的一半。
蛋殼公寓商圈分布
通過對北京幾個主要行政區商圈進行詞雲統計(字體越大表示蛋殼公寓數量最多),朝陽區的管莊、望京,通州區的北關,豐臺區的樊羊路、方莊和角門,昌平區的天通苑,海澱區的永豐和西二旗,大興區的黃村和亦莊,是蛋殼公寓主要選擇的商圈。
相關性分析
從相關係數表可以看出,北京蛋殼公寓的面積、周邊地鐵數對公寓的價格有較大的的影響,相關係數分別為0.81和0.36。蛋殼公寓在進行房屋定價時,對公寓的面積以及公寓的地鐵配套有較大權重的考慮。由於北京蛋殼公寓距離地鐵都很近,因此,距離的遠近對公寓的價格影響有限。另外,所在樓層也不是北京蛋殼公寓租金高低的重要影響因素。
最後,願所有受蛋殼公寓「爆雷」事件影響的年輕人都能熬過這個寒冬。
小編福利:本文數據分析完整版代碼獲取方式,微信關注「開課吧訂閱號」