轉自:菜鳥學Python
對於數據分析的工具,想必大家都或多或少的有一定的了解,常見的像是numpy和pandas更是大家日常使用的數據分析工具。但是面對大數據的處理時,像是numpy和pandas的在加載數據時,會看到內存用量的飆升,而dask卻可以將這些大的數據進行並行計算。dask庫可以很好的兼容pandas的DataFrame數據和numpy的array數據,此外,像是Sklearn、XGBoost等機器學習庫,dask也能夠支持。dask的官網(https://dask.org/)對於支持的庫有一個全面的展示,下圖是部分支持庫的展示:
dask庫的強大之處在於它擁有豐富的已有庫的兼容性,而且只需要改動很少的程序,就可以在自己的電腦上使用並行計算。2).Pandas的DataFrame數據
對於DataFrame數據,dask的操作同樣與pandas非常的類似。需要注意的是,當求分組的「x"列均值時,dask並沒有直接輸出結果,而是在運行s的compute()函數後,才得到結果,這是與pandas不同的一點。04.dask的Delayed
對於dask庫,Delayed模塊是它進行並行計算的核心,delayed 通過將需要計算的任務記錄在計算圖中,並在之後,將其並行運行在硬體上得到結果。由於不能立即得到結果,所以該模塊被稱為delayed。對於delayed模塊的使用,如下圖所示:可以看到,通過delayed裝飾器來修飾函數,在下一個計算框圖中定義z的計算,然後通過visualize函數來查看z的計算圖,如上圖右側所示。同時可以看到z的計算圖只需要不到1ms的時間即可完成。而z值的計算,同樣採用z.compute()進行計算即可。05.對於機器學習算法的支持
有興趣的小夥伴可以安裝試一下,用慣了Pandas ,也可以試試換個口味了!歡迎在留言區點評,來個三連哦!
重磅!Python交流群已成立
為了給小夥伴們提供一個互相交流的技術平臺,特地開通了Python交流群。群裡有不少技術大神,不時會分享一些技術要點,更有一些資源收藏愛好者不時分享一些優質的學習資料。(免費,不賣課!)需要進群的朋友,可長按掃描下方二維碼。
▲長按掃碼