.
聲明:本人只是分享一些靠譜的床長人工智慧教程相關免費pdf下載文檔而已,並非床長人工智慧教程的收費文章。尊重版權,支持原創!
開始之前說點課題話,不得不說我非常喜歡老外設計書的封面,非常有意思,你有沒有覺得呢。
下面的內容都是我看原版外文到谷歌翻譯裡面翻譯出來的,我的英文非常垃圾,哈哈哈哈,我也想看懂,但是實力不允許。
利用進行數據分析第版這本書對於學習數據分析入門級別非常合適,每一章節都講的非常好,層層關聯,淺到深,各種吸引,主要的章節有
第章準備工作
第章語法基礎,和
第章的數據結構函數和文件
第章基礎數組和矢量計算
第章入門
第章數據加載存儲與文件格式
第章數據清洗和準備
第章數據規整聚合合併和重塑
第章繪和可視化
第章數據聚合與分組運算
第章時間序列
第章高級應用
第章建模庫介紹
第章數據分析案例
附錄高級應用
附錄更多關於的內容本書英文版可以到這裡下載
這本書是關於什麼的
這本書關注的是中操作處理清理和處理數據的具體細節。
我的目標是為程式語言及其面向數據的庫生態系統和工具提供一個指南,幫助您成為一名有效的數據分析師。
雖然該書的標題是數據分析,但重點是編程庫和工具,而不是數據分析方法。
這是數據分析所需的編程。
什麼樣的數據
當書中出現數據時,究竟指的是什麼呢?主要指的是結構化數據,這個故意含糊其辭的術語代指了所有通用格式的數據,例如
表格型數據,其中各列可能是不同的類型字符串數值日期等。
比如保存在關係型資料庫中或以制表符逗號為分隔符的文本文件中的那些數據。
多維數組矩陣。
通過關鍵列對於用戶而言,就是主鍵和外鍵相互聯繫的多個表。
間隔平均或不平均的時間序列。
這絕不是一個完整的列表。
大部分數據集都能被轉化為更加適合分析和建模的結構化形式,雖然有時這並不是很明顯。
如果不行的話,也可以將數據集的特徵提取為某種結構化形式。
例如,一組新聞文章可以被處理為一張詞頻表,而這張詞頻表就可以用於情感分析。
大部分電子表格軟體比如,它可能是世界上使用最廣泛的數據分析工具了的用戶不會對此類數據感到陌生。
為什麼要使用進行數據分析
對於許多人來說,程式語言具有很強的吸引力。
自年首次亮相以來,已經成為最受歡迎的解釋程式語言之一,還有,和其他語言。
和自年左右開始變得特別流行,用於使用他們眾多的框架如和構建網站。
這些語言通常稱為腳本語言,因為它們可用於快速編寫小程序或腳本以自動執行其他任務。
我不喜歡腳本語言這個術語,因為它帶有一個不能用於構建嚴謹的軟體。
在解釋型語言中,出於各種歷史和文化原因,開發了一個龐大而活躍的科學計算和數據分析社區。
在過去的十年中,已經從最前沿或風險自然的科學計算語言轉變為學術界和工業界數據科學,機器學習和通用軟體開發的最重要語言之一。
對於數據分析和交互式計算以及數據可視化,將不可避免地與其他廣泛使用的開源和商業程式語言和工具進行比較,例如,,,等。
近年來,對庫例如和的改進支持使其成為數據分析任務的流行選擇。
結合在通用軟體工程方面的整體實力,它是構建數據應用程式的主要語言的絕佳選擇。
作為膠水語言
成為成功的科學計算工具的部分原因是,它能夠輕鬆地集成以及代碼。
大部分現代計算環境都利用了一些和庫來實現線性代數優選積分快速傅立葉變換以及其他諸如此類的算法。
許多企業和國家實驗室也利用來粘合那些已經用了多年的遺留軟體系統。
大多數軟體都是由兩部分代碼組成的少量需要佔用大部分執行時間的代碼,以及大量不經常執行的膠水代碼。
大部分情況下,膠水代碼的執行時間是微不足道的。
開發人員的精力幾乎都是花在優化計算瓶頸上面,有時更是直接轉用更低級的語言比如。
解決兩種語言問題
在許多組織中,使用更專業的計算語言如或來研究,原型化和測試新想法是很常見的,然後將這些想法移植到更大的生產系統中,例如,#或。
人們越來越發現,不僅適用於研究和原型設計,而且適用於構建生產系統。
當一個人足夠時,為什麼還要保留兩個開發環境?我相信越來越多的公司將沿著這條道路前進,因為讓研究人員和軟體工程師使用同一套編程工具通常會帶來顯著的組織效益。
為什麼不選
雖然非常適合構建分析應用以及通用系統,但它對不少應用場景適用性較差。
由於是一種解釋型程式語言,因此大部分代碼都要比用編譯型語言比如和編寫的代碼運行慢得多。
由於程式設計師的時間通常都比時間值錢,因此許多人也願意對此做一些取捨。
但是,在那些延遲要求非常小或高資源利用率的應用中例如高頻交易系統,耗費時間使用諸如這樣更低級更低生產率的語言進行編程也是值得的。
對於高並發多線程的應用程式而言尤其是擁有許多計算密集型線程的應用程式,並不是一種理想的程式語言。
這是因為有一個叫做全局解釋器鎖,的組件,這是一種防止解釋器同時執行多條字節碼指令的機制。
有關為什麼會存在的技術性原因超出了本書的範圍。
雖然很多大數據處理應用程式為了能在較短的時間內完成數據集的處理工作都需要運行在計算機集群上,但是仍然有一些情況需要用單進程多線程系統來解決。
這並不是說不能執行真正的多線程並行代碼。
例如,的插件使用原生的或的多線程,可以並行運行而不被影響,只要它們不頻繁地與對象交互。
基本庫
對於那些不太熟悉數據生態系統和本書中使用的庫的人,我將簡要介紹其中的一些。
是的縮寫,長期以來一直是中數值計算的基石。
它提供了涉及中數值數據的大多數科學應用所需的數據結構,算法和庫粘合劑。
包含以下內容
快速高效的多維數組對象
用於使用數組或數學運算執行逐元素計算的函數數組之間的操作
用於讀取和寫入基於陣列的數據集到磁碟的工具
線性代數運算,傅立葉變換和隨機數生成
成熟的,支持擴展和本機或代碼,以訪問的數據結構和計算設施
除了為添加的快速數組處理功能之外,它在數據分析中的主要用途之一是作為數據在資料庫和庫之間傳遞的容器。
對於數值數據,數組比其他內置數據結構更有效地存儲和操作數據。
此外,用較低級語言如或編寫的庫可以對存儲在數組中的數據進行操作,而無需將數據複製到其他一些內存表示中。
因此,許多用於的數值計算工具要麼將數組假設為主要數據結構,要麼將目標與無縫互操作。
提供高級數據結構和功能,旨在使結構化或表格式數據快速,簡單和。。。