今天帶來的是Datawhal自主學習Numpy下學習打卡筆記第五部分—大作業。本文是基於iris數據的numpy代碼實踐。本文素材來自網絡及Datawhale。
習題解答
數據集屬性預覽
輸出
數據轉置儲存
輸出
1. 導入鳶尾屬植物數據集,保持文本不變。
輸出
2. 求出鳶尾屬植物萼片長度的平均值、中位數和標準差(第1列,sepallength)
輸出
3. 創建一種標準化形式的鳶尾屬植物萼片長度,其值正好介於0和1之間,這樣最小值為0,最大值為1(第1列,sepallength)。
4. 找到鳶尾屬植物萼片長度的第5和第95百分位數(第1列,sepallength)。
5.把iris_data數據集中的20個隨機位置修改為np.nan值。
6. 在iris_data的sepallength中查找缺失值的個數和位置(第1列)。
7. 篩選具有 sepallength(第1列)< 5.0 並且 petallength(第3列)> 1.5 的 iris_data行。
8. 選擇沒有任何 nan 值的 iris_data行。
9. 計算 iris_data 中sepalLength(第1列)和petalLength(第3列)之間的相關係數。
10. 找出iris_data是否有任何缺失值。
11.在numpy數組中將所有出現的nan替換為0。
12. 找出鳶尾屬植物物種中的唯一值和唯一值出現的數量。
13. 將 iris_data 的花瓣長度(第3列)以形成分類變量的形式顯示。定義:Less than 3 --> 『small』;3-5 --> 『medium』;』>=5 --> 『large』。
14. 在 iris_data 中創建一個新列,其中 volume 是(pi x petallength x sepallength ^ 2)/ 3。
15. 隨機抽鳶尾屬植物的種類,使得Iris-setosa的數量是Iris-versicolor和Iris-virginica數量的兩倍。
16. 根據 sepallength 列對數據集進行排序。
17. 在鳶尾屬植物數據集中找到最常見的花瓣長度值(第3列)。
18. 在鳶尾花數據集的 petalwidth(第4列)中查找第一次出現的值大於1.0的位置。