歡迎關注公眾號【哈希大數據】
python實例 合併文件並去重
運行結果:
"D:\anaconda python\python3.6.exe" D:/vernacular/coding_ziyi/merge_csv.py
該文件下下一共有 6 個csv文件需要合併D:\test_accounts1\accounts.csvD:\test_accounts1\accounts_all_0.csvD:\test_accounts1\accounts_test_15.csvD:\test_accounts1\accounts_test_22.csvD:\test_accounts1\success_accounts_15.csvD:\test_accounts1\test_one.csv合併6個文件完成去重操作完成Process finished with exit code 0
一、python介紹 對文件的操作
我們已知程序是無法直接讀寫磁碟中的文件,而是請求作業系統提供數據操作接口,為我們生成一個文件對象,從而獲取或寫入需要的數據。因此在python中操作文件也不例外,首先使用Open打開文件的常規的語法為:
open(' D:/try/merge_result.csv', 'r', encoding='gbk', errors='ignore')
1、文件讀取第一個參數:讀取位置的設置(位置參數,必須指定):
使用相對位置:open('../data/merge_result.csv'),最終執行完成將會在data文件下保存合併數據的結果。從序號可以看出合併數據的結果確實是來自不同的文件。
同理也可以使用絕對位置:'D:/try/merge_result.csv',按照所需進行文件的位置的設置,這其中特別需要注意的是:python中對文件位置分隔符正斜槓』/和反斜槓』\』的使用。因為python中反斜槓『\』有轉義關鍵字符的功能。
2、文件讀取第二個參數:讀取方式的設置(位置參數,必須指定):
3、文件讀取第三個參數和第四個參數:對文件編碼方式的調整(命名參數,有默認值):
encoding指定讀取文件的編碼方式
errors='ignore'則是忽略文件中出現的編碼不一致問題。
對文件的常用操作:
簡化操作文件方式:
(可以同時實現文件的打開,讀寫,關閉操作)
with open('/Users/michael/test.txt', 'w') as f:f.write('Hello, world!')
這樣操作也可以防止在實際使用中忘記使用調用close()方法
總結:
本次主要介紹了python對文件的常規讀寫操作方式,是最常用的os模塊操作之一。下期會接著介紹os模塊對系統目錄,文件,子模塊,系統命令等其他相關操作方式。