python pandas解決csv文件中的部分注釋問題

2021-03-06 python小工具

由於通過添加注釋,文件通常可以更加清晰明了。csv文件中有注釋,這種情況是可能存在的。那麼,在pandas讀取csv文件的時候,如何規避掉注釋。

例如,有如上文件,#後就是我添加的注釋。

# 如果僅指定分隔符,正常讀取是不合理的,結果僅有一列而非a,b,c三列,注釋當做了列名
>>> df = pd.read_csv('D:/1.csv', sep=' ')
>>> df
#empty\na,b,c\n1,2,3
a b c
12 中國 上海
>>> df.columns
Index(['#empty\na,b,c\n1,2,3'], dtype='object')

我們可以通過設置comment參數,指定某一行是注釋,則該行就不會被解析

>>> df = pd.read_csv('D:/1.csv', sep=' ', comment='#')
>>> df
a b c
0 12 中國 上海

以下是官方文檔給出的對該參數的說明

下面,我針對上述說明,分別列出幾種不同的情況:
(1) #沒有放在行首(empty#\na,b,c\n1,2,3)

>>> df = pd.read_csv('D:/1.csv', sep=' ', comment='#')
>>> df
empty
a b c
12 中國 上海

(2) 同一行出現多個#(#empty#\na,b,c\n1,2,3)

# 如果開頭有一個就不影響
>>> df = pd.read_csv('D:/1.csv', sep=' ', comment='#')
>>> df
a b c
0 12 中國 上海

(3)首行注釋同時指定了header=0

# 如果同時指定了header=0,則會忽略掉注釋行,把下一行作為header
>>> df = pd.read_csv('D:/1.csv', sep=' ', comment='#', header=0)
>>> df
a b c
0 12 中國 上海

哈哈,以上就是python小工具關於如何解決解析csv文件時,遇到的注釋問題。哈哈,有興趣歡迎關注python小工具,一起學習python和pandas。

相關焦點

  • python-pandas讀寫csv數據
    /pandas-docs/stable/user_guide/io.html一、使用pandas讀取和寫入csv文件pd.read_csv("filepath",[encoding='編碼'])pd.read_csv("filepath",usecols=[0,1,2,...]
  • 使用pandas進行文件讀寫
    pandas支持讀取非常多類型的文件,示意如下對於文本文件,支持csv, json等格式,當然也支持tsv文本文件;對於二進位文件,支持excel,python序列化文件,hdf5等格式;此外,還支持SQL資料庫文件的讀寫。在日常開發中,最經典的使用場景就是處理csv,tsv文本文件和excel文件了。
  • python項目實踐分享:使用pandas處理大型CSV文件
    但你有沒有思考過這個問題:有些 應用中需要解析和處理的CSV文件可能有上百MB甚至幾個GB,這種情況下csv模塊是否能夠應付呢?先來做個實驗,臨時創建一個1GB的CSV文件並將其加載到內存中,看看會有什麼問題發生。上面的例子中當企圖讀入這個CSV文件的時候拋岀了 MemoryError異常。這是為什麼?因為csv模塊對於大型CSV文件的處理無能為力。
  • 一篇文章就能深入理解pandas讀取excel,txt,csv文件等命令
    ://pandas.pydata.org/pandas-docs/version/0.24/reference/io.html文檔操作屬於pandas裡面的 Input/Output也就是IO操作,基本的API都在上述網址,接下來本文核心帶你理解部分常用的命令pandas讀取txt文件讀取txt文件需要確定txt文件是否符合基本的格式,也就是是否存在 \t, , ,等特殊的分隔符一般
  • python(pandas)讀取外部數據---使用Pandas讀寫操作txt文件
    1、準備.txt的數據文件其實pandas讀寫.txt文件和讀寫csv文件是類似的,而且使用的都是pd.read_csv()  /
  • 解決AttributeError: module 'pandas' has no attribute 'read_csv'
    no attribute 'read_csv',今天遇到了並查閱一些解決辦法進行了解決,做一個記錄。之前很長時間沒有修改和更新一些代碼,使用pycharm打開工程文件後使用如下的讀取csv文件數據的自定義函數,發現報錯。
  • 如何使用Python 和 Pandas讀寫JSON文件
    在這篇文章中,我們將學習如何使用Python讀寫JSON文件。在第一部分中,我們將使用Python包json來創建一個JSON文件並寫入一個JSON文件。注意,我們將在本文後面簡要討論這個問題。Pandas讀取 Json示例:在下一個示例中,我們將使用Pandas的 read_json方法來讀取我們前面寫入的JSON文件(即data.json)。這是相當簡單的,我們先將pandas導入為pd:
  • Python讀寫csv文件專題教程(1)
    1 前言Python的數據分析包Pandas具備讀寫csv文件的功能,read_csv 實現讀入csv文件,to_csv寫入到csv文件。
  • Python讀入文件報錯的處理方法
    文章導讀:本文主要 解決python在讀入文件時的報錯:ParserError:Error tokenizing data.C error:Expected x fields in line nnn,saw y。文章分為兩部分,第一部分解釋報錯的意思,定位原因;第二部分給出解決方法。
  • 乾貨 | pandas讀取csv文件數據的方法及注意點
    這篇文章介紹了利用數據分析工具pandas讀取csv文件的方法和注意點,便於迅速過渡到數據處理階段。pandas是一個高效的數據分析工具。基於其高度抽象的數據結構DataFrame,幾乎可以對數據進行任何你想要的操作。由於現實世界中數據源的格式非常多,pandas也支持了不同數據格式的導入方法,本文介紹pandas如何從csv文件中導入數據。
  • python筆記5-python2寫csv文件中文亂碼問題
    前言python2最大的坑在於中文編碼問題,遇到中文報錯首先加u,再各種encode、decode。
  • 使用Python讀寫CSV文件
    之後的每一行都是實際數據,僅受文件大小限制。CSV文件通常由處理大量數據的程序創建。它們是一種從電子表格和資料庫導出數據以及導入或在其他程序中使用數據的方便方法。例如,您可以將數據挖掘程序的結果導出到CSV文件中,然後將其導入到電子表格中,以分析數據、為演示生成圖表或準備發布報告。CSV文件非常容易通過編程處理。
  • Python數據核對系列之2—power query VS pandas
    從本篇開始,我們挨個梳理講解下,在整個過程中我的實際操作,遇到的各種坑,以及找到的解決方案。利用query進行核對使用的是query裡面的合併查詢,其實也就是sql當中的左連接、右連接、全外連接。可以通過設定的連接欄位來完成兩表的合併。我們從數據-新建查詢-從文件裡選擇從工作簿或者從csv。然後加載我們的源文件。
  • Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據
    【每天幾分鐘,從零入門python編程的世界!】numpy的基本的東西我們學習差不多了,後面具體應用中遇到問題具體分析,然後去深入了解遇到的新的知識點就行。現在我們開始學習pandas,pandas一般用的更多,pandas是基於numpy去寫的。pandas是一個專門做數據結構和數據分析的庫。
  • Pandas數據清洗系列:read_csv函數詳解(二)
    dtypecsv文件中的各個列數據是純字符,本身並沒有什麼數據類型。但是read_csv將其讀入DataFrame時,會推斷各個列的數據類型。這裡int64和float64都是numpy中的數據類型,表示64位整型數據和浮點型數據。object則可以看作是pandas中的字符串類型。pandas默認處理的結果我們並不滿意,例如第一列id,我們發現原始數據是字符01、02、03,pandas卻處理成了純整數1、2、3。如果我們想對此進行修改,就可以使用dtype這個參數。
  • Python對CSV文件的處理
    在接口自動化測試中,把測試的數據存儲到csv的文件也是一種很不錯的選擇,下面就詳細的介紹如何實現CSV文件內容的讀取和如何把數據寫入到
  • 基於Python實現對各種數據文件的操作
    /pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csvcsv文件的讀入和寫出相對簡單,直接調用pandas的函數即可。
  • Python數據分析:pandas讀取和寫入數據
    平時工作中,我們會接觸到不同的數據文件,比如很常見的excel文件(後綴名為xls和xlsx),csv、txt等文本文件,json文件以及sql文件等等。pandas讀取這些數據文件的方法如表格所示:01讀取寫入文本文件read_csv()方法用來讀取 csv格式的數據文件,read_table()方法則是讀取通用分隔符分隔的數據文件,它們的參數相同。
  • 基於python的大數據分析-pandas數據讀取(代碼實戰)
    長按上方二維碼加入千人QQ群基於python的大數據分析實戰學習筆記-Anaconda基於python的大數據分析實戰學習筆記-pandas(數據分析包)基於python的大數據分析實戰學習筆記-pandas之DataFrame我們常見的數據存儲格式無非就是csv、excel、txt以及資料庫等形式
  • python讀寫csv文件
    這樣的方式在處理制表符分隔的文件時,沒什麼問題,但是在處理csv文件時,會非常的頭痛。CSV文件格式簡單理解,是逗號分隔的純文本,但是實際上非常靈活。在excel導出的csv文件中,會遇到某個欄位內部出現了逗號的情況,這樣的字符在兩端添加雙引號來進行區分,示意如下>>> with open('file.csv') as f:... for line in f:... print(line.rstrip().split(','))...