如何將數據從Pandas DataFrame寫入HTML文件?

2021-01-08 小短腿花花

如何將數據從Pandas DataFrame寫入HTML文件,今天番茄加速就來講一下。

讀取HTML

我們可以使用read_html()函數讀取HTML文件的表。此函數將HTML文件的表作為Pandas DataFrames讀取。它可以從文件或URL中讀取。

從文件中讀取HTML數據

本文中,我們將使用一組輸入數據。一個包含程式語言及其創建年份的表。另一個表中有土地面積及其成本(美元)。

將以下HTML內容保存在名為table_data.html的文件中:

<!DOCTYPE html>

<html>

<head>

<meta charset="UTF-8">

<title>Table Data</title>

</head>

<body>

<table>

<thead>

<tr>

<th>Programming Language</th>

<th>Creator</th>

<th>Year</th>

</tr>

</thead>

<tbody>

<tr>

<td>C</td>

<td>Dennis Ritchie</td>

<td>1972</td>

</tr>

<tr>

<td>Python</td>

<td>Guido Van Rossum</td>

<td>1989</td>

</tr>

<tr>

<td>Ruby</td>

<td>Yukihiro Matsumoto</td>

<td>1995</td>

</tr>

</tbody>

</table>

<table>

<thead>

<tr>

<th>

Area (sq.ft)

</th>

<th>

Price (USD)

</th>

</tr>

</thead>

<tbody>

<tr>

<td>

12000

</td>

<td>

500

</td>

</tr>

<tr>

<td>

32000

</td>

<td>

700

</td>

</tr>

</tbody>

</table>

</body>

</html>

Pandas 需要另一個名為lxml的庫的幫助來解析HTML和XML文件。為了使read_html()函數正常工作,您需要安裝lxml:

$ pip install lxml

一旦安裝了lmxl,我們就可以使用read_html()函數。它返回一個DataFrames列表,其中每個DataFrame是給定HTML文件的整個表元素。我們通過索引列表將每個表作為DataFrame進行讀取。

相關焦點

  • Pandas >>簡體繁體互轉,且寫入DataFrame
    基礎數據:安裝opencc-python-reimplementedpip install opencc-python-reimplemented>簡體轉繁體,並寫到DataFramelist_1=[]for i in range(data.shape[0]):# t2s - 繁體轉簡體# s2t - 簡體轉繁體
  • 數據太多而無法使用?快試試這個Kaggle大數據集高效訪問教程
    import pandas as pdimport dask.dataframe as dd# confirming the default pandas doesn't work (running thebelow code should result in a memory error)#
  • 什麼是Pandas的DataFrame?
    DataFrame中的數據是以一個或多個兩維塊存放的(而不是列表、字典或別的一維數據結構)。3.NA值跟Series一樣,如果傳入的列在數據中找不到,就會產生NA值:In [37]: DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three','four','five'])Out[37]:year state pop debt
  • 不容錯過的Pandas小技巧:萬能轉格式、輕鬆合併、壓縮數據,讓數據...
    關注前沿科技 量子位作者:Roman Orac魚羊 編譯整理量子位 報導 | 公眾號 QbitAI數據分析,如何能錯過 Pandas 。現在,數據科學家 Roman Orac 分享了他在工作中相見恨晚的 Pandas 使用技巧。了解了這些技巧,能讓你在學習、使用 Pandas 的時候更加高效。
  • 如何用Python幫你自動化處理文件
    本文將展示如何自動化這些繁瑣的操作:· 遍歷一個目錄中的文件· 創建尚未建立的嵌套文件· 使用bash for循環來運行一個有多個輸入端的文件在處理數據科學項目時,這些技巧為筆者節省了大量的時間。希望對你也有用!
  • 路透社文章的文本數據分析與可視化
    當我要求你解釋文本數據時,你會怎麼做?你將採取什麼步驟來構建文本可視化?本文將幫助你獲得構建可視化和解釋文本數據所需的信息。從文本數據中獲得的見解將有助於我們發現文章之間的聯繫。它將檢測趨勢和模式。對文本數據的分析將排除噪音,發現以前未知的信息。
  • 如何使用 Python 繪製 COVID-19 的全球擴散圖
    一些組織會跟蹤重大的流行病(還有所有普遍的流行病),並將他們的跟蹤工作獲得的數據公開出來。不過,這些原始的數據對人來說可能很難處理,這就是為什麼數據科學如此重要的原因。比如,用 Python 和 Pandas 可視化 COVID-19 在全球範圍內的傳播路徑可能對這些數據的分析有所幫助。最開始,當面對如此大數量的原始數據時可能難以下手。
  • 數據分析太麻煩?12個Pandas和NumPy函數助你一臂之力!
    和定界文件)、 Excel文件,資料庫加載數據,以及以超高速HDF5格式保存/加載數據· 特定於時間序列的功能:日期範圍生成和頻率轉換、移動窗口統計、日期移位和滯後。將數據幀分配給另一個數據幀時,在另一個數據幀中進行更改,其值也會進行同步更改。為了避免出現上述問題,可以使用copy()函數。
  • 加速數據分析,這12種高效Numpy和Pandas函數為你保駕護航
    二者在日常的數據分析中都發揮著重要作用,如果沒有 Numpy 和 Pandas 的支持,數據分析將變得異常困難。但有時我們需要加快數據分析的速度,有什麼辦法可以幫助到我們嗎?事實上,數據根本不需要標記就可以放入 Pandas 結構中。
  • 用Java 拿下 HTML,分分鐘寫個小爬蟲!
    它提供了一套很省力的 API,可通過 DOM、CSS 以及類似於 jQuery 選擇器的操作方法來取出和操作數據。jsoup 主要功能:從一個 URL、文件或字符串中解析 HTML。使用 DOM 或 CSS 選擇器來查找、取出數據。可操作 HTML 元素、屬性、文本。
  • 實戰|手把手教你用Python爬取存儲數據,還能自動在Excel中可視化
    來源 | 早起Python大家好,在之前我們講過如何用Python構建一個帶有GUI的爬蟲小程序,很多本文將迎合熱點,延續上次的NBA爬蟲GUI,探討如何爬取虎撲NBA官網數據,並且將數據寫入Excel中同時自動生成折線圖,主要有以下幾個步驟:本文將分為以下兩個部分進行講解:
  • 使用Plotly創建帶有回歸趨勢線的時間序列可視化圖表數據
    利用Pandas Groupby()、for loops和Plotly Scatter Graph對象結合Plotly Express趨勢線創建帶有回歸趨勢線的時間序列圖。  為了說明這是如何工作的,讓我們假設我們有一個簡單的數據集,它有一個datetime列和幾個其他分類列。
  • 大數據入門:Spark RDD、DataFrame、DataSet
    尤其是在涉及到數據結構的部分,理解清楚這三者的共性與區別,非常有必要。今天的大數據入門分享,我們就主要來講講Spark RDD、DataFrame、DataSet。首先從版本的產生上來看:RDD(Spark1.0)—>Dataframe(Spark1.3)—>Dataset(Spark1.6)如果同樣的數據都給到這三個數據結構,他們分別計算之後,都會給出相同的結果。
  • Python大數據分析疫情:如何實現實時數據爬取及Matplotlib可視化
    第一篇文章將分享騰訊疫情實時數據抓取,獲取全國各地和貴州省各地區的實時數據,並將數據存儲至本地,最後調用Maplotlib和Seaborn繪製中國各地區、貴州省各城市、新增人數的圖形。希望這篇可視化分析文章對您有所幫助,也非常感謝參考文獻中老師的分享,一起加油,戰勝疫情!
  • 如何Keras自動編碼器給極端罕見事件分類
    機器學習方法如SVM或Random Forest仍然適用於這種大小的數據集。然而,其準確性將受到限制。剩下約99%的數據中的信息將無法使用。如果數據足夠的話,深度學習或許更有效。它還能通過使用不同的體系結構實現模型改進的靈活性。因此,我們選擇嘗試使用深度學習的方法。在本文中,我們將學習如何使用一個簡單的全連接層自動編碼器來構建罕見事件分類器。
  • python入門教程06-02(python語法入門之文件處理)
    上一章講解了python的字符編碼,了解了python的字符代碼結構之後就需要了解一下python這門語言是如何處理你給的命令,怎麼去處理文件的,下面我們來了解一二。一 引入應用程式運行過程中產生的數據最先都是存放於內存中的,若想永久保存下來,必須要保存於硬碟中。
  • 5個數據科學中用於再現的工具
    在下一篇文章中,我將分享5個工具,以促進數據科學的再現性。這些工具提供的函數,以解決特定的挑戰,創建可複製的數據科學項目,這些包括:記錄項目中使用的工具、庫和版本。為數據科學項目創建自包含的、一致的環境。開發一致的、易於閱讀的文件結構。