如何使用 Python 將 Word 文檔轉換為 HTML 或 Markdown

2021-12-30 Python數據分析實例

收錄於話題 #辦公自動化 23個

點擊關注「Python數據分析實例」

設為「置頂或星標」,送達乾貨不錯過!

最近有一個開發需求,將生成的word數據報表以網頁格式推送,正好找到一個簡單快速轉換的模塊mammoth。

這篇簡短的文章將指導您如何在基於 Python 的 CLI — Mammoth的幫助下,以簡單的方式將.docx word 文檔轉換為簡單的網頁文檔 ( .html ) 或 Markdown 文檔 ( .md ) 。

據統計Statista調查(2020年1月6日),Microsoft Office套件是目前最流行的辦公軟體。您可以使用 Microsoft Word 輕鬆地做快速筆記、簡短報告、教程文檔等。而且,您可能希望將文檔內容作為 Web 文檔 ( .html )) 或 Markdown 文檔 ( .md )與您的一些朋友、同事、客戶共享。過去,在網絡上託管一些網絡文檔可能會很昂貴,但現在雲服務對於公共文檔(例如GitHub Pages)來說非常便宜甚至免費。

Install Mammoth

確保PC 上安裝了 Python 和 PIP。然後,打開 CMD 或終端並使用以下命令:

將Docx 轉換為HTML

使用命令行:

$ mammoth input_name.docx output_name.html

使用Python:

import mammothwith open("sample.docx", "rb") as docx_file:    result = mammoth.convert_to_html(docx_file)with open("sample.html", "w") as html_file:    html_file.write(result.value)

將Docx 轉換為MD

使用命令行:

$ mammoth .\sample.docx output.md --output-format=markdown

使用Python:

with open("sample.docx", "rb") as docx_file:    result = mammoth.convert_to_markdown(docx_file)with open("sample.md", "w") as markdown_file:    markdown_file.write(result.value)

來源:Python編程學習圈

感謝你的分享,點讚,在看三連 

相關焦點

  • 使用 Python 將 Word 文檔轉換為 HTML 或 Markdown
    這篇簡短的文章將指導您如何在基於 Python 的 CLI — Mammoth的幫助下,以簡單的方式將
  • 純Python 實現 Word 文檔轉換 Markdown
    於此我們需要將其轉換為 Markdown 語法。很多桌面軟體(比如 Typora)都提供了導入 Word 文件的功能,這類功能一般是通過 Pandoc 這個軟體來擴展實現的。Pandoc 是一個全能型的文檔格式轉換工具,其能夠將多種文檔格式轉換為各類常見的文檔格式。
  • 將Swagger2文檔導出為HTML或markdown等格式離線閱讀
    將Swagger2文檔導出為HTML或markdown等格式離線閱讀網上有很多《使用swagger2構建API文檔》的文章,swagger2文檔是一個在線文檔,需要使用HTTP訪問。但是在我們日常使用swagger接口文檔的時候,有的時候需要接口文檔離線訪問,如將文檔導出為html、markdown格式。
  • Markdown與LaTeX公式的使用入門指南
    Markdown是一種輕量級標記語言,創始人為約翰·格魯伯(英語:John Gruber)。它允許人們使用易讀易寫的純文本格式編寫文檔,然後轉換成有效的XHTML(或者HTML)文檔。這種語言吸收了很多在電子郵件中已有的純文本標記的特性。
  • 使用 Python 操作 word文檔
    最近手頭有一個需求是對word文檔內容進行判斷,搜索到一個包感覺不錯,簡單記錄一下關鍵操作:python-docx能做什麼
  • python測試開發django-56.模板渲染markdown語法+代碼高亮
    前言上一篇已經實現在xadmin後臺編輯markdown語法的文檔,編輯完成之後發布博客,在前端html能把主要思路是先從資料庫把markdown的代碼讀出來,導入markdown模塊,把markdown的語法轉換成html語法,再嵌入到模板裡面。
  • 前端如何實現.md文件轉換成.html文件
    標記符的數量:html文檔需要用到數量繁多的標記符,再輔以css來控制樣式和排版,而markdown文檔只需要四個基本的標記符號就能完成同樣的事。標記符的書寫:HTML文檔內容需要同時標記開始和結束這是一個網頁,而markdown文檔則只要在開始位置標記即可# 這是一個md文檔。下面介紹如何實現將.md文件轉換成.html文件。
  • 如何將word轉化為PDF格式?1分鐘學會文檔轉換!
    如何將word轉化為PDF格式?不知道大家在學習和工作中有沒有遇到過文件轉換的問題,基本上所有的人在使用了各種數據文檔後,都有為了文檔格式轉換而發愁的,因此這裡重點給大家介紹一些文件轉換的工具和方法,目的就是我們以後遇到文檔的轉換問題就不會不知道怎樣去操作了!
  • 萬字教程:Python Word 文檔自動化
    python -m pip install -U pip setuptoolspython-docx(我們大部分操作都是使用此庫)from docx import Documentfrom docx.shared import Incheshttps://python-docx.readthedocs.io/en
  • word轉存技巧:如何將每頁文檔轉換為圖片保存?
    編按:日常辦公過程中,將Word文檔轉為圖片的情況雖然不常見,但若遇到了總是會難倒一大批人。因為Word沒有為用戶提供直接將文檔存儲為圖片格式的功能,因此,這就需要我們曲線救國,借用其他工具來實現目的。今天小編將為大家分享2個常用方法,供大家參考。學習更多技巧,請收藏關注部落窩教育word圖文教程。
  • R Markdown 簡介
    交互式文檔是一種創建Shiny apps的新途徑。交互式文檔是一種包含Shiny控制項與輸出的 R Markdown文件, 你可以再 markdown中寫報告,並且作為app來啟動它。本文主要闡述如何使用R Markdown寫報告。
  • 用 Python 將微信熱文轉換成Word文檔 | 神級操作
    那麼如何保存一個好的文章呢?普遍選擇收藏,然而在這裡,我提供一個更巧妙的方法,直接轉換成word文檔保存在電腦裡面。即便是以後文章404了,我們還可以看得到嘛。一篇微信文章,url開頭一定是https://mp.weixin.qq.com/s/,後面跟著一長串字符串,比如qLjifoyinoVN5i5vjW0f7w。
  • 讓文檔回歸本質,為什麼應該用Markdown
    首先說明下什麼是Markdown,維基百科的定義是:markdown是一種輕量的純文本標記語言。純文本對應的是富文本或者叫做格式化的文本,典型的代表是微軟的word文件。自從電腦發明以來,電腦的主要用途之一就是處理各式各樣的文檔,於是湧現出各式各樣的文字處理工具,也就是文檔編輯器。
  • 如何將Word文檔轉換成PDF、JPG、並翻譯成中文
    怎麼將word轉換成pdf格式?可能很多小夥伴已經知道該怎麼做了,但是小編今天要帶來的不僅僅是word轉pdf,還有word轉換成長圖,以及word翻譯的方法。方法很簡單,大家注意看,一遍就能學會。使用到的工具——迅捷PDF在線轉換器使用方法:首先我們找到並進入pdf在線轉換器平臺;進入後,選擇轉換格式,根據自己的需要進行選擇,這裡以word轉jpg為例;選擇好格式之後,把要轉換的文檔添加進來,並且可以設置一下轉換格式
  • 用 Python 操作 Word 文檔,看這一篇就對了!
    >document.save('new.docx')示例代碼 0.1 Python-docx新建文檔.py:from docx import Documentdef GenerateNewWord(filename):    document = Document()    document.save(filename)if
  • 科技:如何將PDF文件轉換為Word文檔和圖像文件
    導語:我們很多時候需要學會文件轉換,因為不管是在學習還是在工作中經常會用到,那麼我們如何將如何將PDF文件轉換為Word文檔和圖像文件呢?一起來看看吧。PDF是開放標準,由Adobe在20世紀90年代創建,用於顯示文檔,使其在所有平臺和軟體上看起來一致。
  • 如何用 Python 實現 Word 文檔操作?
    使用win32com需要安裝pypiwin32推薦使用python的IDLE,交互方便1、如何新建文檔from win32com.client import Dispatchapp = Dispatch('Word.Application')
  • 如何快速將圖片中文字轉成word文檔
    在平時辦公中當遇到的文檔是掃描的圖片文件時,如何才能快速有效的將圖片中文字轉成word文檔?
  • 還在用 Word 做筆記?Markdown 開啟你更高效工作的第一步!
    何為 Markdown❝Markdown 是一種「輕量級」標記語言,它允許人們使用易讀易寫的「純文本格式」編寫文檔,然後轉換成有效的 HTML 文檔。❞❝由於 Markdown 的輕量化、易讀易寫特性,並且對於圖片,圖表、數學式都有支持,目前許多網站都廣泛使用 Markdown 來撰寫幫助文檔或是用於論壇上發表消息。
  • Python Sphinx 生成簡潔大方的文檔
    Sphinx 是一種工具,是一個有趣 python 的第三方庫,它允許程式設計師以純文本格式編寫文檔,Spninx 可以輕鬆生成各種格式的輸出,比如 html,pfd,等等。純文本的文檔方便使用版本管理工具進行跟蹤。純文本文檔對不同系統之間的協作者也非常有用,純文本是當前可以採用的最便捷的格式之一,不然 markdown 格式咋那麼火呢,不是沒有道理的。程式設計師最討厭的兩件事:正經寫文檔確實麻煩,為啥麻煩呢?