PDF轉Word完全免費?這麼好的事情我怎麼不知道????

2021-02-14 Python亂燉

」閱讀此篇需要三分鐘「

首先來看看來個PDF文件

我們來選擇其中一個論文摘要

使用我們的python代碼轉化後：

是不是很神奇？

現在網絡上大部分的PDF轉Word都是收費的，基本都是按頁收費，有了我們的python代碼後，我們就可以完全免費的將PDF轉成Word了，這麼好的福利我們趕緊來了解一下吧！

首先來看看我們要安裝一些什麼模塊：

attrs==17.4.0
lxml==4.1.1
pdfminer3k==1.3.1
pluggy==0.6.0
ply==3.11
py==1.5.2
pytest==3.4.1
python-docx==0.8.6
six==1.11.0

使用pip模塊管理工具即可安裝。

如上圖，將每個模塊都安裝好。

或者直接將模塊放到requirements.txt文件裡，運行

pip install -r requirements

安裝即可

下一步就來開始coding了！

首先導入需要使用的模塊：

import os
from io import StringIO
from io import open
from concurrent.futures import ProcessPoolExecutor
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from docx import Document

然後定義好PDF文件的讀取路徑和Word文件的生成路徑。

pdf_folder = r'/Users/wuyuqing/Desktop/Code/pdf2word/pdf'
word_folder = r'/Users/wuyuqing/Desktop/Code/pdf2word/word'

接下來我們定義使用的方法：

def read_from_pdf(file_path):
with open(file_path, 'rb') as file:
resource_manager = PDFResourceManager()
return_str = StringIO()
lap_params = LAParams()

device = TextConverter(
resource_manager,
return_str,
laparams=lap_params)
process_pdf(resource_manager, device, file)
device.close()

content = return_str.getvalue()
return_str.close()
return content

通過字節流的方式打開文件，讀取內容。我們主要使用process_pdf這個函數處理pdf，詳情處理步驟我們可以看看API是這麼處理的（這API寫好的代碼，供參考，不需要你再次手寫）：

def process_pdf(rsrcmgr, device, fp, pagenos=None, maxpages=0, password='',
caching=True, check_extractable=True):
# Create a PDF parser object associated with the file object.
parser = PDFParser(fp)
# Create a PDF document object that stores the document structure.
doc = PDFDocument(caching=caching)
# Connect the parser and document objects.
parser.set_document(doc)
doc.set_parser(parser)
# Supply the document password for initialization.
# (If no password is set, give an empty string.)
doc.initialize(password)
# Check if the document allows text extraction. If not, abort.
if check_extractable and not doc.is_extractable:

raise PDFTextExtractionNotAllowed(

'Text extraction is not allowed: %r' % fp)

# Create a PDF interpreter object.
interpreter = PDFPageInterpreter(rsrcmgr, device)
# Process each page contained in the document.
for (pageno,page) in enumerate(doc.get_pages()):
if pagenos and (pageno not in pagenos): continue
interpreter.process_page(page)
if maxpages and maxpages <= pageno+1: break

下面我們考慮將字節流存成docx文檔：

def save_text_to_word(content, file_path):
doc = Document()
for line in content.split('\n'):
paragraph = doc.add_paragraph()
paragraph.add_run(remove_control_characters(line))
doc.save(file_path)

# 將兩個函數封裝起來

def pdf_to_word(pdf_file_path, word_file_path):

content = read_from_pdf(pdf_file_path)
save_text_to_word(content, word_file_path)

主要功能完成，這樣就算完工了

下面我們來調用讀取pdf生成docx的方法

tasks = []
with ProcessPoolExecutor(max_workers=5) as executor:
for file in os.listdir(pdf_folder):
extension_name = os.path.splitext(file)[1]
if extension_name != '.pdf':
continue
file_name = os.path.splitext(file)[0]
pdf_file = pdf_folder + '/' + file
word_file = word_folder + '/' + file_name + '.docx'
print('正在處理: ', file)
result = executor.submit(pdf_to_word, pdf_file, word_file)
tasks.append(result)
while True:
exit_flag = True
for task in tasks:
if not task.done():
exit_flag = False
if exit_flag:
print('完成')
exit(0)

這樣就可以生成doc文件了，怎麼樣是不是很簡單？

你也來動手試一試？

完整代碼請點擊閱讀原文

相關焦點

WORD怎麼轉PDF - 免費的在線DOC轉PDF工具

WORD怎麼轉PDF？免費的在線DOC轉PDF工具。
pdf在線轉word - 在線pdf轉word免費 - pdf轉word

pdf在線轉word - 在線pdf轉word免費 - pdf轉word#有沒有免費的pdf
word轉pdf-word轉pdf在線-在線word轉pdf免費版

word轉pdf-word轉pdf在線-在線word轉pdf免費版#有沒有免費的word
完全免費,4個優秀的 pdf 轉 word 工具

今天給大家推薦4個免費的pdf轉word工具，收藏文章，以後需要用的時候就不怕找不到啦~電腦安裝 Office 2013 及以上版本，word都支持直接把pdf穩定轉換為word文檔。找到你要打開的 PDF文件，右鍵 "打開方式 - word"，打開的時候選擇確認轉換就行。
怎麼把word轉成pdf

怎麼把word轉成pdf　　word轉換pdf格式有各種好處，首先有的電腦上不支持word文檔，或者只支持一部分word格式，比如只支持doc而不支持docx，轉換成pdf以後，就可以使用pdf 軟體打開，而不必使用word了，在列印的時候，pdf格式不會發生變化，但是word經常因為電腦的不同而變化，所以pdf格式更加的穩定，那麼怎麼把
PDF轉word在線免費—PDF轉word轉換器免費版

PDF轉word在線免費—PDF轉word轉換器免費版pdf轉換器最新版_pdf轉換器官方下載
word怎麼轉pdf?1分鐘搞定Word轉PDF!

word怎麼轉pdf？1分鐘搞定Word轉PDF！word怎麼轉pdf？
怎麼把word轉成pdf?Word怎樣轉換成PDF?Word轉換PDF方法

怎麼把word轉成pdf？Word怎樣轉換成PDF？
pdf轉換成word_pdf轉word在線_pdf轉換器在線免費版

pdf轉換成word_pdf轉word在線_pdf轉換器在線免費版怎麼把pdf文件轉換成word
PDF轉Word | 免費在線PDF轉Word | PDF轉Word轉換器

PDF轉Word | 免費在線PDF轉Word | PDF轉Word轉換器
大文件pdf怎麼轉換成word免費-pdf怎麼在線轉換成word

大文件pdf怎麼轉換成word免費-pdf怎麼在線轉換成word
怎麼把pdf文件轉換成word文件?PDF合併_jpg轉pdf_PDF轉Excel_pdf怎麼轉換成ppt

怎麼把pdf文件轉換成word文件？
免費PDF轉word教程

今天給大家分享的這款免費PDF轉word軟體可以吊打全網所有收費軟體————————寫在最前面。話不多說，上教程！
PDF轉WORD還有這樣的新套路?!

除了直接粘貼外，哪些軟體能夠軟體可以高效簡單地將pdf轉換為word，小編給大家全面的介紹幾款軟體~首推微軟的word，不過只有在2013以上的版本才能這麼操作。2.5e-Pdf pdf 2 word converter 是一款功能比較單一的軟體，只能是PDF轉word。
PDF轉Word?So easy!

PDF轉Word，PDF轉excel等等，今天就為大家推薦幾款在線的文檔轉化工具，無需安裝，使用方便，趕緊看看！網址： smallpdf.com/cn它的界面是這樣的，簡直美爆了有木有╮(╯_╰)╭，PDF在這裡想怎麼轉就怎麼轉！所有功能都羅列在首頁，超級方便！
如何在線免費將pdf轉成word文檔?

很多時候大家都有需要將pdf轉成word文檔的需求，怎奈又不想花錢去做這個事情，市面上確實有免費的軟體，但是，要麼只能轉一半，要麼就是轉換出來的
免費在線pdf轉word

今天這篇對於計算機基礎更偏向於工具推薦吧！
Word如何轉PDF word文檔怎麼轉pdf

所以在列印的時候，我們需要將word文檔轉成pdf格式。因為pdf格式列印時，pdf格式不會發生變化，pdf格式word文檔更加穩定且適合多種場景。那麼問題來了，Word如何轉PDF格式呢? 方法一、word轉換想要快速在電腦上將Word文檔轉為PDF格式很簡單，只要利用Word中的「另存為」功能即可。
不用下載就能免費PDF轉Word神器

一．pdf2doc網頁：https://pdf2doc.com/zh/這是Chrome的一個插件，只需要同意使用就可以開始轉換啦！不僅可以PDF轉換word，還能PDF轉TEXT、JPG、PNG，還能合成PDF，JPG轉PDF等。該網頁甚至可以同時轉換多達20個文檔。
極簡信息技術| PDF轉word,這兩個網站就夠了

但在實際使用中，我們常常出於各種原因，需要把 PDF 轉換為可編輯的 word或者ppt 文件。PDF分為兩種：一種是 word 文件轉成的 PDF，另一種是掃描生成的 PDF。前者的特點是文字可以直接選中，相對更容易轉成word；而後者本質上是圖片文件，文字不可選中，用一般的方式不能實現轉換。現在大部分PDF工具都是收費的，這個網站完全免費，不限制轉換次數、文件大小！1.

PDF轉Word完全免費?這麼好的事情我怎麼不知道????

相關焦點

WORD怎麼轉PDF - 免費的在線DOC轉PDF工具

pdf在線轉word - 在線pdf轉word免費 - pdf轉word

word轉pdf-word轉pdf在線-在線word轉pdf免費版

完全免費,4個優秀的 pdf 轉 word 工具

怎麼把word轉成pdf

PDF轉word在線免費—PDF轉word轉換器免費版

word怎麼轉pdf?1分鐘搞定Word轉PDF!

怎麼把word轉成pdf?Word怎樣轉換成PDF?Word轉換PDF方法

pdf轉換成word_pdf轉word在線_pdf轉換器在線免費版

PDF轉Word | 免費在線PDF轉Word | PDF轉Word轉換器

大文件pdf怎麼轉換成word免費-pdf怎麼在線轉換成word

怎麼把pdf文件轉換成word文件?PDF合併_jpg轉pdf_PDF轉Excel_pdf怎麼轉換成ppt

免費PDF轉word教程

PDF轉WORD還有這樣的新套路?!

PDF轉Word?So easy!

如何在線免費將pdf轉成word文檔?

免費在線pdf轉word

Word如何轉PDF word文檔怎麼轉pdf

不用下載就能免費PDF轉Word神器

極簡信息技術| PDF轉word,這兩個網站就夠了