PDF轉word,一鍵轉換?沒有這麼簡單

2020-12-09 阿德O辦公圖文

為什麼發布文檔時,一般都選擇pdf格式?

PDF,Portable Document Format,可攜帶文檔格式。最大的好處是在不同終端、不同作業系統,它都能夠保證版面效果不變,同時它也具有難以編輯的特性。發布傳播文檔時,希望文檔無論在什麼終端、系統下都能保持版面不變,同時不希望別人可以隨意更改文檔,PDF剛好能滿足需求。所以發布文檔時,大都選擇pdf格式。

為什麼想要把pdf轉換成word或者其他格式呢?

收到文檔的人是形形色色的,有很多人想獲取pdf中的內容,並編輯。這就產生了pdf轉word、pdf轉PPT、pdf轉excel等的需求。

為了滿足這些需求,網絡上出現了很多工具軟體、網站,都提供PDF到word的一鍵轉換功能。人們很懶的,都想一鍵轉換,但是一鍵轉換怎麼可能滿足人們多樣化的需求呢。當不能得到滿意的結果的時候,你有沒有想過這些工具軟體、網站都是怎麼工作的?了解一下,有助於你更高效地解決這個問題。

01PDF轉word的流程

PDF轉word的流程

02一、pdf文件

pdf文件可以分為兩種:文字版pdf和圖片版pdf。

文字版pdf不是指只含有文字的pdf,是指可以直接選中並複製文字的pdf。這種pdf一般是由Word、Indesign、Excel等軟體導出生成的,直接含有文字、數據等信息,是矢量的,不會因為放大而看到模糊,清晰度非常高。

圖片版pdf,pdf只包含有圖形、圖片、幾何形狀,看著有文字,但都是圖片化的文字,不可選中複製。圖片型pdf可以是由掃描圖片組合而成,也可以是由一些手機照片組合而成,它的清晰度由圖片的清晰度決定。文字版pdf通過文字轉曲線功能,可以得矢量高清的圖片版pdf。

文字版pdf往往比圖片版pdf更容易轉換為其他可以編輯的文檔格式,轉換效果更好。

pdf轉word圖片版pdf與文字版pdf

03二、圖像預處理

如果輸入的pdf文件是文字版pdf,那麼不需要圖像預處理;如果輸入的是圖片版pdf,就需要預處理。

圖像預處理包括:拆分對開頁、糾正頁面方向、歪斜校正、校直文本行、校正圖像解析度、檢測頁面邊角、加白背景、降低ISO噪點、去除運動模糊、糾正梯形失真等等。

1. 拆分對開頁。書籍掃描時使用平板掃描儀,對開的兩個頁面一次掃描成一個圖片,這樣可以提高掃描效率。但對開頁必須拆開處理,才能提高識別的正確率。對開頁如下圖。

pdf轉word掃描對開頁

2. 糾正頁面方向。由於掃描時的錯誤設置或操作,或者其他原因,頁面圖像旋轉了90度或者180度,導致頁面方向不正確。頁面方向必須得到糾正,才能正確地識別上面的信息。

3. 歪斜校正。在掃描或者拍照時,不論如何小心操作,頁面圖像或多或少都會有一定的歪斜,因此需要對頁面圖像進行歪斜校正。如上圖,可以明顯看出右頁有歪斜。

4. 校直文本行。紙張的變形會引用文本行的變形,變形的文本行顯然會增加識別難度。校直文本行是一個大難題。如下圖,手機拍攝的,文本行彎曲,需要校直。

pdf轉word校直文本行

5. 校正圖像解析度。各個工具軟體都有自己適合的解析度,解析度低了肯定不行,但是也不是越高越好。

6. 檢測頁面邊角、加白背景、降低ISO噪點、去除運動模糊、糾正梯形失真。

這些預處理項目主要是針對手機或相機拍攝得到的頁面圖像。相對於掃描來說,手機或相機拍攝更難把控頁面圖像的質量,會出現頁面邊角難以分辨、產生陰影、出現ISO噪點、手抖造成運動模糊、角度不好造成頁面呈梯形、紙面難以壓平造成文本行彎曲……如上圖,頁面邊界需要檢測;頁面暗淡,需要加白背景;也存在梯形失真,需要糾正。

不同的軟體對圖像預處理的項目、算法不盡相同,最終影響轉換效果。

04三、版面分析

文字版的pdf可能已經丟失了版面信息,所以仍然需要進行版面分析,才能正確輸出。

一個版面中可以包含很多元素,如頁眉(天頭)、頁腳(地腳)、文本、圖片、表格、公式、形狀、背景等等,排版的形式更是千變萬化,兩欄、三欄、圖片穿插、圖文表混排、中英混排、橫豎混排等等。這就非常考驗軟體的版面分析能力了,越複雜,元素越多的版面,分析起來就越困難,分析不正確自然得不到好的結果。如下圖,左側是一個最簡單的版面,我想任何一個軟體都可以分析正確,可以預期比較好的識別結果;而右側是一個書籍封面,這個版面可能很少有軟體能夠正確分析,往往也不能得到好的結果。

pdf轉word簡單版面與複雜版面

05四、OCR識別

OCR,optical character recognition,光學字符識別,就是把已經圖片化的文字識別成可編輯的文字。文字版的pdf並不需要進行OCR識別。現在國內的百度、阿里、騰訊等大廠都有自己的OCR引擎,很多pdf轉word的軟體都是調用了這些引擎。

OCR引擎的好壞關係到文字識別的正確率的高低。俄羅斯的ABBYY finereader的OCR引擎,是比較好的,我一直在使用。

06五、輸出

一般的軟體都可以輸出多種格式,就看實際需要什麼格式了。在這裡著重說一說轉出word格式的不同模式。在ABBYY FineReader中輸出Word,有「純文本」和「精確副本」等選項(中間還有其他選項「可編輯副本」和「格式化文本」)。「純文本」輸出時仍然可以選擇保留圖片、上下標、粗體等,這種方式會丟棄大部分格式信息和位置信息,獲得了流排文本,從而獲得更好的編輯性;而「精確副本」保留了所有的格式和位置信息,文本分塊以圖文框定位於文檔頁面中,各塊文本之間失去了聯繫,不具有流排特徵,可編輯性很差。

WPS中的pdf轉word功能也提供了類似的選項,「布局優先」和「編輯優先」,其他軟體可能也有類似的選項。

選哪種模式,還看需求。如果對輸出後的word改動較小,可以「精確副本」;如果要全部重排的,要「純文本」。

pdf轉換word純文本輸出與精確輸出

相關焦點

  • word怎麼轉pdf?Word轉PDF其實很簡單!
    word怎麼轉pdf?有時候我們要在不同的電腦上使用word,而不同的系統中word呈現給我們的狀態是不同的,所以我們需要將Word轉換成PDF以便閱覽。下面我給大家分享兩個簡單好用的Word轉PDF方法,幫助大家提高辦公效率!
  • 萬能word轉pdf轉換器 高質文件轉換軟體
    沒處理過文檔轉換的問題,你可能無法體會這裡面的麻煩。我以前也以為轉換文檔很簡單,隨便下載個轉換器就能完成。後來在單位需要處理幾百份word文檔轉為pdf電子書文檔的時候,我才深深體會到這其中的麻煩,一連在網上下載了好幾個轉換軟體,但都無法成功轉換,有些是格式不支持的問題,有些軟體看著完成轉換了,但是打開一看卻全是亂碼。
  • word怎麼轉pdf?兩招輕鬆搞定Word轉PDF!
    word怎麼轉pdf?大家在日常辦公的時候,有沒有遇到過文件格式轉換的難題?就拿最常見的Word轉PDF格式來說,你們都是如何解決的?不會的話,也沒關係。今天小編就來教大家2種非常實用的Word轉PDF技巧,下面就一起來學習吧!
  • 怎麼把pdf轉換成word?分享1個在線轉換文件格式的技巧
    在文字工作者的學習、工作生活中,應該沒少進行「把pdf轉換成word」的操作吧,這兩種格式的文件經常都會使用到。特別地,當一份pdf文件的內容出錯時,我們往往要把它先轉word文檔後,再來修改其中的內容。
  • PDF轉換器有什麼用處,pdf 轉 word秒轉教程
    pdf 轉 word教程?不少在校學生和老師們,或者是在外工作的人群,或多或少都和文檔有些交集,有些人說自己不怎麼使用文檔,可你日常生活中填的一些文件,其實就是文檔紙質版,因此大家或多或少都會有交集。其實改變PDF文件格式很簡單,讓網上的PDF文件「改頭換面」成你的Word文檔其實也不難,問題在於很多人其實不知道怎麼轉換,連簡單的轉換文件格式的方法都不知道,當然會覺得難了,其實PDF轉換成Word或者是Excel、PPT等都是很簡單的事情,看我這邊怎麼簡單的操作就能幫你解決!
  • 如何在線免費將pdf轉成word文檔?
    很多時候大家都有需要將pdf轉成word文檔的需求,怎奈又不想花錢去做這個事情,市面上確實有免費的軟體,但是,要麼只能轉一半,要麼就是轉換出來的word文檔丟東少西,作為一個經常需要用到pdf轉word文檔的網際網路人士來說,找到免費的軟體容易的很。下面給大家推薦一些。
  • word轉pdf的方法,word怎麼轉pdf,三種方法隨便您用哪種
    奇點來臨小編了解到,在日常工作中,為了不讓別人更改自己的word文檔內容,可以採取加密,或者文檔保護的方式,當然有一種方式更為簡單和方便,那就是把word文檔轉化成pdf文檔。第一,高版本word直接選擇另存為即可。
  • 掃描件PDF怎麼轉換成可編輯文本?方法這麼簡單?
    掃描件PDF怎麼轉換成可編輯文本?pdf文件的屬性不同,編輯的方法也不同。因為pdf文件有很多的格式,有的是純文字,有的是圖文格式,最麻煩的是掃描的pdf文件。針對不同類型的pdf文件,要怎麼進行轉換呢?其實方法很簡單,一起來圍觀吧!
  • word轉pdf用什麼免費軟體好?終於找到了!
    word轉pdf用什麼免費軟體好?PDF文件成為大家越來越常用的一種文件格式,但是在日常的學習和辦公過程中,經常需要用到格式轉換功能,比如最常用的Word轉PDF。小編給大家找到了好的辦法,從輕鬆免費級的小技巧,到專業級的軟體,無論人群和使用場景,都能完美適用,來看看吧~一:複製粘貼就能解決適合場景:需要複製的內容主要為文字,且數量不多,沒有表格和圖片解決方案:如果你只是想把PDF裡某段需要的文字轉移到你的word裡,那麼不用太折騰,左手一個Ctrl+C,右手一個Ctrl+V,直接搞定。
  • 常用的Word轉PDF方法是什麼?輕鬆學會轉換技能!
    大家在工作中經常會需要使用到Word或者PDF文檔,常用的Word轉PDF方法是什麼?很多時候PDF文檔由於自己特性的原因,更受到一些人的喜愛,所以很多時候我們都需要將自己手上的例如Word文檔,PPT文檔等轉換成PDF格式,便於傳閱。
  • PDF怎麼轉換成word?這些PDF轉word方法很好用
    PDF怎麼轉換成word?這些PDF轉word方法很好用 PDF怎麼轉換成word?作為一名辦公人員,經常接觸到PDF文件是很正常的事情。
  • Word怎麼轉成PDF格式?這個方法令人驚嘆!
    在工作中,你是不是遇到這種情況:Word轉轉為Excel、PPT等,很多人不知道如何操作。所以小編今天就以常見的Word轉PDF為例,在此發個文,希望對各位有所幫助!一:利用Word自帶的PDF轉換功能說到將word轉換成pdf,其實Word原本是自帶有PDF轉換功能的。不信你看一下就知道了!(1)文檔編輯完成後,選擇【文件】-【導出】命令。
  • 如何將word轉換成pdf?超簡單的使用教程免費分享
    如何將word轉換成pdf?PDF 格式的文檔在閱讀體驗方面有更高的視覺效果,再加上PDF文檔不易修改的特性,使得很多人在保留文檔的時候都會留存為PDF格式。一般我們編輯文檔都用的是Word,如何將Word轉換成PDF呢?今天免費教大家幾種常見的方法。
  • PDF如何轉換成Word文件?方法就這麼簡單!
    在日常工作中如果要將文件進行列印操作,首先都會選擇將文件轉換為PDF格式,以固定文件的排版格式,確保列印出來的文件不會存在格式錯亂的問題。但PDF文件想要重新轉換成Word文件又該如何操作呢?這一轉換操作輕易難倒了不少人,其實方法有很多種,今天小盾就為大家介紹一下相對簡單的其中兩種轉換方法!一、另存為另存為操作在文件格式轉換中,除了某些特定格式轉換,基本上可以稱得上是一個萬能的操作,通過另存為,選擇所需文件類型,即可快速將PDF文件轉換為Word文檔。
  • pdf怎麼轉換成word?打工人必備的叢林法則
    小編接受了一個工作,要批量將pdf轉換成word,而且不太花錢的我(和大部分人一樣,只想找免費的工具),在同事的幫助下,找到了很不錯的辦法,再加上我自己總結的幾個辦法,給大家分享一些乾貨。當然,我還找到了批量轉的免費方法~1、藉助另存為轉換格式如果在PDF轉換成Word的需求量不是很大的時候,我們就可以藉助這個質樸的辦法。打開所需要轉換的PDF,到左上角找到另存為,然後會看到保存格式是可以選擇的,我們選擇Word格式就可以了。
  • PDF怎麼轉換成Word?分享免費PDF轉Word文檔的方法
    PDF怎麼轉換成Word?有很多朋友都會為辦公中的一些事情很煩惱,其中就有關於文件格式轉換的。在文件格式轉換過程中,最常見的便是PDF轉Word。如果有朋友不知道怎麼將PDF轉換成Word,那麼一定要看今天的內容,今天我就主要講講PDF轉Word的方法。
  • excel轉pdf怎麼轉換?教你三種方法完成pdf轉換
    excel轉pdf怎麼轉換?說到excel表格相信很多的小夥伴並不陌生,往往在表格中會存在著大量的數據,為了避免這些數據的篡改,經常會看到許多的小夥伴把excel表格文件轉換為pdf格式的文件。之前還有小夥伴問到excel轉pdf怎麼轉換?
  • 不藉助第三方軟體,實現Word、PPT和Excel的格式互相轉換,太牛了
    雖然使用不同的工具可以做到同樣的事情,但是每個軟體的特長是不一樣的,比如word無法像Excel那樣快速地進行數據處理,而PPT則具有獨特的全屏演示功能。所以,我們也會常常將不同的文檔轉換成其它的格式,比如在Word、PPT和Excel之間進行格式轉換。一般情況下,大多數人都使用第三方工具來完成這項工作的。實際上,這些辦公軟體就自帶了互相轉換的功能,只是你沒有發現而已。
  • 手機上怎麼把pdf轉為word?這個方法很多人用了說好
    平時,大家面對、接觸到pdf文件、word文稿的機會有很多,特別是坐辦公室的文員小夥伴們。一般來說,大家傳閱一份文件時,多以pdf格式的形式傳送、查閱。不過,pdf文件難以編輯,要想修改其中內容的話,要先把它轉word文檔、excel表格等其他易編輯格式。
  • pdf保存為網頁可以嗎?pdf格式文件要怎麼轉換成網頁文件?
    pdf格式文件要怎麼轉換成網頁文件?說到html,很多小夥伴似懂非懂。其實,這是一種超文本標記語言,頁面內包含有圖片、音樂、連結等很多非文本元素。有時候,特別是網際網路程式設計師,工作中要將其他格式文件(例如pdf)轉html格式網頁。