為什麼發布文檔時,一般都選擇pdf格式?
PDF,Portable Document Format,可攜帶文檔格式。最大的好處是在不同終端、不同作業系統,它都能夠保證版面效果不變,同時它也具有難以編輯的特性。發布傳播文檔時,希望文檔無論在什麼終端、系統下都能保持版面不變,同時不希望別人可以隨意更改文檔,PDF剛好能滿足需求。所以發布文檔時,大都選擇pdf格式。
為什麼想要把pdf轉換成word或者其他格式呢?
收到文檔的人是形形色色的,有很多人想獲取pdf中的內容,並編輯。這就產生了pdf轉word、pdf轉PPT、pdf轉excel等的需求。
為了滿足這些需求,網絡上出現了很多工具軟體、網站,都提供PDF到word的一鍵轉換功能。人們很懶的,都想一鍵轉換,但是一鍵轉換怎麼可能滿足人們多樣化的需求呢。當不能得到滿意的結果的時候,你有沒有想過這些工具軟體、網站都是怎麼工作的?了解一下,有助於你更高效地解決這個問題。
01PDF轉word的流程
02一、pdf文件
pdf文件可以分為兩種:文字版pdf和圖片版pdf。
文字版pdf不是指只含有文字的pdf,是指可以直接選中並複製文字的pdf。這種pdf一般是由Word、Indesign、Excel等軟體導出生成的,直接含有文字、數據等信息,是矢量的,不會因為放大而看到模糊,清晰度非常高。
圖片版pdf,pdf只包含有圖形、圖片、幾何形狀,看著有文字,但都是圖片化的文字,不可選中複製。圖片型pdf可以是由掃描圖片組合而成,也可以是由一些手機照片組合而成,它的清晰度由圖片的清晰度決定。文字版pdf通過文字轉曲線功能,可以得矢量高清的圖片版pdf。
文字版pdf往往比圖片版pdf更容易轉換為其他可以編輯的文檔格式,轉換效果更好。
03二、圖像預處理
如果輸入的pdf文件是文字版pdf,那麼不需要圖像預處理;如果輸入的是圖片版pdf,就需要預處理。
圖像預處理包括:拆分對開頁、糾正頁面方向、歪斜校正、校直文本行、校正圖像解析度、檢測頁面邊角、加白背景、降低ISO噪點、去除運動模糊、糾正梯形失真等等。
1. 拆分對開頁。書籍掃描時使用平板掃描儀,對開的兩個頁面一次掃描成一個圖片,這樣可以提高掃描效率。但對開頁必須拆開處理,才能提高識別的正確率。對開頁如下圖。
2. 糾正頁面方向。由於掃描時的錯誤設置或操作,或者其他原因,頁面圖像旋轉了90度或者180度,導致頁面方向不正確。頁面方向必須得到糾正,才能正確地識別上面的信息。
3. 歪斜校正。在掃描或者拍照時,不論如何小心操作,頁面圖像或多或少都會有一定的歪斜,因此需要對頁面圖像進行歪斜校正。如上圖,可以明顯看出右頁有歪斜。
4. 校直文本行。紙張的變形會引用文本行的變形,變形的文本行顯然會增加識別難度。校直文本行是一個大難題。如下圖,手機拍攝的,文本行彎曲,需要校直。
5. 校正圖像解析度。各個工具軟體都有自己適合的解析度,解析度低了肯定不行,但是也不是越高越好。
6. 檢測頁面邊角、加白背景、降低ISO噪點、去除運動模糊、糾正梯形失真。
這些預處理項目主要是針對手機或相機拍攝得到的頁面圖像。相對於掃描來說,手機或相機拍攝更難把控頁面圖像的質量,會出現頁面邊角難以分辨、產生陰影、出現ISO噪點、手抖造成運動模糊、角度不好造成頁面呈梯形、紙面難以壓平造成文本行彎曲……如上圖,頁面邊界需要檢測;頁面暗淡,需要加白背景;也存在梯形失真,需要糾正。
不同的軟體對圖像預處理的項目、算法不盡相同,最終影響轉換效果。
04三、版面分析
文字版的pdf可能已經丟失了版面信息,所以仍然需要進行版面分析,才能正確輸出。
一個版面中可以包含很多元素,如頁眉(天頭)、頁腳(地腳)、文本、圖片、表格、公式、形狀、背景等等,排版的形式更是千變萬化,兩欄、三欄、圖片穿插、圖文表混排、中英混排、橫豎混排等等。這就非常考驗軟體的版面分析能力了,越複雜,元素越多的版面,分析起來就越困難,分析不正確自然得不到好的結果。如下圖,左側是一個最簡單的版面,我想任何一個軟體都可以分析正確,可以預期比較好的識別結果;而右側是一個書籍封面,這個版面可能很少有軟體能夠正確分析,往往也不能得到好的結果。
05四、OCR識別
OCR,optical character recognition,光學字符識別,就是把已經圖片化的文字識別成可編輯的文字。文字版的pdf並不需要進行OCR識別。現在國內的百度、阿里、騰訊等大廠都有自己的OCR引擎,很多pdf轉word的軟體都是調用了這些引擎。
OCR引擎的好壞關係到文字識別的正確率的高低。俄羅斯的ABBYY finereader的OCR引擎,是比較好的,我一直在使用。
06五、輸出
一般的軟體都可以輸出多種格式,就看實際需要什麼格式了。在這裡著重說一說轉出word格式的不同模式。在ABBYY FineReader中輸出Word,有「純文本」和「精確副本」等選項(中間還有其他選項「可編輯副本」和「格式化文本」)。「純文本」輸出時仍然可以選擇保留圖片、上下標、粗體等,這種方式會丟棄大部分格式信息和位置信息,獲得了流排文本,從而獲得更好的編輯性;而「精確副本」保留了所有的格式和位置信息,文本分塊以圖文框定位於文檔頁面中,各塊文本之間失去了聯繫,不具有流排特徵,可編輯性很差。
WPS中的pdf轉word功能也提供了類似的選項,「布局優先」和「編輯優先」,其他軟體可能也有類似的選項。
選哪種模式,還看需求。如果對輸出後的word改動較小,可以「精確副本」;如果要全部重排的,要「純文本」。