點擊上方[word精品教程]-右上角[...]-[設為星標⭐]
即可第一時間獲取最新辦公資訊
作者:一顆豆子 來源:武文濃墨(id:thick-ink)
有時候看到一篇文章,想要摘錄(照搬)局部或全部文字,可它是PDF文件,這時就需要轉換成可編輯的word。
一般來說有幾種方式:
將整個PDF文件通過工具轉換成word文件,此類工具如smallPDF、ilovePDF等在線網站。但它的問題在於因為無法保證100%的準確率,故需要校核轉換之後的準確率,這比轉換本身要花的精力多得多;
如果是針對掃描件或者圖片形式的PDF,要提取它們中的文字,無法用直接轉換的方式,而要用其它途徑,如圖像文字識別(亦稱光學文字識別)(Optical Character Recognition,OCR),其可將圖片中的字符翻譯成文字,是當前比較熱門的一種算法,涉及到機器學習。但它始終還是繞不開準確率的問題。我對這一塊用得較少,如果你有好用且準確率高的OCR app或網站希望推薦一下。
針對非掃描版PDF,最傳統的方式就是——直接從文件中拷貝文字至word中。這就不用擔心準確率的問題但如果你有過類型經歷,會發現拷至word後經常排版很醜,尤其是對於使用雙欄分布的PDF文件。
從某些PDF拷出來後會發現有很多的段落標記(即那些回車符號)。
對於這一類型的排版處理,當然你可以說「我比較懷舊,想一個一個刪」,未嘗不可,不過你可以想像手動刪除的步驟有多繁瑣:
按下「delete」鍵→下移光標→再按下「delete」鍵→重複以上操作……
如果遇到英文,考慮到英文單詞間的空格,步驟則變成:
按下「delete」鍵→下移光標→敲空格→再按下「delete」鍵→重複以上操作……
如果文字行數不多還好,如果行數在100行以上,那就……展示靈活手速的時候到了。
其實這種批量處理的工作,藉助word自帶「替換」功能便能很快處理。
Step1:按Ctrl+H召喚「替換」界面,在【查找內容】一欄選擇「段落標記」,或者手動輸入「^p」,而在【替換為】一欄無內容(如果是針對英文,由於單詞之間或符號與單詞之間存在空格,則此處輸入1個空格)。
Step2:完成後得到如下結果。如果所選文字含有多個段落,則此時需要手動分段,或者可在step1時分別針對單獨段進行替換。但我覺得前者更快,因為只是「瀏覽一眼」→「敲回車」即可。
Chrome瀏覽器很好用,小巧快速,而且由於Chrome瀏覽器內置了PDF文檔查看器,可以瀏覽PDF文件。
Step1:用Chrome瀏覽器打開PDF文件。右鍵單擊PDF文件,在打開方式一欄選擇Chrome。
Step2:用同樣的方式,對所需要的文字部分進行Ctrl+C拷貝,Ctrl+V粘貼至word中,會發現中間的段落標記都沒有出現。這就相當於方法一中所有段落標記被替換掉後的結果,只需要簡單的手工分段即可。所以相比而言,方法二少了一個「替換」步驟。
(從Chrome中直接拷出來的結果)
Step3:分段完成後稍微排一下版,會發現有個問題:某些字之間有1個空格(如紅色箭頭所示)。原來Chrome用空格取代了段落標記。如果你覺得空格無傷大雅,不影響閱讀或者使用,那至此為止已經完成了所有操作,可以收工了。如果你仍覺得不行,再加一個步驟。但對於英文,不存在「多1個空格」的問題,所以用Chrome複製英文有奇效。
Step4:這個步驟很簡單,原理還是「替換」功能。一次性選中需修改的文欄位落,快捷鍵Ctrl+H召喚「替換」界面,簡單設置即可點擊「全部替換」。
End,希望能對你有點幫助,點擊在看,讓更多的人獲益吧~