現在網際網路上一個很現實的問題是:這還是一個以英語為主導的世界。
這在技術領域體現得尤其充分,各種技術書籍技術資源不論是種類還是更新速度,都是英文的居多,而國內的中文翻譯也是很跟不上節奏的。
(所以還望各位努力,為豐富中文世界的各種知識儲備做出貢獻)
在網絡上我們可以輕輕鬆鬆搜索下載到英文書籍的電子版本。
但是很多同學的英語並不是很好,離開了學校之後,更是少有接觸和使用。
這時候,面對著新鮮出爐、內容豐富有料的英文書籍,卻是無從下手。
通常一些同學的做法是,使用各種具備劃詞和取詞功能的詞典,比如:有道詞典、必應詞典等,進行小段落的翻譯。然而這樣的效率也不會很高。
最近發現了一個PDF轉HTML的工具pdftohtml.exe,聯想到在網頁上打開英文網站時經常使用瀏覽器的Goole翻譯插件對網頁進行全文翻譯閱讀,發現可以將兩者結合起來。對英語閱讀有障礙的同學來說,也不失為一種方法。
使用方法很簡單,在程序的目錄下打開命令行,輸入pdftohtml.exe 後接程序的選項和pdf源文件即可。
我們以之前推薦的《Python數據科學指南》為例,演示一下。
我們使用-i選項去除圖像,使用-c選項生成原始複雜的頁面,使用-stdout選項設置標準輸出,使用-noframes選項生成沒有框架的頁面:
最後生成了一個6M的html文件:
我們打開html文件和pdf原文件作一下對比:
PDF目錄
HTML中的目錄
HTML文件
內容和結構顯示都沒有什麼差錯。
我們使用瀏覽器的翻譯插件將網頁翻譯一下看看:
Google翻譯對網頁的內容翻譯的大致意思還是正確的,部分語句不通順的地方,也能夠理解出來。
對了,網頁的背景顏色是灰色的,有些同學對這個背景很不適應,我們可以稍微修改一下HTML文件,將body標籤的背景色去掉就會變成了白色背景:
原始html中bgcolor="#A0A0A0"
我們將其刪除:
保存,再用瀏覽器打開看看:
背景已經變成白色了。
如果有喜歡的其他顏色,也可以自己添加上去。
這樣藉助這google的網頁翻譯,閱覽這些英文的技術書籍就順手很多了。
軟體以及上傳到百度雲,大家回復關鍵字「pdf2html」,獲取連結。
最後,如果大家有其他的好的方法,歡迎留言交流!