在「小叮噹python人工智慧篇:輕鬆獲得英語課本電子版」中,已為大家分享通過人工智慧的圖文識別方法拿到英語課本的電子版。
其思路是:通過課後網址--->拍照到電腦--->人工智慧圖文識別--->獲得大體正確的網址--->人工對比修正--->獲得正確網址--->訪問網址--->將內容複製粘貼到本地--->獲得課文電子版
但是,這種方法仍需要我們通過網址訪問後,進行手工粘貼複製內容到本地。當課文多時,那也可真是累成狗!
難道我們必須手工複製粘貼?答案當然還是:不存在的!
都人工智慧新時代了,這種機械重複的工作就交給計算機來完成吧。
而我們人類,應該過上舒服愜意而又快樂的生活。
所以,我們可以通過語法簡單、代碼簡潔、容易上手的python代碼來為我們工作,使我們從大量的簡單機械重複性的工作中解脫出來!
通過「小叮噹python人工智慧篇:輕鬆獲得英語課本電子版」中的方法,我們已經可以輕鬆快速的拿到Unit1、Unit5單元的TextA和TextB的訪問網址。
曾有偉人說過,「世界上怕就怕認真二字!」
而IT小叮噹就最講究認真二字!我們得到的網址是否都對應著英文課本呢?
經過對比,果然發現有一個與課文內容不相符的網址——「url_unit5_texta」
此時我們仍利用「小叮噹python人工智慧篇:輕鬆獲得英語課本電子版」中的方法識別課文標題。將識別出來的標題放入百度中進行搜索,果然立馬就找到一個與課文相符的網址。
我們將網址複製粘貼給變量「url_unit5_texta",此時,我們已得到正確訪問的課文網址。
下面,我們就以unit1-texta為例,為大家分享怎樣通過python讓計算機為我們將英語課文自動寫入word。
Step1.拿到課文所在網頁內容
Step2.獲取課文內容
經分析發現,課文標題在一個class為「pageTitle」的h2標籤中。
課文內容在p標籤下。
我們通過簡單的正則表達式即可拿到課文標題和內容。
但我們發現,此時的英文課文中還有一些「<br/>"換行標籤等的格式標籤存在。我們使用正則去掉"<>",從而將標籤去掉。
但此時我們發現,還有一種特殊字符存在,形如「&rsquo」之類的html字符實體。
我們使用python中的html庫,將其轉化為相應的字符。
可以看到使用html庫解析後,我們已得到不含特殊字符幹擾的英文課文。
Step3.將英語課文寫入word中
我們先新建一個名為「0英語課文電子版」的文件夾,用來存儲我們將要寫成word的英語課文。
建好存儲的文件夾後,我們來讓python為我們自動寫入英語課文,並保存為word形式。可以看到,程序運行前,該文件夾為空。
執行程序後,我們建的文件夾下便多了一個「unit1-texta.doc"的文件。可見,程序已幫我們自動寫好word文件。
雙擊打開後,提示選擇文檔編碼,默認選擇為"utf-8",我們點擊確定即可。
到此,我們已成功實現將獲得的英語課文寫入word之中。
雖然,我們已成功將英文課文寫入word中,但我們更需要的是獲得它的漢語翻譯。
由於今天四六級監考,時間有限,小叮噹將在「小叮噹python人工智慧篇:讓Google為我們自動翻譯英語課文!」為大家分享怎樣讓Goole為我們自動翻譯出英語課文。