最近在教研時,遇到一個小小的需求:把某實體書上掃描的英語閱讀文章,從pdf文件轉成文本,做一個獨家的語料庫。每篇長度大概200字,如下,一共幾十篇。2. 使用掃描寶之類的軟體來轉文本;
3. 在淘寶上找專門打字的人來轉錄;幾十段100-200字的文章,是個比較尷尬的總量,因為如果選擇從pdf中複製黏貼或者使用掃描寶,我就得操作幾十次。這兩種方式轉化文本的準確率雖然較高,但我還是需要自己校對一遍並調整格式。類似「l」被轉化成「1」這樣的經典錯誤,如果每個都要手動改正,我也得瘋。選項3和4,我得花錢。淘寶上專門的「人工文字錄入」,準確率一般能達到千字5個錯誤以內,臨時找的兼職就不好說了,這意味著,如果要求文本的完全正確,我還是得自己去改。幾十段100-200字,我還真考慮了是否要自己打字……幸好這時,我想到了一個Word上每天都看見,但從來沒點過的按鈕……神秘的按鈕啊,從來沒有點過,但大概知道它的功能——
Dictate,「聽寫」,這詞大家不陌生,上學時都沒少做dictation……哪怕只是看圖標,也能猜到它八成是一個
語音輸入助手。
沒點過它,是因為之前沒有過類似需求。而且我打字速度還比較快,我尋思語音輸入識別度再高再智能,畢竟標點符號之類的還是得自己手動打,用著肯定麻煩。而試著點了一下神秘按鈕Dictate之後,我仿佛打開了通往新天地的大門……
只要你的發音還算準確,語速適中的情況下,把語音轉化為文字這件事情本身不難,很多app和輸入法都可以做到,就不多廢話了。我直接說說之前阻礙我去嘗試的標點符號問題是怎麼解決的。
在Bing中搜索「microsoft word dictate」,會出現微軟官網的技術支持頁面,上面就有Dictate功能的簡明教程。對我來說,最有用的部分就是「標點符號」。
說這個表格有用,不是因為標出了每個標點的英語名……而在於它告訴了我
輸入標點和格式的邏輯就是——直接說,比如換行就說「new line」!還有一些微操比如括號、引號這樣一對的標點,是分開兩次單獨說的。知道了這些之後,我瞬間開啟了加速輸入模式!我測試了一下下面這一小段文字,一共75個單詞,打字時自己有點緊張,花了1分12秒,而Dictate的最終耗時是50秒。(均不考慮改錯。)粗略算來,用Dictate語音輸入的速度比我打字提高了近30%(這還是剛開始磨合)。Dictate的識別速度應該說是快的,雖然過程中和朗讀同步記錄/識別下來的文字有一定錯誤,且看起來有延時,但
朗讀者不需要停頓,word自己會保持在後臺不斷修正,一口氣到最後讀完,也就只需要多等約2秒鐘,就能得到基本準確的全部文本。唯一不太適應的地方還是每個標點符號都需要讀出來……一開始覺得自己特別傻,不過慢慢也就習慣了。觀察它的錯誤率並磨合了一段時間後,我發現語速可以更快一些,於是下面這段88個單詞的文章,就只花了45秒。你可能會問「為什麼你要像個機器人一樣去讀……」,因為那種文字轉語音的程序聽起來不就是這個樣子麼……我想可能我這麼讀電腦更適應……而且主要是考慮我把每個詞都更清楚地讀出來,才能保證準確率不是麼?
還真不是。為了挑戰一下Dictate的極限,我用了一遍正常的語速……結果識別起來居然一點問題也沒有,同樣的文章,又節約7秒鐘!雖然我仍然故意保持很平的語氣,但是
有連讀和失去爆破的地方基本沒落下,最神的是居然各種弱讀也被Dictate神奇地識別了!此時我更堅定了這次的操作方案,用Dictate搭配手動的修改將是我這個工程中最節約時間的輸入方法。如果是單篇更長的文章,可能掃描寶之類的應用處理起來效率會更高,而且文本的難度,尤其是專有名詞的數量,也會影響識別準確率或者說事後手動修改的工作量。所以Dictate的使用場景也得根據自己的需求來確定,但體驗上絕對超過了我的想像!吔。
Dictate還支持中文,我也試了一下,發現可以識別大白話,也支持標點符號,可是稍微複雜一點的文本準確率就和英文有一定差距。
另外,它對環境的要求並不高,我沒有在完全安靜的環境中使用,而且全程只是對著筆記本,沒有用單獨的耳機或麥克風。感興趣的朋友可以戳戳看Dictate,說不定哪天就能派上用場~
我知道大家可能已經(和我一樣)厭煩了公眾號文章前後求點「在看」和加「星標」的訴求了,可是作為運營者我還是有義務時不時提出……畢竟我們的內容不像某些英語學習號那樣是有流水線在量產的,每一篇我都會保證有值得被打開的理由。您每次都能讀到學所的推送,就是對我們創作最大的鼓勵!手動比心