從「耳聽手寫」到「語音識別」,「輕辦公」時代悄然來臨
04:20來自浮雲辦公
本音頻是由浮雲合音軟體製作生成,歡迎收聽!
人手一個電腦或者筆記本,早已成為新時代辦公的標配,那麼,辦公的效率也在不斷提高。開會做記錄,還在用紙筆嗎?當然,我們可以用。但是當開會錄音需要全部記錄下來,並轉寫成文字的時候,你還是用紙筆在記錄嗎?
有人會說,我可以用電腦快速敲字啊,或者回頭聽會議錄音,然後聽寫下來啊。這些都沒錯,不過真正這麼做過的人都知道,這種痛苦不堪回首!聽一遍,敲幾個字,沒記住,再回放,再聽一遍,往往一個小時的錄音,連聽和寫,要至少三個小時。所以,在職場上,這樣的工作大多給了「實習生」。
值得慶幸的是,隨著科技的不斷發展,語音識別技術也在不斷進步,語音轉文字的準確率也越來越高,類似浮雲識音這樣的產品受到消費者的喜愛。
告別「耳聽手寫」
語音識別自半個世紀前誕生以來,一直處於不溫不火的狀態,直到 2009 年深度學習技術的長足發展才使得語音識別的精度大大提高,雖然還無法進行無限制領域、無限制人群的應用,但也在大多數場景中提供了一種便利高效的溝通方式。
語音識別是一門涉及面很廣的交叉學科,它與聲學、語音學、語言學、信息理論、模式識別理論以及神經生物學等學科都有非常密切的關係。語音識別技術正逐步成為計算機信息處理技術中的關鍵技術。
然而,語音識別自誕生以來的半個多世紀,一直沒有在實際應用過程得到普遍認可,主要是與語音識別的技術缺陷有關,其識別精度和速度都達不到實際應用的要求。
2009年之後,深度學習技術得以興起,使得語音識別技術的精度和準確度有了很大的提升,甚至識別率能達到95%以上,可以說具備了與人類相仿的語言識別能力,這意味著人們告別「耳聽手寫」成為可能。
擁抱「語音識別」
曾經科幻電影中人與機器人之間進行互動交流,如今隨著語音識別技術的發展,夢想已經照進了現實。
根據專業的解釋,語音識別技術,也被稱為自動語音識別Automatic Speech RecogniTIon,(ASR),其目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入,例如按鍵、二進位編碼或者字符序列。也就是說,讓機器人能聽懂我們的意思。
也可以說,它是將一段語音信號轉換成相應的文本信息。在這個過程中,語音識別會提取音頻信號進行濾波、分幀等預處理,然後應用聲學模型、語言模型等計算出該聲音對應詞組序列的概率,最後根據字典、詞組序列進行解碼,得出最後的文本。
一般來說,在聲音平穩、普通話標準其環境是安靜的情況下,語音識別的轉換準確率能達到95%以上。浮雲識音就是應用這種技術進行轉文字、轉文本的,它支持比如MP3、M4A、WAV等多種格式的音頻文件的轉文字,同時也支持MP4、MPEG和AVI等多種格式的視頻文件轉文字。
類似的語音轉文字類辦公軟體的不斷普及和應用,使得一個「輕辦公」時代正在悄然來臨。人與數字世界的連接,也變得越來越緊密。