閩南話識別系統界面。
一位女士正對著手機用閩南話進行語音輸入。
廈門網訊 (文/圖廈門日報記者 陸曉鳳) 用閩南話對著手機語音錄入「愛拼才會贏」,語音輸入後屏幕上立即顯示「愛拼才會贏」字樣。近期,一款名叫「閩南話識別」的軟體在網絡上走紅。只要是日常對話的語句,不管你說的閩南話是廈門口音、泉州口音,或是漳州口音,它基本都能識別出來並翻譯成文字,識別準確率高達85%。
這款軟體是廈大信息科學與技術學院副教授洪青陽、廈大人文學院中文系助理教授許彬彬帶領的科研團隊合作研發的。目前,這一軟體已經過多階段的內部測試,並開放供廣大市民免費試用。
記者與幾位同學分別用廈門口音、泉州口音、漳州口音的閩南話,對著軟體語音輸入:「今天天氣很好。」不到2秒,系統翻譯出了相同的對應文字。記者又以略微不同的表達方式對著軟體語音輸入「今天天氣很好」,系統依舊能準確識別。
近日,記者採訪了軟體背後的科研團隊,為您揭秘軟體開發過程。
調查
採集多地語音資料連國外也不放過
首先,該軟體背後的語音資料庫就很強大,這是基於許彬彬近10年來的研究成果。許彬彬帶領團隊借鑑、整理了大量語音資料——囊括福建省內廈、漳、泉多地的閩南方言、文本,甚至收集了國外多處講閩南話的地點的語音材料。
除了廈大的語音資料庫外,每到寒暑假,許彬彬團隊還會去各地進行田野調查。「省內的漳浦、東山等,以及菲律賓北部城市、美國的東部地區,每一個地點至少要停留5天,儘可能全面地描寫該地區語音面貌。」她說。
整理
標註每個音節發音錄入不同口音
有了豐富的「食材」,烹製好這道「菜餚」還需要「配菜」。為此,許彬彬團隊做了大量的整理工作。在許彬彬的電腦裡儲存著大量文檔。「我現在有5臺電腦,10個硬碟,全都裝滿閩南話文件。」許彬彬說,閩南話的聲母有15-18個不等,韻母有73-90個不等,聲調有5-8個不等,都要逐一整理,錄入系統。
別以為只是簡單的標註,每個音節的發音以及發音時長,都必須詳細標註下來。以「他們坐車去臺北」為例,許彬彬就標註了16個音素,音素與發音時長還要逐一對應。而這只是一個句子的其中一種口音。
許彬彬告訴記者,單單是廈門地區,細微的語音差別就有十幾種。「思明區鷺江街道是一種口音,廈港街道又是另外一種口音,海滄東孚街道的口音又接近漳州口音,這些都要逐一標註。」她說,系統錄入的不僅僅是廈門口音,還有泉州口音、漳州口音、潮汕口音等。
建模
收集十萬句日常對話邀志願者測試
為了讓這一系統的閩南方言數據儘可能全面,洪青陽團隊又歷時一年,先後收集近十萬句閩南話日常對話。
除了許彬彬所提供的語音資料外,測試階段,他們還邀請了幾百名志願者參與測試,讓系統「學習」不同口音的閩南話。待系統基本「學會」不同口音的閩南話後,洪青陽又給系統加大了難度——文讀和白讀都要會。
閩南話中存在大量多音字,有著複雜的文讀白讀現象,以「大學」這一詞為例,就有文讀和白讀兩種讀法。該團隊對閩南話語音識別採取了特定規則的發音詞典標註,並用革新後的算法建立了閩南話語音識別模型。
連結
將實現閩南話與普通話無障礙溝通
當發音速度不一、吞音等情況出現時,軟體如何準確識別?系統的背後還有一位「把關人」。當遇上系統無法識別的語音時,許彬彬團隊就會進行分析,把新的表達整理成文檔,擴充詞典和句子語料。與此同時,洪青陽團隊在系統後臺不斷完善算法,以學習到更多口音和生僻詞彙。現在,系統依舊在不斷完善升級。
據了解,基於深度學習方法,他們目前正在研發閩南話合成系統,最終可以實現閩南話與普通話之間的無障礙溝通。洪青陽說,該系統預計在今年上半年上線。
展開閱讀全文