【AI世代編者按】專業唇語閱讀者識別唇語的準確率只有20%到60%。人類在日常說話過程中嘴唇的微小移動很難被可靠地解讀,尤其是在有一定距離,或畫面不清晰的情況下。不過,唇語並不只是美劇《海軍罪案調查科》中的噱頭,對全球的失聰者來說,這是一項有用的工具。如果能可靠地解讀,那麼將給數百萬人帶來幫助。
牛津大學的最新研究描述了一種名為LipNet的人工智慧系統。通過「觀看」人類說話的視頻,以及輸入相應文字,這一軟體對唇語的解讀準確率高達93.4%。這項研究得到了谷歌旗下DeepMind的資助。
此前最佳的唇語解讀工具只能實現逐個單詞的解讀,準確率只有79.6%。牛津大學研究員表示,新系統獲得成功的關鍵在於通過不同方式去思考這一問題。這一系統不再利用可視元素,即說話者嘴型的變化去訓練人工智慧,而是每次都處理一整個句子。這使得人工智慧可以學會單詞對應於什麼樣的嘴型變化。
為了訓練這一系統,研究員向人工智慧展示了2.9萬條帶文字標籤的視頻,每段視頻長度為3秒。而為了觀察專業唇語閱讀者做得如何,該團隊還邀請了「牛津學生殘疾人社團」的3名成員,用300條隨機視頻去進行類似的測試。這些專家的平均錯誤率為47.7%,而人工智慧的錯誤率只有6.6%。
儘管這一項目取得了成功,但也暴露出了當代人工智慧研究的局限。在指導人工智慧如何閱讀唇語的過程中,牛津大學團隊使用了經過設計的視頻。視頻中的所有人物都面向前方,光線明亮,說出標準結構的語句。
視頻中的典型語句時長為3秒鐘,例如:「Place blue in m 1 soon。」這其中包括命令、顏色、介詞、字母、數字,以及副詞。所有語句都採用這樣的模式。因此,人工智慧的超高準確率只是在一種極端情況下取得的。如果要求人工智慧從隨機的YouTube視頻中閱讀唇語,那麼結果可能很不準確。
有其他研究人員指出,利用這種特殊視頻去訓練並不符合真實世界場景。不過,論文作者南多.德弗雷塔斯(Nando de Freitas)為自己的成果進行了辯護。他指出,該團隊曾嘗試過其他視頻,但這些視頻帶來了太多「噪音」。這些視頻各不相同,因此人工智慧無法取得有意義的結論。這也意味著,完美的數據集可能並不存在。德弗雷塔斯認為,考慮到這一人工智慧的準確率,最終情況如何將取決於任務本身。
OpenAI的傑克.克拉克(Jack Clark)表示,如果希望在現實世界中得到應用,那麼這一人工智慧還需要三方面的優化:人們在現實世界場景中大量的說話視頻;讓人工智慧可以從多個不同角度去閱讀唇語;以及讓人工智慧可預測的短語類型更多樣化。
克拉克表示:「這項技術具備顯而易見的應用,但這看起來似乎並不可能。」如果人工智慧可以學會閱讀唇語,那麼將適用於多種場景。此類系統可以被用於幫助聽力障礙人士了解周圍發生的對話,或是讓其他人工智慧更好地辨別視頻中的聲音,生成準確的字幕。(編譯/陳樺)
關注同花順財經(ths518),獲取更多機會
責任編輯:wzy