在 AI 語義理解領域,谷歌一直不遺餘力地進行研發投入。
對於普通用戶而言,2015 年發布的基於深度神經網絡的谷歌智能郵件回復,2016 年上線的神經機器翻譯系統(GNMT),便源自於谷歌在該領域的研究成果。在消費級產品之外,谷歌還持續為 AI 開發者提供技術支持,不斷推出新的開源工具。
去年夏天,針對語句的語法結構分析,谷歌開源了 SyntaxNet 神經網絡框架,以及與之搭配英語分析預訓練模型 Parsey McParseface。緊隨其後,谷歌發布了針對其他 40 門語言的語法分析模型。並將它們命名為 Parsey's Cousins(即 「Parsey 的表兄妹們」)。對英語國家開發者而言,為英語之外的語言開發機器學習系統是一件相當不容易的事。現在,經過將近一年的努力,谷歌推出了 SyntaxNet 框架以及 Parsey 相關模型的升級版。
SyntaxNet 升級
就雷鋒網所知,這是 SyntaxNet 自誕生以來的最重大升級。這建立在谷歌對各語言的語義理解研究基礎之上。此次升級的核心是一項新技術:能對輸入語句的多層表示進行很好的學習。具體來講,它延伸了 TensorFlow,能對多層語言結構進行合成建模,還能夠在語句或文件處理過程中,動態地生成神經網絡架構。
舉個例子,該升級使創建基於字母的模型(能學習把單獨字母組合成詞語),變得更加簡單。該模型還能夠學習到,不同詞語在共同組成部分(共享的字母)方面存在聯繫。在另一方面,Parsey 和 Parsey’s Cousins 通過詞語排序而運行。因此它們必須要對訓練中的詞語進行記憶,並依賴語境來決定「生詞」(此前未記憶過的詞語)的語法函數。
ParseySaurus
為了展示新版本 SyntaxNet 的強大之處,谷歌同時發布了新的預訓練過的模型 ParseySaurus。ParseySaurus 模型,使用了上文提到的基於字母的輸入表示。因此,它極大提升了預測新詞語含義的能力。這是基於兩個方面來實現:詞彙的拼寫和在語境中的使用方式。雷鋒網了解到,ParseySaurus 的準確率遠遠超出 Parsey’s Cousins,錯誤率降低了 25%。由於語言的形態特性和其他屬性,新模型在俄語、土耳其語、匈牙利語上的效果尤其好——這些語言中,同一個詞彙有多種不同形態,其中許多形態從未在訓練階段出現過(即便是大型語料庫)。
競賽
你或許會對「基於字母的模型是不是語義識別的最佳選擇」感到好奇。或者,是否有其他更好的技術。谷歌表示,新版本的谷歌 SyntaxNet 提供了許多全新可能性,比如 beam search 和不同的訓練目標;但新 SyntaxNet 的能力不止於此。雷鋒網消息,谷歌與布拉格大學(Charles University)合作,將在今年的 CoNLL 大會上舉辦多語言分解競賽(multilingual parsing competition)。競賽目標是為 45 種語言,開發出在現實環境下有良好表現的語義分解系統。
via google