專訪谷歌NLP技術大牛:我們負責讓谷歌更懂人類語言

2021-02-15 機器之心

選自breakthroughanalysis

作者:Seth Grimes

機器之心編譯出品

參與: Philip Liu,姜振東,趙雲峰

Sane Chen,Gabrielle Zhang,汪汪

自然語言處理,簡稱NLP(Natural language processing),就是用機器來處理人類賴以交流的書寫文字和口頭語言。它利用語言學和統計學,加上機器學習,以便在自動化服務中對語言進行建模。

好吧,這是一個乾巴巴的定義。

實際上,NLP是(或者說幾乎是)所有信息密集型處理過程的核心。NLP驅動了搜尋引擎、虛擬個人助理、系統推薦、現代生物醫藥研究、智能和商業調查、消費者洞察……

世界上在NLP上投資最多的公司,無出其右,就是谷歌了。

我最近拜訪了谷歌公司的Enrique Alfonseca,請他回答了我提出的一些問題。


Enrique Alfonseca

人物簡介:Enrique Alfonseca管理著谷歌蘇黎世研究院的自然語言理解(NLU,Natural Language Understanding)研究團隊,研究信息提取和文本自動摘要的應用。總體來說,谷歌研究院NLU團隊「帶領、構建和革新著語義分析、表徵、句法分析與實現、形態與詞彙發展等領域的方法。我們的工作直接影響著 Google Now、知識圖譜、谷歌翻譯等機器智能研究中的對話式搜索。」

在加入NLU團隊之前,Enrique曾在與廣告相關性和搜索排名有關的廣告質量和搜索質量團隊中擔任過不同的職位。他在廣告質量目標(付費搜索)和查詢擴展方便進行了改革,極大地提高了廣告收入。他還是位於蘇黎世的瑞士聯邦理工學院(ETH)的講師。

接下來請看這位技術大牛的觀點:

Seth Grimes:你的工作涉及到NLP領域的多個方向。那麼,請先談一下你目前的研究主題是什麼?

Enrique Alfonseca:現在,我的團隊正在研究谷歌搜索中的問答系統,這允許我和我的同事在我們富有經驗的不同領域內共同創新。以我為例,我在信息提取、事件抽取、文本摘要和信息檢索等方面工作了許多年,而這些組合起來,就是問答系統——信息檢索用來在網絡上尋找和排名相關的段落,信息提取用來識別具體對象和搜索的實際答案,文本摘要將它以一種簡潔的方式呈現給用戶。

Seth:那麼您谷歌蘇黎世研究院的同事們在研究什麼課題呢?

Enrique:蘇黎世團隊的工作與谷歌其他辦公團隊及相關合作產品聯繫非常緊密,所以很難為「谷歌蘇黎世研究組」與谷歌其他部分找出明確的界限。這就是說,蘇黎世的同事們參與到了語言處理(文本分析、生成、對話等)、視頻處理、手寫識別等領域。


谷歌地圖上的谷歌蘇黎世研究院

Seth:你們只做「純」學術研究,還是你們已經在一定程度上影響了谷歌的產品路線圖?

Enrique:Alfred Spector、Peter Norvig和Slav Petrov在2012年發表的一篇論文很好地概括了我們的研究思路。一方面,我們認為做研究需要在產品團隊中進行,實際上也確實如此。我們大部分的軟體工程師都有碩士或博士學位以及在所研究課題上先前的工作經驗。他們把這份專業知識應用在了產品開發的方方面面,如搜索質量、廣告質量、垃圾檢測等等。與此同時,我們有許多長期項目,致力於解決整個谷歌公司應該在未來幾年內解決的問題。對於大多數的這些問題,我們把複雜的挑戰細分成可處理的更小的問題,以便快速進步,同時我們有一路走來影響谷歌產品的目標,這激勵著我們向長期目標邁進。

舉個例子,當我們開始研究文本事件模型時,我們還沒有考慮到具體的產品,儘管我們猜測理解新聞報導的含義應該會有很多應用場景。研究了一段時間之後,我們意識到,這對於確保網絡搜索中顯示的知識圖譜信息與最新報導保持同步更新是十分有效的。雖然我們還沒有得到精度高、新聞覆蓋面廣、理解深入的模型,但這項技術已經被證明對我們的用戶非常有用。

Seth:你們涉足研究創新成果產品化嗎?在谷歌,是否有從研究到產品的典型路徑?

Enrique:是的,我們負責把我們開發的技術轉化為產品。如果研究和生產是分開處理的,就會有以下這兩個導致失敗的常見原因。

如果研究團隊不貼近生產需要的話,他們的評估和數據集就有可能無法充分代表整個產品的實際需要。這在研究團隊攻關不斷更新的產品時尤其成問題。除非是直接研究產品本身,否則很可能團隊正在研究的設置將很快被淘汰,積極成果也不會轉化為產品的提升。

同時,如果把研究的創新成果應用在產品上的人並不是研究者自己的話,他們很可能不夠了解新技術,也就沒法做出正確的決策,比如在產品需求要求你權衡降低一些準確性來減少計算成本的時候。

Seth:在谷歌語言技術大會上,僅僅Your LT-Accelerate 的展示就佔據了兩天的會議議程。但是,你計劃主要探討信息提取和一些其它的主題。你已經寫到信息提取是非常困難的。你提到的挑戰包括知識庫的實體解析和一致性問題。那麼,首先,「實體解析」和「知識庫」的定義是什麼?

Enrique:我們把給定主題文字的查詢問題稱為「實體解析」,知識庫的入口代表那個主題。例如,如果你的知識庫是維基百科,人們可以把這個入口用英文定義為「Barack Obama」,「Barack」,「Obama」,「美國總統」等等。同時,「Obama」也可能指的是任何有相同名字的的人,所以這裡存在一個模糊性問題。在字面上,人們也把這個問題稱作實體連接或者實體消歧。兩年前,谷歌的一些員工發布了一個實體解析注釋的超大文集,這個大的網絡文集包括對Freebase主題的110億次引用,它是由世界上研究信息提取的研究人員開發的。

當我們談到知識集,我們指的是真實世界(或者虛擬世界)的結構化信息,在許多其他應用中,人們能夠對文字進行語言分析。這些一般包括主題(概念和實體)、屬性、關係、類型層次、推理規則…知識表徵和人工、自動知識獲取的研究進行了許多年,但是這些都是遠未解決的難題。

Seth:那麼模糊性、名字匹配、代詞、回指等等各種各樣的指代都是挑戰的一部分。總體上,實體解析的技術發展狀況如何?

Enrique:指代確實是一個相關的難題,我認為它應該和實體解析一起被解決。

使用不同的數據集和測試集,結果會變化,但是表述式注釋目前已經達到了8-9成的正確率。大多數的數據集,像維基百科和Freebase,大部分是人工構建的,並沒有具體的應用,並且當用戶使用讓它們進行實體消岐時,總是出現問題。

Seth:知識層面的連貫性問題一般都會出現在哪裡?是在表達差異之中,定義不兼容之間,某個瞬間的捕獲,或僅僅就是對事實的不同意?(以上就是我認為人類認知上最大可能產生不一致的原因。)從用戶的角度來看,不一致性是如何影響谷歌這方面表現的?

Enrique:各主題的不同報導深度,以及在不同的領域中不同層次的細節描述,是常見的問題。根據不同應用,人們可能想要調整解析度系統更偏向解決提到作為頭部實體或尾實體,以及某些實體可以人為提升的僅僅是因為它們是在一個更密集的,網絡的更詳細的部分中的 知識庫。在此之上,模式被認為出去是本體論正確的,但例外情況發生一般;許多知識基地已建成通過合併數據集不同的粒度級別,從而引發和解問題;和維基百科包含未明確與其他即使他們顯然與他們的話題多「孤兒節點」。

Seth:例如,數據的綜合處理(curation)是一種解決方案嗎?就像IBM沃森和 Wolfram Alpha(一個能夠根據問題直接給出答案的新一代搜尋引擎)所使用的那種,或者這些挑戰能夠以算法解決嗎?除了谷歌只來,還有哪些學術界或者產業界的公司在這方面做了有趣的研究?

Enrique:毫無疑問,手動數據處理manual curation可以提供部分解決方案解決方案。同時,如果我們希望可以事無巨細地記錄那些冗長的事實數據,將所有信息都手動添加進去並讓其保持永久更新,這是不現實的。自動協調現有的結構化來源,就像資料庫、圖書、體育比賽結果,等等,也是解決方案的一部分。我相信它將最終有可能應用在信息提取技術方面,不管是結構化數據源還是非結構化數據源,但這也面臨著不小的挑戰。我之前提到過,「實體解析」系統的準確率在80%至90%之間。這意味著,對於任意自動提取的實例集,它們中有至少10%會被關聯到錯誤的實體中——這種錯誤意味著實例提取模型中的任何錯誤都會在頂部積累。聚合功能能夠有效的降低錯誤率,但這對於長尾來說就沒那麼有效了。

事情也有好的一面,那就是這個領域正在繁榮發展——在ACL、EMNLP和其他會議上的內容,足夠證明這個領域的飛速發展。通過對查詢的語義分析來回答Freebase(一個類似維基百科的創作共享類網站)上似是而非的問題,如何將深度學習整合至KB表徵和推理任務,更好的將目標和應用於實體解析的局部模型結合起來,等等,這些都是在過去的十幾年中已經取得重要突破的幾個問題。

Seth:最後,自然語言處理領域內有什麼新聞和令人興奮的事情?

Enrique:一方面,整個行業在個人助理功能上正在快速創新——一個可以通過自然對話與人類互動的工具,了解人們的一切,包括他們的利益和需求等,回答他們的信息需求,在規劃和記憶任務反面提供幫助,並能協助控制他們的設備,以使他們的生活更舒適。自然語言處理等許多領域需要改進來使前面提到的長期願景成為現實,但我們已經開始看到它是如何改變我們的生活。

在另一方面,語言和實體之間的關係將有進一步的發展作為發展發生在機器人領域,我們將不只是能夠接地我們的語言分析了虛擬的知識基礎,但在實際的體驗。

©本文由機器之心原創編譯,轉載請聯繫本公眾號獲得授權

✄---

添加個人微信jiqizhixin2014,更加方便查看機器之心文章;申請加入「機器之心前沿科技討論群」,一起探討科技與人的美好關係吧!

加入機器之心

請發送簡歷到hr@almosthuman.cn或添加個人微信jiqizhixin2014

↓↓↓點擊「閱讀原文」查看機器之心網站,獲取更多精彩內容。

相關焦點

  • 谷歌讓機器更懂語言的精深 發布最大消歧語料庫
    (原標題:谷歌讓機器更懂語言的博大精深,發布最大消歧語料庫)
  • 支持100種語言的輸入法?谷歌再挑戰人類極限
    作為科技巨頭,谷歌對於輸入法的研發也未停止腳步。谷歌輸入法目前能支持100多種語言,同時也支持多種設備,包括手機、平板電腦、電視和手錶以及多種模式的輸入,如點擊輸入、滑行輸入、手寫輸入、語音輸入等。
  • 如何成為頂尖黑客,谷歌大牛告訴你
    不同的人告訴你的不一樣,中國的大神一般會告訴你先學c語言,因windows很多底層協議都是用c語言寫的,然後就是windows底層協議。接著肯定你逃不掉的彙編,跟著是資料庫,因為很多網站都有自己的資料庫,學會了資料庫,現在你就可以去看一些網站的表格,跟著就可以找0day,然後根據一些類似非安全論壇這樣的地方看一些前輩找出來的東西。
  • 谷歌正式宣布量子霸權實現!獨家專訪谷歌CEO:意義堪比萊特兄弟發明...
    答案就埋藏在此次《麻省理工科技評論》對 Sundar Pichai 的獨家專訪中,以下便是此次訪談的內容:圖 | 谷歌 CEO Sundar Pichai(來源:MIT TECHNOLOGY REVIEW)麻省理工科技評論:根據論文,谷歌目前已經在特定運算上實現了「量子優勢」,勝過了經典計算機,那你們離在真正意義上實現
  • 機器學習技術讓谷歌翻譯能夠在多語言中互相連結匹配
    (原標題:機器學習技術讓谷歌翻譯能夠在多語言中互相連結匹配)
  • 谷歌 Noto 字體:試圖涵蓋全球所有文字和語言
    過去五年,谷歌一直致力於 Noto 字體項目。到目前為止,谷歌 Noto 字體庫已經涵蓋 800 多種語言及 100  多種文字。Noto 是 No Tofu 的簡稱,旨在消滅小語種文字無法顯示狀態下的「豆腐塊」。谷歌的目標是全球人類使用的所有文字和語言,將所有文字納入 Google 的 Noto 字體家族中。
  • 谷歌升級搜尋引擎技術:更好地理解自然語言,而不僅是關鍵詞
    站長之家(ChinaZ.com) 10月25日 消息:目前,谷歌已經對搜尋引擎背後的技術進行升級據cnet報導,谷歌今天稱,公司正更新搜尋引擎工具以改善對自然語言的分析,這將讓有助於用戶用自己語言進行搜索查詢。也就是,用戶可以按照自己現實生活中的說話方式進行查詢,而不需要輸入他們認為軟體更容易理解的關鍵詞/字符串進行搜索。對此,谷歌副總裁Pandu Nayak表示,網絡搜索在最近五年得到了質的飛躍,也是搜索歷史上變化最大的幾年。
  • 谷歌中國程曦談新版谷歌翻譯:延續谷歌使命
    很顯然,谷歌翻譯已經不是一個純粹的翻譯產品,或者說是改變了人們印象中的翻譯產品的概念。谷歌宣稱自己的使命是「管理全世界的信息」,如谷歌程曦所說,谷歌產品的發展目標是為了「使全世界的信息能夠變得非常易用,而且讓世界上所有人都用」。但語言是其中的一個障礙。基督文化中的傳說是,上帝為了阻止人類建造能登臨天堂的巴別塔,讓人類開始說各種不同的語言,因此引起紛爭。
  • 谷歌大牛Ian Goodfellow已經加盟蘋果,擔任特殊項目的機器學習主管
    谷歌大牛Ian Goodfellow已經加盟蘋果,擔任特殊項目的機器學習主管。 又有大牛被蘋果挖走。 谷歌高級研究科學家、OpenAI研究科學家Ian Goodfellow周四更新了自己的LinkedIn,最新的職業信息顯示,他3月份已經加盟蘋果,擔任特殊項目的機器學習主管。
  • 谷歌發布萬億參數語言模型,語言模型何時超越人類語言能力?
    這一切都表明,語言模型領域正處於「快速升溫」的階段,未來如何,我們拭目以待。在短短幾年時間裡,深度學習算法經過了飛速的進化,已經具有了可以打敗世界最頂尖棋手的水平,並能以不低於人類識別的準確度來精確地識別人臉。 但事實證明,掌握獨特而複雜的人類語言,是人工智慧面臨的最艱巨挑戰之一。 這種現狀會被改變嗎?
  • 谷歌技術總監Ray Kurzweil:AI寫郵件只是語言理解第一步,未來它或...
    今年五月,谷歌向英語用戶推出了這項服務,上周,該項服務還推出了西班牙語。Smart Reply給出的回覆可能比較簡短,例如,「我們周一時做這件事吧」,「耶!太棒了!」「下周吧」。這些回復的內容雖然短小,但是確實是很實用的。而且,在消息發送前,我們還可以對這些自動生成的回覆進行再次編輯。Kurzweil表示:「這是人工智慧和人類智慧密切合作的一個很好的例子。」
  • 自然語言理解新突破:微軟谷歌AI模型在這張榜單上超過人類
    近日,科技公司谷歌和微軟相繼在一份權威自然語言理解榜單中表現超越人類,微軟宣稱這「標誌著邁向通用人工智慧的重要裡程碑。」自然語言理解(Natural Language Understanding,簡稱NLU)任務在人工智慧領域歷史悠久,被譽為「人工智慧皇冠上的明珠」。
  • 谷歌DeepMind「唇語識別」能力已經超越人類
    網易科技訊11月25日消息 據外媒(Gadgets)報導,人工智慧技術近年來突飛猛進,微軟等矽谷巨頭甚至宣稱其語音識別系統已經能媲美人類。現在谷歌的AI在語言理解能力上更上一層樓,不僅可以通過更好的唇語識別來幫助聽力障礙人士,多語言神經機器翻譯(Multilingual Neural Machine Translation)也將顯著提高翻譯質量。
  • 谷歌翻譯會讓人類翻譯失業嗎?
    我們必須用全球的眼光看問題,必須用全球的能力,整合各方資源,解決社會,世界未來的問題。全球化勢不可擋,我們不應該阻礙全球化,阿里巴巴有責任去完善全球化。我們也會全力以赴,不惜一切代價的投入到農村發展之中,技術不應該成為貧富差距拉開的驅動劑,技術是一種完全的,徹底的,更普惠共享的東西,必須讓全人類能夠共享這樣的技術。
  • 谷歌瀏覽器語言設置,谷歌瀏覽器如何更改語言
    谷歌瀏覽器語言怎麼設置,谷歌瀏覽器如何更改語言。雖然在國內,大多數人也都是用中文,但也不有少英語愛好者喜歡用外語,那麼下面我就來說下谷歌瀏覽器語言怎麼設置,谷歌瀏覽器如何更改語言。首先點擊打開Google Chrome瀏覽器。
  • 谷歌AI翻譯系統準確率正接近人類水平
    據外媒報導,谷歌是全球AI語言翻譯服務的領先者之一,日前,這家公司表示,他們新開發的一項技術將進一步大幅提高其翻譯水準。新技術叫做Google Neural Machine Translation(以下簡稱GNMT),它能讓翻譯系統不再像以往那麼逐字逐字地翻譯,而是從整體上分析句子。Google Brain團隊研究員Quoc V. Le和Mike Schuster指出,GNMT所要面對的工程設計抉擇要比基於詞組的翻譯系統少得多。
  • AI在這張「問卷」上首次超越人類,SuperGLUE被微軟谷歌兩家「攻破」
    和其他預訓練語言模型(PLM)一樣,DeBERTa旨在學習通用語言表示形式,適應各種下遊NLU任務。DeBERTa使用三種新技術——分離的注意力機制、增強的掩碼解碼器和一種用於微調的虛擬對抗訓練方法。改進了以前的最新PLM(如BERT、RoBERTa、UniLM)。
  • 谷歌唯二的 11 級工程師,清華 AI 研究院顧問委員,他是程式設計師眼中...
    美國疾病控制與預防中心運營的一個網站「the Epi Info Story」上 Jeff Dean 高中畢業時的照片Jeff 的博士期間主要研究編譯器,這是一種將人類編寫的代碼轉換成針對計算機優化的機器語言指令的軟體。
  • 谷歌翻譯新增5種語言!原來谷歌翻譯經常發生問題鬧笑話?!
    歷經四年之久,谷歌翻譯系統終於再次增添新的語言!其實谷歌翻譯在2016年以前,支持的語言數量多達103種,但是之後就停止了更新動作,直到如今才正式宣布其翻譯系統已經新增至108種語言,新支持的語言如基尼亞盧安達語(盧安達)、奧裡薩語(印度)、韃靼語、土庫曼語和維吾爾語。
  • 百度大腦技術突破!NLP中文預訓練ERNIE模型全面超越谷歌BERT
    NLP(自然語言處理)被譽為人工智慧「皇冠上的明珠」,其發展備受學術和產業界關注,而今NLP領域再次迎來重大突破!ERNIE模型在中文NLP任務上表現非凡,百度在多個公開的中文數據集上進行了效果驗證,在語言推斷、語義相似度、命名實體識別、情感分析、問答匹配等自然語言處理各類任務上,超越了谷歌的語義表示模型BERT的效果。近年來,基於海量無監督文本的深度神經網絡預訓練模型大幅提升了各個NLP 基準任務的效果。