重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯

2020-12-01 機器之心Pro

選自NYT機器之心編譯

谷歌如何使用人工智慧來改進谷歌翻譯等許多谷歌服務?《紐約時報》雜誌今日發布了一篇重磅長篇《The Great A.I. Awakening》全面解讀谷歌利用機器學習重塑自身的戰略。機器之心編譯時進行了適當的刪減。

序言:你即你所讀

十一月一個周五的晚上,東京大學著名人機互動教授 Jun Rekimoto(暦本純一)正在準備演講,他開始留意到社交媒體上出現了一些奇特的博文。谷歌公司頗受歡迎的機器翻譯服務已經突然有了大幅提升。Jun Rekimoto 開始親自測試這一服務。結果讓他驚訝不已。他在一篇博文中寫下了一些發現。他比較了兩個版本的《偉大的蓋茨比》(一個 1957 年 Takashi Nozaki 的版本,一個是 Haruki Murakami 近期的修訂版本)中的幾個句子,選擇了谷歌翻譯能夠翻譯的句子。他後來對我解釋道,Haruki Murakami 的翻譯非常優美,但顯然是 Murakami 風格的。谷歌翻譯後的日文儘管有點小小的不自然,但是,讀起來感覺更加易懂(transparent)。

接著,博文的第二部分從另一個方向(日文到英文)檢查了谷歌翻譯。他把自己翻譯的海明威《吉力馬札羅的雪》的開頭輸入進去,讓谷歌翻譯成英文。結果發現翻譯的準確度難以置信。

Rekimoto 將自己的發現放在了 Twitter 上,幾個小時後,數以千計的人也貼出了自己的實驗結果。一些翻譯結果很贊,另一些的翻譯結果頗有喜劇效果。每個人都好奇:谷歌翻譯是怎麼變得如此驚豔的?

谷歌公司的人工智慧研究機構谷歌大腦(Google Brain)成立於五年前。成立原則是:通過試錯熟悉周圍世界的人工「神經網絡」或許會發展出類似人類的靈活能力。這個概念不是新東西。不過,其大部分歷史,在絕大多數計算機科學家看來,有些狼藉甚至神秘。

儘管如此,2011 年以來,谷歌大腦已經證實深度學習方法可以解決傳統手段無法解決的難題。語音識別之前並不理想,直到谷歌大腦更新了這一技術;機器學習的應用在谷歌移動平臺安卓上的表現堪比人類。同樣,圖像識別也是碩果纍纍。不到一年前,谷歌大腦首次開始充滿熱情地更新整個產品線。

翻譯工具聲名鵲起的那一年是 2006 年,打那時起,它就成為谷歌最可靠也最受歡迎的資產;月用戶量達 5 億多人,每天需要進行 1400 億詞的翻譯。它不僅自成一體,也是谷歌郵件、瀏覽器以及其他產品的一部分,是該公司數字業務中渾然天成的一部分。Pichai 解釋說,不僅僅是難民危機,公司也估計翻譯的地理政治重要性:他身後的屏幕上出現了一幅圖表,一個陡峭的曲線表明最近阿拉伯語和德語之間的翻譯需求翻了五番。谷歌翻譯團隊一直在穩定地為產品添加新的語言和功能,不過,過去四年的質量提升已經明顯放緩。

直到今天,翻譯工具引進了人工智慧技術。首輪嘗鮮的語言包括英語、西班牙語、法語、葡萄牙語、德語、中文、日語、韓語和土耳其語。接下來還有上百種語言——大概每個月處理八種,直至明年年底。翻譯工具的煥然一新僅花了九個月的時間。人工智慧系統一夜之間取得的成果相當於舊的技術一輩子成果的總和。

谷歌決定以人工智慧為中心的策略也反映出整個業界範圍內的機器學習熱。過去四年中,特別是谷歌、Facebook、蘋果、亞馬遜、微軟和百度這六家公司已經啟動了人工智慧人才爭奪戰,特別是爭奪大學裡的人才。公司許諾的資源和自由已經讓頂尖學術機構的人才越來越少。矽谷誰人不知 Mark Zuckerberg 用電話、視頻聊天等糖衣炮彈親自督導公司最想要的研究生。誘人的七位數年薪並非罕見。參加這一領域最重要的學術會議的人員已經翻了四倍。利害攸關的不僅是漸進創新,還要控制住能夠代表未來全新計算平臺的東西:無處不在的人工智慧。

Part 1:學習的機器

1. 大腦的誕生

雖然 Jeff Dean 的職稱是高級研究員(senior fellow),但卻是谷歌大腦實際上的負責人。作為醫療人類學家與公共健康流行病學專家的兒子,Dean 在世界多個地方長大——明尼蘇達州、夏威夷、波士頓、阿肯色州、日內瓦、烏幹達、索馬利亞、亞特蘭大。

在高中和大學的時候,他寫的軟體被世界衛生組組所使用。從 1999 年開始,他就加入了谷歌,從此他幾乎插手了谷歌的每一個重大業務中的核心軟體系統。谷歌公司文化的一個可愛偽影就是 Jeff Dean Facts,模仿「羅禮士的真相」寫下:Jeff Dean 的 PIN 是 pi 的後四位;在貝爾發明電話之後,他看到有一通 Jeff Dean 的未接電話;在系統最大等級是 10 的時候,Jeff Dean 提升到了 11 級(這一個確實是真的)。

2011 年的一天,Dean 走進谷歌的休息區碰見了吳恩達。當時吳恩達還是史丹福大學計算機科學教授,也是谷歌的顧問。吳恩達告訴了 Dean 關於 Project Marvin 的事,這個項目是吳恩達最近幫助建立的實驗「神經網絡」的一次內部嘗試。Dean 自己也在 1990 年在明尼蘇達大學上學時做過簡單版本的神經網絡。如今,研究神經網絡的學術人員 5 年來又開始發展,從屈指可數的幾個增長到了幾十位。吳恩達告訴 Dean 由谷歌神秘部門 X 實驗室正在做的 Project Marvin 已經取得了一些驚人成果。

Dean 對此非常感興趣,願意在此項目上付出「20%」的工作時間,也就是期望每個谷歌員工在自己核心工作之外的項目上付出的工作時間。不久之後,他建議吳恩達讓另一個有神經科學背景的 Greg Corrado 加入進來。在春末,吳恩達最好的畢業生之一 Quoc Le 也加入了進來,成為了第一個實習生。然後,一些谷歌工程師喜歡稱 Project Marvin 為谷歌大腦。

因為人工智慧一詞是 1956 年才被首次提出,一批研究員一直以來在思考創造人工智慧的最佳途徑,寫出很大的、綜合的程序,能同時展示邏輯推理與世界上足夠知識的規則。

例如,如果你想要從英語翻譯到日語,你要把英語的所有語法規則編程到計算機,然後是牛津英語詞典中的所有定義。接下來你還要把日語的語法規則與單詞編程,只有所有的語句用源語言輸入之後才能讓它把語句翻譯成目標語言。這種觀念通常被稱為符號人工智慧,因為它對認知的定義是基於符號邏輯的。

但這種老舊的方法主要有兩個問題。第一個就是這樣做非常耗費人工時間。第二個就是這種方法只能處理規則和定義都非常清晰的問題,比如數學問題和西洋棋。對於翻譯來說,這種方法完全失效,因為詞語不僅只有詞典上定義,而且語言的使用中常常有很多特殊用法,儘管有很多語法規則。

一份 1961 年的文摘強調人工智慧研究的前提:如果你可以編程讓計算機模擬高級的認知任務如數學和象棋,那麼你終將找到讓計算機實現模擬意識的途徑。

這個系統所能做到的事情是有限的。20 世紀 80 年代,卡內基梅隆大學的一位機器人方面的研究員指出,讓計算機去做那些成人能夠做到的事情很容易,但是讓它們去做那些 1 歲孩童做的事情幾乎是不可能的,像是拿著一顆球,或者是辨別車輛等。在 20 世紀 90 年代前,計算機象棋方面取得了一些進展,但我們離強人工智慧還很遠。

谷歌大腦是首個投資人工智慧所能呈現的可能的重大商業機構。Dean、Corrado 和吳恩達用兼職時間工作,協作實驗,但他們很快就取得了進展。他們從近期的理論基礎以及上世紀 80 年代、90 年代的思路中獲取設計靈感,並利用公司無與倫比的數據資源和大量計算基礎設施,在大量的銀行標記數據(例如,準確錄音的語音文檔)上構建網絡,結果計算機的回應和真實情況實現了很好的匹配。

Dean 相當保留地說,「進化中動物發育出眼睛是一大進步。」當時,我們像往常一樣坐在一間帶有白板的會議室,他在白板上密密麻麻寫上谷歌大腦的時間軸,以及與近期神經網絡的歷史拐點的關係。

「現在計算機有了眼睛,我們可以圍繞現有的能力建造眼睛從而理解不同的難題。」

他們建造的這些能力看起來很簡單,但影響很大。

圖:Geoffrey Hinton

2. 想像不到的實習生

Dean 說,在谷歌大腦誕生的一兩年左右,該部門在開發一歲兒童智能水平的機器上取得非常好的結果。其語音識別團隊將他們的舊系統和神經網絡結合了起來,實現了近 20 年來最好的提升。他們的系統的物體識別能力也提升了一個數量級。這並不是因為谷歌在這一年突然想出了什麼突破性的方法,而是谷歌開始向其中投入更為顯著的資源和人才。

作為當時一些概念的提出者和優化者,Geoffrey Hinton 在谷歌大腦成立的第二年加入谷歌大腦,和吳恩達共事(吳恩達現在在百度領導著 1300 人的人工智慧團隊)。當時,Hinton 只想離開其在多倫多大學的崗位 3 個月,所以因為一些合同上的原因他的身份是實習生。在「實習」培訓期間,Hinton 還問了「什麼是 LDAP(一種用戶登錄方法)?」這樣的問題。那裡有很多 25 歲左右的聰明學生一起培訓,他們只是對深度學習有所耳聞而已,他們會問:「這個老頭子是誰?為什麼他在這裡實習?」

Hinton 說:「在午餐時間,有人大叫:『Hinton 教授,我上過你的課!你在這裡做什麼?』自那以後,一切都變好了。」

幾個月後,Hinton 帶著兩個學生在 ImageNet 圖像識別競賽上展現出了真正激動人心的成果。谷歌很快就接觸了 Hinton,要給他和他的學生工作邀請。他們接受了。Hinton 說:「我認為他們對我們的智慧財產權感興趣,結果發現他們感興趣的是我們。」

Hinton 來自一個老式的英國家庭,希望在天文學或流體動力學領域做出一些小的貢獻。他有一位偉大的曾曾外祖父喬治·布爾——計算機基礎的布爾邏輯的提出者,還有一位曾曾祖父是著名外科醫生,他的父親是一位有冒險精神的昆蟲學家,他的叔叔是洛斯阿拉莫斯國家實驗室研究員……他在劍橋和愛丁堡上學,然後在卡內基梅隆任教,最後落腳多倫多大學,並在那裡度過了他的半生時間(他的研究工作得到了加拿大政府的大力支持)。我在當地的谷歌辦公室拜訪了他,他會說一些奇怪的話,比如說:「計算機會比美國人先理解諷刺。」

自 60 年代末 Hinton 在劍橋的本科階段以來,他就一直在研究神經網絡,被視為這個領域的先驅。但在那個時候,當他談論機器學習時,人們看他就好像在談論託勒密球或水蛭。那時候神經網絡被當作是未經證實的愚蠢想法。造成這種看法的主要原因是當時一個被炒作過度的項目:Perceptron(感知器)——康奈爾大學心理學家 Frank Rosenblatt 在 50 年代末開發的一個人工神經網絡。該研究的資助者美國海軍預期其「能走路、說話、看見、書寫、複製自己和意識到自己的存在」。結果沒讓任何人滿意。

美國的人工智慧元老 Marvin Minsky 也在他 1954 年普林斯頓的論文裡研究過神經網絡,但自那以後,他漸漸地就對 Rosenblatt 對神經範式的誇張說法感到厭倦了(他們當時也在競爭美國國防部的資金)。後來,Minsky 和他的 MIT 同事出版了一本書,證明有一些非常基本的問題是感知器無法解決的。

Minsky 對感知器的批評只擴展到了一層(layer)的網絡,而後來,他卻又闡釋了和當代的深度學習非常相似的思想。但那個時候 Hinton 已經明白使用很多層的網絡可以執行複雜的任務。對於神經網絡的最簡單的描述是:基於發現數據中模式的能力來進行分類和預測。如果只有一層,你只能發現一個簡單模式;有更多的層時,你甚至能發現模式的模式。比如圖像識別,現在這項任務依賴於一種被稱為「卷積神經網絡」的技術(該技術是由 Yann LeCun 在其 1998 年的開創性論文中提出的,他是 Hinton 的博士後)。該網絡的第一層學習非常簡單的「邊(edge)」,意味著一個 off-pixel 之後跟著一個 on-pixel,或相反。後續的每一層都會在前一層中尋找模式。邊的某一個模式可能是圓或三角形,而圓或三角形的模式又可能是一張臉……這種技術有點類似於人類視覺系統處理到達眼睛的信息的方式。在每一個感知步驟,不重要的細節會被丟棄。如果邊、圓、三角形之類的模式能夠組合成一張臉,那麼我們的目的就達到了。

多層的深度神經網絡的問題在於試錯(trial-and-error)的部分會隨著深度的增加而越來越複雜。這就像讓孩子學習把玩具放進身邊的箱子 A,一下子就學會了。如果讓他學習帶著玩具走過一段很多分支的路然後放進 A 箱,那就可能會在中間走錯路。怎麼讓機器學會這樣複雜的指令呢?為了解決這個問題,Hinton 及其同事在 70 年代末和 80 年代的停滯期發明(或者說重新發明)了一個解決方案,然後計算機科學家對神經網絡的興趣有了短暫的恢復。Hinton 說:「人們對此感到興奮,但我們炒作過度了。」不久之後,計算機科學家又繼續將 Hinton 看作是怪人和神秘主義者了。

但這些思想卻受到了哲學家和心理學家的歡迎,他們將其稱為「聯結主義(connectionism)」或「並行分布式處理(parallel distributed processing)」。Hinton 說:「少數幾個人的想法就讓這個思想繼續燃燒,這是一個不錯的神話。在人工智慧領域這確實是事實,但是在哲學領域,很多人相信這是正確的,他們只是不能實踐。」儘管 Hinton 得到了加拿大政府的資助,但他自己也不能做到。「那時候的計算機算力和數據都不夠。我們這邊的人常常說:『呃,如果我有一臺真正大的機器,它就有效果。』這可不是什麼很有說服力的論據。」

3. 深度學習的深度解釋

人腦中神經元的平均數量的數量級大概是 1000 億。其中每一個神經元都與其它 10000 個神經元相連,這意味著突觸的數量是在 100 萬億到 1000 萬億之間。我們目前仍然遠遠不能構建那麼大規模的網絡,但谷歌大腦的投資已經幫助實現了大約小鼠大腦的人工神經網絡。

為了理解為什麼規模會如此重要,你首先要理解這項技術的細節。有些人認為人工智慧可以直接從圖書館或網絡上讀取理解知識,但事實並非如此。它們的工作是在數據中尋找模式——先是基本模式,然後尋找更複雜的模式。

如果這個簡短的解釋不夠說明問題,沒有技術背景的讀者可以閱讀下一節關於貓的故事(當然這一節也有貓)。

假設你要在老式的符號式人工智慧模型上編程一個貓識別器。那麼你需要花大量的時間來幫機器定義什麼是「貓」——四條腿軟軟的毛、尖尖耳朵喵喵叫……所有這些信息組合起來構成了一隻貓。然後你向其展示一張圖片用於識別。首先,該機器需要分解圖片中不同的元素,然後再將這些元素和它記憶中的信息進行比對。如果有四條腿、尖耳朵、有鬍鬚、有尾巴、表情傲慢,那麼這就是一隻貓。但是這個模型卻不能識別蘇格蘭折耳貓——這種有基因缺陷的貓的耳朵耷拉在頭上。

現在讓我們來嘗試用神經網絡識別貓。我們並不會人工編寫貓的定義,它們的定義存在於大量互連的「開關」之中,就像一條帶有大量分岔路的道路。在這團開關的一邊是輸入的圖片,在另一邊則是對應的輸出標籤。然後你讓網絡自己通過調整其中的每一個開關來將一個輸入映射到對應的輸出。這個訓練過程就像是走隧道迷宮一樣,目的就是要將輸入和合適的輸出連接到一起。訓練數據越多,隧道的數量和複雜性就越大。一旦訓練完成,這團開關之中就有了大量的隧道,可以在其從未見過的數據上做出可靠的預測,這就是所謂的「監督學習」。

為什麼這樣的網絡需要如此之多的神經元和數據呢?因為從某種程度上講,該網絡的工作方式就像是一種「機器民主」。可以假想你想要計算機進行 5 種分類,你的網絡由數億個神經元「投票人」組成,他們可以進行 5 個選項的投票:貓、狗、蜘蛛猴、勺子和除顫器。然後你拿出一張圖片問:這是貓、狗、蜘蛛猴、勺子和除顫器中的哪一個?投票者開始投票,然後網絡統計員根據大多數的意見認為這是狗。

然後你告訴他:「不對,這是貓。再投一次。」

然後,統計員回頭檢查哪些投了貓,哪些選了其它的。選了貓的投票者獲得了加權——「一票可當兩票用」(至少在選擇貓的時候,選擇其他分類時權重可能不同);這樣不斷調整知道得到正確的答案。所以重要的不是單個神經元的票,而是整個投票的模式。你的投票者越多,你就能獲得越多的模式。如果你有數百萬個投票者,你就能獲得數十億種模式。每一種模式都可以對應一種結果,這些不同的模式歸類成不同的類別。訓練的數據越多,網絡就越了解一種模式屬於哪一個類別,就能在未來遇到沒有標註的圖片時做出更準確的分類。

計算機科學領域對這些思想有如此大的牴觸的部分原因是其輸出只是基於模式的模式(patterns of patterns) 的預測,這不會是完美的,而且這樣的機器也不能為你定義到底什麼是一隻貓。只有當它看到一隻貓時,它才能知道那是貓。但這個方法的最主要缺點還是數據量。要讓神經網絡理解一隻貓是在懶洋洋曬太陽還是躲在陰影裡注視世界,我們需要給神經網絡送入大量大量的數據,需要大量大量的投票者。而這是很難滿足的需求。

值得一提的是,神經網絡的概率性本質使其無法勝任某些任務。但有些情況我們又需要它完美,比如自動駕駛汽車的應用。但這不是唯一的缺陷。監督學習是一種基於有標籤數據的試錯過程。也就是說,機器的學習使用了人類最先設計的分類,這個過程有很大程度上的人類參與。如果你的訓練數據存在對女性或少數族裔的偏差,那麼最後得到的模型也會是有偏見的。

4. 貓識別論文

在最初的一兩年,谷歌大腦設計出了具有 1 歲孩童智力的機器,這些努力讓其最終從 X 實驗室畢業,進入了公司更寬闊的研究中。(谷歌 X 負責人曾提到谷歌大腦曾支付過 X 的所有花費)。而那時的谷歌大腦團隊依然不足 10 人,也不清楚最後會得到什麼。但即使如此,他們仍在思考接下來會發生什麼。人的思想不需要多少時間就能學會識別球和其它東西,時間或長或短。然後,開始進軍語言。

谷歌大腦在這個方向邁出的第一步是一篇關於貓的論文,也讓谷歌大腦出名了。

這篇論文證明的是帶有十億「突觸」連接的神經網絡(要比當時公開的任何神經網絡都要大數百倍,當然也要比我們大腦小無數數量級)能觀察原始的未標記數據,從而為自己挑選出高級的人類概念。

谷歌大腦研究員像網絡展示了 YouTube 視頻的數百萬張靜止圖片,無論是翻滾的貓,還是面部清楚的貓,神經網絡會先剝離出一個穩定的模型,能毫不遲疑地識別出這是貓。機器之前從未被編程過有關貓的先驗知識,它直接接觸世界、為自己抓取想法。

當時大部分的機器學習還受限於標記數據的質量。貓識別論文證明機器也能過處理原始為標記數據,即使這些數據人類之前從未建立先驗知識。這不僅是貓識別研究上的重大進展,也是整個人工智慧的重大進展。

這篇貓論文的第一作者是 Quoc Le。他在越南順化城邊長大,父母都是農民,家中甚至沒有電。但艱苦的環境沒有埋沒 Quoc Le 的數學天賦,他很小就被送到科學院學習。在上世紀 90 年代後期,他還在學校中的時候,他嘗試開發了一個聊天機器人。他想看看這到底有多難。

「但事實上,」他對我悄悄說道,「這實在是難。」

Quoc Le 從越南的農村一路走來,進入了坎培拉的澳大利亞國立大學。在那裡,他進行了人工智慧的一些研究。時間主導的方法,例如給機器傳遞邊緣這樣的概念,讓他感覺有點像是作弊。Quoc Le 當時並不知道,這一領域當時在全世界有幾十位學者正在做著同樣的研究,很多人都不約而同想到了機器可以從頭開始學習。在 2006 年,Quoc Le 在德國大學城 Tübingen 的馬克斯·普朗克生物控制論研究所任職。在一個讀書小組中,他接觸了 Geoffrey Hinton 的兩篇論文。

「當時出現了一次很大的爭論,」他對我說道。「一次非常大的爭論。」我們坐在一個小型會議室裡,一個狹窄的有著很高天花板的空間,配備了一個小桌子和兩個白板。他看著他在他背後白板上畫的曲線,輕聲說道,「我從沒有見過這樣激烈的辯論。」

他記得他在讀書小組中站起來發言,「這就是未來。」他表示,發表這種言論在當時那種情形下可不是一個很好的選擇。他在澳洲國立大學的前導師,在小組裡坐在他的旁邊,事後發來電子郵件質問:「你為什麼要這樣做?」

「我當時沒有辦法回答這個問題,」Le 說,「我只是好奇。那是一個成功的範式,但實話說我只是對這個新範式感到好奇。」2006 年時,此類討論活動還屈指可數。」很快他進入了吳恩達的門下,在史丹福大學開始了追隨 Hinton 理念的旅程。「到 2010 年底,我已經非常確定馬上將有變革會發生了。」

隨後發生了什麼?不久以後,Le 成為了 Google Brain 的實習生,在那裡,他繼續著自己的研究——最終成就了這篇貓的論文。在一個簡單的層面上,Le 希望看到計算機是否可以訓練自己識別給定圖像中最重要的信息。他的神經網絡訓練了從 YouTube 中獲取的大量數據。之後,他命令神經網絡丟掉圖像中包含的一些信息,但他沒有指定拋棄哪些信息。機器開始服從命令,拋棄一些信息,一開始,被拋棄的內容是隨機的。隨後他說:「好了,現在根據保留的信息嘗試重新構建原始圖像。」這就像他在讓機器「總結」一張圖片的內容,然後再從總結描述中還原這張圖片。如果圖片描述中包含的是不相關的信息——如天空的顏色而不是鬍鬚——機器就不能有效地重建原始圖像。

這就像一個原始人,需要在劍齒虎附近隱蔽自己的行蹤,這個過程不能發出一點聲音。Le 的神經網絡不需要原始人那樣小心,它可以無限次地試錯。每一次它都會在數學上「選擇」一個新的最優解試圖讓信息的處理更加準確。

神經網絡在某種程度上來說是一個黑箱。它識別模式,但識別模式的過程對於人類觀察者而言並不總有直觀意義。同樣的網絡既能識別貓,也能識別出某些形式的家具和動物的組合,比如一條長椅和一隻山羊重疊在一起

Le 並不認為自己是一個語言學者,但他認為這項研究和他早期的聊天機器人有一些相同之處。在貓論文之後,他意識到如果你要求神經網絡總結一張照片,你應該要求它生成一句完整的話來形容照片的內容。這個問題是 Le 和他在谷歌中的同事 Tomas Mikolov 在之後兩年裡的主要研究內容。

在那個階段,谷歌大腦發展迅速。有一段時間,他們在大樓的同一層辦公,可以隨時和高管們分享自己的想法。他們後來收到了一封電子郵件,信中要求他們禁止團隊成員在 Larry Page 和 Sergey Brin 的套房前面的沙發上睡覺,因為這會讓來訪的客人們感到尷尬。隨後,他們被分配在街對面的一個大樓中,在那裡,他們在廚房中交流,不會被繁文縟節所拖累。在那段時間,谷歌的競爭對手們紛紛加快了追趕步伐。

Le 一直向我強調他與 Tomas Mikolov 的密切合作,他以一種奇怪的方式重複 Mikolov 的名字,聽起來有點可怕,他在說這個詞的時候表現出了前所未有的莊嚴,我終於無法抑制住自己的好奇心,問道:「他是...?」Le 點了點頭。「他現在在 Facebook 了。」

Google Brain 團隊的圖片小組在 2012 年發布著名的「貓論文」,展示了神經網絡對於未標記數據的分析能力

他們花費了很長一段時間構建這個神經網絡架構,使其不僅可以進行簡單的照片分類,也可以識別各種靜態的,但同樣複雜的結構,如語言和音樂。其中用到的許多方法在 20 世紀 90 年代已被提出,Le 和他的同事們回到那些長期被忽視的研究成果中去尋找。他們明白,一旦建立起了具有基本語言預測能力的系統,你就可以用它從事其他各種智能的任務——例如自動回復電子郵件或預測一個談話流程。你會發現它看起來很神奇;在外行眼裡,看起來它就像是在思考。

Part II:語言機器 

5. 語言學的轉向

目前谷歌大腦團隊不像是一個巨大的企業層次分明的科技公司的一個部門,而更像是一個社團或者一個學術集體,或者說是一個「星際酒店」。這些年來谷歌大腦團隊的成員一直是整個谷歌內部比較自由且廣受讚譽的員工。

當我 6 月份開始進駐谷歌大腦團隊的時候,辦公室裡還有成排的空工位,但已被貼上便利貼,上面大多寫著類似「Jesse,6/27」(新職工及將要入職時間)這樣的標註。現在這些空工位都已滿。

谷歌大腦團隊的發展使得團隊的負責人 Dean 開始有點擔憂公司對需求的掌控。他想一改谷歌以往「成功毀滅者」的形象,而外界對谷歌的這個印象是由於谷歌在產品開發落地上的能力遠不及其在理論研究上的能力。他曾做過簡單的估算,並用一個只有 2 頁的 PPT 向執行董事匯報了他的估算。「假設未來使用安卓手機的用戶每人每天和手機語音對話的時間為三分鐘,那麼這就是我們所需伺服器的總量。」也就是谷歌需要將他們的全球計算能力擴增 1 到 2 倍。「這個數量聽起來有些嚇人,但是我們必須去做——去建造新的數據處理中心。」他不願去設想如果不這樣做的後果。

但是還有另外一種解決方案:只需設計晶片,成批量的設計出讓所有計算過程更快的晶片並在全球各地的數據中心使用。這些晶片將被稱為「張量處理單元(TPU)」,這些晶片區別於普通晶片在執行計算過程時是非精確計算,這也是體現晶片價值之處。如在計算 12.246 乘 54.392 的時候,晶片會給一個 12 乘 54 的近似計算值。在數學層面上,一個神經網絡只是一組成百上千或者成千上萬的矩陣的有序計算。對這些矩陣的計算過程而言,計算速度比精確計算更重要。「一般情況下,為某一特別任務而設計硬體是一個不明智的做法。因為這樣設計出來的硬體只能加速該項任務的計算過程。但是由於神經網絡的普適性,你可以在很多其他的任務執行時運用專為神經網絡而設計的硬體。」Dean 說。

當晶片的設計過程即將完成的時候,Le 和兩個同事終於證明出神經網絡可以用來構造語言模型。他的結論是基於「詞向量」而得出的。當你看到圖像的時候,大腦會從邊緣到圖形依次概括圖像主要內容。語言概括的過程也與此類似,你本質上也是在構建不同維度的距離圖。在構建的時候,依據慣用使用規則,構建一個詞和其他單獨的每一個詞的距離。計算機並不是以人認知語言的方式進行語言分析的,而是在構建的距離圖裡轉移、偏轉或者傾斜詞向量。二維的向量圖是沒有價值的。比如在地圖中你希望 "cat "在 "dog "附近,同時 "cat "也在 "tail""supercilious""meme"附近,因為你需要構建這些詞相互之間的關係而且一個詞(這裡是"cat")對於其他所有詞的關係有強弱之分。如果一個詞與其他所有詞之間的關係各自成為一個獨立的向量維度,那麼一個詞與其他詞之間的關係就能一步構建出來。但是創建一個維度為 16 萬的向量不是一件容易的事,所幸的是某種語言的詞向量圖完全可以用一個只有一千維度的向量圖來很好的構建出來。換句話說來說,在這個詞向量圖的空間裡,每個詞是由一組 1000 個數值來定位的。

但是在這樣構建的空間裡,並不能很好地顯示出不同種人的稱呼之間的區別。如果把定位「king」的那組數對應的減去定位「queen」的那組數中相同位置的數那麼得到的新向量將會同定位「man」的那組數對應減去定位「man」那組數的向量相同。如果讓機器學習整個英語詞彙所構建的向量空間圖以及整個法語詞彙所構建的向量空間圖,在理論上你是可以訓練出這樣的一個神經網絡,從英語中選取一條語句對應的生成法語中向量值相同的語句。在訓練時,你只需要先將大量的英文語句作為網絡的數據輸入,然後將對應的法語語句作為網絡的輸出,進行一個監督學習的過程,在機器完成這個監督學習之後神經網絡將會習得詞語之間的關係,這就跟圖像分類器能識別不同像素點之間的關係一樣。詞語和像素之間的主要區別在於一副圖像中的像素點在時間上是沒有先後之分的,而詞語的使用是有時間先後的。你需要時刻讓神經網絡"記住"它是以時間先後的順序來處理語句,即從語句的第一個詞至最後一個詞的順序進行。在 2014 年 9 月的某周裡,這種處理方法的所有理論工具在三篇論文中被提出來。一篇來自 Le,另外兩篇來自加拿大和德國的研究者。他們的研究催發了一些開發式的項目如谷歌大腦的 Magenta 項目,這個項目是對機器如何創作藝術作品和音樂作品的研究。同時也為工具性的研究(如機器翻譯)掃清障礙。

6. 伏擊

Le 的論文表明神經翻譯是靠譜的,但是他只使用了一個相對較小的公共數據集。(對於谷歌來說很小,要知道谷歌擁有世界上最大的公共數據集。過去十年舊的翻譯系統已經積累了比其使用的數據集大上成百上千倍的生產數據。)更重要的是,Le 的模型對於超過 7 個單詞的句子就不怎麼管用了。

Mike Schuster 那時是 Brain 團隊的一名研究科學家,接管了這項研究。他明白如果谷歌找不到一種能將理論見解拓展到產品層面的方式,其他人也會找到的。這個項目花了他兩年的時間。Schuster 說,「你想要翻譯一些東西,你就要有數據、做實驗,並且你做了,效果未必如你所願。」

Schuster 是個時刻保持緊張專注,大腦永遠靈活的傢伙,皮膚黝黑,肩膀不寬,穿著窄口過膝迷彩短褲,腳踩一雙閃著螢光的 Nike Flyknits。Schuster 在前西德 blast-furnace 區的杜伊斯堡長大,研究的是電子工程,後來去京都研究早期的神經網絡。上世紀 90 年代,他做了一個會議室大小的神經網絡機器實驗;花費數百萬美元,訓練了好幾周才能做一些你現在一個小時內就能在桌上型電腦上訓練出來的東西。1997 年,他發表了這篇研究的論文,之後的十五年都幾乎沒有人引用過;今年,這篇文章被引用了 150 次左右。他不乏幽默,但穿著上總是流露出一種嚴肅的感覺,他的籤名帶著一種日本人和德國人特有克制感。

這個非解決不可的問題很棘手。一方面,Le 的代碼是自定義編寫的,與谷歌之後新開發的開源機器學習平臺 TensorFlow 不兼容。2015 年秋天,Dean 給 Schuster 介紹了另外兩名工程師,Yonghui Wu 和 Zhifeng Chen。然後他們花了兩個月將 Le 的結果複製到這個新系統上。Le 就在旁邊,但是他從頭到尾都沒有給過他們一點指導。

就像 Schuster 說的那樣,「很多工作都不是在完全清楚的情況下完成的。他們不知道自己為什麼要做。」今年二月,谷歌的研究組織——谷歌的一個鬆散部門,大約有 1000 名員工,做的都是前瞻性和一些未知的研究——將總部外的各個帶頭人召集到聯合廣場上的 Westin St. Francis 酒店,奢華程度略低於谷歌自己在東部一英裡之外舊金山裡的那家店。上午是幾輪的「閃電會談」,快速匯報最新的研究進展,下午是悠閒的跨部門「促進討論。」這次召集是為了提供一個場合能促進不可預測的、不明朗的、貝爾實驗室風格的交流,期望這種交流能給公司帶來更多的生產力量。

午餐時間,Corrado 和 Dean 兩人在找谷歌翻譯的負責人 Macduff Hughes。Hughes 一個人用餐,兩名谷歌大腦的成員坐在離他有點距離的兩邊位置上。就像 Corrado 說的那樣,「我們伏擊了他。」

「O.K.」Corrado 想放鬆 Hughes 的警惕,讓他的呼吸恢復平穩。「我們要和你談點事。」

他們告訴 Hughes 2016 年是個不錯的時機,可以用神經網絡重整一下谷歌翻譯——數百名工程師超過十年編出來的代碼。這個舊系統採用的是 30 年來所有機器翻譯系統採用的方法:它能將連續的句子片段隔開,在一個大型統計衍生詞彙表中檢索句子中的單詞,然後使用一組後處理規則附上適當的結果,再重新排列起來組合成句子。這個方法叫「基於短語的統計機器翻譯」,因為直到該系統獲取下一個短語,它才知道這個短語是什麼。這就是為什麼谷歌翻譯的輸出有時像一對抖動後的冰箱貼。如果谷歌大腦團隊的神經網絡能用到翻譯中來,就能實現閱讀並在一個草稿上呈現完整的句子。它會撲捉整個語境,這和句子表達的意思緊密相關。

賭注似乎很低:谷歌翻譯帶來的收入最小,而且這種情況可能會一直持續下去。對於大多數以英語為母語的用戶來說,即使是激進地升級一個服務,也不會給他們帶來任何用戶體驗上提升。有個案例可以說明這個問題,人類水平的機器翻譯不僅是短期內的必需品,長期來看其發展也很可能會帶來顛覆性的變化。在這中間,公司打什麼樣的戰略至關重要。谷歌估計,英語中有 50% 的使用來自 20% 的世界人口。如果谷歌打算進軍中國——這裡大多數搜尋引擎流量的市場份額屬於它的競爭對手百度——或印度,得體的機器翻譯將是基礎系統不可或缺的一部分。2015 年 7 月,百度也發表了一篇關於神經機器翻譯的開創性論文。

在更遠的將來,機會更多,機器翻譯可能是邁向一個使用人類語言的通用計算設備的第一步。這將在真正的人工智慧的發展道路上代表一個主要的轉折點,或許它本身就是主要的轉折點。

矽谷的大多數人都意識到機器學習是一條捷徑,所以 Hughes 預料到 Corrado 和 Dean 會來找他談這個事情。他仍然保持懷疑。這個溫和強壯剛剛步入中年的男人,蓬亂的褐色頭髮,兩鬢卻已斑白。Hughes 是一個典型直線條的工程師,就是那種上世紀 70 年代出現在波音飛機草稿桌上工匠。他知道,多年來在谷歌其他崗位上或者谷歌之外其他地方的很多人一直試圖做神經翻譯的研究,不僅是實驗室裡的還有能投入量產的,但是收效甚微。

Hughes 聽了他們的案例,最後小心翼翼地說,這聽上去就好像他三年內就能做出來一樣。

Dean 卻不這麼想。「如果我們真的想做,今年內就能做出來。」人們喜歡並崇拜 Dean 的一個原因就是他總能成功地實現自己的想法。另一個原因是,他能輕鬆地說一件很嚴肅的事情,「我們能不能把我們的想法加進去。」

Hughes 那時肯定神經翻譯不會那麼快實現,他個人不關心是一個原因。「我們來為 2016 年做準備,」他回去告訴他的團隊。「我們不會說 Jeff Dean 沒那麼快。」一個月後,他們終於可以運行一個並排(side-by-side)實驗,將 Schuster 的新系統與 Hughes 的舊系統相比較。Schuster 想用它來試一試英語-法語翻譯,但是 Hughes 建議他換個語種試試。「英語-法語太簡單了,提升不會太明顯。」

Schuster 不會堅持這個挑戰。評估機器翻譯的基準度量是 BLEU 得分,它將機器翻譯的結果與許多可靠的人類翻譯的平均水平相比較。當時,英語-法語最好的得分是 20s。有一個點的改進就是非常好;兩個點的改進就算是十分出色了。

英語 - 法語語對上的神經系統改進比舊系統多達 7 分。

Hughes 告訴 Schuster 的團隊,在過去四年裡,他們自己的系統中從來沒有出現過這麼大的改進。

為了確保這不是僥倖得出的,他們也利用人力對此進行了平行比較。在用戶體驗得分中,其中例句得分從 0 到 6,平均改善了 0.4——大致相當於舊系統在其整個生命周期的總增益。

谷歌的 Quoc Le(圖右),他的工作證明了神經翻譯的合理性,Mike Schuster 幫助將這項工作應用於谷歌翻譯。圖片來源:Brian Finke for The New York Times

三月中旬,Hughes 給他的團隊成員發了一封郵件,暫停了所有舊系統有關項目。

7. 將理論變為產品

在那之前,神經翻譯團隊只有三個人(Schuster、Wu 和 Chen),但是在 Hughes 的支持下,更多的團隊開始了聯合。後來他們在谷歌大腦寫字樓開會,會議一般有十幾人參加。當 Hughes 或 Corrado 在的時候,他們是僅有的以英語為母語的人,工程師們用混雜的語言和數學進行表達,不過他們講中文、德語和日語等其他語言。在 Google,誰舉行會議並不總是完全清楚的,但這次會議是沒有疑義的。

不過即便如此,他們所需要採取的步驟還是不完全確定的,整個過程都是不明確的。Schuster 將手伸出到胸前 8 英寸說:「這就像在大海裡遊泳,你只能看到這麼遠的距離,目標就在某處,或許它就在我們這裡」

大多數谷歌的會議室都配有視頻聊天顯示器,它會在閒置時顯示極高解析度的過飽和公開 Google+照片,包括夢幻森林、北極光或德國國會大廈。Schuster 指向正在顯示華盛頓紀念碑水晶般靜立的夜景屏幕,「外人會認為我們每個人都有雙筒望遠鏡,可以看到遙遠的前方。」

到達現在的理論工作已經讓他們精疲力竭了,那麼將它轉化為可行的產品呢,做學術的科學家可能就會將其歸於純粹的工程學,並認為要實現起來是不難的。首先,他們需要確保有良好的數據進行訓練。谷歌數十億詞的「閱讀」訓練主要是由中等複雜性的完整句子組成,就像海明威的那樣。其中一些是公共領域內的:統計機器翻譯 Rosetta Stone 就是數百萬頁的加拿大議會的完整的雙語記錄建立的。然而它的大部分都從 10 年收集的數據中剔除,包括從熱心的受訪者得到的眾包翻譯數據。他們團隊的語料庫裡有大約 9700 萬個獨特的英語「單詞」。但是一旦他們刪除了表情符號、拼寫錯誤和冗餘,他們的有效詞彙量就只剩下了大約 16 萬。

然後你不得不重新關注用戶實際想要翻譯的內容,這通常與是否使用合理的語言無關。谷歌發現許多人不去看複雜句子翻譯地是否完整,而是考察那些奇怪的小碎片語言。如果你希望網絡能夠處理用戶查詢流,那麼就必須確保將其定向到處理小碎片語言。該網絡對其訓練的數據非常敏感,正如 Hughes 向我提出的一點:「神經翻譯系統就像一個小孩,它正在學習一切」他笑著說:「你們都應該謹慎點」

不管怎樣,他們需要確保整個翻譯過程是快速和可靠的,這樣用戶才能接受這個產品。在今年 2 月,神經翻譯翻譯一條 10 個單詞長的句子需要 10 秒鐘,他們是不可能去推薦一個如此慢的翻譯系統。所以翻譯小組開始對一小部分用戶進行延遲實驗,以偽造延遲的形式識別容錯。他們發現,如果翻譯需要 2 倍到 5 倍的時間不會被注意到,但是到達八倍的減速就會了。他們不需要確保所有語言都是這樣,在高流量的語言(如法語或中文)的情況下,他們幾乎不會放慢速度。而對於一些更模糊更抽象的事物,他們知道如果用戶能獲得更好的質量,那麼基本不會害怕輕微的延遲。他們只是想防止用戶轉換到某些競爭對手的服務上。

對於 Schuster 而言,他承認不是太清楚他們團隊能否讓這個系統運行地足夠快。Schuster 還記得和 Chen 在小廚房裡的對話,他當時說:「一定有一些我們不知道的,但能使我們的系統運行地足夠快的東西,雖然我不知道是什麼」。不過他們都知道他們需要更多的計算機,確切地說是需要更多的圖形處理器訓練神經網絡。

Hughes 去問 Schuster 他是怎麼想的:「我們是不是應該使用一千塊圖形處理器?」

Schuster 回答:「為什麼不用 2 千塊?」

十天後,他們增加了 2000 塊圖形處理器。

到 4 月份,原來的三人陣容已經超過 30 人,其中一些人,如 Le,來自谷歌大腦團隊,許多人還是來自谷歌翻譯。5 月,Hughes 為每種語對配備了一位臨時主管,每個人都需要將結果錄入到一個大型的共享績效評估電子表格中。在任何時候都至少有 20 個人正在進行為期一周的獨立實驗,並處理出現的各種意想不到的問題。有一次有一個模型毫無緣由地把開始所有句子中的數字刪除。這個問題花了幾個月的時間才得以解決。Schuster 說:「所有人都在著急地大喊大叫。」

到春末,各部分的工作都聚在一起。團隊引入了一些諸如 word-piece model、coverage penalty、length normalization 的概念。Schuster 說,「每個部分的結果都能改進幾個百分點,總體就會有顯著的效果。」一旦模型標準化,它將只是一個單一的多語言模型,而不是目前使用的翻譯的 150 種不同模型,這一模型將會隨著時間的推移而不斷改進。但是,當一個工具通過學習機器來實現普遍化時,實現自動化的過程會需要異於常人的才智和努力。但是很多做出的決定都依賴的是直覺。每層需要使用多少個神經元?1024 還是 512?有多少層?一次運行多少句?需要訓練多久?

 Schuster 對我說,「我們做了成百上千次實驗,直到我們確定在一周後我們可以停止訓練。你總是在問我們什麼時候才可以結束?我怎麼知道我做了些什麼?你永遠不知道你做了些什麼。機器學習的機制永遠都達不到完美的狀態。你需要訓練,在某一個時間,你需要停下來。這就是整個系統的本質。對於某些人來說,這確實很困難。這就是創造藝術一樣,你得拿著你的刷子慢慢讓它變得完美。所以我們要去做,有些人會做得越來越好,有些人會越來越糟糕。」

5 月份,谷歌大腦團隊了解到,他們唯一能夠使系統作為產品快速實現的方法是能夠在 TPU 上運行。正如 Chen 所說:「我們甚至不知道代碼是否能工作。但是我們知道沒有 TPU 肯定是不行的。」他還記得曾經一個接一個地去請求 Dean,讓他幫忙保留一些 TPU。Dean 保留了,但是 T.P.U.s 卻不能正常工作。Wu 花了兩個月的時間坐在硬體團隊的人旁邊,試圖找出原因。他們不只是在調試模型,他們也在調試晶片。神經翻譯項目成為整個基礎設施投資概念的驗證。

六月一個星期三的晚上,在 Quartz Lake 舉辦的一個會議以對近來出現在行業權威網上論壇上百度的一篇論文的討論開始。Schuster 說,「確實百度出了一篇論文,就好像有人在監視著我們一樣——相似的架構、相似的結果。」它們的 BLEU 分數是谷歌在二三月份內部測試時達到的分數。

谷歌團隊知道它們應該早一點發布自己的結果,這樣或許就能夠打敗它們的競爭對手。但 Schuster 說道:「推出要比發布更重要」。最終他們確實首先推出了更好的服務。但是 Hughes 說,「我們不想說這是一個新系統,我們只想確保它能夠正確運行。理想的情況是看到大批人在 Twitter 上面說:『你們有看到谷歌翻譯現在有多厲害嗎?』」

8. 一次慶祝

9 月下旬一個星期一的下午,團隊的論文最終發布,論文共有 31 位作者。第二天谷歌大腦和谷歌翻譯的成員聚集在為廚房中舉行了一個小小的慶祝活動。一定程度上,它們是在慶祝谷歌大腦和谷歌翻譯的聯合工作。

谷歌的神經翻譯終於開始運作了起來。在聚會舉辦的時候,公司的中英翻譯已經處理了 1800 萬條查詢指令。幾周之後,谷歌正式將神經翻譯拓展到了中英互譯領域,這是谷歌取得最好業績的語言對。

Hughes 說道:「上一分鐘存在問題,上上一分鐘也存在問題,對論文的測量誤差或者是一個奇怪的標點符號都可能導致系統缺陷,但所有的問題我們都解決了,或者至少當前是有效解決了。神經翻譯目前取得了一些進步,但是這種進步是間斷的、垂直的,而不是一條光滑的曲線。相關的翻譯並不僅是關於兩個團隊,而是關於將理論轉變為現實,目的是為了交流、合作。」

Dean 說:「它們展示了可以同時處理兩大主要任務的能力:做研究,並且將結果擺在 5 億人(我猜測)的面前。」

所有人聽到都發出了笑聲,並不是因為這句話誇大其詞,反倒是因為它絲毫沒有誇張。

後記:沒有靈魂的機器

或許對於人工智慧最著名的歷史性批判或者是在其立場上做出的斷言,便設計到了翻譯的問題。伯克利的哲學家 John Searle 中 1980 年提出中文屋(Chinese room)的實驗。在這個思想實驗當中,他將一個只會說英語的人關在一間只有一個開口的封閉房間中。房外的人不斷向房間內遞進用中文寫成的問題。房間裡面的人只有幾張桌子和一本用英文寫成的手冊,指示他該如何處理收到的漢語訊息及如何以漢語相應地回復。房內的人便按照手冊的說明,很快他們的回答似乎就變得與與講中文的人沒有什麼差別了。那麼我們可以說房間裡面的人「懂」中文嗎?Searle 的答案是否定的。他在之後用計算機來作比喻,他說「給適當編程的電子計算機賦予正確的輸入和輸出,就會造成一種計算機和人腦一樣也具有思維的感覺。」

對於谷歌大腦團隊,以及在矽谷從事機器學習工作的幾乎每個人來說,這種觀點都有些文不對題。這並不是說它們在無視哲學問題,而是說他們對智能的思維有著完全不一樣的看法。和 Searle 不一樣,他們沒有從特殊的心理方面來分析「意識」,Gilbert Ryle 將其稱之為「意識的靈魂」。他們只是相信我們稱之為「意識」的複雜技能分類,在很多簡單機制的協調活動中是隨機出現的。因此,邏輯推理就成為了一種補足的方式,就像是我們扔球和接球的能力一樣。人工智慧並不是要去建立一種思維,它是對於解決問題工具的改進。Corrado 在我第一天進入谷歌的時候就對我說,「人工智慧並不是關於機器『知道什麼』和『理解什麼』,而是關於它可以『做什麼』,還有至關重要的一點是——它目前還不能做什麼」。

而「知道」和「做」這兩個概念當中確實存在一些文化和社會含意。Schuster 曾經因為媒體將「谷歌表示人工智慧翻譯的能力已經與人類無異」(GOOGLE SAYS A.I. TRANSLATION IS INDISTINGUISHABLE FROM HUMANS)放上頭條一度在論文中強調這一點,他經常重複論文中的觀點——「現在的發展狀況比以前要好很多,但還是不及人類。」他希望人們能夠清楚地意識到他們所做的工作是在幫助人類,而不是要取代人類。然而機器學習的崛起又為我們提出了難題。如果你相信,根據 Searle 的觀點,人類「洞察力」當中存在著一些特殊之處,那你就可以在人類和機器之間劃出一條明顯的界限。如果你持相反的看法,那麼就當然不能。所以為什麼那麼多人都支持前者似乎就容易理解了。

在 2015 年 MIT 關於人工智慧根源的一次大會上,有人問 Noam Chomsky 他對機器學習的看法是怎麼樣的。他輕蔑的回答說,整個市場都僅僅是在做數據預測,其實就像是天氣預報一樣。即使神經翻譯能夠完美演繹,對於語言的本質也並不能產生什麼深遠的影響。這種預測能夠成為我們完成任務的一種很好的工具,但是不能幫助我們理解事情為什麼會這樣發生。在醫學掃描上,機器已經能夠比人類放射專家更準確地檢測出腫瘤,但是機器不能告訴你是怎麼得病的。

那麼問題是放射專家能夠告訴你嗎?

醫學診斷是受到機器學習威脅最直接最不可預測的一個領域。放射科醫生一般都經過廣泛培訓,並且報酬優渥,我們認為他們的技能是一種專業洞察力——最高級的思想領域。在過去的一年裡,研究人員不僅發現神經網絡可以比醫療圖像更早找到腫瘤,而且機器甚至可以根據病理報告的文本做出診斷。放射科醫生做的事情其實更像是一種預測模式而不是邏輯分析。他們並沒有告訴你是什麼導致了癌症,他們只是告訴你它在那裡。

如果你出於某種目的建立了一個模式匹配裝置,它可以在為別人服務時進行調整。一個翻譯工程師既可以利用一個網絡評價藝術品,也可以用它來驅動一個自主無線電控制的汽車。用於識別貓的網絡可以用於訓練 CT 掃描。一個用於翻譯的神經網絡可以很快處理數百萬頁的法律的文件,所需要的時間和收費最昂貴的資格律師相比也僅僅是一小部分。那些機器可以做的工作也不再僅僅是我們之前所做的一些重複性的工作。我們不只是在談論 350 萬名可能很快面臨失業的卡車司機。我們談論的還有庫存管理者、經濟學家、財務顧問、房地產代理。

在矽谷發生的最重要的事情現在不是分裂。相反,它對體制的建設和權力的鞏固,在規模和速度上都達到了人類歷史上可能是前所未有的程度。谷歌大腦有實習生,有常駐職員,有培訓其他部門的「忍者」。每個地方都有免費自行車頭盔和免費的雨傘、水果沙拉、午休的地方、共享的跑步機書桌、按摩椅、高級糕點、嬰兒衣服捐贈場所、配備教練的兩層攀巖牆、閱讀小組和政策會談以及各種支持網絡。這些大規模投資的受益者可以控制分布在四大洲 13 個數據中心的複雜協調伺服器,所擁有的數據中心吸引的電力足以照亮大城市。

但即使像谷歌這樣龐大的機構也將面臨自動化的浪潮,一旦機器可以從人類的語音當中進行學習,即使程式設計師的舒適工作也受到威脅。Hughes 在回憶過去 10 年翻譯代碼庫歷史時候曾說,「不要擔心,新的代碼庫將會繼續發展,一切都會變得越來越好。」

相關焦點

  • 重磅| 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot...
    》,介紹了谷歌的神經機器翻譯系統(GNMT),該系統實現了機器翻譯領域的重大突破,參見報導《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》。昨日,谷歌再發論文宣布了其在多語言機器翻譯上的突破:實現了 zero-shot 翻譯!昨天,谷歌在其官方博客上宣布其在谷歌翻譯(Google Translate)上再次取得重大進展。
  • 《紐約時報》深度剖析谷歌大腦簡史
    2011年開始,谷歌大腦開始用這一方法進軍人工智慧,希望能解決傳統方法嘗試了數十年都沒有突破的難題。語音識別此前一直做得不好,但是谷歌大腦採用新方法後,讓安卓手機上的語音識別幾乎做到了人類水平。在圖像識別上也是如此,一年多以前,谷歌大腦首次把這一技術應用到了商業化的產品中。谷歌翻譯從2006年開始推出,已經成為谷歌最可信最流行的產品之一。
  • 紐約時報》兩萬字長文,深度剖析谷歌大腦簡史
    2011年開始,谷歌大腦開始用這一方法進軍人工智慧,希望能解決傳統方法嘗試了數十年都沒有突破的難題。語音識別此前一直做得不好,但是谷歌大腦採用新方法後,讓安卓手機上的語音識別幾乎做到了人類水平。在圖像識別上也是如此,一年多以前,谷歌大腦首次把這一技術應用到了商業化的產品中。谷歌翻譯從2006年開始推出,已經成為谷歌最可信最流行的產品之一。
  • 《紐約時報》兩萬字長文,深度剖析谷歌大腦簡史
    2011年開始,谷歌大腦開始用這一方法進軍人工智慧,希望能解決傳統方法嘗試了數十年都沒有突破的難題。語音識別此前一直做得不好,但是谷歌大腦採用新方法後,讓安卓手機上的語音識別幾乎做到了人類水平。在圖像識別上也是如此,一年多以前,谷歌大腦首次把這一技術應用到了商業化的產品中。 谷歌翻譯從2006年開始推出,已經成為谷歌最可信最流行的產品之一。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    1954年,計算機科學家第一次公開發布了一款可以翻譯人類語言的機器。後來這被稱為喬治城-IBM實驗:一個能將句子從俄語翻譯成英語的「電子大腦」(electronic brain)。 當時,科學家相信,一旦通用翻譯器被開發出來,不僅可以讓美國在國家安全上領先蘇聯,還能消除語言障礙,從而促進世界和平。
  • 谷歌大腦48名成員:斯坦福博士最多,還有一名輟學90後
    作者:李根 若樸 李林 發自 凹非寺 以下為全文: 人類第一次發現貓的記錄已無從查證,但機器第一次「發現」貓是在5年前的今天。 毫不誇張地說,這可能是人類科技變革史上最狂飆突進的5年,由一隻「貓」開始。 那麼,谷歌大腦現在什麼樣了? 揭秘谷歌大腦 成立於2011年的谷歌大腦,目前有正式成員48名,團隊負責人是傳奇人物Jeff Dean。
  • 重磅| Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍...
    Dauphin機器之心編譯參與:吳攀、微胖、蔣思源去年穀歌在機器翻譯上取得了連續不斷的突破,谷歌的方法用到了文本處理慣用的循環神經網絡。近日,Facebook 也宣布在神經機器翻譯上取得了重大進展,在超過了去年穀歌研究的水平的同時還實現了顯著的速度提升。而和谷歌的方法不一樣,Facebook 的方法採用了一種完全基於卷積神經網絡的架構。
  • 不用輸入就能翻譯的翻譯器!谷歌翻譯推新功能 拍照即可識別
    谷歌翻譯推新功能 拍照即可識別 2019年07月11日 19:50作者:張萌編輯:李芹文章出處:泡泡網原創   7月11日消息,據外媒phonearena報導,谷歌翻譯APP近期推出了一項新功能,該功能支持通過手機攝像頭拍攝並掃描文本來進行翻譯,在沒有蜂窩數據或Wi-Fi聯網的條件下依舊可以使用。
  • 谷歌發布神經機器翻譯,翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版本和移動版本的谷歌翻譯。在漢譯英的過程中,谷歌翻譯會採用全新的神經機器翻譯機制,而這個App每天要進行一千八百萬次這樣的翻譯。此外,谷歌針對這個神經機器翻譯系統的運作原理,專門發表了一篇學術論文。
  • 【AI 原力覺醒】《紐約時報》兩萬字長文,深度剖析谷歌大腦簡史
    《紐約時報》刊文,記者 Gideon Lewis-Kraus 深入谷歌大腦,從團隊建立開始,闡述他們如何用神經網絡改變谷歌翻譯這一谷歌重要產品。文章還探討了機器學習將如何重塑計算機這一概念本身。編譯中有刪減。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    最近,做機器翻譯的同志們一打開朋友圈,猛然發現好像飯碗沒了,谷歌爸爸大力出奇蹟,提高了機器翻譯87%的水平。結果打開人家原文一看,原來虛驚一場,只是現有工作的整合,一篇完美的工程論文,並沒有新的模型提出。不禁長舒一口氣,呼~飯碗還在。呼~到底火遍朋友圈的那篇文章「谷歌機器翻譯取得顛覆性突破,錯誤率下降87%」到底幾分真幾分假呢?
  • 貓翻譯?Meowtalk應用程式聲稱能翻譯喵喵喵
    一位前亞馬遜Alexa開發者開發了一款應用,聲稱可以翻譯你貓咪的喵喵叫聲。「MeowTalk」應用程式可以在蘋果商店或谷歌Play商店下載。Meowtalk記錄下你的貓咪發出的聲音,然後試圖識別出它的意思,儘管研究表明貓咪不像它們的人類同伴那樣有自己的語言。
  • 機器翻譯的最新進展與瓶頸所在
    你想過和異國人說話不需要再有翻譯,只需隨身攜帶一個輕巧的數碼機器嗎?目前來看這仍是奢望。不過,或許某一天,我們終於可以不再學習頭疼的外語就能實現和外國人的無縫交流。該架構擁有谷歌研發的分布式計算系統(MapReduce)和分布式存儲系統(BigTable);而這兩個系統很有創造性,而且有極大的擴展性,使得谷歌在系統吞吐量上有很大的競爭力。  機譯更激動人心的應用,在於日常對話中的實時翻譯。這一領域同樣是谷歌領先;它擁有較強的語音識別技術,可以通過聲音實現自動檢索,再將語音識別和機譯結合在一起。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。
  • 王維、楊絳與機器翻譯的本質
    那麼,如果對於英文的讀者來說,當他們看了英文的詩之後,是否能夠站到王維原作的情境當中呢? 這是一個非常哲學性的翻譯問題,到底有沒有完美的翻譯,翻譯到底能不能完美到讓你讀完這個東西之後,你立刻就能夠感受到原作的所有的附加內涵呢?
  • Android 9.0重磅新功能:原生支持虹膜識別
    中關村在線消息:昨天,谷歌已經正式公布了Google I/O 2018開發者大會日程安排,大會將於5月7日-10日舉行,屆時將會帶來Google Pay、Android即時應用、Android KTX、Android Kotlin開發和入門,以及Android、Android apps for
  • 谷歌大腦負責人Jeff Dean:深度學習技術及趨勢報告 | 網際網路數據...
    實際案例:運用神經網絡解決真實世界問題TensorFlow 全面解析應用舉例「谷歌大腦」項目始於2011年目標識別和檢測機器翻譯語言建模語法分析神經網絡是一些從數據提煉的複雜函數,從一個空間輸入轉化為另一個空間的輸出。
  • BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎?
    2014年到2016年,機器翻譯領域可以說是翻天覆地。這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯,並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NWT神經機器翻譯時代。很多人為此歡欣鼓舞。
  • 谷歌神經網絡機器翻譯已支持英語與其他8種語言的互譯
    經過10年的發展, 谷歌翻譯已成為一個連接世界的重要工具,谷歌翻譯支持的語言已達到了103種。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    Sogou NMT 在中文到英文翻譯任務中名列第一。其中,在中文到英文翻譯任務的八項評價標準中(其中四項為 BLEU 及 BLEU 的變體),獲得了七項第一。最近,谷歌的學者又提出了完全基於注意力的翻譯架構,注意力機制不再是連接編碼器和解碼器的模塊,而是模型的主體,取得了性能上的突破。當然,從工程實踐角度,如今主流的機器翻譯系統,無論是谷歌、臉書還是搜狗,都仍然使用 RNN 編碼器-解碼器結構。編碼器和解碼器都有三層,其中編碼器的第一層為雙向層。與谷歌的 GNMT 雙向八層結構相比這個神經網絡並沒有那麼深,因此在效率上能夠獲得不小的提高。