谷歌大腦是如何煉成的:萬字無刪減版全解密一

2021-02-08 雷鋒網

雷鋒網按:如果說到在機器學習領域領先的公司,想必你不會忽略谷歌。從谷歌翻譯到從機器視覺,谷歌一直努力將機器學習應用於可能想像的任何地方。本文會講三個故事,它們在 Google 翻譯向 AI 的成功轉型中整合在了一起:一個技術故事,一個制度故事和一個關於思想演變的故事。本文源自紐約時報,作者Gideon Lewis-Kraus,雷鋒網編譯,未經許可不得轉載。

序:你=你所讀的東西

在十一月初的一個周五晚上,東京大學人機互動教授 Jun Rekimoto 正在電腦前準備演講。當他在瀏覽網頁時,Rekimoto 突然發現社交媒體的時間流上出現了一些有意思的內容。雖然這些內容很輕易就看出是谷歌機翻的,但質量已經有了很大的提升。在訪問了 Google Translate 並進行測試之後,Rekimoto 驚訝不已。雖然已經夜深,但 Google Translate 的進展之快依然讓 Rekimoto 久久無法入眠。

隨即,Rekimoto 在他的博客中記下了這一發現。首先,他在 Google Translate 上輸入了菲茨傑拉德的代表作《了不起的蓋茨比》裡的一個英文節選段落,點擊翻譯後,與兩個日文版本(一個是 1957 年 Takashi Nozaki 的版本,一個是現代 Haruki Murakami 的譯版)進行對比。Rekimoto 在和我溝通的一封郵件中提到,Murakami 的譯文帶有強烈的個人風格,用語非常細膩。而谷歌翻譯的版本雖然還帶著機翻的痕跡,但更加通俗易懂。

隨後,Rekimoto 通過日譯英對 Google Translate 進行測試。他把自己口頭翻譯的《吉力馬札羅的雪》的開頭部分簡單地輸入進電腦中,發現翻譯結果幾乎可與海明威的原作媲美。當然,海明威是以行文通俗易懂聞名的,雷鋒網也請大家來猜猜,哪一段是 Google Translate 所作,哪段是原版文字呢?

NO. 1:

Kilimanjaro is a snow-covered mountain 19,710 feet high, and is said to be the highest mountain in Africa. Its western summit is called the Masai「Ngaje Ngai,」the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.

NO. 2:

Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called「Ngaje Ngai」in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.

即使對於一個美國土著而言,如果不發現 2 號段落的小小瑕疵,其實很難分辨其中的差別。Rekimoto 表示,其實他對 Google Translate 再熟悉不過了:畢竟在 24 小時前,它只是一個會翻出如下文字的機器:

Kilimanjaro is 19,710 feet of the mountain covered with snow, and it is said that the highest mountain in Africa. Top of the west,「Ngaje Ngai」in the Maasai language, has been referred to as the house of God. The top close to the west, there is a dry, frozen carcass of a leopard. Whether the leopard had what the demand at that altitude, there is no that nobody explained.

在 Rekimoto 把測試結果發在有著一萬多關注者的 Twitter 後,在短短幾個小時內,上千人也 po 出了他們「調戲」機器翻譯的結果。有些幾乎完美,而有的則啼笑皆非。

在東京破曉之時,Google Translate 就在這一夜攀上了日本推特的頭條熱搜,甚至把 cult 動畫和人氣偶像少女組合都擠了下去。每個人都在困惑:谷歌翻譯怎麼會突然這樣讓我們眼前一亮?

四天之後,全球的上百名記者、企業家和廣告商蜂擁到谷歌位於倫敦的辦公室中,聆聽谷歌的特別發布會。賓客們享受著谷歌翻譯 Logo 形狀的小餅乾,手中拿的是印有不同國家語言的紙張(我的是挪威語),此外還被邀請下載 Google Translate 的軟體。桌子上的甜甜圈和冰沙都用小牌子標註出各種國家的風味。過了一會,大家被引到了一個黑暗的小劇場中。

Sundar Pichai,Google CEO

倫敦市長 Sadiq Khan 首先上臺致辭。他以「我有一位朋友」開場,提起對方對他說,市長大人總讓他想起谷歌。市長說,「為啥,因為我什麼都懂?」朋友否認道,「不是的,是因為你就像谷歌一樣,總是試圖把我的話補完。」會場傳出了善意的笑聲。隨後,谷歌 CEO 桑達爾•皮查伊上臺發表演講。

皮查伊此行的一項議程是蒞臨慶祝谷歌倫敦國王大道新大樓的建成。此外,基於他在不少場合都宣告谷歌的未來將以「AI 為先」,這句話引來了不少猜想。在他的演講中,皮查伊提到了這句話的真實含義:在未來,谷歌的產品不再是傳統計算編程的結果,而是「機器學習」。

谷歌大腦——這是谷歌一個鮮少被提及的部門,實際上已經成立了五年時間。這個部門一直遵循著一個原理:人工「神經網絡」能夠像嬰兒一樣,通過不斷試錯來理解世界,而這能讓機器擁有像人類一樣的靈活性。這條圭臬並不是什麼新主張——早在上世紀 40 年代,也就是現代計算機早期階段就出現了。但少有科學家將這一想法落地,畢竟它看起來太遙遠也太神秘了。直到 2011 年,當谷歌大腦計劃採用這一方法攻克人工智慧,採用機器學習來優化谷歌的移動平臺。比如,安卓的語音識別現在已經能媲美人類水平;比如,圖像識別也已經在一年前首次運用於消費者產品上。

Google Translate 於 2006 年上線,目前已經成為谷歌最受信賴及流行的應用之一。每天,Google Translate 會面對 5 億個月度活躍用戶的 1400 億個不同語種的單詞。它不僅僅是作為一個獨立應用而存在,而且作為 Gmail、Chrome 及許多其它谷歌產品的集成功能,我們將它作為一個按鈕——一個毫無障礙、非常自然的電子組成方式。皮查伊在臺上提及,直至敘利亞難民危機之時,公司才意識地區間的翻譯交流是何等重要。在他背後的屏幕顯示,在那段敏感時期,阿拉伯語與德語互譯的谷歌翻譯請求增長了五倍之多。(這也與皮查伊的想法一致,他在印度出生成長,而雷鋒網要指出的一點是,印度是一個多語種國家。)谷歌翻譯在此後也已經在穩定增加語種的豐富性,並完善功能,但在過去四年來,質量提升的速度已經大不如前。

直至如今。上個周末,雷鋒網也提及了 Google Translate 的大更新,系統已經將大部分請求轉換到基於人工智慧的系統進行處理。這一更新在美國、歐洲和亞洲都已經上線,包括西班牙語、葡萄牙語、法語、德語、中文、日語、韓語及土耳其語在內的語言,都可以實現與英語的互譯。而其它上百種語言也在緊鑼密鼓地更新中,以每月預期八個的速度計劃在年底前更新完畢。而對於谷歌工程師而言最大的驚喜在於,他們只用了九個月時間就提前完成了。A.I. 系統所取得的進展速度之快,大概就相當於在一夜間掌握了以往技術的總和。

皮查伊對於含蓄的古典文學尤為著迷,一個月前,他曾告訴我,在他山景城的辦公室裡發表演講時,PPT 上有些文字還是需要 Google Translate 來輔助顯示,畢竟並不是所有人都像物理學家 Robert Oppenheimer 一樣能讀原版的《博伽梵歌》(雷鋒網註:印度聖典,由梵語寫就)。因此在倫敦的發布會上,幻燈片上出現了博爾赫斯的經典名言:「Uno no es lo que es por lo que escribe, sino por lo que ha leído.」(評判一個人不應看他所寫,而應看他所讀。)

帶著微笑,皮查伊大聲地讀著由舊的 Google Translate 展示的令人有些尷尬的直譯版本:「One is not what is for what he writes, but for what he has read.」

而在大屏幕的右邊,新版的 A.I. 系統版本則展示了一個更加信達雅的譯文:「You are not what you write, but what you have read.」

這句話用來描述新版的 Google Translate,卻也恰如其分:在某種意義上,Google Translate 的確是第一臺通過「飽讀詩書」而通曉知識的機器。

谷歌決定圍繞 A.I. 而重組公司,實際上是全球機器學習熱潮的第一批擁躉。在過去的四年裡,谷歌、Facebook、蘋果、亞馬遜、微軟及中國的百度,這六家公司都圍繞人工智慧展開了一場聲勢浩大的「人」備競賽,而大學自然成為了兵家必爭之地。企業紛紛向頂尖的學術院系拋出橄欖枝,許以極大的資源和自由。比如矽谷眾人皆知 Facebook 惜才如命,CEO 小扎會親自通過視頻和電話來了解公司即將納入麾下的優秀研究生,七位數的年薪起跳根本不在話下。而參加人工智慧的相關學術會議的人士幾乎增加了四倍。科技巨頭們在關心的,不僅僅是小打小鬧的技術進步,而是如何掌控接下來即將來臨的計算平臺:普適性極強、無處不在的人工智慧。

「人工智慧」這個詞似乎總是出現得這麼理所當然,但實際上它一直是引起混亂和爭議的源頭。想像你正置身上個世紀 70 年代,在路上攔住了隨便什麼人,掏出了一個智慧型手機並向她展示裡面的 Google 地圖。如果你嘗試說服她,你不是什麼奇怪巫師,而你拿出的「黑色護身符」也只是一個比阿波羅時光機更為強大的微型電腦,谷歌地圖實際上毫無疑問,就是一個能向她展示什麼是「人工智慧」的東西。的確如此,這個應用能夠為你制定更棒的路線,比如從酒店到機場——顯然,機器能比你做得更快更好,此外,它還能對交通進行評判,規劃最佳路線,並當你「誤入歧途」時,重新判斷你的位置並推薦新的路線。

實際上,今天沒有人會把谷歌地圖與「高貴的」人工智慧相提並論。當我們在使用智能這個詞的時候,是帶著情感色彩的。我們所理解的人工智慧,是能與其它初級簡單的事物所能完成的東西不同的。現在,我們能用自動化完成一項任務,那麼所涉及的相關技能就會降級為一種單純的機制。而今天的谷歌地圖,似乎還不能對應上我們所想像的「人工智慧」這個詞,而只能充其量叫作「機器」(robotic):只接受一個明確的請求(從某處到另一處),並盡力滿足這個需求。因此,人工智慧這個詞所能對應的實際工作已經在縮小。

皮查伊將目前的人工智慧應用與「通用人工智慧」這個終極 boss 區分開來。後者不會涉及具體的指令,而將是一個通用工具,為一般情況下的一般用途而設計。皮查伊認為,公司未來的運轉將主要依賴通用人工智慧。想像一下,如果你告訴谷歌地圖,「我要去機場,但我中途要停下來為我侄子買個禮物,」一個通用版本的人工智慧服務——就像三年前的電影《Her》中,斯嘉麗•詹森所配音的那個無所不在的助手一樣。她能夠像你的親密朋友一樣,知道你的一些基本情況:侄子的年齡、喜歡給孩子買什麼、哪能找到一個購物商店。但一個真正智能的地圖也能做一些親密朋友所考慮不到的事情,比如你侄子的學校裡,孩子們最近最時髦玩些什麼。一個智能的機器能夠通過錯綜複雜的數據抽絲剝繭,並尋找出那些甚至我們自己都渾然不知的需求。

人工智慧的新浪潮,也就是 AI 助手——就像蘋果的 Siri、Facebook 的 M 及亞馬遜的 Echo,都是機器學習的產物,作用大同小異。這些公司在消費者身上做著機器學習之夢,但是機器學習並不一定只局限在消費者身上。三星的醫學影像子公司今年宣布,其新款的超聲設備能夠檢測乳腺癌,而管理層也在努力增加人員貯備,以擴大計算機的行業應用。DeepMind 在 2014 年被谷歌納入麾下,雖然當時的預測顯示,人工智慧在十年後才能戰勝人類,但 3 月份,AlphaGo 就以 4:1 戰勝了圍棋大師李世石。

1950 年,艾倫•圖靈提出的測試指出,計算機如果能在五分鐘的文本交流中成功欺騙一個人類對話者,那麼就算測試成功。是否機器能在兩種語言中自由切換,並能很好地理解人類的語言進行對話?谷歌大腦的成員們正在推動和幫助監督 Translate 項目,滿懷信心地相信這樣的機器能夠成為未來的一位通用人工智慧助手。

接下來雷鋒網要展示的,就是 Google 的研究人員和工程師們(剛開始只有一兩個人,後來變成三四個,最後成長到了上百個)沿著這一方向取得巨大進步的故事了。這是一個非常少見的故事,尤其是因為它與我們慣常對矽谷的印象相悖。這個故事裡面,沒有那種在車庫裡搗鼓一些東西,認為自己可以改變世界的人。它不是一個關於科技解決所有問題的故事,也不是一個關於技術會導致世界毀滅的故事。它也與顛覆無關,至少不是我們通常認為的那種顛覆。

事實上,裡面有三個重疊的故事,它們在 Google 翻譯向 AI 的成功轉型中整合在了一起:

一個技術故事,一個制度故事和一個關於思想演變的故事。

技術故事與一個公司專注於一個產品的團隊有關,在這裡他們只用了別人四分之一的時間,對一個舊產品進行了改進和測試,並形成了全新的版本。

制度故事與公司內一個小而有影響力的人工智慧團隊有關,他們對一些古老、未經證實和廣泛不適用的計算概念出於直覺的信念,顛覆了幾乎每一家公司。

思想的故事與一些長期堅持不懈的認知科學家、心理學家和工程師有關,他們看似不合理的信念,最終激起了我們對技術以及意識本身理解上的範式的轉變。

第一個故事是 Google Translate 的故事,它發生在山景城的九個月時間裡,解釋了機器翻譯的轉變。第二個故事是谷歌大腦的故事。第三個故事是深度學習的故事,它發生在蘇格蘭、瑞士、日本、加拿大等地遙遠的實驗室,時間跨度七十多年,它甚至改變了我們對那個會思考的自我的認知。

這三個故事都與人工智慧有關。七十年的故事與我們對人工智慧的期待與渴望有關,二十五年的故事與它在近期可以做什麼有關,而那個九個月的故事則與它現在能做什麼有關。這三個故事都是對概念的驗證,而所有的一切都只是開始。

以上是全文第一部分,敬請期待雷鋒網的後續文章。

via NewYork Times

相關焦點

  • 勒索病毒肆虐全球 最高几率恢復被鎖文件的解密工具是如何煉成的?
    勒索病毒肆虐全球 最高几率恢復被鎖文件的解密工具是如何煉成的?全網首發XP解密工具 最高几率恢復被鎖文件在談及這場剛剛過去一個月的網絡安全危機時,馬勁松表示,在勒索病毒爆發之後,騰訊安全反病毒實驗室就迅速拉響了最高等級的安全警報,一方面保持對勒索病毒及其變種的高度關注;另一方面,基於自身安全實力持續輸出深度研究報告,起底WannaCry勒索病毒的傳播方式及最新變種,並推出了一整套包含漏洞免疫工具、文檔守護者工具
  • 安卓版谷歌鍵盤屏蔽性詞彙 屁股、懷孕難倖免
    據美國《連線》雜誌12月2日報導,谷歌自動屏蔽與「性」有關的詞語。
  • 《JOJO》漫畫版將引進國內,號稱「無刪減」真的能做到嗎
    據悉,此次《JOJO的奇妙冒險》號稱是無刪減正版引進,讓廣大漫迷非常激動。02《JOJO》漫畫版將引進國內,號稱「無刪減」真的能夠做到嗎?這次引進《JOJO的奇妙冒險》正版漫畫讓一眾二次元迷非常興奮,但又不自覺地擔心:真的能夠做到無刪減嗎?4月23日,新星出版社在其社交帳號上官宣《JOJO》將要被完整引進內地的消息,大部分漫迷都表示非常期待。
  • 天津衛視《虎媽貓爸》未刪減版 一劇兩星無壓力
    從演員到導演、從電視劇到電影,趙薇的每一步都走的十分堅毅和果敢,如今電視劇行業遭遇空前變革的時機,趙薇仍然沒有退縮,選擇攜《虎媽貓爸》回歸,她表示一劇兩星沒有壓力:我是一個看故事的人,覺得好就去演了。  《虎媽貓爸》播出以來,劇中反映的許多問題引起眾人關注,其中「是否應該刪減原劇」更是引起激烈討。有網友評論:有些劇拍的太長就應該刪,而有些則表示要尊重原作。
  • 《薄暮傳說:終極版》 圖文全支線全流程攻略 全流程解密全收集攻略
    《薄暮傳說:終極版》圖文全支線全流程攻略,全流程解密全收集攻略(含「系統/角色詳解」「全支線全解密流程」「全收集」)。《薄暮傳說:終極版》是一款由Bandai Namco製作發行的角色扮演類遊戲,本作最早於2008年首發登錄Xbox 360,這次登錄PC/XB1/PS4/Switch平臺將在保持原版全部內容的同時,對遊戲畫面進行大幅度加強,支持高清解析度、追加了新的音樂、新的迷你遊戲、BOSS以及以往沒有推出的服裝DLC。
  • 百度與谷歌角逐在線翻譯市場
    獨家解密谷歌修正Google TV近日,鈦媒體記者專程探班谷歌矽谷總部,對日前爭議與懸疑最大的GoogleTV,做了更全面的了解。由於涉及諸多獨家和暫時保密的內容,內部採訪對象最後選擇了不願具名的方式,向鈦媒體獨家解析了谷歌在智能電視領域的真實戰略思路。
  • Jeff Dean兩年AMA全盤點:26個關於谷歌大腦和機器學習未來的問題...
    兩年的AMA下來,Jeff Dean基本上借著網友提問對谷歌大腦的相關情況做了非常全面的回答,不僅有很多「是什麼」和「為什麼」,還有很多「未來會如何」。雷鋒網(公眾號:雷鋒網) AI 科技評論把這些問答做了個整理,相信還對谷歌大腦有任何疑惑的讀者看完以後都會得到滿意的解答。(部分重複問答有刪節)
  • 谷歌大腦的全球之旅:日本東京站達成
    等谷歌大腦研究員各自在推特上發布了一則消息,谷歌大腦要開到東京去了!(目前招聘的職位是研究科學家,機器智能、機器學習應用方向)關於谷歌大腦(Google Brain)名聲遠洋、備受崇拜的 Jeff Dean 領導的谷歌大腦是谷歌的前沿技術研發部門,谷歌大腦的研究風格則是不考慮短期盈利、不考慮如何直接應用到谷歌的產品中。
  • 從400萬字到1200萬字:《辭源》一百年來的修訂
    中華民國二十一(六)年一(七)月國難後第一二三版。中華民國二十六年二(五)月普及本第一一三版。還有記載的「一一三版」「一二三版」應該是印次,和現在我們版本記錄頁所說的第xx次印刷意思一致。說明到1937年,初版仍在發行。從《續編》的廣告語和版本記錄可看出,它既是獨立的一本書,也是和1915年版互為補充的一本書。
  • 中國魔方第一人王鷹豪亮相青島首屆最強大腦高峰論壇
    近日,青島步步高學校書城校區攜手青島書城特邀作家方然、魔方全國第一人王鷹豪、「空間遊俠」劉健、現實版「都教授」楊冠新四位腦力大咖,於2016年10
  • 金基德《莫比烏斯》威尼斯首映 韓國上映刪減版
    金基德《莫比烏斯》威尼斯首映 韓國上映刪減版 時間:2013.09.06 來源:1905電影網 作者:橙小櫻
  • 谷歌發布史上最高解析度大腦連接圖,可覆蓋果蠅大腦的三分之一
    來自谷歌和霍華德·休斯醫學研究所(HHMI)的 Janelia 研究園區(Janelia Research Campus)FlyEM 團隊的研究人員,在近日發布了有史以來最高解析度的動物大腦連接圖——半腦連接組(hemibrain connectome),這是重建的首個突觸級連接組
  • 越南版《琉璃美人煞》59集全放出,對比泰國版,還是未刪減的香
    #成毅袁冰妍琉璃美人煞#講真,一開始只是覺得日前,越南那邊放出了《琉璃美人煞》的完整集數,這一個做法可以說是驚到了一眾網友。畢竟他們那邊才剛剛開始播,沒有經歷一周4集的等待痛苦,也沒有「超前點播」的煎熬,這怎麼能說是「琉璃粉」呢?!但是這樣的結果其實也是早有預見的,畢竟臺版和越南版都是按照內陸緣由的集數中規中矩在播放的。
  • TWRP最新版已經可以解密谷歌的2月和3月安全更新
    先前寫文章講過谷歌的FBE加密機制,我的寫法,是從問題到原理,再到解決方式。
  • 美國國家安全局解密特工培訓手冊:如何利用谷歌等大眾搜索工具搜集...
    美國國家安全局(National Security Agency)最近解密了一份特工培訓手冊,培訓他們運用公開搜尋引擎進行調查。這份名為《揭秘網絡:網際網路調查入門》(Untangling the Web: An Introduction to Internet Research)的手冊一共643頁,由羅賓•溫德和查理•斯佩特兩人合著,2007年由美國國家安全局數字內容中心(he NSA's Center for Digital Content)出版,內容從網絡調查的基礎知識到如何查找意外流入公共領域的保密信息,
  • 《老炮》3小時未刪減版將上線 愛情戲有補充(圖)
    如今,長達三小時的未刪減版終於浮出水面,將於明天上午10點在騰訊視頻全網獨播,面向騰訊視頻VIP會員專享供應。首播時還邀請了李易峰進行彈幕互動,與網友一起暢聊《老炮兒》。  管虎導演之前在採訪中表示,「院線放映,基本上定位135分鐘,所以很多優秀的表演段落都被我剪掉了,而《老炮兒》這部片子是有五個小時的素材,容量是非常大的。」
  • 密室大逃脫:為了突出鄧倫刪減大神版?細節能證明不是這樣的
    文/抽抽涼密室大逃脫:為了突出鄧倫刪減大神版?細節能證明不是這樣的在大家為《密室大逃脫》明星版和大神版哪個更好看爭論不休的時候,本抽抽非常疑惑的發問,兩個版本都看並且兩個版本都「哈哈哈」的,難道就只剩我一個了?
  • JOJO漫畫要被引進大陸了,號稱完整無刪減,全套估計得幾千吧
    不過今天卻看到個消息,說新星出版社打算引進大陸中文版,而且還號稱完整無刪減,今年年內完成整個引進工作,也不知道是真是假。完整無刪減這五個字噱頭還是挺足的,本身《JOJO的奇妙冒險》裡打鬥一類的場景還是比較拳拳到肉的,動畫才播出的時候沒有那麼多暗牧聖光,但是B站後面做了挺多的整改和調整,打暗牧的場景很多。
  • 谷歌Google Play網頁版更新或將支持谷歌眼鏡
    網易科技訊 7月17日消息,據國外媒體報導,谷歌Google Play新網頁版提及谷歌眼鏡,預示著該可穿戴設備可能很快就能通過該應用商店進行管理。如果將谷歌眼鏡與其谷歌帳號關聯,用戶在Google Play網站瀏覽應用時會看到谷歌眼鏡在「兼容設備」之列。該變化是Google Play網頁版設計改版的一部分,新版更加貼近Android版。正如最近更新的Android版應用商店,Google Play全新的網頁版擁有Google Now式的卡片,使得內容看起來更加井然有序。
  • 獨家解密測評:愛他美德國版和澳洲版該怎麼選?
    從最近一段時間的數據來看,愛他美奶粉備受媽媽們喜愛,但是因愛他美奶粉版本較多,所以也引起了不少爭論,我也經常收到一些媽媽的私信,諮詢德國版的愛他美和澳洲版本的愛他美該怎麼選擇,哪款奶粉更適合寶寶,今天奶粉速遞就給大家解密測評一下。