【獵雲網(微信號:ilieyun)】1月15日報導 (編譯:loci)
序章:你所讀到的東西決定了你是誰。
今年十一月,東京大學人機互動學特聘教授Jun Rekimoto在社交媒體上得知Google翻譯的水平突然突飛猛進。Rekimoto隨即從《偉大的蓋茨比》裡抽了幾句話,分別比對了1957年Takashi Nozaki的譯本、村上春樹的最近譯本和Google翻譯結果。Rekimoto表示,村上春樹的翻譯行文非常優雅流暢,不過很明顯是村上獨有的風格。相比之下,Google的翻譯更直白易懂。
Rekimoto還嘗試了Google翻譯的日譯英。他自行翻譯了海明威的《吉力馬札羅山的雪》的第一段,讓Google翻譯從日文翻譯成英文。猜猜以下兩段哪個是原著:
1.Kilimanjaro is a snow-covered mountain 19,710 feet high, and is said to be the highest mountain in Africa. Its western summit is called the Masai 「Ngaje Ngai,」 the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.
2.Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called 「Ngaje Ngai」 in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.
沒有海明威的文風大概是No. 2唯一露出的馬腳了。這兩者之間差距如此之小,Rekimoto震驚不已。要知道在此24小時前,Google給出的翻譯還是這樣的:
Rekimoto在Twitter上分享了他的發現,短短幾小時內幾千人都嘗試了Google翻譯。第二天早上,Google翻譯在日本Twitter上已經成為了最熱話題,超過了偶像組織和各種動漫。所有人都大吃一驚:Google翻譯什麼時候這麼牛逼了!
4天後,Google在倫敦舉行了一場發布會。到場的來賓每人都獲得了Translate牌幸運餅乾,餅乾裡的紙條上一面寫著一些外文單詞(我的是挪威語),另一面是下載Translate應用的邀請。桌子上擺放著甜甜圈和飲料,牌子上用各種語言寫著點心的口味。不久後,來賓就都被邀請到了演講廳中。
Google的CEO Sundar Pichai
倫敦市長簡單地發表了開幕致辭,隨後就介紹了Google的CEO Sundar Pichai。Pichai當時也為Google新辦公室建成的開幕儀式來到了倫敦。Google最新分部設立在倫敦國王十字區(King’s Cross),該分部的建成將成為Google轉型為「A.I.(人工智慧)第一」初期階段的裡程碑。外界眾說紛紜,不過不少人猜測,Google 公司的產品今後將不再是基於傳統電腦編程,而是機器學習。
5年前建立的Google Brain部門就是基於這個思想:人工「神經網絡」將具備學習能力,甚至能像人類一樣。這個想法倒不算新穎,早在1940年現代電腦誕生時就有人提出了這個觀點。但多年來,電腦科學家都認為這個想法其實就是個傳說。自從2011年Google Brain項目發起以來,公司已經證明人工智慧可以解決幾十年來傳統計算機都無能為力的各種難題。語音識別一直到Google Brain著手之前準確度一直都不如人意;自從Google Brain上手,Google手機系統Android上的語音識別準確度可以和人類媲美。圖片識別也一樣。一年前,Google Brain抱著顛覆整個消費電子市場的勇氣和決心開始了這項挑戰,今晚公司將發布他們振奮人心的結果。
Google翻譯自2006年發布以來就一直是Google最可靠和最普及的資產。它每月用戶就超出5億名,平均每天都要翻譯1400億個單詞。Google翻譯除了手機應用之外也是和Gmail、Chrome和其他Google集成服務包中的性能之一,從來沒出過岔子。知道最近難民危機問題發生,Pichai才出面解釋了Google翻譯在地理政治方面的重要性——在難民問題發生的那段時間裡,Google翻譯的阿拉伯語與德語互譯的使用率驟然上升了5倍。Google翻譯團隊一直以來都在不斷添加新語言和功能,但近4年來翻譯質量的改善速度卻明顯下降了。
但如今有了人工智慧,一切都不一樣了。從兩周前開始,美國、歐洲和亞洲區域的Google翻譯系統正式改為AI驅動,覆蓋語言有英語、西班牙語、法語、葡萄牙語、德語、漢語、日語、韓語和土耳其語。讓Google的工程師們驚喜的是,這次升級僅僅用了9個月就完成了。新的AI系統展示了驚人的處理能力,24小時裡改善的程度簡直超過了舊系統學習一生能達到的級別。
一個月前我與Pichai見面時,他曾告訴我,Google翻譯之所以存在,是因為不是所有人都能像Robert Oppenheimer一樣只為讀Bhagavad Gita的原著而去學習梵語。他身後的幻燈片上有一句Borges的名言:「Uno no es lo que es por lo que escribe, sino por lo que ha leído.」
Pichai把這句話輸進了舊版的Google翻譯,得到的結果是這樣的:「One is not what is for what he writes, but for what he has read.」——人不是為了他寫的什麼東西,而是為了他讀了什麼。
他又把同一句話輸進了新的翻譯系統:「You are not what you write, but what you have read.」——你是誰並不取決於你寫了什麼,而是你讀了什麼。
也就是說,Google翻譯的新系統是世界上第一臺真正學會「閱讀」的機器。
如今整個科技業界都開始重視AI,但如此正式採取行動的,Google還是第一家。過去4年來,Google、Facebook、Apple、Amazon、Microsoft以及中國百度這6家公司對大學裡AI方面的人才尤其重視。這些公司給予的充足的資源和自由選拔出了高校裡最頂尖的一批畢業生。Facebook CEO Mark Zuckerberg會親自接待公司看中的優秀畢業生,這些新人中7位數的起薪也不是沒有過。這些巨頭之所以會如此渴望人才是因為人工智慧的創新將會徹底改寫整個編程平臺。
雖說「人工智慧」這個詞看似好懂,但其實一直都有爭議。倘若你穿越回1970年走在大街上掏出智慧型手機打開Google Maps,周圍人會覺得Google Maps就是人工智慧。某種意義上,Google Maps確實是人工智慧,因為任何人用地圖能做到的事,它也能。比如它能引導你從酒店走到機場,而且比人還快且精準。而一些人類做不到的事它也可以做到,例如預測路況、在你走錯路時重新導航。
但放到今天,沒人會說Google Maps是人工智慧。我們相信人工智慧有別於普通工具和機械。一旦我們能把某個任務自動化,我們就能把相關技術也機械化。從這個意義上來說,Google Maps似乎不過是個機器人:接受指令,然後高效地執行。所以說,我們離真正的「人工智慧」這個目標的距離也在不斷縮減。
Pichai提出了現有的人工智慧和「強人工智慧」 (artificial general intelligence)之間是有區別的。強人工智慧不僅僅會服從明確的指令,還能讀取和理解暗示。它將成為非常普及的工具,適用於各個行業和場景。Pichai表示Google的未來就取決於這樣的一種工具。以現有的人工智慧,你只能對Google Maps說:「我想從酒店去機場。」但有了強人工智慧,你就能對它說「我要去機場,不過半路要給我外甥買個禮物。」未來的Google Maps或許還知道你外甥的同學們喜歡什麼樣的禮物,以此預測他會喜歡的禮物,然後給你導航禮品店。如果人工智慧機器可以從過往的數據中辨別隱藏的生活規律,它將能在我們自己都還未意識到之前就預測出我們的需求。
如今像Apple的Siri、Amazon的Echo等人工智慧助手也都是機器學習的產物,這些公司研發的目的也與Google相似。2014年,Google收購的DeepMind公司開發了Alpha Go成功打敗了李世石,這個成就比預計的要早了10年。
在1950年發表的一篇文章中,艾倫·圖靈提出了一項用於強人工智慧的測試:如果計算機能在5分鐘的文字交流後成功騙過人類交談者、被認為是人類,它就可以算作強人工智慧。一旦機器可以學會人類的語氣,那麼遲早有一天它們就能「理解」人類,和人類流利對話。Google Brain的團隊成員相信,強人工智慧在不久的未來將會成為萬能的電子助理。
接下來,我們會講述Google的研究員和工程師們如何在這塊領域做到了如此的突破。這是個不同尋常的故事,它顛覆了我們對矽谷以往的認知。事實上Google Translate 轉型成人工智慧系統一共要分為三個故事,第一個是技術方面的,第二個是公司方面的,第三個是有關創意進化的。
第一部分:學習機器
Google Brain的誕生
Google Brain領導人Jeff Dean是一名從1999年就在Google工作的老員工。從2014年來,他公司所有的核心軟體系統都要經他之手。作為一個人人愛戴的 「老幹部」,Google員工們最愛的梗之一是「Jeff Dean相關事實」,例如:「Jeff Dean的銀行卡密碼是圓周率π的末尾四位數」、「公司階級系統最高就是10級,然而Jeff升到了11級」等等。
Google 工程師兼Google Brain領導人Jeff Dean
2011年,Dean和公司顧問Andrew Ng偶遇時,Ng向他提到了Project Marvin。Andrew Ng同時也是斯坦福計算機科學教授。Project Marvin旨在打造模擬人類大腦的數字網絡,Dean自己在大學時代也做過類似的研究。Ng告訴Dean,Project Marvin已經被Google X 實驗室承保,而且已獲得了不錯的成績。
每個 Google員工都要除核心工作外用上班時間的20%來做他們自己選擇的項目;Dean決定把他20%的時間貢獻給Project Marvin。很快,他和Ng決定讓具備神經科學背景的同時Greg Corrado也加入他們的團隊。那年暮春,Ng帶來了他最得意的畢業生Quoc Le作為該項目的首位實習生。從那時起,Project Marvin有了另一個名字:Google Brain。
自從「人工智慧「這個詞誕生以來,大部分科學家就認為創造A.I.最好的方式就是寫一段龐大且全面的程序,包含了各種邏輯推理和海量的知識。如果你想讓人工智慧把英語翻譯成日語,你就要在程序裡寫入英語的一切語法、整本牛津字典,還有日語的所有語法和詞彙。這種觀點叫「符號A.I.」或者「老式A.I.」。
這種老式方法有兩個主要問題。其一,這麼做太費時;第二,這樣的人工智慧只有在定義和規則非常清晰的情況下才能工作,例如數學和下棋。但翻譯方面這種方法完全行不通,因為語言是非常多變的。
早在1961年就有人提出,如果你能讓計算機模擬數學和下棋等高階認知能力,那麼你遲早能讓它擁有「意識」。
但事實卻遠沒有那麼順利。1980年,卡耐基梅龍大學的一位機器人科學家指出,讓計算機做成人的工作很簡單,但它們卻做不到1歲小孩能做的事——例如握住圓球、辨認貓等。到了1990年代,雖然電腦象棋越來越先進,但我們離強人工智慧依然差得太遠。
另一種對A.I.的觀點是計算機會從數據學習上升到規則,而非從上到下。這種觀點早在1940年代就有;當時提出這個理論的研究人員相信,自動智能最好的模型還是人類的大腦。大腦是由大量的小單位(神經元)組成,這些單元可以互相傳送電荷。最重要的是,這些小單元之間連接的次數比單元的個數要多。這種結構給了大腦強大的適應能力。我們的大腦可以在信息缺乏的情況下正常工作;即便遭受了嚴重損害,它也不會徹底失去控制,它還可以非常有效地存儲大量知識,在分離出清晰的規律的同時,又保留其他非核心信息來處理不明確的情況。
早在1943年,就有人通過實驗證明簡單的人工神經元排列確實可以完成基本邏輯功能。人工神經網絡也可以像我們一樣學習。一個人根據他的不斷摸索、實驗和失敗,某對神經單元之間的聯繫會變強或是變弱;人工神經網絡通過人為改動神經單元之間的數據關係,也可以達到類似的效果。你無須把固定的規律寫到程序裡;它可以從收集到的數據自行改變迴路。
理想的人工智慧應該是會進化的。只要你給它感性知覺、動作控制等非常基礎的能力,它就能自動進化,學會更高級的功能。
Google Brain是首個投資了這種想法的商業機構。Dean、Corrado和Ng起初只是在工作之餘做些相關實驗,但他們的成果卻進步飛速。他們從最新的理論獲得構架靈感,逐漸引入了海量的數據和龐大的網絡計算結構。
「動物在進化時最大的突破就是眼睛,而如今電腦也有了。我們可以讓它們理解已有的圖片,讓它們來鍛鍊『視覺』。今後它們將能在未知的環境裡處理複雜的問題。這種能力現在階段看來可能還非常初始,但卻能應用範圍卻極廣。」Dean說道。
Geoffrey Hinton,是他為Google Translate的神經網絡打好了基礎
最不可能的實習生
Google Brain在實驗的頭一年裡就達到了1歲小孩的智力水平,這個成就是非常喜人的。Brain的語音識別團隊把部分老系統用新系統取而代之,結果進步之大簡直超過了老系統在20年裡所能做到的。Brain系統的物體辨認能力也在短短1年內有了驚人的飛躍,不過這主要是因為Google終於願意把大量的資源投入到這個項目中。
Google Brain能有今天,很大程度上要歸功於深度學習專家Geoffrey Hinton。在Brain誕生的第二年,Geoffrey加入了該團隊,頂替離職了的Andrew Ng(Andrew Ng現在為百度效力,帶領著1300多人的A.I.團隊)。當時Hinton想從多倫多大學離職3個月,所以他是以實習生的身份加入Brain團隊的。結果在實習生培訓中,一群25歲左右的年輕人竊竊私語:「那位老人家是來幹嘛的?」
「在我排隊等午飯的時候,人群中有人大叫:『Hinton教授!我還聽過您的課呢!您為什麼會在這裡?』一切終於都正常了。」Hinton說道。
幾個月之後,Hinton和他的兩位學生在ImageNet舉辦的大型圖像識別比賽上展現了驚人的成果。在這場比賽中,電腦不僅被要求辨識出猴子,還要辨別出蛛猿和吼猴,以及不同品種的貓。Google立刻向Hinton和他的學生發出了邀請,對方也欣然接受了。「我還以為他們是對我們的作品感興趣,沒想到是真的對我們三個人有興趣。」Hinton說道。
Geoffrey Hinton的家族在科技界頗有名望。他的高曾祖父George Boole提出的符號邏輯成為了現代計算機的基礎,另一位高曾祖父是著名外科手術醫生;他父親是一位愛冒險的昆蟲學家。Hinton曾在劍橋和愛丁堡大學就學,之後在卡耐基梅龍和多倫多教學。加拿大政府對他的研究給予了大量的資金。
Hinton從1960年代還在劍橋讀書的時候起就在研究神經網絡。在計算機界,Hinton就是智能的始祖。不過當時沒人相信Hinton的神經網絡理論。這主要是因為大眾對Frank Rosenblatt引領的人工神經網絡研究項目the Perception期望太高,但這個項目卻並沒能成功。據紐約時報報導,美國海軍曾希望the Perception「能走,能說話,能看,能寫,能複製自己,能意識到自己的存在」,但最後無論哪一項它都沒有完成。美國人工智慧先驅Marvin Minsky也曾研究過神經網絡,但最後他厭倦了Rosenblatt吹的牛逼,最後他在和M.I.T.的同事們出版的書中指出,有些極度基本問題卻是the Perception永遠也無法解決的。
Minsky在對the Perception的批評還只停留在一層神經網絡的不完善,直到多年後他才提出了類似於現代深度學習的理論。但在那個年代,Hinton早已知道只要採用多層神經網絡結構就能完成複雜的任務。所謂神經網絡,最簡單的解釋就是:它是能通過在數據中找出規律來進行分類或預測的機器。一層神經網絡只能找出最簡單的規律;多層神經網絡就能找出規律中的規律。
舉個例子,圖像識別通常依賴於卷積神經網絡。這種神經網絡的第一層會學習「輪廓」,只提取邊緣、線條等第幾特徵,下一次曾網絡再找出上一層網絡的規律。例如第幾特徵可能是圓圈或者長方形,而這些圓圈和長方形等圖案裡找出來的規律可能就是人臉。
1993年,Yann LeCun演示了卷積神經網絡的早期版本 , 90年代後期開始全美支票識別的10-20%都應用了這種技術。如今最先進的圖像識別系統也採用了類似的技術。
多層「深度神經網絡」最麻煩的問題在於試錯過程實在太複雜。如果是單層神經網絡那倒還簡單。想像一下你在帶一個孩子,你和他說:「拿起綠球放進箱子A。」於是孩子拿起了綠球,放進了箱子B。你說:「再次拿起綠球,放進箱子A。」這次孩子放進了箱子A。好極了!
現在你對孩子說:「拿起綠球,走過第三扇門,把球放進箱子A。」孩子拿起了紅球,走過第二扇門,把球放進了箱子B。你該從哪裡開始糾正呢?你不能把指令原樣重複一遍,因為孩子自己也不知道他哪裡出錯了。現實生活中你可以拿起紅色和綠色的球對他說:「這是紅球,這是綠球。」但機器學習的意義就是要避開明確的指示。Hinton當時發明的方案成功解決了層次錯誤問題,但由於人們期待過高,最後電腦科學家很快又認為Hinton這樣的人就是故作玄虛的怪胎。
有關深度學習的深度解析
Pichai強調,Google今後轉型為「A.I.第一」 指的並不是公司在商業戰略上的轉變。Pichai安排的資源分配保障了Hinton這樣的人才可以有足夠的計算機和數據來實現他們的理論。雖然說現階段我們還無法做出與人腦相當的神經網絡,但Google Brain的投資至少能讓Hinton和他的團隊做出老鼠大腦相當的人工神經網絡。
目前為止人們對人工智慧的恐懼很多都是怕人工智慧今後會像反社會天才一樣學習完圖書管理的所有知識,然後把人類當生菜或是螞蟻處理。但人工智慧根本不會這麼工作。他們會做的就是從信息裡尋找共同點,例如基本規律,然後再進入到複雜。目前階段人工智慧最大的危險就是在給它們輸入數據時一定要注意數據儘量不要有偏差。
想像一下,你用舊符號人工智慧寫了一個識別貓的程序。你花了好幾天給機器灌輸各種有關「貓」的定義。你告訴它,貓有四條腿,耳朵尖尖的,長著鬍鬚和尾巴,等等等等;這些信息都被儲存在了名為「貓」的記憶體中。然後你給計算機看貓的圖片。電腦一定要從圖片裡分辨出這些特定要素,它才判斷圖片上的是貓。但如果你給它看蘇格蘭折耳貓呢?它就狗帶了。
現在你決定讓神經網絡識別貓,不過神經網絡沒有任何明確的地方可以讓你儲存「貓」的定義,只有一堆互相連接的開關。這團網絡的一端是Input(輸入),也就是圖片;另一端是Output(輸出),也就是標籤和定義。然後你讓計算機自己找出規律,讓輸入對應到正確的輸出。
網絡之所以需要如此多的神經單元和數據是為了達成「機器民主」。想像一下你想教你的計算機分辨五樣東西;計算機的網絡裡有幾億個神經單元充當「投票人」,每個人手裡都有五種選擇:貓、狗、蛛猿、勺子和除顫器。
然後你給選民們看一張照片,問他們「這是貓、狗、蛛猿、勺子還是除顫器啊?」所有投了同一選項的神經單元都被歸到一組,然後網絡裡的領班辨認出票數最高的選項:「是狗嗎?」
你說:「錯了大師,是只貓。再來。」
於是領班再回去檢查,哪些選民選了貓,哪些沒有;那些選了貓的今後每次它們選「貓」時,他們的票數就當成雙倍計算。這是因為系統要保證他們在識別狗和除顫器時也一樣準確。神經網絡能夠如此靈活就是因為每個獨立的單元可以為不同的輸出做不同程度的貢獻。重要的不是每一張票,而是投票的總體趨勢和規律。如果Joe、Frank和Mary選擇相同,那結果就是貓;如果Kate、Jessica和Frank選的一樣,那就是除顫器。在經過足夠的訓練之後,神經網絡就會記住規律:「這樣的像素排列就是人們所說的『貓』。」「選民」越多,讓他們投票次數越多,網絡就能記錄更多的信號。
之所以會有這麼多電腦科學家反對人工神經網絡,原因就是因為它的預測是建立在規律中的規律上;它永遠都不會達到完美,機器也永遠無法給你一個明確的「貓」的定義。但好處也就在這裡:只要你給它看過夠多的圖片,無論是什麼樣的貓它都能認得出,不管是曬太陽的還是躲在盒子裡的。只要有夠多的「選民」抓出所有細小的規律——例如蘇格蘭折耳貓,以及足夠的標號數據,保證你的神經網絡見識過可能發生的偏差。
但要注意的是,人工神經網絡依賴於機率就意味著它們並不適合所有任務。如果它們在1%的情況下弄錯貓或者狗,或者把你指引到錯誤的電影院,這些都還不算太慘;但如果放到自動駕駛車上的話,問題就大了。機器會學習,但初始分類仍然要人類來完成。如果你的把一張照著穿著西裝的男人和女人標記為「女的和她的老闆」,這樣的關係就會被編入到今後的規律識別中。所以說,如果人類在輸入時加的標籤不夠清楚或是容易出錯,機器記住的標記了的數據也就容易出錯。如果銀行讓電腦判斷適合貸款的可信用的客戶,機器可能會靠重罪犯列表等數據來判定。但如果這些數據一開始就不公平、不夠準確,那麼結果自然也有偏差。
像識別貓這樣的圖像識別網絡不過是深度學習的諸多變種之一,但它可以算作是這一類神經網絡的典型教材,因為每層網絡做的事至少能讓人類看出它們的分工。這種結構的好處就是系統對於錯誤的判斷是有保險的。
貓論文
在頭1到2年的時間裡,Brain項目展示了可喜的成果和前途,研究團隊終於從X實驗室轉移到了更大的研究機構(Google X的領頭人曾提起過,Brain項目支付了整個X實驗室的開支)。團隊規模依然不到10人,但前面的路都已經計劃好了。
第一步是Brain發布的有關貓識別的論文,也正是這篇論文讓Brain名聲大噪。
貓論文向人們展示了擁有10億多個突觸連結的神經網絡究竟能做到什麼。這個神經網絡的規模大於當時階段的任何一個人工神經網絡,當然比人類的大腦還是小了幾個次方。Brain研究人員給神經網絡看了數百萬的YouTube視頻的截圖,神經網絡自行總結出了貓臉的規律。電腦沒有任何關於貓的特定標籤或是預備知識,它只是直接進入了這個世界,自己找到了規律。研究人員通過神經網絡的分析圖像(相當於人類的M.R.I.),發現是一個模糊的貓臉影響讓人工神經單元給「貓」投了最多的「票數」。在當時階段,大部分機器學習還局限於標記數據的量。而貓論文則向世人展示了電腦也能處理未標記數據。這不僅是貓識別研究項目的大進步,也是人工智慧技術的大突破。
貓論文的主要作者是Quoc Le。Le本是越南人,父母都是稻農,家裡也沒有電。Le從小就在數學方面展現出了天賦。90年代後期,還是學生的Le想自己造個機器人陪自己聊天;他當時想,這能多難?
「但事實上,真的實在太難了。」Le說道。
工作後,Le偶然讀到了Geoffrey Hinton的兩篇論文。
「他的辯論太宏偉了。那是我之前從未見識過的。」
Le決定放棄當時的工作,去斯坦福加入Ng的研究,追尋Hinton的理念。「到2010年底,我就非常確定我們的研究肯定能搞出什麼大新聞來。」
Le進Brain團隊當實習生後,就開始苦心鑽研自己的論文,也就是後來的貓論文。起初他只是實驗性地給神經網絡看YouTube視頻中截取的靜止畫面,讓電腦自己刪除圖片中的部分信息,但並沒有指示要刪哪些信息。起初,電腦是隨即刪除信息的。然後他讓電腦再把圖片復原。這就好比他在要求電腦「總結」圖片。逐漸電腦就總結出了規律,不過有些它找出的規律在人類看來是無法理解的。比如這個善於識別貓的系統不知道為啥還迷上了奇怪的形狀,看起來像是奧特曼和羊的結合體。
Le當時覺得這個神經網絡或許和他當年想做的聊天機器人會有千絲萬縷的聯繫。如果電腦能總結照片,或許也能總結一句句子。這個問題成為了Le和他在Brain的另一位同事Tomas Mikolov接下來兩年的課題。如今Mikolov已經離職去了Facebook。
2012年貓論文發布後的Google Brain團隊
兩年裡,Le和Mikolov潛心研究如何讓神經網絡不僅能分類靜態圖片, 還能分析語言和音樂等動態的對象。他們知道,一旦自己能做出基礎語言預測工具,今後人工智慧領域就一切都順了——無論是自動回復,還是預測對話等。
第二部分:語言機器
轉向語言
如今Brain的團隊裡已經有了100多個員工。6月份我去參觀的時候還有些辦公桌是空的,停車場也不滿;10月份再去時,辦公室已經沒有了空桌,停車場也沒有了空位。
Brain的飛速成長不禁讓Dean擔憂公司該如何對應市場需求。Google經常被稱為「成功的災難」,總是生產跟不上理論,難以用可行的產品實現理論;Dean正是想避免這一點。
「如果在未來,如果每個人每天都要對他們的安卓手機說上3分鐘話,那我們就需要那麼多機器。這個量實際上是相當可怕的。這意味著你得造新的辦公樓。」
不過還有一種方法:設計和大量生產新型晶片。Google已經為人工智慧開發出了專屬晶片名為T.P.U,Tensor processing units。這種晶片在計算準確度上會打折扣,例如12.456乘以54.392它會自動處理成12乘以54。單神經網絡對數學方面要求並不高。「通常為某個特定用途專門開發硬體不是好事,但考慮到神經網絡將來的普及性,這個方法確實是最優解了。」Dean說道。
在晶片設計快要完工的時候,Le和兩位同事終於成功讓神經網絡處理語言結構。分析語言與圖片不同;電腦在分析語言時,其實它是在建立一個多維地圖。如果是二維,這個地圖就沒用了。舉個例子,你希望「貓」這個詞能和「狗」接近一些,但你也希望這個字和「尾巴」、「表情包」等有些關係,因為你希望「貓」這個字能和這些詞建立不同強度的關係,而這隻有在多維地圖上才是可行的。我執意要求Le向我解釋一下這個地圖看起來到底會是啥樣,但Le無奈地說:「我不是很想嘗試把千維的指標在三維空間裡展現出來啊。」
理論上,如果你有個空包含了所有英文的一個空間,和包括了所有法語的另一個空間,你就能訓練神經網絡找出兩個空間之間對應的所有話。你要做的就是在輸入口載入幾百億的英文句子,輸出口對應幾百億的法語句子,你就能讓電腦預測對應某句英語句子的法語語句。
語言和像素之間最大的區別就在於:像素從一開始就全在圖片上,是靜止的;而語言則是有順序的,每個詞之間是要講究排列的。你得找到方法讓神經網絡記住時間順序,從第一個詞倒最後一個詞。Le和另外兩位學者現已在論文中寫到了完成這樣的神經網絡究竟需要哪些工具。Hinton告訴我,他認為接下來到完成為止至少還需要5年。
伏擊
Le的論文證明了神經網絡做翻譯是可行的,但他參考的數據還不夠大。更重要的是,Le的模型用在字數多於7個字的句子上效果都不太好。
Brain團隊中的另一位科學家Mike Schuster從Le手中接過了接力棒。他知道,如果Google找不到解決方案,別人遲早會找到。這成為了他之後兩年的課題。「人們以為讓電腦翻譯只需要搜集數據和做實驗,但其實並不是那麼簡單。」Schuster說道。
Schuster要處理的問題還真麻煩;其中之一就是要想辦法把Le的程序用Google的新開源機器學習平臺TensorFlow重寫。Dean為Schuster找來了兩位得意助手,Yonghui Wu和Zhifeng Chen。兩人花了2個月時間才在新平臺上複製出了Le的結構,甚至連Le都不知道他們是如何做到的。
今年2月,Dean和Corrado一起在一次午餐會上找到了Google Translate總管Macduff Hughes。Corrado神秘兮兮地說:「我們有事要告訴你。」
兩人告訴Hughes,今年可以讓Google Translate改頭換面了。拋棄幾百名工程師10年來碼的程序,改用人工神經網絡。舊的翻譯系統是所有機器翻譯在過去30年來都在使用的:電腦會先翻譯好碎片化了的句子,然後根據統計把這些翻譯好的詞再排列組合。這種方法被稱作「基於詞彙的統計學機器翻譯」,因為一旦機器開始處理下一個詞彙,它就忘記上一個是什麼了。這就是為什麼Google Translate的結果有時候看起來那麼不合理。但Brain的成果卻能讓電腦閱讀整句話,理解意思。
這個賭注下在Google Translate上似乎太過了,畢竟Translate的利潤太低,而且目測還會一直繼續低迷下去。就算系統突然升級,用戶也不會太重視。但Google Translate的突破在長遠看來是必要的;它對Google的轉型是不可或缺的。Google估計網際網路上50%都是英文,而全球約20%的人都在說英文。如果Google想進軍中國市場和百度競爭,靠譜的翻譯真是太重要了。更何況百度在這方面也不甘落後,在2015年6月就曾發布過一篇有關神經網絡翻譯的突破性論文。
在今後,機器翻譯或許會成為人類語言開始普遍依賴電腦的第一步。這將會是世界的轉折點,預兆著世界將走向真正的人工智慧。
矽谷中大多數人都知道機器學習領域發展飛快,因此Hughes也知道Translate的改革遲早會來臨。聽完Corrado和Dean的說法,他好奇地問,他們能在接下來三年裡做到嗎?
Dean卻說:「只要我們盡力,今年年底我們就能完成。」
一個月後,他們終於做了對比實驗,比較Schuster的新系統與Hughes的舊系統。Schuster想用英文-法語翻譯來做對比,不過Hughes制止了他:「英法翻譯已經夠好了,你們改良了估計也看不出。」
Schuster聽完不由得躍躍欲試。衡量機器翻譯通常人們都用BLEU指標,把機器翻譯與靠譜的人工翻譯作比較。在舊系統上,英法互譯的得分為20+,算是非常高的;新系統若是能改良1分那就已經不錯了,2分則是非常驚人的了。
人工神經系統的英法翻譯得分比舊系統高出了7分。Hughes驚訝地表示,他們舊系統過去4年來的改良都不如新系統的一半。
為了證明結果的可靠性,他們還邀請客戶來實驗。根據客戶印象分,最低為0、滿分為6的得分表中,新系統比舊系統的得分要高0.4,這樣的飛躍舊系統要很多很多年才能做到。
右邊為Quoc Le,左邊為Mike Schuster
3月中旬,Hughes給團隊群發了通知郵件。舊系統上的所有項目都必須立刻停止。
從理論到產品
到那時為止,神經網絡翻譯團隊一共只有三個人:Schuste、Wu和Chen,不過在Hughes的支持下,團隊開始壯大了起來。在Hughes的指示下,新團隊人員在某個周三的下午共聚一堂。
理論工作都已經做好,剩下的就是如何把理論轉化為真正可行的產品,也就是工程師該幹的事兒。例如團隊必須確保他們用正確的數據來訓練翻譯系統。十年來,Google翻譯系統裡已經記錄了9700萬個不同的英語詞彙,但若是除去顏文字、拼寫錯誤的和冗餘,剩下的大約只有16萬個詞。
下一步就是要看用戶想翻譯什麼。Google發現,很多人並不會讓Translate翻譯長且複雜的整句;他們只讓系統翻譯碎片化了的語句。如果要對應這種用戶需求,神經網絡在訓練時也要朝著這個方向。Hughes告訴我,神經網絡對於用於培訓的數據非常敏感,不放過任何一個學習機會。
更重要的是,團隊必須保證系統處理得足夠快。今年2月時,Google Translate翻譯10個字的句子需要10秒鐘;新系統絕對不能這麼慢。尤其是對於法語和中文這些使用頻率較高的語種,系統應該幾乎立刻給出翻譯結果,因為Google不希望用戶放棄自己的翻譯服務,投奔它的競爭者。
Schuster當時自己也不清楚應該如何加快系統的翻譯速度,不過他知道他們肯定需要更多GPU來訓練神經網絡。於是Hughes問他「要不要再多加1000個GPU」時,Schuster回答道:
「索性2000個好了。」
10天後,他們真的多加了2000個GPU。
4月份時,3人的團隊擴張成了30人的團隊。其中有Brain的員工,也有來自Translate的組員。5月份時,Hughes為每對互譯語言分組都指派了臨時管理人員,讓他們給系統的翻譯表現評分。團隊裡至少有20人每周都在進行不同的實驗,不斷解決新出現的問題。某天,有個模型突然把句子裡所有的數字都挑揀出來刪除掉。「大家壓力都很大,幾乎都想掀桌了。」Hughes說道。
今年暮春,新版Google Translate終於近乎成型了。一旦整個模型標準化,它就會成為一個不斷進化的多語言系統,而不是以前那樣的150個不同語言的模型。
「我們做過幾百個實驗,直到我們認為再過一個禮拜就可以停止對電腦的培訓。我們總在問自己:『我們什麼時候停止?我怎麼知道我們做完了沒有?』事實上你永遠不會知道。機器學習是永遠不會達到完美的。但你必須訓練它,然後到了某個點再停止。最後只能說有些人做得比較好,有些人做得不那麼好。」
5月份時,Brain團隊終於發現,讓系統提升速度的唯一一種方法就是在T.P.U. 上運行它。Chen對此表示:「我們不知道什麼是正解,但我們知道沒有T.P.U.的話,一切都沒有可能。」不過改用T.P.U.之後系統也沒有立刻改善,團隊花了兩個月時間才找到解決方案。團隊不僅僅對翻譯模型進行了調試,對晶片本身也進行了錯誤排查。神經網絡翻譯項目其實是對整個基礎設施投資這個概念的經典詮釋。
6月份的某次團隊會議上,組員們討論起了百度新發表的論文。Schuster發言了:「沒錯,百度是發表了論文。看來有人和我們走了一樣的路,用了類似的結構,取得了類似的成果。」百度當時的BLEU得分與Google在2-3月份在內部測試中的得分不相上下。Le絲毫沒有生氣;他認為,這證明Google走得路是正確的。
Google團隊知道他們的結果發布的比競爭對手早,因此佔得了先機。不過Schuster強調:「發布產品比發表論文重要得多。誰先提出根本無關緊要,看的就是誰的產品更厲害。」
不過Google會成為首個推出神經網絡翻譯服務且成為該領域最領先的公司,這是勢在必得的。Hughes決定給用戶準備個驚喜,暫時保密該消息。他們想看Google Translate的進步是否會在社交媒體上成為熱門話題。
慶祝
Google的神經網絡翻譯終於真正成功了。到舉辦慶功派對的時候,公司的中英互譯利用次數已經高達1800萬次。不過當Google公布中翻英服務現已更換成神經網絡驅動系統時,有人猜測這是因為Google只在這兩個語種的互譯上獲得了不錯的成果。不過參加派對的每個人都知道,到11月,一切都將明了。
慶功宴上,Hughes向團隊致辭敬酒:
「致溝通!和協作!」