Google Brain新成果:一個能夠理解機器思維方式的AI翻譯器

2021-01-09 科技行者

如果一名醫生告知要進行手術,人們肯定首先希望了解為什麼——即便對方不具備任何專業的醫學知識,醫生明確解釋診斷理由仍然極其必要。而人工智慧也一樣。

眾所周知,神經網絡是出了名的難理解——計算機雖然能夠提出一項解決方案,但卻無法就產生的結論做出解釋。現在,來自Google Brain團隊的一名研究科學家Been Kim,正在開發一套「人類翻譯器」,希望構建能夠向任何人做出解釋的AI軟體。

約十年前,人工智慧背後的神經網絡技術開始快速發展,影響了從電子郵件到藥物發明等各個領域,同時表現出越來越強大的學習與數據模式識別能力。然而,這種力量本身還帶來了一種不容忽視的警告:一方面,現代深度學習網絡自主學會如何駕駛汽車以及發現保險欺詐活動具備極高複雜性,同時,也導致其內部運作方式幾乎無法被理解——沒錯,就連AI專家也無法破解箇中奧秘。因此,如果我們通過訓練神經網絡來識別可能存在肝癌、精神分裂症等疾病風險的患者(例如2015年紐約西奈山醫院開發的「Deep Patient」深度病患系統),那麼結果就是,我們根本無法準確辨別神經網絡實際關注的是數據中的哪些特徵。這種「知識」全面分布在神經網絡的各個層,其中每一層都存在數百甚至成千上萬個連接。

隨著越來越多行業試圖通過人工智慧技術實現自身決策,這種類似於「黑匣子」的問題已經不再是一種技術層面的偏執,而成為實實在在的基礎性缺陷。美國國防部高級研究計劃局(簡稱DARPA)的「XAI」項目(即可解釋AI)正在積極研究這個問題,這意味著,可解釋性已經由機器學習的邊緣化研究轉化為新的探索核心。Kim指出,「人工智慧正處於發展的關鍵時刻,人類正在試圖弄清這項技術是否真能為我們帶來助益。如果我們無法解決這個可解釋性問題,我們將不會繼續推進這項技術,甚至有可能將其放棄。」

Kim和谷歌Brain團隊的同事們剛剛開發出一套名為「概念激活矢量測試(Testing with Concept Activation Vectors,簡稱TCAV)」的系統,她將其描述為一種「人類翻譯器」,允許用戶向黑匣子AI詢問某些特定高級概念,從而了解神經網絡的推理過程。舉例來說,如果機器學習系統經過訓練學會了如何發現圖像當中的斑馬,那麼人們就可以利用TCASV來確定這套系統在做出決策時會賦予「條紋」這一概念怎樣的權重。

TCAV系統最初是在一套經過訓練、擁有圖像識別能力的機器學習模型上進行測試的,不過這套系統同時也適用於訓練為文本識別以及對某類數據進行可視化處理的模型——例如EEG波形。Kim解釋稱,「這是一套通用而簡單的系統,你可以將其接入多種不同的模型當中。」

我們與Kim談到了可解釋性的具體含義、其用途以及重要意義所在。以下為經過編輯與提煉的訪談內容。

圖:Google Brain團隊研究科學家Been Kim

問:您的職業生涯一直專注於機器學習的「可解釋性」。但是,可解釋性究竟意味著什麼呢?

Been Kim:可解釋性擁有兩大分支。第一大分支是對科學的可解釋性:如果你將神經網絡視為研究對象,那麼就可以通過科學實驗以真正理解關於模型的一切細節——例如其如何做出反應,諸如此類。

可解釋性的第二大分支,也就是我一直主要關注的方向——對負責任人工智慧的解釋能力。我們不需要了解模型中的所有細節,但必須通過理解來確定我們能夠以安全的方式使用這種工具,這也正是我們設定的目標。

問:那麼您要如何對一套不完全了解其運作方式的系統建立信心?

Been Kim:這裡我想打個比方。假設我的後院有一棵樹,我想把它砍掉,讓院子看起來清爽一點。我可能擁有一把能夠搞定這項工作的鏈鋸。目前,我還不完全了解鏈鋸的工作原理,但產品手冊上提到:「請注意以下事項,以防用戶削到手指。」因此根據這本手冊的說明,我更傾向於使用電鈕而非手鋸,因為雖然後者上手難度更低,但我可能得花上5個小時才能完成砍樹任務。

也就是說,你能夠理解「砍樹」是什麼意思;如此一來,即使你並不很明白鏈鋸的工作原理,也能夠利用它實現這一目標。

沒錯,可解釋性中第二大分支的目標就是:我們是否能夠充分理解一種工具,從而以安全的方式加以使用?我們可以將確定有效的人類知識反映到工具當中,進而建立起這種理解。

問:那麼,「反映人類知識」的方式是如何讓黑匣子AI這類系統具備可理解性的?

Been Kim:下面我想列舉另一個例子。如果醫生使用機器學習模型進行癌症診斷,那麼醫生本人肯定希望確保模型當中不存在那些來自我們不希望使用的數據的某些隨機相關性。要保障這樣的要求,一種可行的方法就是,確定機器學習模型正在以與人類醫生類似的方式執行診斷流程。換句話說,也就是將醫生自己的診斷知識反映在這套機器學習模型當中。

因此,如果醫生們會研究細胞樣本以診斷癌症,他們可能會在樣本當中尋找一種被稱為「融合腺體」的東西。此外,他們可能也會考慮到患者的年齡,以及患者過去是否擁有過化療經歷等等。這些因素正是醫生在嘗試診斷癌症時所關心的因素或者概念。如果我們能夠證明機器學習模型也在關注這些因素,那麼該模型的可理解性將顯著提升,因為其確實反映出與醫生相符的人類知識運用行為。

問:那麼,TCAV的起效方式是否也正是如此——即揭示機器學習模型正在使用哪些高級概念來做出決策?

Been Kim:沒錯。首先我要說明一點,可解釋性方法只是解釋了神經網絡在「輸入特徵」方面做出的實際操作。可能我說得還不夠確切。如果你擁有圖像,那麼其中的每一個像素都屬於輸入特徵。事實上,Yann LeCun(深度學習的早期先驅,Facebook公司AI研究主管)已經表示,他堅信這些模型具備可解釋性。因為我們可以查看神經網絡中的每一個節點,並查看每一項輸入特徵的數值。這些輸入特徵對於計算機來說是很好的素材,但人類卻無法從中直接看出具體意義。畢竟計算機的思維方式類似於「哦,快看,像素數量在100到200之間,RGB值是0,2與0.3。」相比之下,人類會選擇完全不同的概念溝通方式,例如「這是一張小狗的圖片,而且這隻狗的毛非常蓬鬆。」

問:那麼,TCAV是如何在輸入特徵與概念之間進行這種轉換的?

Been Kim:讓我們回到醫生的例子,醫生還是使用機器學習模型,而這套模型已經完成訓練從而通過對細胞樣本圖像的分類診斷潛在癌症。作為醫生,你可能希望了解在對癌症做出主動預測時,機器學習模型對於「融合腺體」的具體重視程度。首先,你會收集一些圖像——比如說20張圖像,其中包含有融合腺體部分。現在,你會將這些帶有標記的示例插入到模型當中。

接下來,TCAV在內部會進行一項所謂「敏感度測試。」當我們添加這些包含融合腺體的標記圖像時,癌症陽性預測的可能性增加了多少?你可以將結果輸出為0到1之間的數字。就是這樣,這一結果就是您得到的TCAV分數。如果概率增加,則意味著融合腺體對於機器學習模型而言確實是一項重要的概念。反之,如果概率沒有增加,則代表模型沒有將其視為一項重要概念。

問:「概念」是一種模糊的表達。是否存在某些不適用於TCAV的場景?

Been Kim:如果我們無法使用(數據集)載體中的某些子集來表達自己的概念,那麼這套判斷系統就沒辦法起效。如果您的機器學習模型是以圖像為基礎進行訓練的,那麼這一概念必須擁有視覺層面的可表達性。舉例來說,我們可以想像要如何以視覺方式表達「愛情」這一概念。這真的是一項很困難的任務。

我們也認真驗證了這一概念。我們擁有一個統計測試程序,如果某個概念矢量對於模型的影響與隨機矢量相同,那麼其就會拒絕該概念矢量。如果你提交的概念沒有通過測試,那麼TCAV會說:「我不知道。這個概念看起來似乎對於模型沒什麼重要影響。」

問:TCAV的主要作用是在AI當中建立信任,而非真正理解AI模型,是嗎?

Been Kim:對,接下來我會解釋其中的原因,因為建立信任與理解模型確實存在著重要的區別。

我們從認知科學與心理學的反覆研究當中認識到,人類非常容易上當受騙。這意味著,欺騙一個人對某些東西產生信任實際非常容易。但機器學習的可解釋性目標恰恰與此相反,它會告訴我們對系統的使用是否安全。換言之,這是在揭示一種真相。所以,我覺得「信任」這個詞用在這裡並不準確。

問:也就是說,可解釋性的核心在於揭示AI推理當中存在的潛在缺陷?

Been Kim:沒錯,就是這麼回事。

問:那麼它是如何揭露這些缺陷的?

Been Kim:你可以利用TCAV向經過訓練的模型詢問一些非相關概念。我們還是以使用AI工具進行癌症診斷的醫生為例子,醫生可能會突然想到,「看起來機器傾向於把藍色色彩比例較高的圖像視為癌症高發指標。我們認為不應該通過這種方式的考慮問題。」因此,如果他們發現「藍色」這一輸入特徵確實擁有更高的TCAV分數,就代表著他們在診斷機器學習模型當中找到了一個問題。

問:TCAV的設計初衷在於處理那些不具備可解釋性的現有AI系統。那麼,為什麼不從開發之初就實現系統的可解釋性,而要繼續構建這些無法解釋的黑匣子型AI?

Been Kim:可解釋性研究的一大分支,側重於構建出能夠反映人類推理方式的固有可解釋模型。但我的看法是:現在人們已經在幾乎各個領域構建起AI模型,這些成果也已經被用於種種重要目標——它們在設計之初並沒有考慮到可解釋性這項要求。這是事實,我們無法迴避。我們在谷歌也擁有大量這樣的模型!您當然可以說,「可解釋性非常重要,我們應該構建新的模型來取代目前正在使用的原有模型。」道理雖然沒錯,但可行性真的不太高。

因此,面對這樣的情況我們該做些什麼?我們仍然需要想辦法順利度過目前的關鍵時刻,即判斷人工智慧技術到底能否給我們帶來助益。出於這樣的考量,我才傾向於使用「訓練後」解釋方法。如果您擁有一套由他人提供的模型,而且已經無法對模型本身做出改變,那麼該如何對其行為生成解釋,從而確保整個使用過程安全而可靠?這正是TCAV系統的核心意義所在。

問:TCAV允許人們向AI發問,藉此了解某些特定概念在決策過程中的重要性水平。然而,如果我們不清楚該如何發問——如何我們希望AI系統能夠自我解釋,又該怎樣實現?

Been Kim:我們目前正在構建新的方案,旨在自動為模型使用者發現概念。我們將其稱為DTCAV,也就是「發現TCAV」。但實際上,我認為讓人類進入整個循環,從而實現機器與人之間的對話才是實現可解釋性的關鍵。

對於大多數高風險應用場景而言,相關領域的專家已經擁有了自己關注的一整套概念清單。我們在谷歌Brain團隊的醫療應用當中已經一次又一次意識到這種狀況的真實性。實際上,使用者並不需要從他處獲取這些相關概念——他們已經擁有重要的概念儲備,並希望把自己的關注點提交給模型。我們與一位治療糖尿病視網膜病變(一種眼科疾病)的醫生一同工作,當我們向她介紹TCAV系統的時候,她感到非常興奮。因為她自己已經擁有大量關於這套模型診斷方法的假設,現在她能夠藉助這套系統測試這些猜想是否正確。這實際上代表著一種巨大的優勢,也是一種強調以用戶為中心的機器學習協作方式。

問:您堅信如果無法實現可解釋性,人類最終也許會放棄人工智慧技術。但考慮到人工智慧如此強大,您真的認為人類會因此將這一切扔進垃圾堆嗎?

Been Kim:是的,我堅信這一點。實際上,專家系統就曾經經歷過同樣的情況。上世紀八十年代,我們認為專家系統能夠以遠低於人類操作人員的成本高效執行某些任務。但是現在,還有誰在使用專家系統?完全沒有。而且在那之後,我們開始進入AI技術的寒冬。

就目前來看,徹底放棄的可能性不大,因為人工智慧已經成為宣傳炒作與投資押注的重要領域。但從長遠角度來看,我認為人類最終也許會做出這樣的決定。可能是出於對可靠性證明缺失的擔憂甚至恐懼,人類將認定人工智慧技術並不適合我們。是的,確實存在這種可能性。

相關焦點

  • brain是腦,wash是洗,brainwash是什麼?答案出乎意料!
    brain是腦,wash是洗,brainwash是什麼?「洗腦」?我們一起來學習一下。
  • 如何評價Google神經機器翻譯(GNMT)系統?
    有從事翻譯職業的網友甚至這樣形容:作為翻譯,看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。真有這麼可怕嗎?讓我們先來回顧下Google Translate的發展歷程。幾年前,Google開始使用循環神經網絡來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。其中基於短語的機器學習(PBMT)將輸入句子分解成詞和短語,然後對它們的大部分進行獨立翻譯,而神經網絡機器翻譯(NMT)則將整個輸入句子視作翻譯的基本單元。
  • pick your brain別翻譯成「撿起你的腦子」
    pick one's brain 並不是撿起某人的腦子,實際上意思非常正面,是指徵求某人的建議,向某人學習。例句I'd like to pick your brain, if you have a minute.
  • AI新風向:看「AI設計師」如何做出媲美人類的設計成果
    「設計師」Ironov涵蓋設計流程中的各個階段,包括:要求理解上下文,創建最終徽標,並導出可供媒體使用的文件等。通過涵蓋多個不同主題的可伸縮矢量圖形圖標(SVG),手繪數據集從而進行訓練。所有這些系統集成在一起,能夠為使用者提供:將客戶文本描述快速轉換為徽標設計,再進一步作出調整,與成果打包的一站式處理流程。整個設計周期只需要幾秒鐘。與人類員工不同,Ironov每天可以工作24個小時,不會生病,也不會抱怨自己沒有靈感。
  • 專訪Google Brain 工程師,谷歌神經網絡翻譯會是機器翻譯的極限嗎?
    Google 翻譯毫無疑問是目前最好的機器翻譯工具沒有之一,如果還有什麼能夠超越 Google Translation 那也一定是它自己。之前 PBMT 基於短語的翻譯方式是先把句子分成一個個短語和單詞,然後獨立翻譯,最後對翻譯出來的獨立短語解釋進行邏輯整理,變成句子。當東亞語言翻譯成歐洲語言時語序會有很大變化,單個翻譯再調整語序的系統複雜繁瑣且容易出錯。而 GNMT 則是將整個句子視作翻譯單元,對句子中的每一部分進行帶有邏輯的關聯翻譯,翻譯每一個字或單詞時都包含著整句話的邏輯。
  • You are a brain是什麼意思?是在誇我嗎?
    如果有人對你說:You are a brain,是什麼意思?是不是有點摸不著頭腦?其實,You are a brain意思是:你是一個有頭腦(聰明)的人。當你認為一個人很有頭腦時,可以使用「You are/ He is / She is a brain.」 表達讚許和欣賞。但是,不是所有brain的搭配都是誇人,千萬不要說錯哦。
  • 熱詞翻譯:智囊團 Brain trust
    請看外電的報導:  Obama, who rolled out the key components of his economic team this week, plans to announce his foreign policy brain trust after the Thanksgiving holiday.
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    Google之外的努力也說明了問題的難度,Masakhane項目旨在使非洲大陸上的數千種語言能夠自動翻譯,但它還沒有超出數據收集和轉錄階段。共同的聲音(雷鋒網注,Common Voice是Mozilla發起的一個眾包項目,旨在為語音識別軟體創建免費的資料庫)自2017年6月推出以來,Mozilla為建立轉錄語音數據的開源集合所做的努力僅審查了40種聲音。
  • 英語乾貨短語:have something on the brain是什麼意思?
    have sth on the brain的意思是「一心想著某事、總是想到或是提到某事」,這是一個含有貶義色彩的動詞短語,當用這個短語描述某人對某事心心念念或總是把某事掛在嘴邊,一般有厭煩的意思。在實際生活中,聽一個人反反覆覆說一件事情,我們也的確會感到厭煩。
  • 語音翻譯器幫你快速翻譯
    使用工具:語音翻譯器(手機APP)軟體功能:可完成多國語言相互翻譯,支持語音翻譯及文本翻譯,並有語音朗讀功能。>文本翻譯:中文、保加利亞語、波蘭語、德語、丹麥語、俄語、芬蘭語、韓語、荷蘭語、捷克語、羅馬尼亞語、葡萄牙語、日文、瑞典語、斯洛維尼亞語、泰語、西班牙語、希臘語、匈牙利語、英文、義大利語、越南語使用方法:1)打開安裝好的語音翻譯器
  • 英語是說brain freeze嗎?
    本期我們來說一個日常生活中比較常見的現象。三伏天dog days的時候,最想做的事情就是衝到冰箱面前,打開冰箱,拿出冰淇淋,狠狠的咬一口。但是這樣的一頓猛操作導致的結果就是你腦子可能會瞬間被凍僵了。那咬一口冰淇淋,腦子都凍住了!英語是說brain freeze嗎?
  • 不眠不休,AI圖形設計師如何做出比肩人類的設計成果
    Lebedev Studio的員工,他先後參與了20多個商業項目,設計出從啤酒瓶標籤到初創企業徽標在內的多項成果。但Ironov坦言,他撒了謊。實際上,這些設計成果並非出於人類之手。上個月,Art. Lebedev Studio向客戶坦白稱,他們的徽標是由AI系統創建而成的。
  • 總不能說「easy brain」吧!
    總不能說「easy brain」吧!到底怎麼說呢?1)All brawn and no brains在英語中,「四肢發達,頭腦簡單」可以說All brawn and no brains。除了pea-brained以外,我們也可以用lamebrain或者BB brain來表示傻的或笨的(人)。
  • brainnews粉絲福利:英文潤色、學術翻譯等服務永久折扣
    有很多同學和老師來諮詢,brainnews是否有論文潤色和翻譯的服務
  • 觀察+ | 從「自適應」到「智適應」,一個新的AI教育時代
    與拍照搜題、口語測評、作文批改等基於人工智慧技術的工具型產品不同,智適應學習能夠將人工智慧技術滲透到教學的核心環節,從根本上改變學習的理念和方式。智適應當前發展到了怎樣的階段?智適應相比自適應而言有哪些升級?該如何辯證地看待「人工智慧+教育」中,各個支柱相互間的關係?
  • 焦點訪談:看這些網際網路新成果,「智慧未來」還遠嗎?
    、分論壇數量和會期較往年均有調整,論壇呈現「小而精」「新而活」的嶄新面貌;三是參會方式以「線下+線上」形式開展各項活動。  在本屆世界網際網路大會上表彰了一批全球領先科技成果,讓人們對本屆大會的主題「數字賦能 共創未來」有了更深理解。
  • 翻譯器可翻譯方言和文言文 超出谷歌微軟的翻譯軟體能力
    翻譯器可翻譯方言和文言文 超出谷歌微軟的翻譯軟體能力 站長之家(ChinaZ.com) 4月1日 消息:最近,一款名叫DeepL的在線機器翻譯軟體在日本大火。
  • Rack one's brain是折磨你的頭嗎?這個俚語應該怎樣翻譯才對?
    Rack(one's)brain是想破頭的意思。要了解這個用語的意思,首先要搞清楚rack的意思。在中古世紀的歐洲,rack 是一種刑具。人們會被綁在rack(刑架).上,行刑者轉動輪子施加壓力來拉扯他們的四肢,有時四肢甚至會被扯斷。所以rack成為「痛苦」與「折磨」的代名詞。
  • 重慶羅陽發明AI技術30秒鑑定血型成果 引發轟動
    羅陽的血型鑑定新技術可能將創造歷史。 受訪者供圖  他的發明 改寫延續百年驗血方式   重慶崽兒羅陽的AI技術30秒鑑定血型成果,引發全球轟動   想要知道自己的血型?現在得去醫院抽上一管血,等待30分鐘。