大數據文摘出品
作者:陳若朦
來看一道選擇題。
深陷某種疑難雜症的你面臨兩個診斷結果和兩套治療方法:第一個來自一臺通過驗證的機器,通過視覺影像輸入,它能夠針對你的病症進行診斷並給出相應療法;第二個則來自一個有經驗的專業醫生。
你會相信誰?
「我會毫不猶豫地選擇相信機器,不管這個醫生有多優秀。」
作出這個回答的是特倫斯·謝諾夫斯基(Terrence Sejnowski),深度學習領域的先驅者和頂級AI科學家,NIPS基金會主席,上世紀八十年代投入人工神經網絡研究的先驅者之一。儘管親身經歷了「深度學習」研究的兩次寒冬期,他仍然是人工智慧的忠實擁護者。
「醫生並不是科學家,他們只是受訓如何對症下藥;同樣作為學習者的AI,通過對數據的精準分析,在未來一定會比醫生更為可靠。」值得一提的是,特倫斯的太太正是一位醫生。
人工智慧現已走進我們的生活。經過深度學習訓練的計算機可謂是開了天眼,實現了自動駕駛;它也豎起了耳朵,完成了語音識別和智能翻譯;這一技術正向各領域各行業展開三頭六臂,漸漸重塑我們的生活方式。
儘管我們正很放心的把一部分決策權讓渡給機器,但涉及到開頭問題中與健康有關的問題,多數人依然會對機器存在或多或少的不信任。
AI的核心話題是深度學習,通過吞入大量的數據,它將不受任何指令限制,自主地從「已知」中學習,得出經驗,甚至能夠通向「未知」。
但是,這只是AI被我們所知曉的部分,機器學習目前仍然沒有完整自洽的數學模型,描述深度學習的具體數理邏輯卻是一個道不清的謎。
我們是否能夠完全信任AI那不講道理的「直覺」所帶來的學習成果呢?
深度學習的興起:計算機與神經科學的協同
「物理學家分析神經網絡模型,心理學家模擬人類認知,神經科學家模擬神經系統並分析神經記錄,統計學家探索高維空間中的大數據集,工程師則負責構建具備類人的視覺和聽覺的設備。人工智慧就以這樣的方式飛速發展起來。」——《深度學習》
儘管今天被視為靈藥,深度神經網絡在誕生之初也經歷了巨大的質疑。
1995年,兩位機器學習大咖Jackel和Vapnik(當時他們都在貝爾實驗室,Jackel是Vapnik的上司)曾經打過兩個有趣的賭局:第一個賭局中,Jackel聲稱最遲到2000年我們就會有一個關於大的神經網絡為什麼有效的理論解釋,當然隨後的歷史證明他輸了;第二個賭局中,Vapnik聲稱最遲到2000年沒有人將會繼續使用1995年的這些神經網絡結構(意思是大家都會轉而使用支持向量機SVM,Vapnik是SVM的發明人之一),結果Vapnik也輸了。事實上,不僅在2000年,直到今天,在結合了大數據與強大計算能力後,這些古老的神經網絡結構迸發出更加巨大的能量。
這個深度學習史上有趣的八卦,我們如今聽來卻也不勝唏噓。技術的發展往往是螺旋式且兼具跳躍性,實在難以預料。作為這一變革的親歷者,特倫斯在1987年就成立了深度學習研究團隊進行相關研究,從最開始的幾百人,在一個月之後就發展到了上萬人,他表示現在光是團隊的一個招募崗位的候選名單上就有九千人。
深度學習的興起離不開兩個學科的融合——腦科學和計算機科學。特倫斯也正是這兩個學科融合的推動者之一,獲得物理學博士學位後,他轉向研究神經科學,再後來又轉向深度學習領域。
「計算機科學和大腦研究的結合運用是必然的。需要解決的問題越難,則越需要我們結合各個領域的工具、智慧和技術去解決。」特倫斯在聊天過程中多次談起多學科的協同作用,「我們的後代在經過現代教育後將會具備更強大的綜合性的能力,未來將是各領域技術和工具的整合。」
基於數據的大腦模仿者
「在思考人工智慧的未來時,我們需要保持目光長遠,因為我們遠沒有具備達到人類智能水平所需的計算能力。現在,深度學習網絡擁有數百萬個單元和數十億個權重,這比人類大腦皮層中的神經元和突觸數量還要少1萬倍。」——《深度學習》
「親眼見證了人工智慧幾十年的發展,有什麼進展是您沒有預料到的驚喜嗎?」
「自然語言處理。「聽到這個問題,特倫斯變得很興奮,他似乎陷入回憶,但毫不猶豫地回答了這一問題。
曾經語言學家告訴我們:儘管動物之間可以進行交流,但是只有人類才有語言。特倫斯在接受採訪時大笑著說:「現在我們可以知道他們完全錯了。而語言實在是太重要了,不能只留給語言學家去研究。」
在深度學習中是沒有符號的,但是神經網絡在語言學習過程中構建了其語義學系統。在語言的網絡中,詞和詞之間有聯繫,但是對於句子並沒有明確的標籤,所以我們之前認為像「智能翻譯」這樣的功能是難以實現的。特倫斯讚嘆目前在語言學習上取得的成果是「人工智慧的覺醒」。
「人工智慧竟然分析詞與詞之間的聯繫和區別,還能辨認出屬於某種語言,這實在令人感到神奇。我們不完全清楚語言的複雜性,我們不知道需要多少大腦皮層去處理語言,我們不知道語言學習什麼時候能夠成功,但是它確實成功了!」
網絡中單詞的內部表徵被用來訓練預測句子中的下一個單詞。每個單詞都是網絡活動的矢量,可以如上所示投影至二維平面上:例如不同國家和其首都之間的聯繫
但特倫斯也表示,也許我們沒必要對AI目前的成功應用感到過分驚訝,畢竟這是我們的大腦所具有的語言能力,而人工神經網絡是仿大腦構建的模型。大腦是目前被證實可以用來解決困難問題的唯一系統,人工神經網絡正是基於大腦運轉,通過模式識別來解決問題的技術。
「卷積神經網絡是一項成功的研究,它是在猴子的視覺皮層基礎上設計的。視覺是一種敏銳的感官,而我們的大腦皮層中一半部分都用於處理視覺,這一部分的組織結構為深度學習網絡提供了靈感。自然生物學驅動了人工神經網絡的研究。」
視覺皮層與卷積網絡在圖像對象識別上的比較:卷積可以被想像成一個小的滑動濾波器,在滑動整張圖像的過程中創建一個特徵層
如果說人工智慧是大腦的模仿者,那麼大腦的極限是否會限制這個「模仿者」的發展呢?
特倫斯一直強調大數據是神經網絡深度學習的核心——「得數據者得天下」。他解釋,更多的數據和更強大計算能力意味著我們可以構建更龐大的神經網絡,其中包含的層級和單元也會按比例增加,由此達到更深度的學習。
「在我們的腦中發揮作用的是皮層,研究顯示,皮層越多即意味著可以處理更多的信息。然而皮層的多少與我們的身體大小是相關的,所以人腦是有極限的。但是AI解決問題是通過對大量數據進行模式學習,愈複雜的問題對應更加龐大的數據源——我們能夠獲得足夠的數據,我們正生活在大數據時代。」
有一種觀點認為,人工神經網絡只是產生了與生物神經網絡類似現象的簡化模型。特倫斯並不否認這一點,但他認為,簡化模型自然有其弱點,但同樣也是人工神經網絡具備的優勢。
「人腦是遠遠優於其他物種的存在,其用於分析處理的理論是複雜的,簡化模型的優勢在於簡化了分析系統。我們並不是要構建一個細節完備的模型,通過人工神經網絡這一模型我們得到的是關於大腦運轉的基礎概念。」
作為大腦的模仿者,人工神經網絡在其研究過程中借鑑大腦的運轉效能,同時也促進了神經科學領域的發展。「人工神經網絡是一種幫助我們理解大腦是如何不斷學習和進化的工具。事實上,這是一個互相促進的過程。」特倫斯解釋,「通過研究機器學習,我們可以得到更具說服力的理論來解釋大腦中不同的部分是如何聯繫,大腦是如何處理信息。通過這些我們又可以創造出更龐大的人工神經網絡。」
特倫斯也提到神經網絡的發展目標——神經人工智慧(Neural AI)。受大腦不同區域中皮質層功能不同的啟發,研究者們希望能夠整合各類具有特點功能的人工神經網絡,從而構建一個具有綜合能力的系統,將能夠應對更複雜的學習行為。
在特倫斯看來AI的能力不可限量,儘管我們仍處於這一領域的起步階段,但它一定將是改變世界的存在。
「我想說人工智慧的完全成熟是一個漫長的過程,可能要花費幾十年,甚至是一個世紀,這將是一場改變一切的革命,我只能說它可能會發生,這是難以預測的。在發現了某種原理之後需要經過長時間不斷地改進才能發揮作用——這是科學的本質。就像人類發現了雷射,但是在此60年以後我們才發明了雷射棒;懷特兄弟在1903年發明了第一架飛機,誰能想到一百年以後我們能利用這種神奇的機器高速橫跨大陸呢?另外,科技的應用不僅僅要求技術上的不斷完善,同時我們需要構建對應的市場體系,提供一種被大眾接受的應用方式。」
「你並不清楚你的大腦是如何運作的,但你仍在用它不是嗎?」
「我們已經確定了一些關鍵原則,但是卻沒有一個概念框架能優雅地解釋大腦如何運轉......也許我們在理解深度學習網絡如何解決實際問題方面取得的進展,將引出更多線索。自然可能比我們每一個人都更聰明,但作為一個物種,我並不認為人類無法解決智能難題。」——《深度學習》
數據在通過揭示信息可以幫助我們得出事物規律、解決問題,但同時不可避免地,私密信息的洩露和公開也成為使用大數據的「副作用」。
歐盟《一般數據保護規範(GDPR)》出臺後,美國加州頒布的《2018年加州消費者隱私法案(CCPA)》,被認為是美國最嚴格的隱私立法,旨在加強消費者隱私權和數據安全保護,將於2020年1月1日生效。多數人認為CCPA的頒布如同AI高速前進路上的交通警察,基於龐大數據源學習的人工神經網絡研究勢必受到隱私法的限制。
特倫斯強調大數據是AI發展的動力來源,但數據也同樣是個大問題:「隨著網際網路的發展,信息尤為難以掌控。在我看來數據問題需要花費很長時間去解決,以達到隱私的有效保護和數據的規範使用。科技會導致瘋狂的結果——回到工業革命時代,技術的革新曾帶來糟糕的生活環境和工作環境:礦工在極其惡劣的條件下工作、工廠僱用童工、英國被大霧籠罩——而人類花費了上百年才意識到要規範科技的使用使其不傷害人類。我們一定要去規範,想辦法實現科技真正的價值。」
同樣需要花費大量時間探索的是用於解釋人工智慧的數學理論模型。儘管在構建人工神經網絡的過程中,研究者可以清楚地獲得了每一神經、每一連接中的獨特的運行工作模式;然而對於作為AI啟發者的大腦,我們仍不具備完整的知識——所以說,人工神經網絡的數學模型依然是個謎。
但特倫斯認為,人工智慧發展的當下並不急於取得更多突破,實際上我們需要完善對現在所擁有的理論認識,通過一次又一次地理解、預測、驗證和改善,將簡單的模型慢慢發展成得更加完整。
儘管對神經網絡的數學理論研究困難重重,特倫斯仍對AI的發展信心滿滿——「你並不清楚你的大腦是如何運作的,但你仍在用它不是嗎?」