昨天最強「AlphaGo煉成」的消息刷屏全球媒體。讓不少人興奮的一個觀點是海量標定數據不再是瓶頸。但業界也有人持不同的看法。
不久之前,中科視拓曾組織過一個圓桌論壇,名為「深度學習的能與不能」,邀請了機器之心創始人趙雲峰作為主持,中科視拓董事長山世光、地平線機器人創始人餘凱博士、360研究院院長顏水成教授、微軟資深研究員梅濤博士、中科院自動化所張兆翔研究員作為嘉賓進行了討論。雖然這些嘉賓都是中科視拓相關的研究人員,但這個圓桌後半部分討論了小數據甚至無數據情況下的一些創新研究方向及可能的難題,這部分內容我們認為很有價值。於是,就獲得官方授權及資料,對這個論壇的一些內容做了整理。
概括來說:
顏水成認為,GAN可以非常好地去解釋小樣本學習的過程,但最終的模型生成機制還是用大數據學出來的,並不是有一個樣本立即能得到一個模型。
梅濤認為,學習還是通過大數據來學,小樣本學習,現在有zero-shot learning,在學術上可以探討,但是這樣的技術很難應用到真實場景裡。
張兆翔認為,將數據在其他轉化過程中的不同模型作為知識沉澱下來,去幫助新智能體學習的時候,有望做到小樣本學習,但是不一定能完全做到。
山世光認為,GAN非常重要,但背後應該是基於大數據學習的。
餘凱認為,未來想像的數據有可能會緩解對數據的缺失所帶來的掣肘。
以下為現場內容的整理。
機器之心創始人趙雲峰(主持人)
接下來問一個比較具體的問題。我們要解決的小數據甚至無數據的問題,我們要實現的半監督甚至無監督的學習,深度學習不太擅長。那我們可以在哪些方面有新的探索?用哪些新的方法解決這些問題?
360副總裁、研究院院長顏水成教授
無論來自計算科學領域,還是來自神經科學領域的研究者,都一直在探尋一個同樣的問題——「早期時人腦識別的機制到底是什麼樣的」。去年的會上我們討論了可能的一個hypothesis(假設)——人的大腦有兩套機制,一套機制是非參的,一套機制是參數的。參數這套機制可以用類似深度學習的方法去模擬。另一套非參的機制是,我們在給定一個樣本時,並不立即給出模型。比如狗屎的例子,如果說以前從來沒有見過,現在有了一種狗屎,可能第二次、第三次見到狗屎的時候,並不是腦子裡面有個模型,而是用已經見過的狗屎去做匹配。所以說當你見的狗屎的數目足夠多了之後,模型就可以從中學習出來,就是從非參轉化到參數化。
也許我們思考這個問題的時候,從開始就做小樣本的學習本身是錯誤的。因為人還有一個非參數的機制,在這個機制裡,慢慢積累數據,形成模型。並不是拿到樣本即可立即得到一個模型。大家知道現在GAN可以非常好地去解釋小樣本學習的過程,比如你有一些類型的樣本和一套生成機制,你可以從一個面生出各個維度表示。比如說你看到了一個狗屎,但是你要看了一個牛糞,牛糞你看到這個模型就有了,那麼就是說可能腦袋裡的GAN模型會模擬牛糞的生成機制,會生成很多樣本,那麼這個樣本再去指導你去識別這個狗屎。就是說有這麼一個機制,一種是非參的,一種類似於GAN,已經生成一個模型了,一個新的樣本利用相似的類別,會生成出很多樣本出來。總的來說,最終的模型生成機制還是用大數據學出來的,並不是有一個樣本立即能得到一個模型。
微軟資深研究員梅濤博士
我同意顏水成的觀點,我始終相信學習還是通過大數據來學。
小樣本學習,現在有zero-shot learning,在學術上可以探討,但是這樣的技術很難應用到真實場景裡。
我們在真實場景中也遇到過這樣的問題,微軟有很多數據,至於小樣本,我們會在大資料庫裡面做一些數據的清洗,包括數據的整理,數據的排序這方面工作。最後還是把這個問題歸結到基於大量樣本學習的問題。
但在學術上面來說,可能我們還不太熟悉人腦對物體認知的過程,對泛化能力還不夠清晰,所以這方面可能還是要跟神經科學結合起來進行研究。zero-shot learning,one-shot learning等,解決問題的能力可能有限。
中科院自動化所張兆翔研究員
小樣本學習,顯然是人類學習的一個特長吧。那麼,人或者是生物為什麼能夠進行小樣本學習?
其實本質上它也是基於大樣本的。因為我們說到從原始人,到現在走這麼長時間的進程當中,有很多很多的東西都刻畫到基因中了,或者在演化過程中刻畫人腦的參數調整過程。因此在現在社會當中,爸爸媽媽告訴孩子這是狗屎,告訴狗屎的過程其實是從猩猩、猴子踩到狗屎開始,所以說在這個進化過程當中,其實是把這些東西給刻畫下來了。
在學術界,有觀點認為人工智慧應該走向數據與知識的結合,如果我們能夠結合一些知識,顯然能夠從完全由數據驅動轉化為一些小樣本驅動。
在某種意義上來說,這種知識其實是從過去的數據總結出來的。比如我們近期開展的一個工作,如果有一個大樣本已經訓練出一個模型,這個模型能夠作為一個老師存在,去指導他的孩子或者他的學生,那這個學生就可以用較少的數據跟老師互動起來,去迅速地達到更好的感知或識別迴路。因此,如果從多智能體的角度去探索,將數據在其他轉化過程中的不同模型作為知識沉澱下來,去幫助新智能體學習的時候,有望做到小樣本學習。但是不一定能完全做到的,因為我們知道人類的進化是相當複雜的
另一個我覺得值得嘗試的方面,就是前面幾位提到的:大數據的學習仍非常重要
我們知道現在很多時候會用到因果分析。不同的果是由一個原因導致的,比如說狗屎,還有狗屎旁邊撒的一泡尿,這是兩個模態、兩種數據,卻都因「狗的操作」這個原因導致,因此狗屎和狗屎旁的尿之間是有關係的。這種關係可以幫助我們構建映射關係。很多時候一些共生的模態,可以幫助我們做很多很多事,左眼可以看到東西,右眼也可以看到東西,你眼睛看到東西,同時你的耳朵也聽到東西,這些共生的模態幫助人在處理信息時,減少標註數據,通過儘可能少的樣本去達到一些更好的學習目的,這些都是學術界做的一些有意義的嘗試,也體現了深度學習的研究有很大的挖掘潛力。
中科視拓董事長山世光
我舉一個具體的例子。在人臉識別這個我們做了很多年的領域,這兩種方式其實都是有的。在人臉識別這個領域裡面,做神經科學和做心理學的人在研究兩種不同的人臉識別方式。一種就是我們所謂的陌生人的識別,比如說之前你從來沒見過我,給你一張我的照片讓你去機場接我;另外一種是去辨認你非常熟悉的人。這兩種不同的人在你的大腦裡面識別模型其實是不一樣的。前者在心理學或者神經科學領域,他們研究的結果更傾向於在你大腦裡存了一個照片,因為你其實並沒有見過其他更多的信息。當然你也可以舉一反三,等會我們說另外一個話題。而對於非常熟悉的人,比如你現在回想你的父母,可能就不再是一個照片,而是有複雜多樣的信息,更多音容相貌的信息就加進去了,那可能就變成了一個模型,而不是純粹的一個照片或者是某種特徵。
這是一個我們會感覺到差異的地方,一個one-shot問題。
但實際上,在人臉識別領域,我們一直在踐行的就是one-shot的問題。比如說今天大家可能在門口看到了人臉識別系統。大多數人沒在我們系統裡面做過訓練,二隻提供了一張照片,那為什麼那個人臉識別系統也可以識別本人呢?我們也是用的深度學習。無需成百上千張的照片也可以識別本人是因為我們已經對其他人的照片,幾十萬人或者是上百萬人的照片,做了學習。
我們是學了如何去區分不同人臉的方法或者模型。它有推廣能力,它可以推廣到我們從來沒有見過的人身上。一個人來了之後,雖然他沒有在訓練集裡面,但是我們用另外一百萬人學出來的模型,可以非常好的去提取他跟別人有什麼不同的特徵。這已經是一個模型遷移問題,另外一群人的區分模型用到這個人身上去,我想這個就是一個遷移學習的例子。
剛才還提到GAN這樣一個方法,我覺得這個非常重要的事情,就是我們人類有舉一反三的能力。人看了一張照片之後,你看到他正面的照片,你可能會想他側面會長什麼樣,他笑出來是什麼樣等等。這些東西就是我們舉一反三的能力。這個舉一反三的能力基於大數據學,因為我們見過了太多的人,他正面長什麼樣側面長什麼樣也學到了這個模型,那麼這個模型可以指導我們去猜測這個人正面是這個樣子,那他側面是什麼樣?他笑起來又是什麼樣?
這個背後的問題應該是基於大數據學習的,比如說,當我們這個世界上有一百萬類物體需要識別,當我們做到了一萬類的時候,也許做一萬零一、一萬零二類的時候就相對比較容易了,因為我們已經有了大量的識別其他物體的經驗,利用這個經驗,可以用少量數據遷移到其他的問題上去。
地平線創始人餘凱
對,其實剛才討論的我就順著大家討論的往後想,就是說這個小數據學習大數據學習,看似是兩個很不一樣的概念。但是我感覺這兩個空間,實際上是存在一個蟲洞一樣的一個效率,就是這兩件事情有可能是一件事,為什麼是一件事?
那我舉三個例子跟大家解釋一下。
因為剛才談到舉一反三,古過人類簡史這本書,其實可能都會回顧,就是說在幾十萬年前實際上存在差不多人類的多個種群,我們現在出來這個勝出的叫智人,這個智人是勝出的。但是你發現很有意思的,從這個腦容量來衡量,其實智能不是最聰明的,但是在考古發現裡面,發現智能的群落跟其他的被智能打敗的那些人類的群落,有一個很大的不同,是說智能有一個很明顯的能力,就是所謂虛擬化,虛擬的能力。就是他會描述虛擬的故事,並且去演算這個虛擬故事,比如說他們會去演算這個部落裡有一個共同的神靈,這個神靈怎麼樣怎麼樣。從來都沒有人見過,一般的猴子就是說只會見到了才會相信,但是智人這群猴子沒有看見的東西,他也能夠虛擬、想像。所以這種想像的能力,實際上是讓這個人類區別於很多其他的,因為想像一個共同的神靈並且活靈活現,他會什麼行為,喜歡什麼不喜歡什麼,他的性格是什麼樣的,實際上給這個部落造成一個範式,讓大家按照這個範式去匹配,所以這個種群就更強大。
這是第一個例子,舉一反三,並且是想像的能力,區別於這個,就是讓人類插上翅膀。
第二個例子是Alphago,今年的Alphago2.0,你會發現它其實一定意義上來講沒有數據,因為它是完全從零的狀態開始博弈,它完全是左右博弈,去虛擬下無數盤棋。整個這個程序是用的深度學習加強化學習,在不斷的從虛擬的對決裡面去學習很多的經驗,最後達到一個很強大的能力,會接近棋盤真理。zero data learning,它是沒有用任何人類歷史的棋盤對決的數據,但是它又是大數據,為什麼呢?因為它用很多虛擬的數據來學習,所以就是說,你就發現想像力使你在zero data learning和data learning之間好像有個蟲洞效應。實際上它們兩個之間距離是非常短的,不是我們想像的差別那麼大。
那我講第三個例子,就是關於自動駕駛,因為自動駕駛其實大家知道,真正測試一個自動駕駛系統的行為,不是靠這些常規交通,而是靠什麼呢?靠很多邊界的案例,靠很多不正常的交通數據,比如小孩子突然走到馬路,你可能一輩子很難碰到幾個,但是你就是要拿這些情況去測試。但是你不可能用真實的數據,你不可能讓小孩真的去橫闖馬路,然後去測試你這個自動駕駛的系統,所以一定是用仿真的系統,去產生的很多的這種配製,然後去訓練去測試。這個是自動駕駛必須要走的路,那這個裡面實際上就是用大量的數據,但是這個數據是舉一反三虛擬想像出來的。所以未來的話,有可能想像的數據會填補我們對數據的缺失所帶來的掣肘,然後使你實際上有效的是用小數據,但是你從產生很多大量的數據,使得你這個系統能夠不斷的進化,去變得越來越聰明。
我們未來會看到越來越多的例子體現這一點,所以這一塊其實也聯繫到我一直在思考的事情,因為我去年參加微軟研究院院慶的大會的時候,我記得我向大家推薦了英偉達的股票,我說英偉達的股票值得買。當時如果信了我的人,應該現在還是賺了不少錢,至少比買北京的房子賺錢。那時候70塊錢,現在170多。
因為我在思考,因為你要不斷的舉一反三,實際上你這不是觀測而是計算,因為你能夠不斷的舉一反三,其實是更大的計算力。所以我感覺就是說,計算力本身還是會持續去推動整個人工智慧往前去發展,所以我覺得投資在計算力上,我認為當前這個時間點還是不錯的,這個是我的一個分享。
---------------------------------------------------------
關於這個圓桌其他部分的內容,我們也進行了一些簡單整理。但為了給讀者一個更好的閱讀體驗,我們並未全部放在文章裡。對這個話題感興趣的讀者,可以點擊連結查看全部內容。