宋繼強 英特爾中國研究院院長
人的智能如何與越來越強的機器無限連接?古DNA如何揭示人類起源的秘密?我們真的可以「復活」已經滅絕的猛獁象嗎?腦機接口會讓人類掌控自我的進化嗎?未來的創新為什麼必須重視混流?
每一種未來,都需要一個真正的引爆點。而未來的引爆點,就是這樣一個個「思想之問」。《那些比答案更重要的好問題》將用14個大問題帶你開啟一場思想者的探索之旅,與汪小帆、周濤、宋繼強、洪波等14位國內頂級科學家、思想家、趨勢專家,一起走進人工智慧、基因編輯、腦機藉口、認知科學等領域,共同探索思想的邊界,親臨未來的14種可能。關於未來,我們雖不能預知答案,但卻可以看見它湧現的端倪。
我們要如何與機器共生?
探究智能邊界的故事要從我所供職的英特爾中國研究院講起。英特爾中國研究院成立20多年來,不斷拓展著智能的邊界:一開始研究語音智能、語音識別、自然語言處理(NLP),後來研究計算機視覺,再後來研究無線網絡,做3G、4G,現在又開始研究無人駕駛和機器人。在這個過程中,我逐漸體會到,多種技術的交匯快速地促進了機器智能的發展,從中也可以看到人的智能是如何發展的、機器的智能是如何發展的,這些都會給未來帶來啟發。
隨著5G時代的到來,到2020年,會有500億臺設備接入網際網路。而在更遠的未來,會有數倍於人類的智能設備與網絡連接。當如此多的設備互聯起來,構成一個巨大的網絡時,會帶來怎樣的效應?人類又會以什麼樣的模式存在其中?
機器智能未來必將超越人類智能
過去這些年裡,機器智能的邊界在不斷擴展。智慧機器人領域的研究已經持續了四五十年。不只是原始的工業機器人,服務機器人也有30多年的研究歷史。這些研究大大增強了機器的運行能力,使機器可以替代人類自己進行活動,甚至某些能力已經超越了人類。目前,這些技術已經大量投入使用。而且近五六年來,機器學習的算法發展得很快,儘管距離機器完全理解「發生了什麼」 還有很長一段路要走。隨著更好、更便宜的硬體和傳感器出現,以及設備之間實現無線低延遲互聯,還有源源不斷的數據輸入,機器的感知、理解和聯網能力會有更廣闊的發展空間。基於這些觀察,我得出了這樣一個結論:機器智能未來必將超越人類智能。然而,我無法確定它會在何時發生,也沒有像奇點理論那樣給出一個確切的時間點,比如2035年或者哪一年,但這個趨勢一定是存在的。
如果這個趨勢必然發生的話,我們就要思考:人類智能和機器智能的關係到底是什麼樣的?未來機器智能強大到一定程度的時候,我們要如何與機器共生?如果我們希望得到一種比較好的結果,又該怎麼做?
從人類個體的智能來看:人類智能的發展上限是很明顯的,因為人類的腦容量有限,能夠記住的東西也很受限。舉個簡單的例子,由於時代的發展,我們與父輩相比,或者我們的孩子與我們相比,所學知識的廣泛度和先進程度是非常不一樣的。也許20年後,像我們這樣年紀的人,他們的智能會超過現在的我們。但是能超出多少?會是我們的2倍嗎?可能沒有那麼多。
從空間維度來看:把多個不同專業背景的人聚在一起,可以促成一些更大的事情發生,催生一些更好的創意。但人員過多可能就不行了,因為相關度下降,邊際效應遞減,而且不容易統一意見。我認為這個人數的上限是100人左右。
那麼人類多年來取得的巨大進步和整個社會的發展靠的是什麼?靠的是各種各樣的技術突破和對工具的巧妙利用。在過去的數百年裡,人類學會了使用機械能,學會了用電,學會了製造各種機械,學會了製造飛機、汽車;在過去的數十年裡,人類學會了計算機、網際網路、雲計算、人工智慧和5G通信技術。這些都是可以利用的工具,包括運用雲端的智能擴展信息和知識搜索的廣度、加深推理的深度、幫助我們做非常複雜的運算。我們需要更好地掌握和利用這些技術,幫助人類最大程度地發揮智能潛力。
機器作為人類的擴充
基於這些思考,人類智能的邊界其實在於如何與越來越強大的機器(這裡把機器作為各種新技術的載體)連接,把機器作為人類的擴充。對於機器智能的發展,人類當然可以發揮設計者和管理者的作用。如果不能很好地運用機器智能,人類就有可能被其控制。但是我相信,在未來,人類在很大程度上可以很好地與機器連接並利用它們,而人類的智能水平也會得到大幅提升。
機器智能躍遷的三大要素
機器智能的發展與三大要素有關:第一是認知能力,第二是學習能力,第三是處理不確定性的能力。
認知能力即對周圍環境,包括人、物及其關係的理解能力——不只是看到,還要能夠理解這裡正在發生什麼和未來可能會發生什麼。不過,擁有認知能力不等於擁有學習能力。也許機器完全能夠處理眼前的狀況,但它能夠自己學習與提高嗎?不一定。機器學習的未來發展有三種可能:第一種可能是,機器繼續在人的幫助下學習,我們通過標註一些結果、內容來訓練它們;第二種可能是,我們只通過視頻來展現動作,讓機器自己學習;第三種可能是,機器從自身生成的樣本、從自然界,或者從人類為其構造的例子中學習,並自己根據規則產生大量的例子來練習。這三類學習方法可以組合使用,來訓練包含感知、認知和行為能力的機器智能。
處理不確定性的能力則是人類最大的一個優勢。比如,你在開車時看到前方有如下場景:左邊是一個騎自行車的人,右邊是一個小孩,路上有一個球。此時,你需要判斷小孩會不會去撿球,如果去撿球的話,汽車該如何避讓,而左邊騎自行車的人會不會看到,這些都屬於不確定性。現在的自動駕駛軟體都是根據感知輸入做出確定的判斷和行動規劃的,並不能處理這些不確定性。但未來的機器需要並且能夠對這些進行處理。儘管輸入的數據中有很多是有噪聲的,但我們可以用概率計算的方式來解決。
機器是否能做到理解?
機器的認知能力在不斷增強,現在它們已經能夠識別視覺數據裡的一些東西,例如人和物體。那麼機器能否理解此時發生了什麼?讓我們來看一個例子(見圖1-1),圖中的英文字幕描述了其所在的視頻場景中正在發生什麼。這個英文字幕並不是人寫的,而是機器自動生成的,由算法產生。圖中顯示的只是一條挑選出來的最佳描述,其實算法看到了更多的信息,包括時間維度和視頻裡的空間維度,因此可以給出更多的信息。我們看到,算法挑選出來的這條字幕已經和場景非常相關了。比如,當只看到一個人的時候,它會描述成「一個人在講話」;當看到PPT的時候,它會描述成「一個人在演講」;當看到下面觀眾的時候,就轉而描述成「一個人在一群人面前做一個報告」。所以,機器理解環境場景裡發生了什麼的能力正在提高,而這項進展不過是在過去兩三年內實現的。
我們可以預想到在未來,人類會讓一臺機器去了解某個環境裡正在發生什麼,這些人之間有怎樣的關係,他們想幹什麼,或者說他們有什麼意圖。當機器對這些問題都有比較好的把握時,就意味著機器的認知能力已經達到了可用的水平。
關於機器的認知能力,比較關鍵的一點是它有一個完整的框架(見圖1-2)。圖中左邊是多模態信息的輸入,右邊是認知結果的輸出,底部是知識的輸入。在多模態輸入這一層,視頻、音頻和語言文字等都是機器從現場環境中觀察到的,屬於感知層的輸入信息。視覺識別、語音識別和文字識別的作用是較為真實地將當前場景數位化,使其成為語義信息。但這不包括歷史信息和機器觀察不到的知識。因此,為了讓機器能夠理解環境,我們需要給它連上知識庫和歷史信息,把它看不到的東西加進來。這樣機器才能夠從多模態的輸入中融合已經看到過的信息和知識,並加以分析,最終達成對場景的理解。多模態的信息融合和知識圖譜整合的框架對於機器認知的發展是非常關鍵的。關於其中使用的各種算法的選擇和發展,許多人類算法工程師發揮了巨大的作用。
機器的認知能力可以支持哪些功能呢?第一點,它可以直接把視頻內容(原來是像素和顏色)轉化成文字,代表語義,這樣就可以進行搜索了。第二點更為重要,它能進一步生成新的語義網絡的關係,支持視頻內容的問答。例如,你可以問它「這裡面有沒有人在房間裡做報告的部分」,它會幫你找出來。最重要的第三點,就是視覺關係理解。機器可以在不同的視頻之間尋找相關性,具有查找相似性的能力,並且可能產生記憶。
從上面的討論可知,知識圖譜對於機器智能的發展非常重要。一方面,我們可以給機器輸入固定知識,例如常識和穩定的領域知識。另一方面,機器也可以自己構建知識庫。機器人的深度攝像頭可以看到顏色,也可以看到深度。它在一個環境裡繞一圈,就能給這個環境建立一個三維的場景地圖,同時也可以利用顏色數據識別出場景中的人、物體、沙發、牆壁等,從而建立起這個環境的空間知識庫,再加上隨時間推移記錄下來的人物之間的運動和交互關係,就構成了這個環境的動態知識庫。如果未來人們生活的每個房間、每個場所都有這樣一個動態知識庫存在,那就會形成一個高度簡潔、可搜索的數位化世界。這個世界與現實世界的關係不是一種在像素級別的一一對應——不是說這兒有一棵樹,數字世界裡就有一棵所有細節都存在的樹,而是一種對現實世界高度抽象的描述。
接下來的一個問題是:如此大量的知識要怎麼存放呢?想一想,人類的大腦能存儲多少知識?其實不是很多。例如,我的腦中有一些與IT相關的知識,卻放不下多少金融知識和醫學知識。但這對機器而言是可能實現的。全部的人類知識可以分成兩大類:第一類是穩定知識,包含通用知識和領域知識。通用知識是人們從小學開始學習的不變的知識,領域知識則是從大學開始學習的分專業的知識。這些都是比較固定的知識,可以自上而下地構建知識圖譜。第二類是動態知識。這類知識不是在常規學習過程中學到的,而是隨著整個社會場景發展,甚至是隨著人的不同而改變的。想像這樣一個場景:當一個機器人或者一輛無人駕駛車在為客戶提供服務時,根據它服務的個人或家庭的不同,它會習得截然不同的知識。這些就屬於動態知識。動態知識還包括群體性知識。40多歲的人的知識範圍,與十幾歲的人完全不一樣。不同地域的人,他們的知識範圍也是不一樣的。動態知識是自下向上動態構建的,並且在不停地更新。
機器可以涵蓋全部這些知識,但在信息世界中,這些知識不可能都存放在終端內。一是有一些在雲端,有一些在終端。因為在服務具體個體的時候,考慮到網絡延遲的影響,將所有知識都存放在雲端的話,響應度是不夠的。這時,我們就要充分利用通信和網絡技術發展帶來的好處了。你可能聽說過邊緣計算,它指的是在5G時代可以很好地利用接入網的邊緣加入計算和存儲的功能。於是我們可以把知識按照訪問需要分布式存放在雲端-邊緣-終端內。雲端存放全部穩定知識,終端和邊緣存放部分穩定知識與全部動態知識。那麼我們要如何在終端、邊緣和雲端存放知識?以下三個例子會幫助你理解。
第一個例子與自然語言交互相關。你家裡可能會有一臺小的智能音箱,它通過語音交互幫你提供一些信息。這其實是調用了雲端的服務來實現的。有時你會感覺它的響應速度有些慢,這是因為碰上了網絡慢的情況。處理請求要從家裡的小音箱到達雲端的伺服器(通常有幾十、數百公裡的距離),網絡速度慢的時候,整個交互過程當然會變慢。如果將你的服務部署在距離你只有幾公裡遠的邊緣伺服器上,從而進行快速處理的話,那麼響應速度會大幅提升。第二個例子與地域性相關。通過邊緣計算,我們可以創建與各地方言相關的語音服務和知識庫。第三個例子與場景相關。就拿基於語音的生活服務來說,在北京提供服務的知識庫和四川、廣東的肯定不一樣。比如大家都說要吃辣一點的菜,然而每個人所指的辣度是不一樣的。這就是與地域性相關、與場景相關的知識,最適合用邊緣計算做服務,具體方式是增強與地域人群的相關性,也可以增強服務的適應性。
機器學習的方式
目前,機器學習的常用方式有四種。第一種是無監督學習,需要機器自己去發現數據之間的關係,主要用於聚類。第二種是監督學習,需要有人告訴它這個是什麼,這類是什麼。打上標籤以後,機器可以通過訓練把這個中間的識別過程用模型表示出來。第三種是自監督,關聯學習。機器不需要人教,而是通過觀察幾種對象的相關性、前後的因果關係,自動生成一些關聯。比如說打方向盤時,車輪就會轉,前置攝像頭看到的景象都會偏移。關聯學習就會發現其中的關係。第四種是強化學習,機器會通過跟環境交互,觀察按照當前模型決策產生的一些影響,來優化動作序列或者決策序列。在機器學習過程中,它們會根據數據特點和應用需求來具體問題具體分析,融合使用這幾種機器學習的方式。
【來源:新聞晨報】
聲明:轉載此文是出於傳遞更多信息之目的。若有來源標註錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯繫,我們將及時更正、刪除,謝謝。 郵箱地址:newmedia@xxcb.cn