「沒有任何技術是100%準確的,對技術創新不能求全責備,只有包容的態度,技術才能真正的發展。」
「當效率真正提升時,那些並不是最頭部的應用也必須得逐個解決,這是人工智慧深入行業最關鍵的。」
「人工智慧細分場景和細分應用非常多,我們一定要去擁抱一個開放共創的生態,我們要的不是一棵獨木,而是一片森林。」
上周,盛況空前的2020年世界人工智慧大會在上海完美上演,商湯科技從深度、廣度和厚度層面全方位支持大會成功舉辦,演繹大愛(AI)無疆的「三部曲」。7月10日,商湯科技聯合創始人、執行長徐立作了題為「人工智慧創新策源力」的主題演講。
徐立認為,包容、長尾應用和開放,是人工智慧創新的三個策源力。而這背後的根源,是對人工智慧認知的提升。這也延續了他在去年世界人工智慧大會中關於「人工智慧發展觀」的話題。(詳情可點擊文末文章圖文超鏈《人工智慧發展觀——傳承與創新》閱讀)
如下是徐立的演講內容,商湯君在這裡完整分享給大家:
技術試錯創造增量價值
大家好,歡迎來到「大愛無疆·致遠」商湯人工智慧企業論壇,非常有幸在今年這樣的情況下,依然能夠繼續和大家在線上及線下一起討論人工智慧,討論人工智慧的創新策源。
首先,我們討論一些技術以外的東西,上海要打造人工智慧發展高地,要做人工智慧的創新策源地,那麼究竟有哪些要素是真正推動創新策源的創新力?我今天的演講題目是「人工智慧創新策源力」。
奔跑的馬
創新很多都來源於藝術。下面這幅畫是疫情期間,我家小朋友畫的一幅馬。當看到這幅畫的時候,我就立刻覺得有點不對。實際上沒有一匹馬是真實像這樣四蹄騰空奔跑的,一般只有兔子會這麼跑,雖然有些馬也叫「赤兔」,但說的並不是這個意思。
我立馬指出這個問題說馬奔跑的姿勢不對。可是小朋友說,不是,馬就是這麼奔跑的。所以,出於好奇我就去網上搜索奔跑的馬,然後就搜到了一幅名畫,《昭陵六駿圖》。
下面這匹也是四蹄騰空的馬,是唐太宗的六匹戰馬之一。事實上,以四蹄騰空這種形式畫奔馬的,歷史上大有人在,著名的畫家郎世寧,還有各式各樣的中西方油畫,不少都以這種方式來展現奔跑。
為什麼當時會有這樣畫法?實際上這是大家對奔跑的馬認知程度不夠所造成的。
這個問題也不是我第一個研究的,1872年,歐洲攝影家Muybridge就提出了疑問,所以他用攝影技術連續拍攝了12幀奔跑的馬,第一次向世人揭示了馬是怎麼跑的。馬奔跑過程中,並沒有一個四蹄騰空的狀態,也就是說之前的人都畫錯了。
但是,這些錯誤的探討、錯誤的繪畫,並沒有給藝術帶來局限。反倒是說像我們的昭陵六駿,從牆上的浮雕、石碑,再到最後的畫卷,是真正意義上推動了寫實繪畫風格。直到今天,中國畫馬第一人許勇的馬還是對昭陵六駿寫實畫風的傳承。錯誤了沒有關係,錯誤的概念在這個過程中得到理解,並且正確的部分被延伸下來,就會對後世產生影響。
我想說這種探索,就像胡適所講:怕什麼真理無窮,進一寸有一寸的歡喜。
創新不能求全責備
每往前邁一步,就相當於有更多東西能夠沉澱下來。人工智慧,其實面臨著一個與畫馬相似的過程。
2011年,當我們在語音識別領域取得巨大突破的時候,行業裡很多人說人工智慧深度學習在語音中的成功只是一個巧合。
2013年,當人工智慧真的在圖像領域大放異彩時,業界討論最多的卻是人工智慧、深度學習是不是過熱了。
伴隨著質疑聲,我們看下谷歌趨勢(Google Trends)對於深度學習熱詞的搜索,下面圖裡的曲線代表了業界對人工智慧的熱衷程度。2013年時還只是個小高峰,而在這之後,深度學習人工智慧才正式意義上進入了大規模的爆發,並且影響到各行各業,這都是在質疑聲中發生的事。
同樣,行業中一個標杆性的案例——人臉識別,也一路受到類似質疑。作為解鎖和認證的一個手段,大家會討論人臉識別的準確率是不是足夠:人臉識別很容易就誤識,長得很像的弟弟能不能解鎖自己的手機……我相信這些質疑,大家都不絕於耳。
我們要做技術,推動創新,其實對它的態度不能是求全責備,沒有一個技術是100%準確的。我們只有以一個包容的態度去認可技術的時候,它才有真正的發展。
以商湯為例,我們今天已賦能4.5億臺手機的人臉解鎖功能,覆蓋幾乎中國所有手機品牌,日均人臉解鎖次數達到300億次,大家已經默認人臉能代替密碼;在酒店大堂等很多需要認證的地方,商湯總共有20多萬臺智能設備在線為大家提供服務,每年酒店入住超過3億人次,我相信,很多人都已經習以為常了,在各式各樣的試錯發展過程中,我們發現這些應用已經被普羅大眾所接受。
當人臉識別精度不再成為被質疑的點,去年我們又迎來各式各樣新的討論。包括:用3D人臉面具去仿冒一個人來解鎖,還有用視頻生成的方式是不是真能夠忽悠機器解鎖。人工智慧真假鑑別能力的問題又引起大家一番討論,而就在這樣的質疑當中,更多城市級別的應用發生了。
比如我們的地鐵刷臉乘車方案,在鄭州、西安、哈爾濱等多個城市,已經大規模推出了刷臉支付乘車,現在的技術已能夠解決城市級別的應用。
可以看到,在技術試錯的過程中,每一步的試錯都會帶來增量的價值,我認為這是驅動創新的一個重要因素。
長尾應用完善價值閉環
簡單的圖像,複雜的世界
接下來,我們看另外一個例子。
這是商湯辦公樓下的一張照片,行人熙熙攘攘。如果用行人檢測算法,我們能夠把圖像中所有行人都有效標識出來,好像已經對這張圖像進行了充分的解讀。
但是,如果要真正對圖像中所有事情都進行分析,我們發現世界遠遠要比這個複雜——所有的物體、行人、交通信號燈、指示牌組合在了一起。這樣一張簡單的圖片、日常生活中的普通圖片,都會有數百種單一的物體和場景的識別,更不要說理解這些物體、場景之間的關係。
簡單來說,我們要判斷一件事情,比如判斷一個人在騎摩託車,我們需要檢測人、摩託車和地面;如果是人在停摩託車,我們需要檢測人在摩託車邊上,在馬路邊上。如果一隻鴿子在天空中飛,那它是信鴿;鴿子在盤子裡,可能就是一隻乳鴿。
所有這些關係是要通過把物體和物體之間關聯起來。著名工業設計師凱瑞姆講過:一個人平均每天要接觸到600多個物體。而現代漢語辭典中,總共有1萬多個名詞的物體,種類非常多。如果我們只考慮以上例子中那種三個要素的結合,也要處理3500多萬種可能性,也就是說對於一張現實生活場景中非常普通、簡單的照片,也需要分析千萬級別可能性,才能對它有一個基礎的解讀。
舉個例子,下面這張照片中,我們能夠用行人檢測算法把行人都檢測出來。但是,如果作為一個智能城市的檢測案例判斷行人有沒有翻越欄杆,我們就需要檢測關係,人的持續動作、欄杆、地面,才能真正識別出來這是一個攀爬的動作。所以,這樣一個簡單的應用,牽扯到的複雜度就已經非常高。
事實上,我們現在在城市管理的各個細分場景中,推出了很多類似這樣的場景理解、識別的算法模塊,它能夠解決我們日常生活中各式各樣的問題,深入到城市的每一個毛細血管中。
人工智慧深入行業最關鍵的點是什麼?
下面再舉兩個例子。
共享單車前幾年非常火,但也隨之帶來了單車停放和管理的問題。2017年,共享單車初露端倪時,有人曾估計會帶來接近3.5萬個整理單車的額外工作崗位,假如共享單車呈指數級提升,可能會有數以十萬計的工作人員需要每天去處理這些共享單車的停放問題,包括停放位置是不是違停,是不是傾倒等。
其實,我們用上面所介紹的方法,就能夠解決共享單車的停放監管問題,能夠識別它的違停,可以檢測車和車之間的關係,車和停放區域的關係,車是不是停成整齊的一條線等。
再看另外一個比較有意思的例子,這個可能是二三線城市會遇到的問題,糞車偷排。很多糞車找到一個井蓋,沒有停到固定的位置上就進行偷排,對環境汙染非常嚴重。當我們要解決這個問題時,需要解決糞車和井蓋的檢測、井蓋異常的檢測等。
可是,我一直問我們同事一個問題,車停在那裡,怎麼知道它到底是抽還是排呢?我們根本看不到管子裡面的情況。但我的同事跟我解釋,其實根本不需要,只要是有井蓋異常,並且糞車在那停的時間過長,在不該停車的地方停了,就是一個違規報警——把時間維度放到這個問題裡。
我們的算法可以把時間、地點、人物關係串聯,使我們真正能夠解決這些城市管理中長尾的、細小的應用。
接下來看一下商湯在上海長寧區做的一網統管的案例。
一個是關於共享單車的,另一個是亂扔垃圾的,大家看一下視頻。
第一個案例中,記者去模擬了一次共享單車的亂停放,僅12分鐘後這個違規行為就從發現到被志願者解決了。亂扔垃圾的案例中,藉助一網統管,志願者們也只用9分多鐘就完成了從發現到處置的整個過程,當然我們也可以看到上海市民素質還是非常高的,在人工智慧發揮作用之前,就有人工已經先發揮了作用。
各式各樣的細小應用,也隨著疫情的延伸出現了新的變化。
看一下西班牙,疫情期間政府限制大家出行,但因為有時寵物需要出門,所以只允許遛狗可以上街。因此,當地出現了各種各樣的花式遛狗,有溜玩具的、遛行李箱的,甚至借鄰居的狗去溜的,所以這個過程中就需要城市治理有一個「狗只」識別功能。目前,我們的系統中有一個大型犬只是否系狗繩的識別,並且能夠判斷是不是狗。
右邊的圖是我們進行識別之後的,可以判斷第一個是溜螃蟹,並不是狗,其他三張圖片中的狗都被正確識別出來。事實上,算法還能解決識別不同類型的犬只。城市綜合治理接下來要解決狗只上牌的問題,我相信在這方面算法會起到很大的作用。
當然算法也不是無所不能的,也會有一些特殊的案例:這個看上去非常像狗的動物,其實是人假扮的。可能在這種情況下,我們對算法還需要有一些容忍度。
以上講到的這些應用在日常生活中都是比較小眾的,垃圾拋灑、糞車偷排、違停、遛狗。但是,長尾的這些應用才是真正完善價值閉環的核心。
什麼叫長尾應用?像人臉識別、行人識別這些大家關注度高、應用頻率非常高的我們叫頭部應用,就像下面這隻恐龍的頭部。但是,還有剛才提到的那些應用頻次比較低的,像恐龍的尾巴,就叫長尾應用。我們認為,最核心的部分一定是要把長尾應用的性能進行突破,才真正形成了價值閉環。
我們說人工智慧可以代替我們做很多工作,很多人覺得人工智慧如果能夠控制小區安全出入,它就能代替保安了。但是,它只是代替了保安的一個功能。保安可以做很多事,可以巡視、可以代收快遞,如果只取代一個出入管理的功能,人工智慧是永遠沒法勝任一個完整的保安工作的。
當效率真正提升時,那些並不是最頭部的應用,也必須得逐個解決,這才是人工智慧深入到行業最關鍵的一點,長尾的應用才能夠完善價值閉環。
開放共創生態
人工智慧生成內容的那一天會來得非常快
下面我們來看一張廁所的照片,這張照片有什麼不妥的地方嗎?對,就是廁紙的位置,上廁所時,廁紙在這麼遠的地方,是不是有些奇怪?
看一下這個是怎麼來的,右側這個框是我們的算法框架,叫MMEditing,可以任意移動圖像上的物體進行編輯,比如改換地毯的位置。試想一下,如果未來這些編輯能夠有效地把圖片和視頻中的東西移到你想要的任何位置時,人工智慧能夠生成內容的那一天,其實會來得非常快。
這些技術的實用價值還有待進一步挖掘,但是人工智慧真的還能做更多有意思的事情。
比如MMEditing框架,能夠實時從大家跳舞的動作中抽取骨架,並且是一個穩定的骨架搜索。那麼我們在做運動的時候,就可以很精確地把骨架進行分析。下圖中間是一名冰壺運動員在清理地面時的一個動作抽取,當這些問題都能很輕鬆地提取結果時,我們很多的運動分析和判斷都能夠通過機器來完成。
還有一些語義上的編輯,比如說要生成一隻貓,上面最右側的圖片是我們用GAN算法生成的。生成這隻貓的過程中,我們現在可以加入很多語義的控制量,比如讓貓大一點,貓頭大一點,耳朵長一點,眼睛大一點,這些諸多變量的變化都可以通過語義來控制生成的過程,並且是用一個解析的方式真正地完成貓的生成過程。
試想一下,除了剛才編輯真實的內容之外,我們還可以在環境當中去生成我們任何想要的,比如卡通人物照片裡面的臉形、眼睛的大小、髮型的變化,都能夠通過語義的調節來進行新的生成。
還有PS照片,對於單張照片我們可以比較容易通過各種軟體進行編輯,對於實時的視頻,我們現在也可以很輕易地做到這一點。用這樣一個簡單的方法,就能把你不想要的東西給清除了。
在拍攝的視頻場景中,如果有一些不小心進入畫面的人或物體就可以輕易地給抹去。未來,人工智慧能夠很便捷地大規模生成各式各樣符合觀眾習慣的視頻和內容。
開源框架OpenMMLab
以上提到的這些都是在一個框架中,一個開源的框架,叫OpenMMLab。MM代表的是多媒體(Multimedia,不是MingMing,也不是MeiMei),解決的是多種媒體的融合。
1個算法的框架,10多個研究垂直領域,100多種算法和600多種預訓練的模型,商湯和香港中文大學-商湯聯合實驗室一起推出了迄今為止最完備的算法體系和框架。
我們從2018年10月份開源第一個框架算法到現在,兩年多時間,已在GitHub收穫了16895個星標,是全中國所有開源框架當中星數最多的。除此之外,我們還會有更多的這樣框架上線。
雖然我們開源的時間只有短短兩年,但任何一個框架都經過了非常長時間的積累。
以圖像編輯來說,我們在2014年時推出了全世界第一套用深度學習做超解析度的框架,放到了MMEditing中。
今天,我們累積了大量的學術論文和學術成果,讓這套框架開源,使得很多學術的比較、最好的最先進的算法框架的實現,都能夠在其中完成,讓研究人員能夠更好地與傳統算法做比較,和最優秀的算法做比較,讓工業界能夠很快地上手去完成第一步的啟動。這是我們推出開源框架的一個核心的作用。
很多時候,大家如果要去找一棵大樹的時候,都會想到去森林裡面找,所以人工智慧也是一樣。人工智慧的細分場景和細分應用非常多,我們一定要去擁抱這樣一個開放共創的生態,我們要的不是一棵獨木,我們要的是一片森林,所以最關鍵的一個創新驅動力叫做「開放」。
總結:人工智慧創新的三個策源力
我們來總結一下剛才所講三個創新策源力。
第一,我們要做的是包容,我們不能對算法求全責備。
很多人可能會問這樣的問題:我要檢測某個場景下的問題,準確率只有80%,能不能使用?
其實,我們可以換一種角度思考,它不是丟掉了20%,是檢測出了80%。還以剛才的糞車偷排為例,如果這套系統上線,準確率只有80%,但卻能把八成的糞車偷排檢測出來,實際上已經很大推動了行業的變化。可能大眾的觀點還在於說依然有兩臺車沒有被檢測出來,但這就是隨著時間的推進,有了這樣的一個包容過程,才能夠真正起到迭代的價值,就好像那匹四蹄騰空的馬。
第二,我們要解決長尾行業應用的實現。我們不能再只聚焦在頭部的應用中,人工智慧不能只為一個亮點、解決一個核心的問題,真正要做到效率的提升,是需要我們把大量的細節問題給解決,魔鬼在細節中。
第三,我們要的是一片森林。我們需要各種各樣的生物,需要開放創新,這也是我們邁出的第一步,我們開源了這樣的算法框架,未來會引入更多的生態系統來共同完成。
但是,真正能帶來創新的一個核心根本,我認為是對人工智慧認知的提升。為什麼會容錯?為什麼知道怎麼去影響長尾,為什麼能夠產生生態,這還是一個認知的問題。
1885年當福特造出第一臺汽車時,很多人嘲笑是個怪物,因為它只能跑15公裡每小時,還沒有馬快。這樣一臺造價又貴,跑的還比馬慢的東西,誰會要?如果當時就停止發展,我們今天也不會有跑在汽車上的時代。
所以,對於這些事情的認知,大家不能當成是洪水猛獸。蒸汽機剛出來的時候,很多人都認為它是一個Killing machine;交流電誕生,愛迪生用交流電電擊小動物宣傳交流電的危險;對於這些事情,我相信大家都會覺得當時如果就停在那裡了,就不會有我們這個時代。
在幾天前的世界人工智慧大會主論壇上,張文宏醫生不是搞人工智慧的,但他也指出未來人工智慧在醫學當中的發展方向——怎麼樣打破數據孤島,由數據來做決策。
現在,普羅大眾,就已經有這樣對人工智慧的認識,各個行業裡都能夠知道怎樣去用人工智慧改造了。
有一天,我打車堵在路上,滴滴的司機就和我說:其實有很好的辦法管理交通,你想每天上下班開私家車的人,上下班的路徑是一致的,所以只要把那些私家車和他們每天的路徑識別出來,就知道每天直行的車有多少,拐彎的車有多少了。之後根據這些信息控制一下紅綠燈,讓直行車多的先走,是不是整個交通就會變得很好?我聽了之後非常詫異,這是一個滴滴司機給出的人工智慧怎樣去解決交通問題的一個思路。
所以技術要真正的進行變革,要進行創新策源,在於技術怎樣去提升普羅大眾的認知,只要普羅大眾能夠理解到這個技術是怎麼樣改變行業的,那麼它就一定能深入到各行各業當中去。
這是《昭陵六駿圖》的馬,每一匹奔馬都是以一種飛馳的狀態在天上騰空,它推動了我們的寫實畫風。世界各國各式各樣的奔馬也都是以這樣有意思的模式來推進,這些畫風的傳承才帶來了今天寫實的繪畫藝術。
最後我們用MMEditing算法把這個馬的馬腿變得正常了,我也希望我們這個開源的方式,開源的生態,能夠促進行業的整體發展。
謝謝!