前文我們提到過,支持Siri語音助手的iPhone手機硬體和AI沾不上邊,但用於實時處理Siri信息並反饋結果的終端側(On-device)卻需要前瞻的機器學習技術。換句話說,這是一種AI在雲端的表現。而真正將雲端AI優勢照進現實的,還是谷歌AlphaGo所表現出的精湛棋藝。
AlphaGo的逆天棋藝
在過去,AI對普通大眾總是「只聞其聲」,和我們的生活似乎沒有太大交集。然而,谷歌AlphaGo卻通過在圍棋應用上的表現震驚了世人(圖1),讓我們認識到AI真的能在特定領域比人腦更聰明。
2016年3月,AlphaGo與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝;2016年末2017年初,該程序在中國棋類網站上以「大師」(Master)為註冊帳號與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績;2017年5月,在中國烏鎮圍棋峰會上AlphaGo又以3比0的總比分戰勝世界圍棋冠軍柯潔(圖2)。
要知道,在AlphaGo以前,其他軟硬平臺的人工智慧在圍棋領域連業餘六段左右的選手都贏不了!
AlphaGo的AI源動力
AlphaGo更「聰明」的秘訣,在於它改用了一種針對機器學習優化過的處理器(圖3),而谷歌則將其命名為TPU(Tensor Processing Unit,張量處理單元)。據悉,TPU相較於傳統處理器有著7年的領先優勢,其寬容度更高,每秒在晶片中可以擠出更多的操作時間用於更複雜和強大的機器學習模型,並將之更快的部署。
去年AlphaGo在和李世石對局時,使用的還是1202個CPU和176個GPU組成的集群。而與柯潔對弈的AlphaGo版本卻只需一臺物理機上的4個TPU晶片(圖4),每顆TPU的功耗也僅有40W。換句話說,短短一年,AlphaGo就將所需計算的資源從1202顆CPU和176顆GPU壓縮到4顆TPU,功耗更是縮減到千分之一!
目前,TPU已經服務於許多谷歌的應用中,包括用以改善搜尋引擎結果關聯度的RankBrain,以及在街景服務(Street View)改善地圖與導航的精確度與質量等等。此外,谷歌還表示TPU僅僅是現有處理器針對AI的有效補充,它依舊需要運行在現有的CPU+GPU平臺上,所以並不會直接與英特爾或NVIDIA進行競爭。
擴展閱讀:ASIC和FPGA是什麼
目前用於AI的晶片除了CPU和GPU外,還包含ASIC和FPGA兩大分支(圖5)。其中,FPGA(field programmable gate arrays,現場可編程門陣列)和GPU又稱通用晶片,前者被微軟、英特爾和Xilinx等企業青睞,百度雲、阿里雲、科大訊飛的語音識別服務等也都是基於深度學習FPGA晶片所搭建;ASIC(Application Specific Integrated Circuit,專用集成電路)的優勢是更專業,有著更高準確率和更低功耗,而且成員最為豐富,本期話題中涉及的谷歌TPU、蘋果A11、寒武紀的A1都隸屬於ASIC,只是ASIC算法框架尚未統一,所以旗下的各位成員還都處於各自為戰的階段。此外,IBM推出的TrueNorth則是類腦晶片(BPU),潛力甚至要高於其他對手。
源於雲端的物理限制
AlphaGo雖然擁有強大的AI能力,但它卻擺脫不了一個先天制約:依託於雲端的它,需要覆蓋足夠廣、速度足夠快的網絡支持。當你與AlphaGo下棋時,只要拔掉網線(或是關閉無線路由)(圖6),好吧,哪怕你是準高級選手都有機會戰勝AlphaGo,證明你有著比柯潔還要厲害的棋藝。
無處不在的雲端AI
實際上,AI早已融入了我們的生活,只是它們和AlphaGo一樣都是生活在雲端,和本地化設備關係不大,所以我們總是選擇性的將其忽略。
前文我們說過,想玩AI,數據、算法和計算能力缺一不可。因此,國內真正能打包全要素的AI玩家多是以BAT(百度、阿里、騰訊)等為代表的網際網路巨頭。只要你在使用這些公司的服務,那你就已經在默默地接受AI的「饋贈」了。
比如,百度推出了對話式人工智慧系統DuerOS、下一代汽車平臺阿波羅計劃,並輔以百度大腦和智能雲;阿里巴巴將AI業務納入阿里雲體系,先後推出了智能私人助理阿里小蜜和無人商店淘咖啡;騰訊設立AI實驗室,主要布局遊戲、社交和內容業務,比如圍棋AI「絕藝」等。
此外,京東旗下的Alpha智能服務平臺則算是技術+服務+渠道的一站式智能解決方案代表(圖7),能幫助傳統音頻企業最大限度降低物聯網硬體開發技術門檻和研發成本,輕鬆打造具備一定AI交互能力且具備聲紋識別的智能音頻類產品,CFan本期評測的叮咚2代智能音箱就已具備了AI的雛形。
將語音交互作為AI研究方向的還有暴風TV,其最新推出的智能電視全部內置AI助手「暴風大耳朵」功能,憑藉AI遠場語音和AI信息流兩類黑科技可更深度地理解上下文,與用戶進行多輪對話並支持聲紋識別(圖8),哪怕沒有遙控器也能進行複雜的資源查找、點播服務和語音交互。
再比如,今日頭條之所以能實現千人千面的封面選擇,同樣是利用AI進行用戶畫像、自然語言理解和協同過濾步驟,用低成本去挖掘用戶需求,然後進行內容聚合從而得到智能匹配的個性化推薦方案。而頭條推出的集成自然語言處理、視覺圖形處理和機器學習技術的寫稿機器人也是令人印象深刻。
總之,人工智慧將是未來20年甚至50年的長期發展技術,不可能有一家公司可以通吃所有領域的AI。換句話說,下棋的AI不能用於汽車的無人駕車、用於人臉識別的AI也不擅長進行深度語音識別和交互。在這種大環境下,參與AI競爭的企業誰都有可能做到各領風騷多少年,只做擅長的細分領域,機會誰都有。
AI在面部識別上的應用
適合AI的領域有很多,但真正與我們密切相關,或者說享用成本最低的,只是語音識別(交互)和面部識別等少數領域。
以面部識別為例,最經典的AI案例就是百度尋人平臺(xunren.baidu.com)(圖9)。2017年5月23日,百度CEO李彥宏在第十二屆百度聯盟峰會上分享了一對七旬老人,利用一張身份證照片找到走失8個月兒子的真實案例故事。
百度尋人平臺的運行原理是運用人臉識別技術,將用戶上傳照片與丟失人口資料庫中的照片進行相似比對,根據相似程度對人臉的身份信息進行判斷。然而,影響人臉識別的因素太多,比如光照、人臉姿態、遮擋程度、跨年齡的變化等等。而AI在該平臺的最主要應用則是,用200萬人2億張人臉圖片進行訓練模型,然後用少量的跨年齡數據對它做更新。在沒有引入AI之前,利用照片尋人就是個笑話。
此外,小米手機MIUI系統也曾主打過面孔相冊功能(圖10),極大地提高了用戶在茫茫手機相冊中找人的效率,而小米也曾表示小米人臉檢測算法團隊研發的新算法在FDDB人臉檢測準確率榜上取得排名第一。問題來了,想開啟小米手機的面孔相冊功能,必須登錄小米ID,並打開雲相冊功能(圖11),需要將所有照片上傳到雲端伺服器,最終實現在雲相冊照片內容中按照面孔進行分類整理。
無論是百度尋人平臺還是面孔相冊功能,它們的流程都是用戶提供數據(照片),然後利用雲端平臺的算法和強大的計算能力,實現與數據匹配照片的篩選,支付寶的人臉驗證也是類似的原理 (圖12)。可能有同學會問了,無論是iOS、Android還是Windows,似乎都有支持根據人臉分類的相冊APP啊?面孔相冊一類的功能有什麼可吹的?
這就是本地計算與雲端AI計算的差異所在了。大家可以自行下載一下此類軟體,無論是人臉的識別準確率還是篩選速度,表現都是極為勉強,遇到側臉、遮擋和時間跨度(年齡),識別率更是低得嚇人。
那麼,為什麼本地相冊無法實現快速和精準的人臉識別?要知道,將照片傳到雲端又會出現安全風險(隱私照片被洩露)。沒辦法,前文我們已經說過,別說是智慧型手機,哪怕是強如i7-7700K+GTX1080獨顯的臺式機,在進行AI運算時也是力不從心。
好消息是,隨著蘋果A11和海思麒麟970處理器平臺的出現,AI終於有機會實現從雲端落地的夢想,曾經很多必須藉助雲端伺服器才能確保效率和準確性的功能,在沒有網絡加持下依靠手機本地的運算能力也能搞定!