清晨溫柔的陽光伴著手機裡鬧騰的波爾卡舞曲將小編從睡夢中拉醒,透過惺忪的雙眼,小編發現今天手機鬧鈴比以往遲響了15分鐘,但小編並不慌,因為前一天晚上小編已經看到了手機主動推送的預測今天路上不堵車的提醒。
穿衣、洗臉、刷牙,開車上班,一路上聽著手機主動給小編播報的早間新聞,暢通無阻地抵達公司,果然未遲到。
到達工位上時,小編發現桌上已經放好了小編愛吃的三明治、煎蛋以及盒裝牛奶。這份早餐不是公司裡某個暗戀小編的女同事悄悄為小編準備的,而是手機在早上鬧鈴響起的同時已經在網上自動下了單,送往公司。
今天的工作需要前往咖啡廳裡做一期視頻節目的外拍,咖啡廳裡光線昏暗,記得以往都需要帶著單反、三腳架這些大傢伙上陣的,但現在用手機就可以完成原始素材的拍攝。由於內容較多,拍攝的過程非常忙碌,到了午飯時間小編都沒有在意。這時候手機裡的語音助手用她那「仿佛春風拂過瀘沽湖,秋雨浸過九寨溝」的聲音提醒小編:
「主人,我發現您從早上到中午一直在外面拍攝視頻,午飯時間已經到啦,需要我給您在隔壁的XXX餐廳定一個位子嗎?」
小編欣然接受。
完成了一天的工作,走出公司大門的小編,對著手機語音助手說一聲「我下班啦」,語音助手收到指令後邊遠程將家裡的空調打開,並控制電飯煲開始煲粥,順便提醒了小編一天沒有給女朋友打電話,趕緊吱個聲兒。於是小編先開車接女友下班,然後一路上還不停和語音助手聊著今天NBA比賽的話題……
以上,是IT之家小編設想中「我和智慧型手機的一天」,我們不浮誇也不想那些科幻的,而是思考當前人工智慧(AI)和手機結合必然會在未來實現的結果——沒錯,能夠像一個「活生生的人」的人工智慧,才是真的人工智慧,這樣的人工智慧也將會為我們的工作生活帶來巨大的變化。正因為憧憬這些即將發生的美好變化,科技公司們才會如此熱切地鑽研AI技術的發展,迫不及待地希望它賦能各行各業。
1、你真的認識人工智慧?
儘管對未來的想像如此美好且合理,但現在正在用著智慧型手機的我們,可能並不是所有人都了解人工智慧——作為機器,它怎麼就能夠像人類一樣思考了?
要解釋這個問題,我們需要先知道人類的大腦是怎麼思考的。根據科學家的總結,其實人腦的思考過程可以簡單地劃分為三步:
1、接收信息;
2、處理、加工信息;
3、輸出動作指令。
而人腦之所以能夠完成這些工作,靠的是大腦內部無數神經細胞之間的連接,這些神經細胞之間的連線形成人類一連串的動作反應,即大腦通過感覺器官接收信息,然後在腦內通過神經細胞的反覆「重新連接」進行信息加工,然後輸出信息,形成肢體反應。類似的過程一遍一遍地重複,逐漸積累,個體的能力也隨之不斷提升。
舉個例子,當你1歲的時候,看到一樣東西,它一直在搖動、是黃色的,靠近時會覺得熱,你不知道它是什麼,想要去摸它。這時候家長過來了,告訴你這是「火」,不能用手摸。在這個過程中,「一直在搖動」、「黃色的」,「靠近時會覺得熱」成為3個輸入信息,由這3個輸入信息,大腦會得到「火」這個輸出信息,這樣的一個過程會被存儲在大腦中。
接下來,當你再看到滿足「一直在搖動」、「黃色的」、「靠近時會覺得熱」的東西時,你就會知道它是「火」。但是我們知道,充分燃燒的火焰不是黃色的,是藍色的。所以下一次當你看到「一直在搖動」、「藍色的」、「靠近時會覺得熱」的東西時,你就會覺得它不是火焰,又會用手去摸。這時候,家長又過來了,告訴你這也是火,於是在你的大腦中,對火的判斷又增加了一個信息:「藍色」——這樣,距離你完全準確判斷什麼是「火」又近了一步。
如是,每重複一次就存儲一次,人的大腦就是在無數這樣的重複過程中判斷越來越穩定高效,越來越具備思考能力。這就是人腦的學習過程。事實上,人工智慧(AI)也正是遵循著這樣的學習邏輯。
人腦中,負責執行每一次上述過程的最小單位,叫做「神經元」,神經元的主要結構包括樹突、細胞體和軸突,樹突負責接收刺激信息並傳至細胞體,細胞體負責處理信息,軸突負責將處理的信息輸出到遠處的另一個神經元的樹突或者肌肉或腺體。大腦內存在大量的神經元。而人工智慧對人腦思考的模擬,就是從神經元開始。
如上,就是人工智慧模擬構造的一個「神經元」模型。其中x1、x2、x3代表輸入的信息,w1、w2、w3代表輸入信息分別對應的強度權重,這部分類似神經元的樹突,中間的部分為信號處理的過程,處理的過程就是輸入信息源和相關權重的計算,公式為:
S=x1·w1+x2·w2+x3·w3+……+xn·wn
這種加權處理的算法十分簡單,表達的只是綜合每個輸入信息可能產生的強度所形成的影響的結果,但是神經元本身的影響並沒有模擬出來,所以我們還會在這個算法後面加一個內置的閾值b,算法就成了:
S=x1·w1+x2·w2+x3·w3+……+xn·wn+b·1
好,這樣就是模擬了信號源的處理過程,接下來就是輸出了。在上面的算法中,結果可能是任意一個整數,這無論是對於計算機運算還是我們結果判斷上,都是不利的。對於正常的分類運算來說,大多數情況下我們只需要輸出一個0或1,在其他運算中,我們也更希望輸出的數字在0到1這個閉區間裡。所以,在上面的算法後面,我們會加入一個傳遞函數。
傳遞函數有很多種,這裡介紹一種比較常見的sigmoid函數,它的作用之一就是將結果映射到[0,1]之間。
這樣就構成了一個基本的神經元模型,和大腦一樣,神經網絡就是由無數個這樣的基本神經元模型構成。這就是神經網絡模擬人類大腦思考的基本邏輯,當然,這裡IT之家小編為了方便大家理解,只是儘可能將這種邏輯簡化了,事實上構造神經網絡的過程是極度複雜的。
總而言之,我們構造的人工神經網絡是模仿人類的大腦,將神經網絡轉化為一種運算模型,它由大量的節點相互連接構成,每個節點代表一個特定的函數,節點和節點之間的連接實際上代表兩者之間傳遞的信號的權重,輸出的結果則和網絡的連接方式、權重值和具體的函數的算法相關。
當我們了解神經網絡模擬人類思考的基本邏輯之後,就能夠對人工智慧的算法擁有更深入的理解。舉個例子,以AI的圖像識別為例,人工智慧如何識別下面這張25*25像素的圖片中有猴子?這是從最基本的像素開始的。我們知道所有的圖像都是由RGB的像素點組成的,一個顏色的像素由紅綠藍對應的三個值表示,就像白色的對應值為[255,255,255],對於這張25*25像素的照片來說,它的對應的像素值數字有25*25*3=7500個(圖片中為了簡便理解,簡化為5*5),這7500個數字就是我們前面所說的輸入信息,他們按照RGB分別以矩陣的形式排列,構成圖片。每一個數字代表一個特徵,這7500個數字又叫7500個特徵向量,他們被輸入時分別帶著各自的權重,神經網絡經過運算後,會輸出這個圖像中的物體是否為猴子的結果。
當然,在這之前,神經網絡的設計者已經向系統中輸入了大量的猴子或不是猴子的照片,用於讓神經網絡訓練猴子照片中像素數據的特徵,這就是深度學習的過程。基於這個系統不斷學習感知的過程,神經網絡才能更高效準確地判斷照片中的物體是不是猴子。這和人腦的學習過程是一樣的。
2、AI,顛覆的是生活方式
通過上面的介紹,我們已經了解了人工智慧是如何模擬人類大腦的,有了這樣的基本邏輯,憑藉計算機強大的運算力,AI就能夠在某一方面實現遠超人類的能力。例如2016年擊敗當時圍棋世界冠軍李世石的AlphaGo,正是通過輸入無數棋譜的數據,然後系統不斷自我訓練(深度學習),才能夠擁有超越人類的圍棋水平。
不過要講到AI能給我們普通消費者帶來什麼,回歸到我們當下的生活,最直觀的還是和智慧型手機的結合。在文章開頭,小編已經用去很大一部分篇幅為大家描繪了不久的將來,在AI加持下的智慧型手機能夠達到的境界,這些場景真的不是夢。
在介紹當前人工智慧技術能夠為手機帶來什麼的時候,我們不妨以高通驍龍移動平臺搭載的人工智慧引擎AI Engine為例,畢竟這是目前大部分安卓手機用戶能夠直接體驗到的手機AI能力。
從2015年的驍龍820開始,高通已經在驍龍平臺上實現了第一代人工智慧引擎AI Engine的商用,現在驍龍855移動平臺已經支持最新的高通第四代人工智慧引擎AI Engine。目前智慧型手機上的AI運算有兩種解決方案,一種僅是通過專用的AI晶片來處理手機運行過程中需要的AI計算,另一種是綜合運用智慧型手機CPU、GPU、DSP等核心的運算能力,讓它們共同參與到AI運算中,各司其職,各擅所長,從而實現AI能力。高通AI Engine參考了人腦的設計,選擇讓晶片中所有的核心協同工作的方式。
具體來說,高通第四代人工智慧引擎充分利用驍龍855移動平臺的異構多核可編程架構,對每個內核進行大幅優化和提升,強調整體晶片面向AI計算的高效率和靈活性。根據CPU、GPU和DSP的各自特點進行任務分配,在此基礎上第四代AI Engine還新增了一個高通自主設計、專門面向AI處理的硬體核心HTA,也就是Hexagon張量加速器,綜合實現了可編程的AI加速,帶來了AI整體性能的大幅提升。
那麼這樣的AI運算能力能夠做什麼呢?
(1)拍照
首先值得一說的就是拍照,也就是AI的圖像視覺能力,它可以讓智慧型手機實現智能拍照、人像美顏等功能,正如文章開頭小編描繪的場景,未來AI手機可以在很多場景下替代單反等傳統拍照設備,所以很多時候出去拍照就不需要背著沉重的攝影器材了。
在拍照過程中,AI能夠檢測取景的目標,然後自行調整相機參數,在拍照完成後還能夠對樣張進行噪點去除、高光抑制、動態範圍提升等優化,這些優化某種程度上來說等於大幅提高了拍攝的質量,幫助用戶拍攝出更好的照片,特別是在夜景等手機拍照的傳統弱勢環節,會有很明顯的提升。例如計算機視覺領域的公司虹軟基於高通第四代AI Engine推出的「超級夜景」功能,通過AI智能降噪、防抖等技術,使夜間拍攝的照片更清晰、細節更豐富,效果相當驚豔。未來,隨著AI技術的提升,這些優化的效果只會越來越好。
超級夜景gif,圖片來源鋒潮評測室
人像拍照和自拍美顏的功能在AI算法的加持下也會有更自然、出色的表現。在當前,人像模式拍照人物和背景的分離還無法做到單反級別的自然,而未來在AI算法的幫助下,將能實現像素級別的摳圖分離,人像模式將更加自然。至於AI美顏,在當下其實已經有很多應用。讓IT之家小編更期待的是,AI在人體美型上有更大的發揮空間,它可以讓照片中的自己擁有更完美的身材和體型,再擴展一下思維,甚至還有讓你模擬各種體型的玩法。在今年4月舉行的高通AI開放日活動中,高通就與虹軟共同展示了運用AI實現的的人體塑形功能,能夠看到AI可以對拍攝對象的體型進行優化,不僅僅是將腿拉長,將身形變瘦,而是讓照片中的人物擁有更符合自然審美的勻稱身型,顯然這背後也是AI對人類體型特徵長期訓練的結果。
Gif,圖片來自鋒潮評測室
(2)遊戲
除了拍照,AI未來在移動端的應用還有一個重要的方向,就是遊戲。按照IT之家小編此前介紹的邏輯,對於大型遊戲而言,AI可以讓遊戲人物的行為更符合自然人的思考方式,更真實,提升玩家的遊戲體驗。舉個例子,高通與vivo、騰訊王者榮耀和騰訊AI Lab合作,在vivo今年發布的iQOO手機上,利用第四代高通人工智慧引擎AI Engine的異構計算能力,開創性地將移動遊戲的AI推理能力首次大規模從雲端遷移至終端側,同時依靠iQOO強大的算力和出眾的系統優化,讓《王者榮耀》遊戲獲得體驗的升級和優化。
王者榮耀gif,圖片來自鋒潮評測室
在遊戲體驗方面,IT之家此前在針對iQOO手機進行測試時,就測過《王者榮耀》的遊戲表現,遊戲過程基本上都是穩定在60fps滿幀的狀態,幀數的波動也就大約為1幀,同時網絡連接也沒有出現明顯時延,這樣的運行狀態顯然和AI Engine智能調配系統資源有直接關係。相信隨著5G的到來以及高通驍龍AI Engine等終端側AI技術的支持,遊戲AI將會越來越智能,帶給玩家更加豐富的遊戲體驗。
(3)智慧生活
很多科幻電影都把人工智慧描繪成顛覆人類的「洪水猛獸」,但事實上,IT之家小編認為AI真正顛覆的是人類的生活方式,讓人類的生活更加便利。比如,現如今智慧型手機上加入的AI技術就正在力求便利人們的生活。
有了AI的視覺識別能力,出國的時候用手機掃一掃你就可以即時翻譯那些不懂的異國文字,AI的語音識別也可以幫你在和外國人對話時即時翻譯對方說的話,省掉一筆請翻譯的費用的同時,更無需擔心出國語言不通。目前,高通的第四代AI Engine就可以通過智能語音識別與神經網絡自然語言翻譯的結合,實現實時語音翻譯;此外,高通第四代AI Engine還可以支持實景AR翻譯,也就是通過圖像識別與神經網絡翻譯模型技術對原始圖像進行翻譯,並且翻譯的結果還能在原圖像的位置上覆蓋顯示。例如有道翻譯就與高通展開合作,推出了基於第四代AI Engine的實時語音翻譯與實景AR翻譯這兩種翻譯功能。
這些翻譯功能相信大家都有所了解,也多少使用過。其實,人工智慧在進入翻譯領域前,已經通過神經網絡對人類自然語言的習慣、規則、邏輯等進行了深度學習,隨著算法的不斷改進,AI經驗的積累,它將逐漸優化翻譯水平,翻譯結果會更加貼近人類的自然用語。
AI未來應用的一個重點方向就是要從多維度變革我們的生活體驗,虹軟、曠視科技、商湯科技等眾多軟體企業都與高通合作,基於高通第四代AI Engine,通過更為先進的算法支持更多面向語音、拍攝、遊戲、XR領域的AI體驗,並實現這些AI體驗在驍龍855終端上的應用。隨著AI技術的進步與發展,AI將更加融入人們的日常生活中,為人們帶來更加便利、智能的全新生活方式。
AI時代,同樣需要合力實現
AI能夠帶來什麼?用一個比較明顯的數據相信更能解釋它能夠帶來的價值:數據顯示,到2022年,AI衍生的商業價值將達到3.9萬億美元。這3.9萬億美元背後,必然是消費者全面擁抱AI帶來的更多前所未有的體驗,享受被AI改善的全新生活方式。我們前文所說的高通AI Engine,可以說是終端側AI的推行者,並通過與生態系統合作夥伴的共同努力,為用戶打造了豐富的用例。當一個產業鏈的能量被擰到了一根繩上,小編在文章開頭暢想的未來場景,或許就會真的到來了。