年度訂閱用戶可加入科技英語學習社區,每周科技英語直播講堂,詳情查看「閱讀原文」
2017 年 12 月 29 日,Facebook 與麻省理工學院計算機科學與人工智慧實驗室(CSAIL)合作公布了一個帶有標籤的大型視頻數據集 SLAC(Sparsely Labeled ACtions),包括了 200 個動作類別、52 萬個未剪輯的視頻以及 175 萬個剪輯注釋,另外 Facebook 也表示,使用這個框架注釋剪輯(annotating a clip)平均只要 8.8 秒,相較於傳統手動剪輯、動作定位的方式,能夠省下 95% 的標註時間,可幫助研究人員更快速、有效率的訓練機器識別各種動作。
圖|Facebook 公布的 SLAC 數據集用於訓練 AI 識別動作,像是除草、貼壁紙、使用划船機健身器材等一連串的動作。(圖片來源:Facebook)
參與這項計劃的 Facebook 研究科學家嚴志程在他的 Facebook 帳號上表示:「SLAC 不只是為動作識別提供了一個新的基準,也是一個能夠有效預先訓練視頻模型(pre-train video models)的大型數據集,之後通過遷移學習轉到小規模的數據集上,只要經過微調就能取得很好的效果。」
而這也是繼 Google、IBM 之後,又有一家 AI 巨頭公司公布了視頻數據集,希望讓機器能夠理解人類生活的動作。為什麼這些大型公司都紛紛將注意力放到了視頻上,因為對於計算機視覺技術的突破已經從靜態的圖像識別轉向到了視頻理解,甚至是希望達到人類程度的理解。
視頻理解是計算機視覺的下一個前沿
計算機視覺(CV)技術發展了數十載,在 2012 年出現了一個重要的分水嶺,那就是深度學習技術的應用及帶來的突破。2012 年的大規模視覺識別競賽(ILSVRC,ImageNet Large Scale Visual Recognition Challenge),師承深度學習之父 Geoffrey Hinton 的多倫多大學研究生 Alex Krizhevsky 以 GPU 訓練他開發的深度卷積神經網絡結構 AlexNet,贏得了該屆比賽的冠軍。
ILSVRC 挑戰賽自 2010 年開辦,先前表現最佳的系統錯誤率仍超過 25%,Alex Krizhevsky 通過深度學習將錯誤率大幅降低到只有 15.4%,這是首次有參賽者以「深度學習」架構參賽,而且還以很大的差距領先其它隊伍,因此被視為是 AI Big Bang(AI 大爆發)的起源,從此之後深度學習成了學界、行業界的主流,到了 2015 年錯誤率進一步降低到只有 3.7%,比人眼識別的錯誤率區間 5~10% 還低,2017 年冠軍的錯誤率更只有 2.3%。先不辯論計算機辨認圖片是否真的比人類更精準這個問題,但至少機器識別圖像可以說是接近相當完美。
眾多研究人員利用深度學習並在比賽上屢創佳績,若再繼續舉辦類似的比賽已無太大的意義,因此,2017 ILSVRC 以最後一屆的身份舉辦,未來對於計算機視覺技術的期待將從圖像識別、物體識別轉向其它有待突破的領域,例如計算機視覺理解、視頻理解。
像素的世界已經超過了圖片
「像素(pixel)的世界已經超過了圖片(picture),然而多年來視頻仍是機器學習研究人員面臨的挑戰」,「視頻就像是計算機視覺裡的暗數據,我們正在開始關注數字世界的暗數據問題,」Google 人工智慧與機器學習首席科學家李飛飛在 2017 年 Google Next Cloud 大會上清楚的指出。
視頻在當代人的生活中越來越重要,除了觀看之外,更通過智慧型手機、GoPro、無人機等自產了許多用戶生成內容(UGC),YouTube、Facebook、Snapchat 每日視頻觀看次數也持續升高,在未來幾年還會有許多設備增加,像是智能監控攝影機到自動駕駛汽車等,這些設備都是以相機作為感知的工具、以影像作為理解世界的入口,因此,如何讓機器看得懂視頻,對於 AI 的技術發展及商業應用只會越來越重要。
圖| Snapchat、YouTube、Facebook 是視頻的主要觀看平臺。(數據來源:RENDRFX)
生活是動詞,不是名詞
有人可能會認為,機器已經可以識別圖像了,會分辨貓、狗、汽車、紅綠燈,為什麼還需要機器看懂視頻,這之間有差別嗎?答案是肯定的。
「生活不僅是一系列的快照,是隨著時間變化在現實世界發生的事,這是關於動詞,而不是名詞,」專攻機器人感知的初創公司 TwentyBN 產品主管 Moritz Mueller-Freitag 道出重點。而 TwentyBN 利用一年的時間建立兩個視頻數據集:一是針對人類-對象互動的 Something-something 資料庫,另一則是關於手勢動作的 Jester 數據集。
他進一步解釋,深度學習近年來取得了歷史性的進步,可以在靜止的圖像中識別物體,表現不輸給人類,但是計算機理解視頻的空間和時間仍然是一個未解的問題。因為照片只是一張靜態圖片,但一段視頻則是「動作的敘述」,透露的信息包括了三維幾何、材料性質、物體持久性、重力等。
圖|TwentyBN 建立手勢動作的 Jester 數據集。(數據來源: Moritz Mueller-Freitag 的 Medium)
舉例來說,一張照片上有一個人站在路邊的角落,但是照片並不會告訴你「動作的敘述」:這個人在那邊站了多久?是呆站著還是來回徘徊?也就是說,照片可提供的資訊在某些領域或應用是不夠的,例如安防。
從事 AI 安防方案開發,並在美國市場拿下不少大型訂單的初創公司盾心(Umbo CV)創辦人關宇翔就表示,安防領域通常關注暴力行為及犯罪行為,爬圍牆、揮舞手臂等動作可能只有短短 5 秒鐘,另外,假設有一個人在人煙稀少的 ATM 附近徘徊,系統偵測他滯留過久,就會向管理者發出警報,這些都牽涉了一段時間跟連續性的動作,因此盾心在開發並訓練機器時就是同時利用照片及視頻,因為只是光靠照片作為訓練素材,開發出來的安防產品肯定不夠聰明,品質自然就不合格。
用原子動作教機器
對我們人類來說,對於物理世界的詳細理解是很直覺化的,但是在人工智慧和機器人技術的當前應用中還是有很大程度被忽略了。要突破這個發展現況,首先就是要有大量的數據,就像先前李飛飛和普林斯頓大學教授李凱發起的 ImageNet 計劃,建立一個多達 150 億張圖像的龐大資料庫。幫助 AI 理解視頻也可以採取類似的方式,需要「視頻」的訓練集。
目前有一些公開的視頻標籤數據集,像是 UCF101、ActivityNet、或是 DeepMind 的 Kinetics。不過,這些數據集主要是標註了影像的分類,而不是針對包含了多人動作的複雜場景,不過一直到 Google 公布了原子視覺動作(AVA)數據集,才將人類動作分類的更為明確和細緻。
Google 官方博客指出,識別人類動作仍然是一個巨大的挑戰,原因在於人類動作的定義不如視頻中的對象來得完善,AVA 利用 YouTube 上的公開視頻為基礎,區分出 80 個原子動作(atomic actions),例如行走、踢(一個對象/東西)、握手等等,共 21 萬個行動標籤。
圖|Google AVA 數據集利用電影、電視為基礎,區分出 80 個原子動作(圖片來源:Google Blog)
不久前,MIT IBM Watson AI Lab 公布了一個視頻數據集 Moments in Time Dataset,首先是一舉擴大了數據的規模,共有 100 萬個 3 秒鐘的視頻片段,同時深化動作的情境,涵蓋了廣泛的英語語意、以人為中心的數據,他們建立了 300 多個日常生活常見的「動詞」標籤,而且是描繪了非常具體的情境,像是化妝、瞄準、除草或是體育賽事的跳高等,同樣是採取把事情分解成原子動作的概念,希望能供研究人員使用以協助訓練機器學習系統的開發及應用。
圖|MIT IBM Watson AI Lab 公布了具有 100 萬個視頻的數據集 Moments in Time Dataset,建立了 300 個動作標籤。(圖片來源:MIT IBM Watson AI Lab )
圖|Moments in Time Dataset 數據集同樣是採取把事情分解成原子動作的概念,建立動作標籤。(圖片來源:MIT IBM Watson AI Lab )
參與這項專案的 IBM 視頻分析科學家 Dan Gutfreund 指出,這不只是標註一些基本動作如跑、走、笑而已,如果要讓機器了解差異,例如跳(jump)跟跳高(jump high),就必須考量「跳高」這一項特殊的活動,因為跳高是環繞著「跑」、「跳」、「拱橋」(arching)、「落下」到「著陸」這些基本動作的組合。
此外,這個數據集還考量到了不少獨特但重要的地方,例如,有時候你看不到動作但聽到聲音,你還是會知道是在做什麼,因此,他們也把只有背景聲音的視頻像是「拍手」的聲音放進數據集內,「這有助於開發多模的動作識別模型,」他說。
另外,就是考量標籤間的變異性(inter-label variability),例如「打開」(open),一隻狗張開嘴巴、或是一個人打開門,看起來就是不一樣,但都是同一個英文動詞,這就是所謂的標籤變異性,而這些情況就會被放進一個「開放」類別,以幫助機器理解比較棘手的動詞。
另外,也可以發現 Google AVA 和 Moments in Time Dataset 的視頻都是 3 秒鐘,Dan Gutfreund 表示,選擇 3 秒並不是隨意決定的,而是人類短期記憶的平均時間值,也就是說,3 秒雖短但也足夠長到讓人類是有意識地在處理或進行某個事件。
在商業上有很大的潛力
也因為視頻理解在商業上有很大的潛力,例如視頻平臺、自動駕駛、安防等涉及到視頻的場景都很適合通過 AI 技術做的更深入,目前已經有越來越多的企業投入,像是 Facebook、阿里巴巴、今日頭條 AI 實驗室等。
今日頭條人工智慧實驗室對 DT 君表示:「AI 在視頻理解領域正處在一個高速成長期,事實上 AI 在視頻理解上做的要比在語音識別領域還要好一些。」
頭條有很多輔助創作者創作的小工具都是依賴於人工智慧對視頻的理解,比如幫助創作者在視頻內自動選取封面圖,以及從視頻中自動選取優質的視頻段落等等。因為很多創作者上傳完視頻封面都是默認的視頻第一幀,但很多時候視頻第一幀的效果並不好,機器可以幫助選擇視頻中優質的一幀或者段落作為視頻封面。
同時,人工智慧也參與到了審核低俗視頻的工作中,因為像火山小視頻、抖音都屬於 UGC 用戶自上傳,並且每天的內容上傳量非常大,一些視頻可能會涉及到色情或者低俗,機器可以和人工結合,幫助審核,極大地提高了效率。
另外,也有不少人鎖定在運動領域,讓計算機觀看籃球、足球等比賽的影片,學習各種規則及動運員的技巧,通過深度學習技術讓計算機能夠判讀球員或球隊的戰術,同樣的,比賽也是一種涉及時間序列、連續動作的變化,利用視頻訓練會比圖像來得適合得多。
視頻理解是另一場資本競賽?
不過,教計算機如何理解視頻比理解圖像要困難得多。很多事是在一瞬間發生,人類可以通過感官快速、輕鬆地處理,但機器需要算法才能理解物理世界以及行為者所執行的無數種行為,同時,手動替視頻下標籤以及機器的訓練過程都得花上更多時間。
「視頻比較難處理,要處理的問題複雜性比物體識別更高一步,」Dan Gutfreund 說,因為物體是物體,例如一條熱狗就是熱狗,但是視頻常有許多動作,動作往往是一個複雜概念的集合,可以是簡單的行為,但也可能是帶有複雜的情緒、意圖。
阿里巴巴 iDST 首席科學家任小楓在 2017 年 10 月的 AI Frontiers 大會上就指出,淘寶的購物搜尋從最初的文字進展到影像,越來越多商家放上產品解說、營銷的視頻或是開直播,故視頻理解是 iDST 研究的方向之一,他舉了優酷的植入式廣告為例,他們內部開發了一個方案用於掃描 3D 物體,並且試圖加入視頻理解功能,有時成功但有時則不奏效。
除了要讓機器理解抽象事物本身就很難之外,還有一個實際的問題,那就是成本,視頻的數據量比圖像大非常多,如果又是高畫質影片,就得增加更多的運算資源、儲存空間,這些都是昂貴的支出。「對初創公司來說,要花更多的錢在存儲和處理計算資源上,你就必須考量成本效益,客戶願不願意買單,」關宇翔說。視頻理解就是另一場資本的競賽。
而今日頭條人工智慧實驗室對於 AI 理解視頻內容的難點也提到了同樣的看法,「相比圖像,視頻的信息更複雜,將其模型化的難度更大。其次視頻內容的數據量更大,視頻理解對存儲計算資源以及實時性的要求也會更高。」
Google 首席產品經理 Apoorv Saxena 先前接受媒體採訪時就指出,接下來就是做到通過視頻中不同的圖像、場景來描述每個場景,或是 AI 看完一部影片後總結它看到了什麼,至少目前看來是很有希望做到。另外一個就是將視頻理解與虛擬實境(virtual reality)結合,可以創造出一些有趣的突破,這是值得繼續關注的領域。
利用遷移學習擴大應用
隨著學術界及企業對於研究視頻理解的投入,這個領域已經有些進展,但研究人員和科學家想得不光只是希望機器能夠理解一個動作而已,這只是照亮暗數據的第一步而已,然後呢?
將視頻理解與遷移學習(Transfer Learning)結合就是一個重要的方向,當機器能夠有效率地識別一個行為,就希望能把這個知識轉移到另一個情境,像是當機器已經看過人奔跑的視頻,下次看到一個馬在奔跑的視頻,也要能夠理解這是相同動作,「這就是『遷移學習』,對於 AI 的未來會是非常重要,可以應用的領域像是自動駕駛、老人照護等,讓我們看看機器如何實現遷移學習,」Danny Gutfreund 強調。
遷移學習是 AI 中的一門技術,被人工智慧大牛吳恩達視為是「繼監督學習之後,將引領下一波機器學習商業化浪潮的技術。」是指把在某一個環境下已經訓練好的模型拿到新的環境下使用,而不用從頭開始做起,概念就很像是當你已經學會西班牙文,再去學英文就會比從頭學起來得容易。遷移學習的優勢一來是可以縮短開發時間,二是可能解決訓練數據不足的問題,像是手機品牌 HTC 近年來轉型耕耘醫療領域,其健康醫療事業部總經理張智威曾公開表示,內部在開發中耳炎識別模型時,因為缺乏足夠數據,所以嘗試使用遷移學習以提高模型準確率。
Moritz Mueller-Freitag 也提出了類似看法,「如何從對物理概念的理解用來提供實用的現實解決方案?我們相信可以在遷移學習中找到答案。」他進一步指出,人類很習慣用類比的方式思考或做事,通過遷移學習,我們可以把一個已經用視頻數據集訓練過的神經網絡,將其功能轉移到特定的業務應用上,或是去解決更難的複雜問題。
在真實世界中,生活不只是一系列的快照,也不僅僅是認識圖像中的動物、花朵或汽車,如果期待 AI 能夠越來越像人,或至少要達到有如人類般感知周遭一切的能力,那麼理解視頻就是第一步,至少,現在這個暗數據已經因眾多科學家投入而逐漸被點亮。
-End-