繼 Google、IBM 之後,Facebook公布行為識別數據集!人工智慧的下一個關鍵將是理解視頻,並讀懂你的行為

2021-02-24 DeepTech深科技

年度訂閱用戶可加入科技英語學習社區,每周科技英語直播講堂,詳情查看「閱讀原文」


2017 年 12 月 29 日,Facebook 與麻省理工學院計算機科學與人工智慧實驗室(CSAIL)合作公布了一個帶有標籤的大型視頻數據集 SLAC(Sparsely Labeled ACtions),包括了 200 個動作類別、52 萬個未剪輯的視頻以及 175 萬個剪輯注釋,另外 Facebook 也表示,使用這個框架注釋剪輯(annotating a clip)平均只要 8.8 秒,相較於傳統手動剪輯、動作定位的方式,能夠省下 95% 的標註時間,可幫助研究人員更快速、有效率的訓練機器識別各種動作。

 

圖|Facebook 公布的 SLAC 數據集用於訓練 AI 識別動作,像是除草、貼壁紙、使用划船機健身器材等一連串的動作。(圖片來源:Facebook)

 

參與這項計劃的 Facebook 研究科學家嚴志程在他的 Facebook 帳號上表示:「SLAC 不只是為動作識別提供了一個新的基準,也是一個能夠有效預先訓練視頻模型(pre-train video models)的大型數據集,之後通過遷移學習轉到小規模的數據集上,只要經過微調就能取得很好的效果。」

 

而這也是繼 Google、IBM 之後,又有一家 AI 巨頭公司公布了視頻數據集,希望讓機器能夠理解人類生活的動作為什麼這些大型公司都紛紛將注意力放到了視頻上,因為對於計算機視覺技術的突破已經從靜態的圖像識別轉向到了視頻理解,甚至是希望達到人類程度的理解。

 視頻理解是計算機視覺的下一個前沿

 

計算機視覺(CV)技術發展了數十載,在 2012 年出現了一個重要的分水嶺,那就是深度學習技術的應用及帶來的突破。2012 年的大規模視覺識別競賽(ILSVRC,ImageNet Large Scale Visual Recognition Challenge),師承深度學習之父 Geoffrey Hinton 的多倫多大學研究生 Alex Krizhevsky 以 GPU 訓練他開發的深度卷積神經網絡結構 AlexNet,贏得了該屆比賽的冠軍。

 

ILSVRC 挑戰賽自 2010 年開辦,先前表現最佳的系統錯誤率仍超過 25%,Alex Krizhevsky 通過深度學習將錯誤率大幅降低到只有 15.4%,這是首次有參賽者以「深度學習」架構參賽,而且還以很大的差距領先其它隊伍,因此被視為是 AI Big Bang(AI 大爆發)的起源,從此之後深度學習成了學界、行業界的主流,到了 2015 年錯誤率進一步降低到只有 3.7%,比人眼識別的錯誤率區間 5~10% 還低,2017 年冠軍的錯誤率更只有 2.3%。先不辯論計算機辨認圖片是否真的比人類更精準這個問題,但至少機器識別圖像可以說是接近相當完美。

 

眾多研究人員利用深度學習並在比賽上屢創佳績,若再繼續舉辦類似的比賽已無太大的意義,因此,2017 ILSVRC 以最後一屆的身份舉辦,未來對於計算機視覺技術的期待將從圖像識別、物體識別轉向其它有待突破的領域,例如計算機視覺理解、視頻理解。

 

像素的世界已經超過了圖片

 

像素(pixel)的世界已經超過了圖片(picture),然而多年來視頻仍是機器學習研究人員面臨的挑戰」,「視頻就像是計算機視覺裡的暗數據,我們正在開始關注數字世界的暗數據問題,」Google 人工智慧與機器學習首席科學家李飛飛在 2017 年 Google Next Cloud 大會上清楚的指出。

 

視頻在當代人的生活中越來越重要,除了觀看之外,更通過智慧型手機、GoPro、無人機等自產了許多用戶生成內容(UGC),YouTube、Facebook、Snapchat 每日視頻觀看次數也持續升高,在未來幾年還會有許多設備增加,像是智能監控攝影機到自動駕駛汽車等,這些設備都是以相機作為感知的工具、以影像作為理解世界的入口,因此,如何讓機器看得懂視頻,對於 AI 的技術發展及商業應用只會越來越重要。

 

圖| Snapchat、YouTube、Facebook 是視頻的主要觀看平臺。(數據來源:RENDRFX)

  

生活是動詞,不是名詞

 

有人可能會認為,機器已經可以識別圖像了,會分辨貓、狗、汽車、紅綠燈,為什麼還需要機器看懂視頻,這之間有差別嗎?答案是肯定的。

 

「生活不僅是一系列的快照,是隨著時間變化在現實世界發生的事,這是關於動詞,而不是名詞,」專攻機器人感知的初創公司 TwentyBN 產品主管 Moritz Mueller-Freitag 道出重點。而 TwentyBN 利用一年的時間建立兩個視頻數據集:一是針對人類-對象互動的 Something-something 資料庫,另一則是關於手勢動作的 Jester 數據集。

 

他進一步解釋,深度學習近年來取得了歷史性的進步,可以在靜止的圖像中識別物體,表現不輸給人類,但是計算機理解視頻的空間和時間仍然是一個未解的問題。因為照片只是一張靜態圖片,但一段視頻則是「動作的敘述」,透露的信息包括了三維幾何、材料性質、物體持久性、重力等。

 

圖|TwentyBN 建立手勢動作的 Jester 數據集。(數據來源: Moritz Mueller-Freitag 的 Medium)

 

舉例來說,一張照片上有一個人站在路邊的角落,但是照片並不會告訴你「動作的敘述」:這個人在那邊站了多久?是呆站著還是來回徘徊?也就是說,照片可提供的資訊在某些領域或應用是不夠的,例如安防。

 

從事 AI 安防方案開發,並在美國市場拿下不少大型訂單的初創公司盾心(Umbo CV)創辦人關宇翔就表示,安防領域通常關注暴力行為及犯罪行為,爬圍牆、揮舞手臂等動作可能只有短短 5 秒鐘,另外,假設有一個人在人煙稀少的 ATM 附近徘徊,系統偵測他滯留過久,就會向管理者發出警報,這些都牽涉了一段時間跟連續性的動作,因此盾心在開發並訓練機器時就是同時利用照片及視頻,因為只是光靠照片作為訓練素材,開發出來的安防產品肯定不夠聰明,品質自然就不合格。


用原子動作教機器

 

對我們人類來說,對於物理世界的詳細理解是很直覺化的,但是在人工智慧和機器人技術的當前應用中還是有很大程度被忽略了。要突破這個發展現況,首先就是要有大量的數據,就像先前李飛飛和普林斯頓大學教授李凱發起的 ImageNet 計劃,建立一個多達 150 億張圖像的龐大資料庫。幫助 AI 理解視頻也可以採取類似的方式,需要「視頻」的訓練集。

 

目前有一些公開的視頻標籤數據集,像是 UCF101、ActivityNet、或是 DeepMind 的 Kinetics。不過,這些數據集主要是標註了影像的分類,而不是針對包含了多人動作的複雜場景,不過一直到 Google 公布了原子視覺動作(AVA)數據集,才將人類動作分類的更為明確和細緻。

 

Google 官方博客指出,識別人類動作仍然是一個巨大的挑戰,原因在於人類動作的定義不如視頻中的對象來得完善,AVA 利用 YouTube 上的公開視頻為基礎,區分出 80 個原子動作(atomic actions),例如行走、踢(一個對象/東西)、握手等等,共 21 萬個行動標籤。

圖|Google AVA 數據集利用電影、電視為基礎,區分出 80 個原子動作(圖片來源:Google Blog)

 

不久前,MIT IBM Watson AI Lab 公布了一個視頻數據集 Moments in Time Dataset,首先是一舉擴大了數據的規模,共有 100 萬個 3 秒鐘的視頻片段,同時深化動作的情境,涵蓋了廣泛的英語語意、以人為中心的數據,他們建立了 300 多個日常生活常見的「動詞」標籤,而且是描繪了非常具體的情境,像是化妝、瞄準、除草或是體育賽事的跳高等,同樣是採取把事情分解成原子動作的概念,希望能供研究人員使用以協助訓練機器學習系統的開發及應用。

 

圖|MIT IBM Watson AI Lab 公布了具有 100 萬個視頻的數據集 Moments in Time Dataset,建立了 300 個動作標籤。(圖片來源:MIT IBM Watson AI Lab )

 

圖|Moments in Time Dataset 數據集同樣是採取把事情分解成原子動作的概念,建立動作標籤。(圖片來源:MIT IBM Watson AI Lab )

 

參與這項專案的 IBM 視頻分析科學家 Dan Gutfreund 指出,這不只是標註一些基本動作如跑、走、笑而已,如果要讓機器了解差異,例如跳(jump)跟跳高(jump high),就必須考量「跳高」這一項特殊的活動,因為跳高是環繞著「跑」、「跳」、「拱橋」(arching)、「落下」到「著陸」這些基本動作的組合。

 

此外,這個數據集還考量到了不少獨特但重要的地方,例如,有時候你看不到動作但聽到聲音,你還是會知道是在做什麼,因此,他們也把只有背景聲音的視頻像是「拍手」的聲音放進數據集內,「這有助於開發多模的動作識別模型,」他說。

 

另外,就是考量標籤間的變異性(inter-label variability),例如「打開」(open),一隻狗張開嘴巴、或是一個人打開門,看起來就是不一樣,但都是同一個英文動詞,這就是所謂的標籤變異性,而這些情況就會被放進一個「開放」類別,以幫助機器理解比較棘手的動詞。

 

另外,也可以發現 Google AVA 和 Moments in Time Dataset 的視頻都是 3 秒鐘,Dan Gutfreund 表示,選擇 3 秒並不是隨意決定的,而是人類短期記憶的平均時間值,也就是說,3 秒雖短但也足夠長到讓人類是有意識地在處理或進行某個事件。

 

在商業上有很大的潛力

 

也因為視頻理解在商業上有很大的潛力,例如視頻平臺、自動駕駛、安防等涉及到視頻的場景都很適合通過 AI 技術做的更深入,目前已經有越來越多的企業投入,像是 Facebook、阿里巴巴、今日頭條 AI 實驗室等。

 

今日頭條人工智慧實驗室對 DT 君表示:「AI 在視頻理解領域正處在一個高速成長期,事實上 AI 在視頻理解上做的要比在語音識別領域還要好一些。

 

頭條有很多輔助創作者創作的小工具都是依賴於人工智慧對視頻的理解,比如幫助創作者在視頻內自動選取封面圖,以及從視頻中自動選取優質的視頻段落等等。因為很多創作者上傳完視頻封面都是默認的視頻第一幀,但很多時候視頻第一幀的效果並不好,機器可以幫助選擇視頻中優質的一幀或者段落作為視頻封面。

 

同時,人工智慧也參與到了審核低俗視頻的工作中,因為像火山小視頻、抖音都屬於 UGC 用戶自上傳,並且每天的內容上傳量非常大,一些視頻可能會涉及到色情或者低俗,機器可以和人工結合,幫助審核,極大地提高了效率。

 

另外,也有不少人鎖定在運動領域,讓計算機觀看籃球、足球等比賽的影片,學習各種規則及動運員的技巧,通過深度學習技術讓計算機能夠判讀球員或球隊的戰術,同樣的,比賽也是一種涉及時間序列、連續動作的變化,利用視頻訓練會比圖像來得適合得多。


視頻理解是另一場資本競賽?

 

不過,教計算機如何理解視頻比理解圖像要困難得多。很多事是在一瞬間發生,人類可以通過感官快速、輕鬆地處理,但機器需要算法才能理解物理世界以及行為者所執行的無數種行為,同時,手動替視頻下標籤以及機器的訓練過程都得花上更多時間。

 

「視頻比較難處理,要處理的問題複雜性比物體識別更高一步,」Dan Gutfreund 說,因為物體是物體,例如一條熱狗就是熱狗,但是視頻常有許多動作,動作往往是一個複雜概念的集合,可以是簡單的行為,但也可能是帶有複雜的情緒、意圖。

 

阿里巴巴 iDST 首席科學家任小楓在 2017 年 10 月的 AI Frontiers 大會上就指出,淘寶的購物搜尋從最初的文字進展到影像,越來越多商家放上產品解說、營銷的視頻或是開直播,故視頻理解是 iDST 研究的方向之一,他舉了優酷的植入式廣告為例,他們內部開發了一個方案用於掃描 3D 物體,並且試圖加入視頻理解功能,有時成功但有時則不奏效。

 

除了要讓機器理解抽象事物本身就很難之外,還有一個實際的問題,那就是成本,視頻的數據量比圖像大非常多,如果又是高畫質影片,就得增加更多的運算資源、儲存空間,這些都是昂貴的支出。「對初創公司來說,要花更多的錢在存儲和處理計算資源上,你就必須考量成本效益,客戶願不願意買單,」關宇翔說。視頻理解就是另一場資本的競賽。

 

而今日頭條人工智慧實驗室對於 AI 理解視頻內容的難點也提到了同樣的看法,「相比圖像,視頻的信息更複雜,將其模型化的難度更大。其次視頻內容的數據量更大,視頻理解對存儲計算資源以及實時性的要求也會更高。」

 

Google 首席產品經理 Apoorv Saxena 先前接受媒體採訪時就指出,接下來就是做到通過視頻中不同的圖像、場景來描述每個場景,或是 AI 看完一部影片後總結它看到了什麼,至少目前看來是很有希望做到。另外一個就是將視頻理解與虛擬實境(virtual reality)結合,可以創造出一些有趣的突破,這是值得繼續關注的領域。

 

 利用遷移學習擴大應用

 

隨著學術界及企業對於研究視頻理解的投入,這個領域已經有些進展,但研究人員和科學家想得不光只是希望機器能夠理解一個動作而已,這只是照亮暗數據的第一步而已,然後呢?

 

將視頻理解與遷移學習(Transfer Learning)結合就是一個重要的方向,當機器能夠有效率地識別一個行為,就希望能把這個知識轉移到另一個情境,像是當機器已經看過人奔跑的視頻,下次看到一個馬在奔跑的視頻,也要能夠理解這是相同動作,「這就是『遷移學習』,對於 AI 的未來會是非常重要,可以應用的領域像是自動駕駛、老人照護等,讓我們看看機器如何實現遷移學習,」Danny Gutfreund 強調。

 

遷移學習是 AI 中的一門技術,被人工智慧大牛吳恩達視為是「繼監督學習之後,將引領下一波機器學習商業化浪潮的技術。」是指把在某一個環境下已經訓練好的模型拿到新的環境下使用,而不用從頭開始做起,概念就很像是當你已經學會西班牙文,再去學英文就會比從頭學起來得容易。遷移學習的優勢一來是可以縮短開發時間,二是可能解決訓練數據不足的問題,像是手機品牌 HTC 近年來轉型耕耘醫療領域,其健康醫療事業部總經理張智威曾公開表示,內部在開發中耳炎識別模型時,因為缺乏足夠數據,所以嘗試使用遷移學習以提高模型準確率。

 

Moritz Mueller-Freitag 也提出了類似看法,「如何從對物理概念的理解用來提供實用的現實解決方案?我們相信可以在遷移學習中找到答案。」他進一步指出,人類很習慣用類比的方式思考或做事,通過遷移學習,我們可以把一個已經用視頻數據集訓練過的神經網絡,將其功能轉移到特定的業務應用上,或是去解決更難的複雜問題。

 

在真實世界中,生活不只是一系列的快照,也不僅僅是認識圖像中的動物、花朵或汽車,如果期待 AI 能夠越來越像人,或至少要達到有如人類般感知周遭一切的能力,那麼理解視頻就是第一步,至少,現在這個暗數據已經因眾多科學家投入而逐漸被點亮。


-End-

相關焦點

  • 揭秘MIT-IBM Watson AI,如何教機器識別行為
    簡單來說,Moments in Time建立在一個收集了100萬加注釋的動態事件的視頻的基礎上,會在三秒鐘內展開,而Gutfreund和Oliva要做的是使用這些片段來解決人工智慧的下一個重大問題——教機器識別行為。
  • 人工智慧可識別和分類野生動物的行為
    集微網消息,在Arxiv.org上發表的一篇新論文《識別野生動物群體行為的框架》中,伊利諾伊大學(University of Illinois)、義大利米蘭理工大學(Politecnico di Milano)和加州大學戴維斯分校(University of California,
  • 從人臉識別到文本分析,50+超實用的 API 推薦清單
    Animetrics Face Recognitionhttp://api.animetrics.com/該 API 可用於檢測圖片中的人臉,並將其與一組已知的人臉數據集進行匹配。 API 還可以添加或刪除可搜索圖庫中的對象,並添加或刪除某一分類中的人臉。2.
  • Technobombs.com:Google+.vs Facebook
    我大致翻譯下:google circles vs facebook friends list(google圈子 vs facebook朋友列表)Google圈子因為操作簡便,採用html5,可以直接拖拽朋友到一個圈子中,而facebook好友列表則相對操作比較複雜,更重要的是,google圈子使得你在分享信息的時候可以有所針對,在一定程度上保護的一些隱私,讓信息流只流相關的圈子的朋友。
  • 基於人工智慧的課堂教學行為分析方法及其應用
    學者顧小清等基於弗蘭德斯(Flanders)互動分析系統,增加了師生與技術互動的維度,設計了基於信息技術的互動分析編碼系統(ITIAS)[30]。穆肅等結合信息技術課堂中師生教學行為的特點,提出了課堂教學行為分析系統(TBAS)及系列分析方法[31]。李靜等利用NVIVO軟體,以信息化教學環境下的授課視頻為研究對象,基於質性分析的視角對課堂教學行為進行研究[32]。
  • 回顧2015,Facebook在人工智慧領域做了哪些大動作?
    不久後,Facebook宣布將開始在Messenger上面測試語音轉錄功能。用戶可以把接收到的語音信息轉錄成文本進行閱讀,在某些環境下,這個功能十分便利。2015年3月,Facebook的首席技術官Mike Schroepfer公布了多鍾全新人工智慧系統,它們可以識別視頻和句子中的內容及相關的背景。
  • 從人臉識別到機器翻譯:58個超有用的機器學習和預測API
    10 Kairos官網:https://www.kairos.com/docs/api/一個可快速將情緒分析和人臉識別添加到自己的應用和服務中的平臺。11 Yactraq speech 2topicsis官網:http://yactraq.com/一種雲服務,它通過語音識別和自然語言處理將音頻視頻內容轉換成主題元數據。
  • 【ICCV 2017論文筆記】我們應當如何理解視頻中的人類行為?
    簡單來說,行為分類是要給一段分割好的短視頻(通常只包含一段人類動作)進行動作種類的分類,而時序行為檢測則主要針對較長的未分割視頻,除了要對視頻中人類行為的種類進行分類外,還需要定位動作的時序邊界。在這兩個方向中,該文則更注重對行為分類問題的討論。深度學習(或者說數據驅動的方法)在各個領域的發展離不開各個領域中資料庫的發展,視頻行為理解領域亦然。
  • 人工智慧時代大數據收集行為的刑法規制
    例如,疫情防控時期公布確診者行蹤軌跡的行為當然侵犯了個人隱私權,但這是消除廣大公眾心理恐慌、避免出現群體性事件的必要之舉,那麼人肉搜索確診者個人信息的行為是否構成犯罪,仍然存在爭議。二、大數據收集行為侵犯個人法益之認定大數據非法收集行為侵犯個人法益和集體法益,司法機關進行犯罪認定時應區分個人信息與個人數據的差異,以及數據的社會屬性對集體法益侵害的判斷,避免擴大處罰。
  • 人工智慧終可「識別人心」
    [34]多倫多大學的一組研究人員在他們最近關於這一主題的論文《視頻人臉聚類的面部表徵的自我監督學習》中指出,基於故事情節,更深入地理解視頻,能夠預測哪些角色何時何地出現。為此,這些研究人員開發了一種無監督模型,能夠根據現有的數據集(如Youtube Faces等面部資料庫)和有限的訓練來創建高度準確的面部識別模型。
  • YouTube如何利用數據智能提升「理解」能力?
    由於機器的認知缺陷以及用戶行為偏好的不穩定性,通過機器學習技術自動描繪的用戶畫像在某些情況下可能失去精準性。為此,在谷歌政策支持下,YouTube將用戶畫像構建及修改的部分權限給予了用戶,將機器理解與用戶人為修正相結合。
  • 2018年AI 8大趨勢:人工智慧將助力Google、Facebook等大公司穩贏?
    以下是來自人工智慧,大數據,預測分析和機器學習領域的關鍵統計數據:到2018年,75%的開發者會在1個及以上商業應用程式或服務中加入人工智慧功能 —— 來源於 IDC到2019年,100%的物聯網方案都會具備人工智慧性能 —— 來源於IDC到2020年,30%的公司會採用人工智慧來增加至少一個主要銷售渠道
  • 金準人工智慧 2018行為經濟學與人工智慧研究報告(下)
    他創立了一個非營利組織應用行為科學組織ideas42,它將行為經濟學對人類行為的複雜理解付諸實踐,並將其用於設計更好的方法來解決從消費金融到國際發展等領域的問題。如果你不是一個司機,你可能不會認為這樣的創新有多大意義。但你一定用過視頻App觀看節目,想想看,如果一個節目剛剛播放完畢就馬上自動加載下一集,你要多大的克制才會主動停下來。司機也一樣,他們對「持續派單」就有類似觀看電視劇根本停不下來的感覺。而且Uber給司機設置的「默認狀態」,恰好都是「持續接受預先派單」,即便你不想這樣接單,也只能暫停這個功能,而沒法完全關閉它。
  • 深度、卷積、和遞歸三種模型中,哪個將是人類行為識別方面的佼佼者?
    但是由於這些深度技術都是基於不同的應用層面,從識別手勢到區分跑步、爬樓梯等一系列活動,所以很難對這些問題提出一個普遍適用的方案。在本文中我們認真地探索了深度、卷積、遞歸方式對三種代表性的包含運用可穿戴感應器測得的運動數據組進行的實驗。我們將展示怎樣訓練遞歸方法並介紹一種創新性的規範方式,講述它們如何在大型基礎數據集上實現現有技術下最好的表現。
  • 最大規模數據集、最優圖像識別準確率!Facebook解決訓練數據難題
    該方法的關鍵是使用現有公開的、用戶提供的 hashtag 作為標註,取代手動標註。該方法在測試過程中表現良好。通過使用包含 10 億圖像的此類數據集訓練計算機視覺系統,Facebook 得到了一個歷史最高得分——在 ImageNet 上達到了 85.4% 的準確率。伴隨著這一圖像識別任務中的突破,該研究為如何從監督訓練轉向弱監督訓練提供了重要洞見。
  • MIT、DeepMind發布CLEVRER數據集,推動視頻理解的因果邏輯推理
    人類,即使是幼兒,也能夠通過運動將圖片區域劃分為多個物體,並使用物體的永久性、實體性和連貫性的概念來解釋發生了什麼,推斷將發生什麼以及想像在反事實情況下會發生什麼。在靜態圖像和視頻上提出的各種數據集的推動下,複雜視覺推理問題已經在人工智慧和計算機視覺領域得到了廣泛研究。
  • 人臉識別的原罪?美國人越來越反感,IBM 高調宣布放棄,Twitter 網友...
    最後,Arind Krishna 還強調稱,國家的政策還應鼓勵和促進使用特定技術,來提高警務透明度和問責制,如人體攝像機和現代數據分析技術。總體來看,IBM 的這封信,是一個議政屬性較強的信件。它除了談到對相關技術的措施和態度,還呼籲國會通過相應的議案和政策來推動警務透明、人員就業等問題。顯然,IBM 放棄人臉識別,有政治正確的因素。
  • 人工智慧時代大數據收集行為的刑法規制 - 人民法院報
    例如,疫情防控時期公布確診者行蹤軌跡的行為當然侵犯了個人隱私權,但這是消除廣大公眾心理恐慌、避免出現群體性事件的必要之舉,那麼人肉搜索確診者個人信息的行為是否構成犯罪,仍然存在爭議。    二、大數據收集行為侵犯個人法益之認定    大數據非法收集行為侵犯個人法益和集體法益,司法機關進行犯罪認定時應區分個人信息與個人數據的差異,以及數據的社會屬性對集體法益侵害的判斷,避免擴大處罰。    首先,個人信息屬於個人數據的子集,不具個人專屬性和信息重要性的大數據難以構成侵犯公民個人信息罪。
  • 【影集】人工智慧再介入:facebook讓照片睜眼,Adobe識別ps過的照片
    1. facebook人工智慧讓照片睜眼「閉眼了,再拍一張。」這是我們拍照時常聽到的一句話。最近,facebook的研究人員發明了一種人工智慧讓這些眨眼的照片睜開眼睛。Adobe使用人工智慧識別被p過的照片Adobe公司的軟體作為偽造照片的工具已經被廣泛使用了很多年,但現在該公司正在開發另一個與之對立的軟體:它使用人工智慧識別照片修改,以幫助對抗偽造照片。Adobe表示,因為有的人使用我們強大的Photoshop,以欺騙為目的,修改照片。
  • 成立5 周年:一文覽盡 Facebook 人工智慧研究院歷年重要成果
    雖然大家都知道神經網絡可以在數據集的訓練過程中學習,可一旦系統開始運行了,它們通常再也無法存儲新信息,用於解決日後的特定任務。因此,他們開發出了一種新的學習模型,以幫助機器能夠記住足量的交互行為,並根據對話中先前的陳述來回答一般的知識問題。