Facebook開源算法代碼庫,輕鬆復現前沿視頻理解模型

2020-12-27 騰訊網

機器之心發布

機器之心編輯部

在近些年的視頻理解研究中,Facebook AI Research 貢獻了許多精彩的工作。近日,FAIR視頻團隊在 ICCV 相關研討會上開源了視頻識別檢測代碼庫 PySlowFast,並同時發布了預訓練的模型庫。同時,該團隊表示,他們還將實時將他們的前沿工作添加至此代碼庫。

項目地址:https://github.com/facebookresearch/SlowFast

Tutorial 地址(附 PPTT 資源):https://alexanderkirillov.github.io/tutorials/visual-recognition-iccv19/

視頻與動作理解儼然已成為當今最火熱的研究方向之一,然而在開源社區中找到一個簡潔、高效、易於修改的視頻理解代碼庫仍不是一件簡單的事情。更重要的是,復現當今前沿的 (state-of-the-art) 的深度學習模型一直是一件令研究者頭疼的事情。

這些視頻理解模型往往動輒幾十 GFlops,需要訓練數天,而復現出一個模型需要反覆的實驗調參,讓每個細節都正確。這往往會耗費大量的時間和資源,讓很多研究者望而卻步。

Facebook AI Research 在 CVPR、ICCV 等國際會議發布了眾多研究工作,並贏得了 CVPR 2019 行為檢測挑戰賽的冠軍。而後,在今年的 ICCV 上,FAIR 推出了他們的視頻理解代碼庫:PySlowFast。

PySlowfast 是一個基於 PyTorch 的代碼庫,讓研究者可以輕而易舉地復現從基礎至前沿的視頻識別 (Video Classification) 和行為檢測 (Action Detection) 算法。

不但如此,PySlowFast 代碼庫同時開源了大量預訓練模型 (pretrain models),讓研究者省去了反覆訓練模型的煩惱,可以直接使用 FAIR 預訓練的前沿 (cutting edge performance) 模型。

pySlowFast開源的模型的可視化檢測結果

自開源後,PySlowFast 就一度蟬聯 GitHub 趨勢榜前十。以下對此開源項目進行了簡要介紹。 根據研討會教程和開原始碼庫信息,PySlowFast 既提供視頻理解基線(baseline)模型,還提供了當今前沿的視頻理解算法復現。其算法不單單囊括視頻視頻(video classification),同時也包括行為檢測(Action Classification)算法。

與當今開源社區中各種視頻識別庫復現出參差不齊的性能相比,使用 PySlowFast 可輕而易舉地復現出當今前沿的模型。

視頻識別(Kinetics)

表 1:PySlowFast 在視頻分類資料庫 Kinetics 400 上的性能)(節選自 https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md)

PySlowFast 不單單可以用於視頻分類,同時也可用於視頻理解,並提供贏得了 2019 年 CVPR ActivityNet Challenge Winner 的視頻檢測模型。

行為檢測(AVA)

此外,PySlowFast 預留了接口,可通過簡單的編輯支持多模態視頻理解、視頻自監督學習等等任務。該團隊稱,PySlowFast 將被積極維護,實時更新其團隊和業界的前沿算法,同開源其預訓練模型,使代碼庫成為視頻理解領域的基線標杆。

通過以下教程,讀者們可以簡單試用下 PySlowFast 代碼庫。在完成安裝後,通過下載 MODEL_ZOO 提供的預訓練模型和相應的配置文件,運行如下代碼,就可以測試(Test)模型在不同視頻資料庫上的性能:

pythontools/run_net.py\--cfgconfigs/Kinetics/C2D_8x8_R50.yaml\DATA.PATH_TO_DATA_DIRpath_to_your_dataset\NUM_GPUS2\

我們可以發現,通過此代碼庫可以輕易復現出前沿的高性能模型,同時讀者們也可以嘗試通過簡單的修改來實現自己的模型,並用多臺 GPU 進行訓練得到前沿的性能。

相關焦點

  • 中國AI開源再進擊!商湯升級AI算法開放體系,開放超600種預訓練模型
    OpenMMLab由林達華教授發起,部分實驗室同學和商湯的研究員參與,奔著「開源、統一、可復現」的目標,逐漸演化為整個商湯的人工智慧算法開放體系,並與整個AI產學研界的開源體系產生連接,在國內AI開源項目社區活躍度名列前茅。
  • Facebook 開源 Instagram 安全工具 Pysa
    Facebook 宣布開源靜態分析工具 Pysa。這是 Instagram 上用於檢測和修復應用程式龐大 Python 代碼庫中錯誤的一個內部工具,可以自動識別 Facebook 工程師編寫的易受攻擊的代碼段,然後再將其集成到社交網絡的系統中。
  • 商湯x TechBeat系列直播課程回顧(一): OpenMMLab開源體系揭秘
    課程主講嘉賓是商湯科技研究副總監陳愷博士,他首先對 OpenMMLab 開源項目進行了整體介紹,包括現狀、發展歷程、總體架構及未來規劃;隨後逐個講解了 OpenMMLab 項目的算法框架,並號召各位同學加入開源社區。
  • Jax 生態再添新庫:DeepMind 開源 Haiku、RLax
    基於 Jax 已有很多優秀的開源項目,如 Trax 等。近日,DeepMind 開源了兩個基於 Jax 的新機器學習庫,分別是 Haiku 和 RLax,它們都有著各自的特色,對於豐富深度學習社區框架、提升研究者和開發者的使用體驗有著不小的意義。
  • 勇奪NTIRE大賽冠軍,騰訊優圖RealSR超解析度算法開源了!
    近日,騰訊優圖實驗室提出一種新的圖像超解析度算法RealSR並開源。該算法在CVPR-NTIRE-2020真實圖像超分比賽中以明顯優勢獲得雙賽道冠軍。> 與已有的超解析度方法相比,RealSR的創新主要體現在三個方面: 算法的主要步驟可以分為兩個模塊:退化模型的估計,超分模型的訓練。
  • 照片秒變卡通風,小視科技AI團隊開源人臉卡通化算法模型
    為增加行業內交流,促進技術層面的共同提升,該團隊現已開源卡通化模型和數據。地址:https://github.com/minivision-ai/photo2cartoon基於上述分析,研究人員提出了一種基於生成對抗網絡的卡通化模型,只需少量非成對的訓練數據,就能獲得漂亮的結果。卡通風格渲染網絡是本方法提出的解決方案核心,它主要由特徵提取、特徵融合和特徵重建三部分組成。整體框架由圖2所示。
  • 畫風清奇,用開源機器人項目實現「雲畢業典禮」
    由於疫情原因,很多高校的學生只能在家裡通過線上視頻的方式完成畢業論文答辯。答辯通過後,畢業典禮就要來了,但疫情原因還不能返校怎麼辦?畢竟畢業典禮一生可能就這一次,儀式感還是要有的!這次改裝主要是為機器人配置了與真人身高相仿的模型,現場由專門的同學對機器人進行遠程控制,屏幕則是用 ZOOM 與參加畢業典禮的同學進行視頻交互。這個由南郵學生組成的機器人團隊曾在國內外各大機器人競賽中獲得不錯的成績。其實現在的 AI 技術已經非常成熟且親民,就算是編程能力不太強的同學也可以玩轉很多 AI 工具,比如很多好玩的開源機器人項目。
  • Facebook 開源 3D 深度學習函數庫 PyTorch3D
    新酷產品第一時間免費試玩,還有眾多優質達人分享獨到生活經驗,快來新浪眾測,體驗各領域最前沿、最有趣、最好玩的產品吧~!下載客戶端還能獲得專享福利哦!原標題:Facebook開源3D深度學習函數庫PyTorch3D來源:開源中國Facebook近日開源了將PyTorch用於3D深度學習的函數庫PyTorch3D,這是一個高度模塊化且經過優化的庫,具備獨有的功能,旨在通過PyTorch簡化3D深度學習。
  • 134個預訓練模型,百度視覺算法最強基石PaddleClas全新升級
    > 個預訓練模型;開發體驗進一步升級:全面支持動態圖,使你的算法構建、訓練以及評估調試更輕鬆。並進一步打通全流程部署,無論是在移動端、IoT 端還是在伺服器端進行部署,都可以在這裡找到最佳的部署方案;數十種圖像分類算法開發的 Trick 和工具!深入理解開發者算法開發過程中的難點,手把手教你提升算法性能!已經迫不及待要去看項目代碼了嘛?
  • ...Top5,Windows 應用全面統一,史上最大語言模型將開源
    史上最大語言模型 Turing-NLG 將開源在 Build 開發者大會上,微軟宣布將很快開始開源微軟圖靈模型,以及在 Azure 機器學習中訓練它們的方法。因此開發人員能夠訪問微軟來提高其產品之間語言理解的一系列語言模型。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • Facebook 100種語言互譯模型原始碼公開,機器翻譯再也不用英語當...
    編 |智東西 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。傳統機器翻譯算法通過為每種語言和每項任務構建單獨的AI模型能夠同時處理多語翻譯,但由於依賴英語數據作為源語言和目標語言之間的中介,在語義準確性上可能有所折損。
  • 重磅發布開源框架、生物計算平臺螺旋槳,百度飛槳交了年終成績單
    本屆峰會,百度飛槳帶來八大全新發布與升級,有支持前沿技術探索和應用的生物計算平臺 PaddleHelix 螺旋槳,開發更加便捷的飛槳開源框架 2.0 RC 版,端雲協同的 AI 集成開發環境 BML CodeLab,支持更強大分布式訓練的業界首個通用異構參數伺服器架構,開源算法庫增至 200+,飛槳企業版 EasyDL 智能數據服務升級,飛槳硬體生態路線圖以及攜手全球開發者開啟
  • 百度開源2020年度報告:兩大開源平臺、九個捐贈項目
    目前,飛槳累計開發者265萬,服務企業超過10萬家,基於飛槳開源深度學習平臺產生了34萬+個模型。飛槳助力開發者快速實現AI想法,快速上線AI業務。幫助越來越多的行業完成AI賦能,實現產業智能化升級。12月20日,在WAVE SUMMIT+2020深度學習開發者峰會上,飛槳全新發布PaddleHelix螺旋槳生物計算平臺;推出業內首個通用異構參數伺服器架構;開源算法庫全面升級,官方算法數量從140+擴展至200+;飛槳硬體生態夥伴達到20家,適配或者正在適配的晶片/IP型號29種。飛槳提供了開源深度學習平臺自主可控的堅實底座,加速AI產業生態構建。
  • 百度開源2020:二十個技術領域持續開源 飛槳、阿波羅成行業領先者...
    目前,飛槳累計開發者265萬,服務企業超過10萬家,基於飛槳開源深度學習平臺產生了34萬+個模型。飛槳助力開發者快速實現AI想法,快速上線AI業務。幫助越來越多的行業完成AI賦能,實現產業智能化升級。  12月20日,在WAVE SUMMIT+2020深度學習開發者峰會上,飛槳全新發布PaddleHelix螺旋槳生物計算平臺;推出業內首個通用異構參數伺服器架構;開源算法庫全面升級,官方算法數量從140+擴展至200+;飛槳硬體生態夥伴達到20家,適配或者正在適配的晶片/IP型號29種。飛槳提供了開源深度學習平臺自主可控的堅實底座,加速AI產業生態構建。
  • 不以英語為中心,百種語言互譯,FB開源首個單一多語言MT模型
    機器之心報導機器之心編輯部Facebook AI 近日開源了多語言機器翻譯模型 M2M-100,該模型不依賴以英語為中心的數據,可以實現 100 種語言之間的相互翻譯。研究者使用可擴展技術來建立具有 150 億個參數的通用模型,它從相關語言中捕獲信息,並反映出更加多樣化的語言文字和詞法。目前,這項研究已經開源。