一行代碼調用預訓練模型,上海交大開源視頻理解工具箱AlphaVideo

2021-01-10 機器之心Pro

機器之心發布

機器之心編輯部

近期,上海交通大學盧策吾團隊在《自然 - 機器智能》上發表視覺序列理解的研究成果,通過模仿人類的認知機制,提出了可應用於高維度信息的半耦合結構模型(SCS)。此外,他們還開源了視頻理解工具箱 AlphaVideo。

近期,上海交通大學盧策吾團隊在《自然 - 機器智能》子刊上發表了關於高維度視覺序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

與此同時,該團隊將論文代碼與近兩年在視頻理解領域的先進成果開源為視頻理解工具箱 AlphaVideo。

開源地址:https://alpha-video.github.io/

AlphaVideo 在物體跟蹤任務(MOT)和行為理解(AVA 單模型)上都達到最高準確率,相比 SlowFast [4](AVA 單模型)有 12.6% 的性能提升。

圖 1:動作理解任務的時空信息特徵圖。左:輸入序列;右:空間特徵更關注物體形狀,時間特徵更關注物體運動趨勢。

00:00/00:00倍速

圖 2:AlphaVideo 中的行為理解(Alphaction)

圖 3:時空概念提取展示

人類視覺理解機理

在人類的視覺認知過程中,時間和空間概念是解耦的。神經科學領域的研究發現在人類的記憶形成過程中,時間信息與空間上下文信息通過兩個相對獨立的信息通路到達海馬體,進而形成完整的記憶 [1]。

新技能:自主學習時空概念

通過模仿人類的認知機制,盧策吾團隊提出了應用於高維度信息的半耦合結構模型(SCS)。

SCS 自主發掘(awareness)時間 - 空間概念,並讓他們耦合協作以理解序列信息。這種能力代表著機器學習模型自主掌握了時空的概念,這是一種更高層的智能。更進一步,時空信息概念的分離也讓「概念編輯」成為可能。

半耦合結構模型(SCS)

半耦合結構首先解耦時空信息(模仿人腦中的兩條信息通路),並在分別處理時間和空間信息之後將二者耦合(模仿海馬體):

該研究通過堆疊這種半耦合的元結構來構建深度模型,其中時空信息始終以先解耦再融合的模式向後流動。

為了讓 h_s 和 h_t 各司其職,研究者將 h_s 和 h_t 設計為不對稱的結構,同時,使用兩個特殊的監督目標 r_s、r_t 來進一步約束二者關注各自的工作。

該研究進一步提出了一種訓練注意力機制。這種注意力機制控制模型在優化過程中學習哪種信息。例如在視頻信息中,模型可以優先將注意力集中在空間信息上,待空間信息有效且穩定時,再逐步將模型訓練的注意力轉換到時間信息上。

SCS 的表現如何?

該研究展示了 SCS 在多項任務中與傳統 LSTM 的性能對比結果:

SCS 在視頻動作分類、自動駕駛、天氣預報等 4 個任務上的性能均超越傳統的序列模型。

相關代碼參見:https://doi.org/10.5281/zenodo.3679134

概念編輯

有了時空分離的能力,SCS 就可以初步做到「概念編輯」。比如,通過編輯空間概念且保留時間概念,我們可以讓一個原本用於預測狗運動軌跡的模型來預測貓的軌跡。這樣就能以較小的代價實現模型的泛化,同時也拓寬了模型的使用場景,降低了部署難度。如圖 6 所示:

圖 6:概念編輯 demo

研究者讓計算機看 Flappy Bird 的視頻,然後看一張靜態的 Mario 圖片(外觀形象)。在這個過程中,模型並沒有接觸到任何 Mario 在管道中穿梭的運動信息。但通過「概念編輯」,在測試時 SCS 可以準確地預測 Mario 的運動軌跡。

視頻理解工具箱 AlphaVideo

在視頻理解工具箱 AlphaVideo 中,除了上述 SCS 時空概念分解,研究者還提供了單階段端對端訓練的多目標跟蹤模型 TubeTK 和視頻動作檢測模型 AlphAction。使用一行代碼,即可調用預訓好的各類模型。

AlphAction

AlphAction 是面向行為理解的開源系統,基於 MVIG 提出的交互理解與異步訓練策略 [5] 在 AVA 數據集上達到最優準確率,速度達到 10 幀每秒。其中包含的 15 個開源常見行為基本模型的 mAP 達到約 70%,接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 組提出的基於 Bounding-Tube 的單階段訓練模型(CVPR2020-oral),是首個單階段端對端訓練的多目標跟蹤模型。它在 MOT-16 數據集上達到了 66.9 MOTA 的精度,是目前 online 模型僅在 MOT 訓練數據下達到的最高精度 [3]。

圖 7:TubeTK 可視化結果

圖 8:Bounding-Tube 示意圖。使用 bounding-tube 可以輕鬆跟蹤到 bounding-box 無法檢測到的被遮擋目標(圖中黃色框)。

參考文獻

[1] Kitamura, T. et al. Entorhinal cortical ocean cells encode specific contexts and drive context-specific fear memory. Neuron 87, 1317–1331 (2015).

[2] Simonyan, K. & Zisserman, A. Two-stream convolutional networks for action recognition in videos. In Proceedings of the 27th International Conference on Neural Information Processing Systems 568–576 (ACM, 2014).

[3] https://motchallenge.net/tracker/3184&chl=5

[4] Feichtenhofer, C., Fan, H., Malik, J., & He, K. (2019). Slowfast networks for video recognition. In Proceedings of the IEEE International Conference on Computer Vision (pp. 6202-6211).

[5] Tang, J., Xia, J., Mu, X., Pang, B., & Lu, C. (2020). Asynchronous Interaction Aggregation for Action Detection. arXiv preprint arXiv: 2004.07485.

相關焦點

  • Facebook開源算法代碼庫PySlowFast,輕鬆復現前沿視頻理解模型
    近日,FAIR視頻團隊在 ICCV 相關研討會上開源了視頻識別檢測代碼庫 PySlowFast,並同時發布了預訓練的模型庫。同時,該團隊表示,他們還將實時將他們的前沿工作添加至此代碼庫。不但如此,PySlowFast 代碼庫同時開源了大量預訓練模型 (pretrain models),讓研究者省去了反覆訓練模型的煩惱,可以直接使用 FAIR 預訓練的前沿 (cutting edge performance) 模型。
  • AI戰「疫」:百度開源業界首個口罩人臉檢測及分類模型
    但是毫無疑問成本較高,而與此同時,百度將自己訓練出來的口罩人臉檢測及分類模型,通過預訓練模型的方式開放,可以極大的幫忙開發者節省資源,提升效率。百度飛槳通過預訓練模型管理工具 PaddleHub,將口罩人臉檢測及分類預訓練模型開源出來。只要開發者有基本的 Python 編程能力,即可快速搭建本地或者 serving 服務調用模型。
  • 代碼也能預訓練,微軟&哈工大最新提出 CodeBERT 模型,支持自然...
    )預訓練模型。該預訓練模型能夠處理NL-PL 的普遍問題,例如用自然語言搜索代碼、自動生成代碼等。 所謂自然語言代碼搜索,所要解決的問題是,如何通過自然語言query查找到所需的代碼塊,這和我們常用的搜尋引擎(通過自然語言query來查找所需網頁)類似。
  • 滴滴開源自然語言理解模型訓練平臺DELTA | ACL 2019
    雷鋒網(公眾號:雷鋒網) AI 開發者消息,當地時間 7 月 28 日至 8 月 2 日,自然語言處理領域頂級會議 ACL2019 在義大利佛羅倫斯召開,會上滴滴正式宣布開源基於深度學習的語音和自然語言理解模型訓練平臺
  • 15個產業級算法、35個預訓練模型上線!最強國產開源AI框架再進化
    乾明 發自 凹非寺 量子位 報導 | 公眾號 QbitAI 2項全新能力,4大重磅升級,35個高精度預訓練模型上線,15個產業實踐中廣泛應用的視覺算法加持…… 這就是最強國產開源深度學習框架——飛槳的最新重要升級。
  • 百度ERNIE語義理解開源套件重磅升級 零基礎也能秒變NLP達人
    如此簡潔易用,得益於本次ERNIE語義理解開源開發套件的全新升級。為了兼顧兩種優勢,ERNIE開源套件進行了全新升級,推出了動靜合一的ERNIE語義理解開發套件。動靜合一的ERNIE開源套件新版ERNIE開源套件突顯了模型易取易用性,簡單幾行代碼就可以把ERNIE跑起來。
  • 一行代碼不用寫,就可以訓練、測試、使用模型,這個star量1.5k的...
    用戶無需編寫一行代碼即可使用機器學習模型,只要有 yaml 或 json 文件,來描述你想做什麼即可。一行代碼不用寫,就可以訓練、測試和使用模型,還有這樣的好事?最近,軟體工程師 Nidhal Baccouri 就在 GitHub 上開源了一個這樣的機器學習工具——igel,並登上了 GitHub 熱榜。目前,該項目 star 量已有 1.5k。
  • 讓電影動漫統統變絲滑,480幀毫無卡頓,交大博士生開源插幀軟體
    去年,英偉達開源了Super SloMo,從普通的視頻「腦補」出高幀率的畫面,從30fps插幀到240fps,即使放慢8倍也不會感到卡頓。最近,來自上海交大的一個新的插幀算法DAIN開源。DAIN的代碼已經開源,甚至研究人員還打包了一份Windows安裝程序,即使沒有任何AI基礎的用戶也可以直接拿來用。安裝Windows系統的用戶有現成的exe文件安裝(地址見文末),不過現在仍處於Alpha階段,軟體可能存在一定的不穩定性。
  • Keras 之父講解 Keras:幾行代碼就能在分布式環境訓練模型 |...
    示例: 視頻內容問答這是一個視頻問答問題。我們有一組 10 秒短視頻組成的數據集,視頻內容是人從事各種活動。一個深度學習模型將會觀察這些視頻的每一幀畫面,進行理解,然後你可以用簡短的自然語言問它視頻內容。
  • 微信開源推理加速工具 TurboTransformers,性能超越 PyTorch/...
    騰訊宣布開源 Transformer 推理加速工具 TurboTransformers。
  • 一行代碼不用寫,就可以訓練、測試、使用模型,這個項目幫你做到
    用戶無需編寫一行代碼即可使用機器學習模型,只要有 yaml 或 json 文件,來描述你想做什麼即可。一行代碼不用寫,就可以訓練、測試和使用模型,還有這樣的好事?最近,軟體工程師 Nidhal Baccouri 就在 GitHub 上開源了一個這樣的機器學習工具——igel,並登上了 GitHub 熱榜。
  • AI輔助寫代碼,Python之父都愛不釋手的工具
    言歸正傳,這個工具是——這是一款IDE插件,使用機器學習為你的Python編程提供智能的代碼完成,從而加速你的編程速度。行了,既然提到」代碼完成「,各位肯定會想到IDE不都有這個功能嗎?這工具是不是有點多此一舉?
  • 既保護隱私又快速訓練,Facebook開源Opacus庫,利用差分隱私訓練Py...
    那麼,如何方便地使用差分隱私來訓練機器學習模型呢?近日,Facebook 開源了 Opacus 庫,支持以這種方式訓練 PyTorch 模型。近日,Facebook 開源了一個新型庫 Opacus,它支持使用差分隱私來訓練 PyTorch 模型,擴展性優於目前的 SOTA 方法。
  • 哈佛推出這款工具包,10行代碼訓練「藥神」模型
    這款名為DeepPurpose的工具包,不僅包含COVID-19的生物測定數據集,還有56種前沿的AI模型。作為一個基於PyTorch的工具包,DeepPurpose只需要不到10行代碼,就能訓練出AI「藥神」模型。這些模型不僅能完成虛擬篩選,還能挖掘出已有藥物的新功能(例如,高血壓藥物可治療阿爾茲海默症)。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    昨天,哈工大訊飛聯合實驗室發布了全詞覆蓋的中文 BERT 預訓練模型。模型在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。應用全詞 mask,而非字粒度的中文 BERT 模型可能有更好的表現,因此研究人員將全詞 mask 方法應用在了中文中——對組成同一個詞的漢字全部進行 [MASK]。模型使用了中文維基百科(包括簡體和繁體)進行訓練,並且使用了哈工大語言技術平臺 LTP(http://ltp.ai)作為分詞工具。
  • 論文繪圖神器:一行代碼繪製不同期刊格式圖表,哈佛博士後開源
    賈浩楠 發自 凹非寺量子位 報導 | 公眾號 QbitAI「一篇論文投多個期刊,每個期刊對圖表格式要求不一,同一組數據要用多種工具分別繪圖。」不光是你,哈佛大學天文研究所的博士後,也不堪忍受論文重複繪圖之苦。
  • 融合視頻目標檢測與單目標、多目標跟蹤,港中文開源視頻感知平臺
    近幾年來,雖然各個任務都湧現了許多優秀的算法,但這些領域仍然缺少開源的代碼框架,給代碼復現、借鑑、公平對比帶來了很大困難。OpenMMLab 將這些任務融合到了同一框架下,希望能夠作為開源的一體化視頻目標感知平臺,推動不同子領域間的融合、互促與發展。2.
  • NLP預訓練利器:小模型也有高精度,單個GPU就能訓練
    這就意味著「小規模,也有大作用」,在單個GPU上訓練只需要4天的時間,精度還要比OpenAI的GPT模型要高。ELECTRA已經作為TensorFlow的開源模型發布,包含了許多易於使用的預訓練語言表示模型。
  • ...首個自動圖機器學習工具包AutoGL,開源易用可擴展,支持自定義模型
    清華大學發布全球首個開源自動圖學習工具包:AutoGL (Auto Graph Learning),支持在圖數據上全自動進行機器學習。人工智慧的蓬勃發展離不開數據、算力、算法這三大要素。而在浩瀚的數據中,有一種數據結構既普遍又複雜,它就是圖(graph)。
  • 核心基於字節跳動聯名論文,可將視頻、圖片一鍵卡通化的開源工具
    CartoonizeCartoonize 現在已經開源,使用非常簡單,只要上傳需要轉換的圖片、視頻即可。Cartoonize 轉換可以很好地還原原圖細節,下面是人像、風景、食物等實景的轉化圖。 然而這些變量因素給黑盒模型帶來了不小的挑戰,如當面對藝術家不同的需求時,簡單地更改訓練數據集就於事無補了。使用黑盒模型直接擬合訓練數據會降低其通用性和風格化質量,在一些情況下導致較差效果。