加速AR對象分類,Facebook開源計算機視覺算法Detectron

2021-01-14 Yivian虛擬實境

文章相關引用及參考:roadtovr

Facebook今天正式開源基於深度學習框架的計算機視覺對象檢測算法平臺Detectron

(映維網 2018年01月24日)Facebook今天正式開源基於深度學習框架的計算機視覺對象檢測算法平臺Detectron。Facebook表示,開源項目是為了加速計算機視覺的研究。目前Facebook內部團隊正把Detectron平臺用於一系列的研究,比如增強現實。

在2017年9月30日的一篇文章中,映維網曾介紹過實時對象分類是AR面臨的一大挑戰:

令計算機視覺能夠理解「杯子」,而不僅僅只是看到一個形狀,這是一個非常重要的問題。所以這麼多年來,我們在AR演示作品中看到人們把基準標記附加到對象身上,以實現更細緻的追蹤和交互。為什麼如此困難呢?第一個挑戰在於分類。杯子有數千種形狀,大小,顏色和紋理。部分杯子擁有特殊的屬性和特殊的用途(如燒杯),這意味著不同的杯子被用於不同的場景和背景。你可以想像編程這麼一個可以幫助計算機了解所有上述概念的算法的挑戰;你也可以想像編寫一個向計算機解釋杯子和碗之間區別的代碼的挑戰。

延伸閱讀:遠落後於VR,AR面臨三大挑戰:視場、分類、自適應設計

文章同時指出「深度學習」有可能是實時對象分類的其中一種解決方案。現在,Facebook已經正式開源了他們的對象檢測算法,而這可能會加速開發能夠進行實時對象分類的系統,從而賦予增強現實真正的功效。

如果沒有對特定環境進行預編程,與我們周圍世界進行交互的增強現實將需要粗略了解我們附近的情況。比方說,如果你正穿戴一款AR眼鏡,然後你希望將烤箱溫度投影到烤箱上方,同時在冰箱上方呈現出已經將近吃完的食物,這時AR眼鏡將需要了解烤箱和冰箱的形狀。考慮到烤箱和冰箱涵蓋一系列不同的形狀和樣式,而且其擺放位置的不盡相同,這將成為一項極具挑戰性的任務。

Facebook的人工智慧研究團隊與其他相關團隊一直在研究如何通過深度學習來幫助計算機解決對象檢測的問題,而這一基於Caffe2深度學習框架的對象檢測算法名為Detectron。在正式託管至GitHub後(點擊前往),現在任何人都可以自行實驗。Facebook希望開源Detectron後將能幫助世界各地的計算機視覺研究人員嘗試並不斷改進最新的技術。

他們在GitHub頁面上寫道:「Detectron的目標是為對象檢測研究提供高質量,高性能的代碼庫。Detectron十分靈活,能夠支持新研究的快速實現與評估。」

算法可以檢測視頻輸入,並能夠猜測構成場景的離散對象。「Detecting and Recognizing Human-Object Interactions (Gkioxari et al)」等研究項目已經在應用Detectron,將其作為了解人類在環境中的行為的基礎。

除了AI研究之外,諸如增強現實這樣的其他內部團隊同樣在使用Detectron。Facebook在開源Detectron的聲明中寫道:「各支團隊正在利用這個平臺來為各種應用訓練定製模型,包括增強現實…」

目前尚不清楚具體是哪支團隊正在把Detectron用於增強現實,但一個可能答案是Oculus。早在F8大會期間,Oculus的首席科學家麥可·亞伯拉什就曾探討過增強現實將如何和將於何時改變我們的生活。

延伸閱讀:Oculus首席科學家:AR將在何時,如何地改變人類生活

相關焦點

  • Facebook開源物體識別工具Detectron,加速計算機視覺研究
    大數據文摘作品作者:龍牧雪 馮曉麗1月22日,Facebook的人工智慧實驗室(FAIR)開源了計算機視覺研究平臺Detectron。Detectron系統實現了最先進的物體檢測算法,包括Mask R-CNN。 它是用Python編寫的,支持Caffe2深度學習框架。
  • Facebook 發布 Detectron2:基於 PyTorch 的新一代目標檢測工具
    在 2018 年初公開的目標檢測平臺,包含了大量業內最具代表性的目標檢測、圖像分割、關鍵點檢測算法,該框架主要基於 python 和 caffe2 實現,開源項目已獲得了超 2.2w 的星標數。Detectron2 包含了更大的靈活性與擴展性,並增強了可維護性和可伸縮性,以支持在生產中的用例。目前已在 GitHub 上開源,雷鋒網 AI 開發者將其重要內容整理編譯如下。
  • Facebook最新開源工具——不費吹灰之力識別圖片中的對象
    2011年在加州理工大學獲得計算機視覺實驗室博士後學位,2007年於UCSD獲得博士學位。本文著重介紹計算機圖像分割技術及其應用,並對與本文密切相關的三篇論文的主要內容做簡要概括。計算機能否像人眼一樣不費吹灰之力地識別一張照片包含的許多對象嗎?面對一個圖像,人們能夠輕鬆識別其中的對象,甚至能夠識別圖像中對象像素高低。在FAIR過程中,我們正在將機器視覺領域的研究推向一個新的發展階段——我們的目標是使機器能夠像人一樣在像素層面理解圖像和物體。
  • 為什麼說現在是計算機視覺最好的時代?
    經過多年的努力,使用計算機視覺軟體和硬體算法部署深度學習技術的企業在識別對象方面都取得了一定程度的成功。據Tractica預測,計算機視覺產品市場將在2022年達到全新的高度,最大的增長將出現在智能駕駛,工業視覺檢測緊隨其後預計營收可達98億美元,安防可達37.9億美元,醫療行業為23億美元,文娛為20億美元,零售業和農業增長最低分別為6.55億美元和1.97億美元。
  • 算法到實戰,如何零基礎入門計算機視覺領域
    第二步就是要設計算法,靠人的大腦那樣去理解它,過程中需要機器學習的算法,或者是最近非常熱的深度學習的方法。計算機視覺歸根結底的話,其實就是在做一個回歸或者分類的問題,所以後面講到的大部分的關於計算機視覺的任務,都可以用一個回歸或者一個分類的問題來對它進行建模。這就是關於計算機視覺的一個核心的定義。
  • 計算機視覺新手指南
    計算機視覺技術已經通過不同的電子商務領域以及相機應用程式進入了我們的手機。 想一想當機器能夠像人眼一樣準確地看到周圍環境時,機器還有什麼是不可以做的。人眼是一個複雜的結構,它可以理解複雜的環境現象。同樣的,可以讓機器能夠看到事物並使其具有足夠的能力去理解它們所看到的內容,從而進一步對其進行分類,這項工作仍然是非常艱巨。
  • 計算機視覺9大常見應用,深度學習的這些名詞你聽過幾個?
    是否有未列出的最喜歡的用於深度學習的計算機視覺應用程式?1、圖像分類圖像分類涉及為整個圖像或照片分配標籤。這個問題也被稱為「對象分類」,並且可能更普遍地被稱為「圖像識別」,儘管後者的任務可能適用於與圖像內容分類有關的更廣泛的任務集。
  • 計算機視覺入門大全:基礎概念、運行原理、應用案例詳解
    計算機視覺在其中扮演核心角色,它幫助自動駕駛汽車感知和了解周圍環境,進而恰當運行。計算機視覺最令人興奮的挑戰之一是圖像和視頻目標檢測。這包括對不同數量的對象進行定位和分類,以便區分某個對象是交通信號燈、汽車還是行人,如下圖所示:自動駕駛汽車目標檢測。
  • 從算法爬坡到 AI 基建,曠視「天元」開源背後的 AI 生產力破局
    更大的數據,更大的模型,更好的算法,深度學習興起之後,這些因素就成了 AI 公司最重要的考量。尤其對於語音、NLP、計算機視覺等應用,海量數據與精確算法支撐下不斷提升的應用,是 AI 企業建立外部認知的最重要載體。在技術爬坡、訂單獲取上,算法是基礎。
  • 從模型開源、到SDK開放,再到落地應用,百度開啟視覺」軟硬結合「時代
    其中,計算機視覺作為AI技術的重要部分,在此次大會百度大腦分論壇上,也成為了百度重點分享的內容。百度視覺技術部總監丁二銳表示,伴隨著雲化概念的深入,硬體的計算能力從雲到移動端、到邊緣,算力以三個數量級的比例在下降。所以,百度重點建設並開源了模型小型化技術,在有限計算資源的情況下保持算法效果不降。
  • 134個預訓練模型,百度視覺算法最強基石PaddleClas全新升級
    機器之心發布機器之心編輯部百度 PaddlePaddle 團隊開發的 PaddleClas 是一個適用於業界和學界的圖像分類任務工具集,可以幫助用戶訓練更好的計算機視覺模型並應用於真實場景中。圖像分類任務作為深度學習視覺領域的「基石」,幾乎是每一位視覺方向開發者最先要學習的基礎本領。眾所周知,圖像分類已廣泛應用在智慧零售、智慧交通、智慧醫療、智慧安防等等各行各業。不僅如此,圖像目標檢測、圖像分割、圖像檢索、OCR、人臉識別等高階視覺任務也常將圖像分類網絡作為骨幹網絡。
  • AlphaGo 早已擊敗圍棋冠軍,計算機視覺還是 3 歲的「智力」
    1998年,Bengio、Le Cun、Bottou 和 Haffner 在一篇論文中首次介紹了第一個卷積神經網絡 LeNet-5,能夠分類手寫數字。卷積神經網絡可以做到平移不變形,即使對象的外觀發生某種方式的變化,也可以識別出對象。卷積神經網絡通過監督學習和反向傳播對輸入到卷積網絡中的數據做訓練,並反覆、自我校正。
  • AlphaGo 早已擊敗圍棋冠軍,計算機視覺還是 3 歲的 「智力」
    1998 年,Bengio、Le Cun、Bottou 和 Haffner 在一篇論文中首次介紹了第一個卷積神經網絡 LeNet-5,能夠分類手寫數字。卷積神經網絡可以做到平移不變形,即使對象的外觀發生某種方式的變化,也可以識別出對象。卷積神經網絡通過監督學習和反向傳播對輸入到卷積網絡中的數據做訓練,並反覆、自我校正。
  • 中金:如何把握計算機視覺公司上市元年的投資機會?
    我們認為2021年將是計算機視覺公司登陸資本市場的元年。中金科技團隊從2017年開始跟蹤商湯、曠視、依圖、雲從、雲天勵飛等一批企業。通過這幾年的跟蹤,以及對這批企業招股書的分析,我們看到:1)軟硬體一體的智慧城市解決方案已經成為計算機視覺公司的主要商業落地場景;2)各家企業從最初的算法起家,逐漸找到了適合各自的商業模式;3)長期來看數位化轉型是AI企業重要的發展機遇。
  • 阿里安全高效分類AI獲計算機視覺頂會冠軍 極速保護商標不被侵權
    阿里安全高效分類AI獲計算機視覺頂會冠軍 極速保護商標不被侵權 iwangshang / 網商君 / 2020-08-06 摘要:為數字基建的安全建設提供樣本參考。
  • 港中文開源視頻動作分析庫MMAction,目標檢測庫算法大更新
    OpenMMLab 計劃是香港中文大學多媒體實驗室(MMLab)2018 年啟動的計劃,由香港中文大學教授、商湯科技聯合創始人林達華老師負責,初衷是「為計算機視覺的一些重要方向建立統一而開放的代碼庫,並不斷把新的算法沉澱其中。」
  • 算法庫開源講座第一講:港中文MMLab博士詹曉航帶你實踐自監督學習...
    「算法庫開源講座」,是智東西公開課繼前沿講座之後,面向開發者和科研人員策劃推出的、專注於講解不同開源算法庫及其開發實踐的一檔開源講座。第一季推出三講,將分別針對開源算法庫OpenSelfSup、OpenPCDet和OpenUnReID的框架組成及開發實踐進行深度講解。
  • 光學預處理使計算機視覺更強大、更節能
    使用深度學習卷積神經網絡的計算機(處理圖像的算法層)已經徹底改變了計算機視覺。但是,卷積神經網絡(CNN)通過從先前訓練的數據中學習,經常記憶或發展成定式來對圖像進行分類。而且比較容易受到對抗性攻擊,這些攻擊以圖像中微小的、幾乎無法察覺的扭曲形式出現,從而導致錯誤的決策。這些缺點限制了CNN的實用性。
  • 人工智慧之計算機視覺應用專題報告2016
    計算機視覺作為人工智慧技術的基礎,受到深度學習的成功影響在近幾年內取得了突破性的進展,正在成為影響行業發展的下一個引擎。巨頭紛紛布局,市場也吸引了越來越多的人才創業參與其中。計算機視覺正在成為人工智慧最火熱的細分領域之一。本報告將針對計算機視覺技術發展的關鍵節點、市場現狀及應用場景進行分析和研究。
  • 建超算中心、開源核心算法,商湯開闢AI開放戰場
    從超算中心到算法開源,商湯走向開放在本屆WAIC大會上,除了已經破土動工的超算中心,商湯公布的另一大開放計劃,是算法開源。2018年年中,商湯科技與香港中文大學聯合啟動了OpenMMLab開源計劃,開始將一部分自研AI算法開源化。