Facebook推出新AI工具可直接識別圖片中的物體

2020-12-20 騰訊網

要讓計算機學會識別一張照片中的圖像,通常來說,需要先讓它看上千張已經標註好數據的圖片。為了能簡化計算機識別圖像的過程,來自Facebook人工智慧研究實驗室(FAIR)的六名成員利用Transformer神經網絡架構創建了端到端的圖像檢測AI。

DETR可以直接(並行)預測最終的檢測結果

研究員將這套工具命名為DETR(Detection Transformer),並表示這套工具簡化了識別圖片對象需要的組件。

FAIR 在官方博客中稱,DETR是第一個成功將Transformer架構集成為圖像對象檢測核心的工具。Transformer架構可以像近年來對自然語言進行處理一樣,徹底改變計算機視覺,或者縮小自然語言處理與計算機視覺之間的差距。

「通過將通用的CNN與Transformer架構相結合,DETR可以直接(並行)預測最終的檢測結果,與許多其他現代檢測工具不同,新模型在概念上很簡單,不需要專門的資料庫。」研究員在論文中稱。

Transformer架構由谷歌研究人員於2017年創建,Transformer架構最初旨在改進機器翻譯的方法,但目前已發展成為機器學習的基石,可用於訓練一些最流行的經過預先培訓的語言模型,例如Google的BERT,Facebook的RoBERTa等。Transformer架構使用注意力函數代替遞歸神經網絡來預測序列中的下一步。應用於物體檢測時,Transformer可以減少建立模型的步驟,例如創建空間錨點和自定義圖層等步驟。

研究人員在論文中稱,DETR取得的結果可與Faster R-CNN媲美。Faster R-CNN是由微軟研究院創建的對象檢測模型,自2015年推出以來已獲得近10000次引用。

儘管效果不錯,但研究人員在論文中也指出了這個模型的主要問題之一:DETR在大物體的識別上比小物體上更準確。研究人員表示:「目前的模型需要幾年改進才能應對類似的問題,我們希望未來的工作能夠成功解決。」

值得一提的是,DETR是Facebook 最新推出的AI計劃,這個計劃旨在找到一種語言模型來解決計算機視覺帶來的挑戰。在此之前,針對自家平臺上泛濫的謠言和不實消息,Facebook引入了惡意模因數據集挑戰。Facebook認為,惡意圖文對於機器學習程序而言是一個有趣的挑戰,機器學習在短時間內還找不到完美的解決方法。Facebook希望開發者能創建出模型識別圖像和隨附文本中違反Facebook政策的內容。

相關焦點

  • Facebook推出新AI工具,可直接識別圖片中的物體
    Facebook推出新AI工具,可直接識別圖片中的物體 近日,來自Facebook人工智慧研究實驗室(FAIR)的六名成員利用Transformer神經網絡架構創建了端到端的AI工具「DETR」,用於簡化計算機識別圖像的過程。
  • Facebook開源多款AI工具,支持遊戲、翻譯
    、Caffe 等深度學習框架之外,此次開源的還包括 DensePose(可用於人體姿態估計)、Translate(可翻譯 48 種語言)、ELF(可通過遊戲來教機器推理)等諸多 Facebook 內部使用的庫和模型。
  • Waymo推出AI「內容搜索」工具讓自動駕駛汽車快速識別物體
    蓋世汽車訊據外媒報導,Waymo研發的自動駕駛汽車利用計算機視覺技術和人工智慧識別周圍環境,並對車輛應該如何反應和移動做出實時決策。當車內攝像頭和傳感器感知到物體時,此類物體會與Alphabet編制的大型資料庫中的物體進行匹配,以便進行識別。
  • Facebook的AI識菜譜,把皮卡丘認成了煎蛋……|技術前沿洞察
    給定一張食物圖片,AI 系統會先判斷它包含哪些食材和配料,進而以圖片、食材和配料表為條件,推導出它們的加工方式,最後根據加工方式的可能性從高到低排列,形成很多份菜譜。不過有意思的是,這個AI 系統可以接受和分析任何圖片。比如上傳個月亮圖片,被識別成「家常煎餅」,上傳個iPhone,被當成「家常冰凝膠」,至於皮卡丘,則被當成了「煎蛋」。。。
  • 早報|亞馬遜推出的可識別目標物體、可編程的 AI攝像頭DeepLens
    創新|亞馬遜推出的可識別目標物體、可編程的 AI攝像頭DeepLensDeepLens 包括一個可拍攝1080p 視頻的400萬像素攝像頭和兩個麥克風,內置 8GB 的 RAM 和 16GB 的存儲空間,以及一個用於提前訓練好的物體識別模型和代碼系統,主打物體識別。
  • 谷歌和OpenAI研發新工具,深入了解AI如何識別圖片
    雖然,神經網絡在識別圖像中的物體等任務上取得了巨大的成功,但它們是如何做到的在很大程度上仍是一個謎。它們的內部工作方式被屏蔽,隱藏在層層計算中,不讓人看到,使得人類很難診斷錯誤或偏差。「由於神經網絡固有的複雜性,它們有時缺乏可解釋性,」但他說,在未來,當網絡被廣泛用於自動駕駛汽車和引導機器人時,這將是必不可少的一步。Open Ai的Chris Olah也參與了這個項目,他說:「這有點像製作顯微鏡。至少,這是我們所設想的。」要了解激活圖集和其他功能可視化工具的工作原理,首先需要了解一點人工智慧系統如何識別對象。
  • 怎樣識別圖片中的文字?可以用什麼工具識別圖片中的文字?
    當事後查看圖片時,覺得上面提供的地址有好幾個,地名又生疏,便想識別文字出來,粘貼到百度地圖上導航。可如何識別圖片中的文字呢?我找到了一款迅捷文字識別軟體,它有拍圖識字、圖片轉word等功能可以用。獲取app、選擇【圖片轉word】功能其實這個工具還支持在小程序和電腦上同時使用,不同的方法適合不同場景。我們先來看看怎麼在手機app上識別圖片文字吧。首先,諸位要在手機應用中找到工具,接著打開來到【文檔】界面,上面可以選擇【圖片轉Word】功能。
  • 五大可識別圖片的人工智慧技術分析
    從所見當中識別圖案、物體以及文本情景的能力讓我們很智能,這種能力也是人的本質特徵。  不過直到最近,計算機都對圖片束手無策。比如,除非人為添加一些標籤和注釋,否則機器就無法理解圖片,圖片也就是成了無用的文件。但是,這種尷尬的情況正在發生變化。
  • Facebook新研究:結合手勢識別技術,將任何物體變成AR/VR手柄
    近期,Facebook Reality Labs的科研人員公開了一項與AR/VR交互相關的新研究,研究中指出了一種可將周邊日常物品作為手柄的全新體感交互系統:Gripmarks。科研人員稱,該方案可用於AR或者VR,可增強使用者的沉浸感。
  • 11月Facebook廣告產品更新:拆分測試新添工具
    拆分測試添加「素材測試」以及「測試與學習」新工具 · 拆分測試添加「素材測試」 通過A/B測試、基於廣告目標判斷哪一素材變化可以最大化廣告成效。 ◇ 最多5個素材變量同時測試 ◇ 系統會在到達一定量impression的時候進行判定,判定標準以objective和optimization for delivery決定。
  • Unity2019.2 Beta版:支持AR面部追蹤和3D物體識別
    5月15日,Unity推出2019.2 Beta版,並加入4個新的AR Foundation功能和一個預設VR高清渲染流程(HDPR),目前它們都處於預覽階段。據青亭網了解,本次更新中加入的4個AR Foundation功能包括:面部追蹤、2D圖片追蹤、3D物體追蹤和環境識別。面部追蹤功能同時支持ARKit和ARCore,它可通過網狀標識來識別面部特徵,並用識別到的面部信息提高AR動畫的效果。
  • 清華、協和等單位開發乳腺癌AI診斷工具,可準確識別惡性腫瘤
    該工具包中包括一個惡性預測工具和一個分子亞型分析工具,可以進行乳腺癌的分子分型以及惡性腫瘤識別。具體而言,該模型在乳腺癌分子分型的準確率達到56.3%,F1 Score是45.8%。與其他篩查技術相比,超聲檢查具有非電離輻射、無創性、高敏感性、便攜性、可及性和成本等優勢,當然,超聲檢查由於噪聲和偽影的存在,其圖像質量也往往較低。近年來,人工智慧在醫學影像識別方面取得了巨大的進步。在健康領域,神經網絡具有非凡的能力,深度學習算法能夠識別醫學圖像的特徵並學習如何對它們進行分類。
  • Ai上色工具
    查看其快捷鍵3.ctrl+shift+p素材置入鎖定圖片ctrl+2解鎖圖片ctrl+alt+24.AI後 矢量圖不識別 分析不出來位圖的屬性 所以顏色 畫筆都不能用了只要是矢量屬性功能 都不能用了 解決辦法只有找到 色板庫 畫筆庫進行調用ps矢量工具會受到軟體限制 所以矢量圖還是會出現虛化jpg本身就是位圖 如果ai源文件導出保存為jpg會使源文件失真 從而成為一張位圖===================================
  • Facebook新AI模型SEER實現自監督學習,LeCun大讚最有前途
    億張圖片上訓練的AI模型SEER。 剛剛,Facebook宣布了一個在10億張圖片上訓練的AI模型——SEER,是自監督(Self-supervised)的縮寫。 該模型包含10億個參數,可以在幾乎沒有標籤幫助的情況下識別圖像中的物體,並在一系列計算機視覺基準上取得了先進的結果。
  • Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新...
    圖 1 Facebook 引入的一種新方法上面的圖片展示了這種技術是如何工作的:首先,一個正向模型將一個句子翻譯成英語,例如從德語翻譯成英語,就會生成一組英語翻譯或假設。更多詳情,可以參考 Facebook 人工智慧在 2019 年 WMT 國際機器翻譯大賽中的表現(https://ai.facebook.com/blog/facebook-leads-wmt-translation-competition/)。
  • 百度推出EZDL,沒有編程經驗也可訓練AI
    本周,針對那些沒有足夠財力或精力學習專業知識的人,百度發布了一個名為EZDL的在線工具,使得任何人不用編寫一行代碼就可以輕鬆地構建、設計和部署人工智慧(AI)模型。百度AI技術生態部總經理喻友平表示,百度的EZDL在構建時以性能、易用性和安全性為基礎,主要針對三大類機器學習:圖像分類、物體檢測和聲音分類。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    OCR 智能結構化識別開放邀測結構化識別各類卡證、票據,無需配置結構化對應關係、無需提取關鍵詞、無需定製開發,直接上傳圖片即可獲得結構化識別信息;適用於政務審批、證件信息錄入、境外證件讀取等場景>>申請試用
  • Facebook全球崩潰11小時,暴露了科技巨頭們用AI為你打的標籤
    不過人們在這場混亂中發現了一個有趣的現象:伺服器訪問的崩潰暴露了 Facebook 對用戶上傳所有圖片的隱藏標籤。今天,科技公司用 AI 對你上傳的圖片做各種標註是常規操作。facebook 把這位用戶的頭像描述為「一個有鬍子的人」。與此同時,Instagram 上也出現了同樣的圖片標籤。這些標籤不僅詳細列舉了一般場景和目標描述,還根據 Facebook 的人臉識別顯示出了照片中的人是誰。
  • 怎麼提取圖片中的文字?值得收藏的幾款免費在線識別圖片文字工具
    怎麼提取圖片中的文字?遇到已經是圖片的文字,無論怎麼轉都沒辦法編輯內容,這是很多朋友都曾經碰過的問題。那麼除了看著圖片自己重新手動打一篇,有沒有其他更快的方法呢?其實只要透過 OCR(光學字元識別)技術就能利用機器辨識圖片中的內文,再將內容轉為純文字格式輸出,這也是是我在打工這麼多年的實際工作中經常碰到的問題,尤其是做圖片設計的時候。
  • Facebook 開源三款圖像識別人工智慧軟體
    生成初始對象mask、SharpMask優化這些mask,最後由MultiPathNet來識別這些mask框定的物體。Facebook的人工智慧研究實驗室(FAIR)此前曾在多篇學術論文中討論過以上開源的圖像分割技術(論文1、論文2、論文3)。圖像分割技術不僅能夠識別圖片和視頻中的人物、地點、物體,甚至能夠判斷它們在圖像中的具體位置(精確到像素級別),為了做到這一點,Facebook使用了一種人工智慧技術——機器學習,也就是用大量的數據來訓練人工神經網絡,不斷提高其對新數據的處理判斷準確性。