拍照角度各不相同?百度如何做到細粒度模型訓練,識別萬千植物

2021-01-10 百度AI

春季為全家出遊賞花旺季,能夠在小夥伴面前叫出所見植物的名稱在遊園期間就成為一項神技能。為了滿足大眾對植物認知的需求,此前,百度已陸續與國內多家植物園展開合作,並聯合中科院植物研究所等專業機構對植物識別結果進行鑑定,引入350萬專業植物數據進行模型訓練,提升植物識別率。

遊客使用百度 APP 拍照便能識別植物信息,通過百度圖像視覺搜索與植物園實地場景結合,打造出基於 AI 的智慧植物園,為遊客提供植物識別、植物園遊覽資訊、植物地圖精準推薦等應用場景,讓遊客輕鬆領略到一拍即識身邊花草樹木的高科技遊園體驗。

百度已經與中科院北京植物園、北京世界花卉大觀園(4A)、西雙版納熱帶植物園(5A)、武漢植物園(4A)、上海植物園(4A)、興隆熱帶植物園(4A)等12家植物園達成合作,並在今年春天展開了一系列線上線下互動活動,還沒去賞花的小夥伴們快去自己親身體驗下吧。

那麼百度是如何做到通過拍攝花卉照片便能準確識別花卉信息的呢?下面有請來自百度視覺搜索團隊,百度視覺技術部、中科院植物研究所、中國植物園聯盟的大牛們為大家揭露植物識別背後的奧秘,獨家放送,不要錯過哦!

百度視覺搜索總經理彭博表示,百度視覺搜索已涉及生活中多個領域,對於複雜的花卉識別,讓機器進行細粒度模型訓練,結合專業資料庫,大大提高花卉識別精準度,未來也希望能夠有更多領域加入,為用戶帶來更好的服務和便捷的搜索體驗。

1.為什麼要做花卉識別

在日常生活中,花卉不僅可以提高品味,裝飾室內、花園與陽臺,也可以淨化空氣,為我們帶來愉悅的心情和美妙的視覺感受。

圖片來自網絡:室內裝飾/花展/婚禮鮮花

辣麼,全世界有多少種花呢?截止到2010年,據不完全統計,世界上可以開花的植物有將近40萬種。但是,在日常生活中或花卉展覽時我們真正可以見到的僅有上千種花。這麼多種花,總有你一見鍾情的那一款,可是你卻叫不上它的名字,這就好比偶然見到了眼熟的女神或者是男神,卻不知道對方的名字一樣,甚是尷尬。

為了解決大眾這個看似簡單的生活痛點,百度藉助 AI 技術,讓你只需掏出手機從百度搜索框中打開攝像頭,就可以輕鬆知道自己喜歡的花的名稱。可是,面對上千種不同的花,該怎麼做呢?

2.上千種不同花卉識別:

通用分類與細粒度分類

這項技術來自於百度視覺技術部下的細粒度圖像團隊。花卉識別是非常具有針對性與專業性的分類,識別出一朵花不僅需要嚴謹、正確的專家級鑑定,還需要能區分上千種花之間細微差別的能力。因此,花卉識別超越了通用識別的範疇,隸屬於細粒度識別範疇。

通用分類技術,只需讓計算機知道日常生活中常見的事物即可,比如花、狗、貓、房子和汽車等。但是細粒度分類要教會計算機擁有專家級別的能力,不僅需要知道是不是花,而且要準確地告訴我們是什麼品種。

圖1:通用分類

圖2:細粒度分類

3.怎麼做花卉識別

首先,上千種花卉數據信息是如何收集的呢?我們藉助百度的知識圖譜,對世界上的花卉名字進行科學的科、屬、種劃分,建立了一個非常專業的花卉類別庫,支持花卉種類過萬,大大超出了日常生活中常見的花卉種類。

接下來,按照這份列表,藉助百度強大的圖庫,進行文字搜索。累計到目前的最新版本,我們已經從兩千多萬的圖片中篩選出了大量的優質花卉圖片。對於這些圖片,標註人員通過權威樣本庫中的文字描述,並在中科院老師的幫助下,根據花卉的葉子、形狀、顏色等微觀特徵進行挑選與標註。除此之外,還進行了標註質量的檢查,標註準確率在 95% 以上。這個數字意味著,高質量的數據為模型的學習奠定了很好的基礎。

最後聊聊方法。每個用戶在拍攝花卉的時候,雖然都會儘可能地對準目標,但是對同一朵花而言,拍出來的姿勢也會千差萬別。比如,拍攝環境的光線明暗程度、手機抖動帶來的模糊畫面等差別都需要解決。

我們讓計算機在「看」一張花卉圖片的同時,通過算法模擬各種拍攝環境情況,儘可能讓它「看」到同一朵花在更多的情況下的圖片,比如,下圖中我們演示了幾種情況,模型在學習一朵花的同時,還要學習它的各種情況下的模樣,光線、旋轉、以及放大縮小等。這樣,就可以模擬一朵花的各種情況來應對用戶不同拍攝情況的問題。

對於模型上的選擇,我們嘗試了很多方法以及創新。近幾年,在細粒度的分類領域,注意力機制(Attention Mechanism)引起了很大的關注。通過大量的樣本學習,模型會自己注意到一些比較有意義的特徵與紋理。

百度提出了 Fully Convolutional Attention Localization Networks[https://arxiv.org/pdf/1603.06765.pdf],這個方法利用 attention 機制解決了細粒度識別領域中,區分類別之間細微差異的問題。

在過去的工作中,大部分方法都是需要利用人為精確的 part 標註信息,才能教會模型應該「認真地」去關注哪些細節。這種方法缺點在於標註 part 太依賴人的經驗,並且標註成本昂貴。另一個原因是有些細粒度識別任務,憑藉人的經驗不容易知道哪些 part 細節是有用的,比如花卉、菜品或者是動物。因此,讓機器自己去學習一些有用的 part 信息是非常有必要的。如下圖,利用深度學習模型,能夠很好地讓模型通過看海量數據去學習到關鍵的細節。

在訓練時候發現, 模型會「偷懶」, 模型總會過分關注於自己已經識別的花卉,如何讓模型自己能著重學習那些識別不了的花卉呢? 為了更好地解決此類問題,我們將那些做不好的花卉樣本,通過數據挖掘技術,檢索出更多類似的難樣本集。讓模型能夠更加關注於這些難樣本。和人一樣,每次都得學習有難度的知識,才會變得更強。

另外,任何機器算法都不是完美的,有時候也會出現識別的錯誤。為了解決這個問題,我們在後期做了一些嘗試,使用數據回流來不斷提高模型的準確率。越來越多的用戶使用百度 APP 來拍攝花卉,從而留下了大量、真實的花卉圖片,利用這些寶貴的數據,對這些數據進行清洗與標註,反哺給我們的模型,形成一個良性循壞。這樣機器便會對用戶拍攝的花卉越來越自信地給出正確名稱。

春天正是參加踏春、戶外旅遊、參觀花展的最好時期,拿上手機,打開百度 APP 去拍照搜索那些嬌媚花兒的名字吧。如果花旁邊正好有個好看的妹子,也可以用百度 APP 搜索框打開相機,拍妹子旁邊的花,知道花名的同時還能順便悄悄拍下那漂亮妹子也是極好的。

相關焦點

  • 花卉信息一拍即得 百度細粒度模型訓練能實現
    隨著人工智慧技術的不斷發展,現在通過百度APP視覺搜索功能拍照識別花卉信息,便能輕鬆解決這些問題,幫你秒變植物科普達人。AI視覺搜索作為連接人與信息服務的新型交互技術,正在逐步影響我們的日常生活。去年百度已與中科院植物研究所、中國植物園聯盟、全國12家知名植物園等機構展開合作,就百度植物識圖檢索科普,AR識圖遊覽互動,植物地圖大數據等層面達成共識。
  • 百度識圖與vivo NEX深度合作!這款手機能通過拍照識別萬物了
    6月12日晚,vivo NEX在上海正式發布,這款手機除了具備升降式前置攝像頭,三面屏無邊框等亮點功能外,還通過與百度識圖的技術深度合作,在相機及相冊等拍照入口提供了AI圖像識別能力,用戶可以通過手機拍照來識別萬物。
  • 目前換臉技術識別人臉的模型是不能更換的
    百度前端團隊總結了一些實現ai換臉的工作方法,總結如下。不考慮代碼實現,只考慮從人臉辨識到換臉的全流程。以眼睛為準,將所有參數同步到ai模型。把常見的人臉辨識任務都分解成單一任務來評估效果,比如面部定位算法識別輪廓、識別鼻子嘴巴以及識別上半臉圖片。抽取特徵並實現分類。面部信息和識別結果一起獲取損失函數。從相似的面部特徵樣本中找到最相似的特徵圖像和用於輸出特徵圖像進行預測。
  • 今日Paper | 社交媒體謠言檢測;連續手語識別;細粒度服裝相似性...
    from=leiphonecolumn_paperreview0218推薦原因這篇論文要解決的是連續手語識別的問題。以往的深度學習模型在連續手語識別任務中只關注了最具區分性的特徵,而忽略了其他視覺線索,例如手型、面部表情和身體姿勢。這篇論文將多線索學習和神經網絡相結合,提出了一個名為STMC的時空多線索網絡來解決這個問題。
  • 基於百度EasyDL定製化圖像識別平臺的海洋魚類識別方法
    本文作者:範偉亞【目的】魚類識別對漁業資源的開發利用有著重要的意義。針對海底環境惡劣、拍攝環境亮度低、場景模糊的實際情況導致海底觀測視頻品質差,視頻中的魚類識別難的問題以及現有魚類識別方法存在的魚類標註數據集過少導致訓練的深度模型準確度不高的問題。
  • 百度自稱漢語語音識別準確率97%
    近日舉行的中國人機語音交互領域權威的學術會議——全國人機語音通訊學術會議(NCMMSC2015)上,百度透露其在漢語語音識別方面獲得重大突破。據悉,百度研發出了基於多層單向LSTM(長短時記憶模型)的漢語聲韻母整體建模技術,並成功把連接時序分類(CTC)訓練技術嵌入到語音識別傳統技術建模框架中。
  • 史上最強的語音輸入法誕生,百度是如何做到的?
    這就不難理解,為何百度的「新芽」是一款全盤押注語音的 AI探索版輸入法。如果說,「上手更快」是語音輸入法的共性,那麼「識別更快」則是百度輸入法 AI探索版的個性。早在移動網際網路浪潮興起時,語音識別準確率就已成為各家產品必爭指標。在基於 Attention 模型,紛紛提升到 97% 之後,市場卻似乎陷入沉寂。
  • 花卉識別利器or植物識別神器:中科院發布「花伴侶」
    再也不怕看到路邊漂亮的野花卻不知道名字了。 起因是今天看到這篇新聞,假如當時這位少年有這款軟體的話,就不會去作死了。 男子戶外遊玩急性中毒!
  • 深度學習如何大規模產業化?百度CTO王海峰最新演講深度解讀 | CNCC...
    舉幾個例子,文字識別OCR技術早期是用規則+機器學習的方法來做,那時候,一個OCR技術系統可能會分為幾部分,從區域檢測、行分割、字分割、單字識別、語言模型解碼、後處理等一步步做下來。我們之前做機器學習的時候,有非常多的模型大家都耳熟能詳,比如說SVM、CRF等等。深度學習出現以後,人們發現,幾乎我們看到的各種問題它都能很不錯的解決,甚至能得到目前最佳的解決效果,這和以前的模型各有擅長不一樣,它具有很強的通用性。
  • 百度大腦開放24種全新能力,可識別生病或未絕育的流浪貓
    百度大腦開源深度學習平臺PaddlePaddle以及通用AI能力都進行了更新。其中,PaddlePaddle核心框架Paddle Fluid v1.3新增發布視頻分類模型庫,新增支持NLP語義表示BERT模型,提升分布式訓練性能。目前,百度PaddlePaddle已對外開放超過50種經過工業場景驗證的官方模型。
  • 如何用微信掃一掃來識別植物
    我們有時想在百度上搜索,但搜索也要有個名字呀!沒有個名字搜索什麼呢?其實此刻最好就是利用微信裡面的掃一掃功能,它可以識別任何一種植物,是不是有點百事通的味道?現在小編就和大家一起去分享如何用微信掃一掃來識別植物。工具/原料:手機微信方法/步驟:1.打開手機【微信】(以蘋果手機為例)。2.點擊右上角【⊕】。
  • 中英混合和六大方言語音輕鬆識別,百度輸入法讓你想怎麼說就怎麼說
    首先,百度輸入法洞察到年輕圈層的「中英文混合」表達方式,以及不同地區用戶的「方言輸入」需求,因此通過不斷優化技術和訓練新的識別模型,從而實現了「中英文混合識別」與「方言自動識別」兩大功能突破。讓用戶可以自由地使用自己熟悉的表達方式。據悉,百度輸入法是目前唯一實現了高精準中英文混合語音輸入、唯一實現了方言免切換語音輸入的輸入法產品。
  • 如何用百度深度學習框架PaddlePaddle實現智能春聯
    過年貼春聯已經成為一個傳統習俗,而商場裡可選的內容不多,很多人想親自出馬,可惜又不大懂平仄對仗。能不能用人工智慧幫我們寫春聯呢?今年春節,百度、網易和央視網推出了「智能春聯H5」,只要給出2-4個漢字,它就能據此「寫」出一副非常具有觀賞性的藏頭春聯。是什麼讓機器擁有對春聯這項技能?通過智能春聯H5,「刷臉」對春聯只需幾秒就能實現,而這背後是一系列「不可描述」的高深技術。
  • 百度AI開發者大會輸入法現場大飆Rap!高難度中英文混合語音識別...
    在7月3日「Baidu Create2019」百度AI開發者大會現場,百度首席技術官王海峰在演講中表示,「百度研發了流式多級的截斷注意力模型(SMLTA),使語音識別的準確率大幅提升並保持了非常高的速度,這是首個基於流式注意力的語音識別線上服務,百度輸入法語音識別的準確率因此相對提升15%以上」。
  • 用百度大腦植物識別,快速搞定「萬種植物和花卉」小工具
    1.功能描述: 該請求用於識別一張圖片,即對於輸入的一張圖片(可正常解碼,且長寬比較合適),輸出植物識別結果。近期植物識別進行了能力升級——模型升級,Top1準確率絕對值提升11.76%,精度保持業界領先!具體如下圖所示:
  • 語音識別準確率行業第一,中英、方言混輸百度輸入法都沒在怕的!
    這時候就該「動口不凍手」的語音輸入來「大展拳腳」了,打開百度輸入法語音輸入,分分鐘就能幫你搞定各種輸入需求。最近,艾媒諮詢發布《中國第三方手機輸入法市場年度專題研究報告》(以下簡稱《報告》),指出了百度輸入法2019年在語音輸入領域的重大突破。
  • 準確率超90%、1秒發出報警:百度飛槳讓電力巡檢更快更準更輕鬆
    眾所周知,深度學習技術堪稱人工智慧的「底座」,在各大傳統產業上也有著巨大的潛力尚待挖掘。5月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的「WAVE SUMMIT」2020深度學習開發者峰會召開,百度深度學習平臺飛槳攜手國家電網和山東信通,打造的電網智能巡檢方案作為典型案例亮相,向觀眾展示了深度學習如何在工業領域實現落地。
  • 深度學習把機器人變成「垃圾清道夫」:百度飛槳與金漉科技的故事
    5月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的「WAVE SUMMIT」2020深度學習開發者峰會召開,除了技術升級與產品更新之外,百度深度學習平臺飛槳還展示了各行業的典型落地案例,其中,金漉科技的案例最接地氣,也與時下社會民生關注的某個熱門話題有關——「垃圾分類」。
  • 曠視科技申請 「狗臉識別」專利 基於狗鼻圖像與已訓練好狗鼻紋模型
    IT商業新聞網7月22日訊,近日,北京曠視科技有限公司新增多條專利信息,包括申請 「狗臉識別」專利。  北京曠視科技有限公司新增的多條專利信息中,有一條最引人注目:一種狗鼻紋特徵點的檢測方法、裝置、系統及存儲介質。據天眼查數據顯示,本專利申請於 2018 年 12 月,公布日在 2020 年 7 月。
  • 蘋果發布長文,揭秘 iPhone 等設備如何利用三萬字符庫實時識別手寫...
    在智能和行動裝置十分普遍的今天,手寫字符識別的重要性愈加顯現出來,在手機、便攜設備、可穿戴設備以及智能手錶上都會有十分重要的應用。對於行動裝置端的設備來說中文手寫字符識別需要大規模的字符庫支持。這篇文章闡述了我們如何在蘋果的行動裝置上實現實時手寫中文字符識別的過程。