北大校友出品:顯著性目標檢測工具,AI生成肖像畫,精細到毛髮

2020-12-03 電子發燒友

北大校友出品:顯著性目標檢測工具,AI生成肖像畫,精細到毛髮

機器人大講堂 發表於 2020-12-02 10:42:23

「只要思想不滑坡,辦法總比困難多,乾巴得!」

打工人的一天終於要結束了!拖著疲憊的身軀準備下班,卻聽到同事小A還在給自己打氣。

只見他迅速打開電腦,打開百度、打開知乎豆瓣微博微信......

都輸入了同一行字:肖像畫簡易教程......

還以為他要幹什麼驚天動地的大事!原來是想給女神古力娜扎(Gulnazar)畫一幅肖像畫。

年輕人就是年輕人,還有精力追星。

可還沒等我離開,他卻哭了—"世上無難事,只要肯放棄」,哇的一聲!

也是難為他了。無文藝細胞的理工男一枚,沒學過畫兒,也沒畫過畫兒,現在還想給女神畫一幅肖像畫兒,看這頭秀髮哪是一個小白能畫出來的。

「這哪是簡易教程,構圖、劃線、起形.....看的我頭都大了,效果還只是這樣。」

聽著小A絮絮叨叨、絮絮叨叨的吐槽,不禁想起了當年的自己,作為一個呆萌理工男也少不了做過同樣的蠢事。

「你不知道有很多APP,只要輸入照片就可以一秒生成嗎?」我忍不住說到。

小A呆住了。

「不過,看來你的要求還挺高,這樣,給你推薦一個高階版神器吧」。我迅速發了一張樣圖給他:

(別問我為什麼可以迅速,問就是早有預謀)[讓我看看]

「先看整體感覺,是不是一股藝術氣息撲面而來?再看看神情,輕輕皺眉都能捕捉到位,再看看這頭髮,濃密柔和自然,還根根分明,一看就是專業水準.....%¥#%@#」,不知不覺又暴露了推銷老司機的本質....

「贊、太贊、非常贊!一句話,這是用的什麼神器?」

「我發給你,就是用的這款AI工具...........%¥#%@#,它的研發者還是我們北大....」

話還沒說完,小A就把他的成果圖發給了我。

「太棒了,沒想到如此輕鬆就搞定了!」只見他邊說邊合上電腦、裝進書包,穿上外套,大步走向了門口,這速度像極了我平常下班的樣子......

最後還不忘轉身朝我比了一串串小芯芯......

我呆住了。「先走的不應該是我嗎?」,「等等,我話還沒說完!」。

「算了,這班我不下了」。

除了他,相信大家對這項AI工具的背後原理「一定」非常感興趣,那麼我就來給大家詳細介紹一下。

北大校友出品:顯著性目標檢測工具

這款AI工具叫U∧2-Net(U Square Net),最近火到不行!

不僅登上了GitHub熱榜,收割了2.8k星標,還被頂會ICPR 2020 選中。更關鍵是,這項研究的一作還是北大校友——秦雪彬。

相信不少開發者朋友對這個名字非常熟悉,他之前提出邊界感知顯著目標檢測網絡 BASNet,被用來做了很多好玩的工具,比如『隔空複製粘貼』——AR Cut & Paste。

只要手機掃一掃,書本、花盆、雜誌人物,你能看到的任何現實物體,只需10s統統都可以被「粘貼」到電腦裡。

這項研究在Reddit上短短幾個小時,就獲得了近5K點讚量,之後累計瀏覽量超過了500萬。

秦雪彬以前在北京大學讀碩士,現在是加拿大阿爾伯塔大學的一名在讀博士。他對計算機視覺技術非常感興趣,尤其是目標物體檢測。最近推出的這款U^2-Net深度網絡架構,同樣是一個目標檢測工具。

之前的BASNet網絡被用來做「複製粘貼」測試,效果很好。這次,他就用U^2-Net做了一個生成肖像畫測試,結果也火了。

再來感受下精細到毛髮的生成效果。

目標檢測是計算機視覺和數字圖像處理的一個重要分支。計算機視覺對於目標運動的分析大致分為三個層次:圖像分割,目標檢測;目標跟蹤;目標識別與描述。其中,目標檢測是最基礎且關鍵的環節。

2006 年,自深度學習三大巨頭Hinton、Bengio、Lecun 提出卷積神經網絡(CNN),並應用於圖像處理以來,目標檢測技術得到顯著性改善,尤其是隨著全卷積神經網絡(FCN)的提出,目標檢測任務逐步達到最佳SOAT。

在今年的MICCAI 2020(國際醫學圖像計算與計算機介入)大會上,U^2-Net憑藉出色的性能表現,在甲狀腺結節分割比賽中獲得第六名。

接下來,我們說說它是如何做到的。

任何AI處理過程都分為三個階段:輸入目標——模型訓練——輸出結果。要想達到高質量的生成效果,除了考驗模型精度外,當然輸入源也很重要。這一點也是我們所能控制的。

對於U^2-Net而言,高質量的照片源可以獲得更多細節,所以在上傳照片時要注意以下幾點:

照片中人頭區域應接近或大於512x512像素。

照片整體大小最好達到960x1280像素。

背景要儘量清晰、無幹擾。

如圖,秦雪彬還親自示範做了說明。

接下來是最關鍵的目標檢測模型(SOD)。

U^2-Net模型:嵌套式雙層U型結構

先來看一組與現有最先進SOD模型的比較。

其中紅色星標代表U∧2模型(176.3 MB),它在相對小的模型尺寸下,表現出了最高性能。(藍色星標為4.7 MB的U∧2)

之所以達到如此性能,是因為U∧2擁有兩層嵌套式U型結構,其中的ReSidual U-Block(RSU)中混合了大小不同的接收域,能夠從不同尺度捕獲更多語境信息。另外,由於這些RSU塊中使用了池化操作,因此可以深度捕獲更多細節,同時不會顯著增加計算成本。

最關鍵的是,這種結構體系能夠讓模型從頭訓練深層網絡,而無需使用圖像分類任務的架構。

現在大多數SOD 網絡設計都存在這樣一個問題:即專注於利用現有的基礎網絡提取深度特徵,例如 Alexnet、VGG、ResNet、ResNeXt、DenseNet 等。但這些主幹網絡最初都是為圖像分類任務設計的。

它們提取代表語義含義的特徵,而不是代表局部性細節或全局對照信息,這對於顯著性目標檢測至關重要,並且這些網絡通常需要在 ImageNet 數據上進行預訓練,效率比較低。相比之下,U∧2-Net可以有效地避免上述問題。

U∧2-Net架構

接下來詳細介紹其中的塊結構、網絡監督策略以及訓練損失。

ReSidual U-Block

在圖像信息提取中,1×1或3×3的小型卷積濾波器是最常用的特徵提取元件。因為它所需內存小且計算效率高。但該元件接收域太小,無法捕獲全局信息,因此解決方法只能是採用擴張卷積(Dilated Convolution)的方法來擴大接收域。

然而在原始解析度的特徵圖上進行多次擴張卷積(尤其是在初始階段),會耗費大量的計算和內存資源。

為了降低計算成本,同時又能捕獲全局信息,研究人員採用了金字塔池化模塊(Pyramid Scene Parseing Network,PSPNet)。該模塊在下採樣特徵映射上使用小核濾波器,而不是在原始尺寸的特徵映射上使用擴張卷積的方法。

但通過直接上採樣和級聯將不同尺度的特徵融合,可能會導致高解析度特徵的退化。因此,研究人員受到受U型網絡結構的啟發,提出了一種全新的ReSidual U-block:RSU,來捕獲階段內的多尺度特徵。如圖:

從測試數據來看,RSU計算開銷確實相對較小。與PLN(普通卷積塊)、RES(剩餘塊)、DSE(密集塊)、INC(初始化塊)相比,所耗費的GFLOPS浮點數最低。(GFLOPS ,全稱Giga Floating-point Operations Per Second,即每秒10億次的浮點運算數,常作為GPU性能參數)。

Supervision策略

在訓練過程中,研究人員採用了類似於HED的深度監督。

其中,訓練損失(Training Loss)定義為:

每個項L使用標準二進位交叉熵來計算損失:

在訓練過程,等式(1)讓總體損失最小化;在測試過程,選擇融合輸出的lfuse作為最終的顯著性圖。

比較實驗:全尺寸最佳SOTA

在論文中,研究人員將U2模型與其他20多種現有最先進的模型進行了比較。

其中,各模型採用訓練數據集是DUTS-TR,它含10553張圖像,是目前用於目標檢測的最大和最常用的數據集;採用的基準數據集分別為DUT-OMRON、DUTS-TE、HKU-IS、ECSSD、PASCAL-S、SOD六種。

先來看下定性比較的結果:

紅色、綠色和藍色分別表示最佳、第二和第三性能

從表3、表4來看,U∧2-Net在DUT-OMRON、HKU-IS以及ECSSD三個基準數據集上展現了極大先進性,五個評估指標都達到了最佳SOTA。

其中,在DUTS-TE上,U∧2-Net總體性能僅次於PoolNet;在PASCAL-S上,U∧2-Net性能僅略低於AFNet、CPD和PoolNet。此外,在邊界質量評估指標(RelaxFbβ)方面,U∧2-Net性能位居第二。

在SOD數據集上, U∧2-Net在整體性能方面也僅此於PoolNet。更重要的是,U∧2-Net模型大小只有4.7 MB,是在顯著性目標檢測領域型號最小的,而且與其他型號相比,它的參數量也少的多。

定性比較結果:比較了七種SOTA模型,如圖:

可以看出,U∧2-Net能夠處理不同類型的目標,並均產生了精準的識別結果。

比如,第4行圖像充分展示它在分割由大結構和薄結構組成的目標時的性能;在第六行複雜的圖像結構下,產生了近乎完美的結果。

總之,U∧2-Net模型能夠處理全尺寸和小尺寸圖像的各種場景,與其他模型相比,能夠產生更高精度的顯著目標檢測結果。

責任編輯:xj

原文標題:前沿|AI生成肖像畫,精細到毛髮!北大校友最新研究收割2.8k星標,還登上了ICPR 2020

文章出處:【微信公眾號:機器人大講堂】歡迎添加關注!文章轉載請註明出處。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • AAAI 2020|用漸進打磨獲得最佳的顯著性目標檢測結果
    論文標題:Progressive Feature Polishing Network for Salient Object Detection論文地址:https://arxiv.org/abs/1911.05942本文為 AAAI2020 接收論文解讀作者:BBuf摘要:圖像的特徵對於顯著性目標檢測非常重要。
  • 基於RCNN的多層次結構顯著性目標檢測方法
    基於RCNN的多層次結構顯著性目標檢測方法 工程師5 發表於 2018-04-30 20:33:00 近年來,隨著人工智慧技術的迅速發展,傳統汽車行業與信息技術結合
  • 吳博:目標檢測集成框架在醫學圖像 AI 輔助分析中的應用 | AI 研習...
    醫學圖像分析中目標檢測任務的普遍性,使得開發目標檢測集成框架顯得必要。近日,在雷鋒網 AI 研習社公開課上,深圳市宜遠智能科技有限公司負責人吳博剖析了目標檢測已有的框架,重點分享如何對目標檢測框架進行改造,以便在醫學圖像分析中產生更好的效果。公開課回放視頻網址:http://www.mooc.ai/open/course/559?
  • 北大500位全球校友聚漢 武漢「校友經濟」 邁向新高度
    在澳大利亞從事貿易工作的北大校友宋海鷹,專程從墨爾本飛到武漢。她坦言,過去對武漢了解不多,但近年武漢發展很快,從事貿易工作的必須多多了解武漢,尋找商機。宋海鷹說:「我29號晚上到武漢的,準備12月1日離開的,現在特意將機票改籤為12月3日,為的就是多花兩天時間考察武漢。」
  • 北大500位全球校友齊聚漢,武漢「校友經濟」走向新高度
    長江日報-長江網11月30日訊(記者楊佳峰 馬振華)11月30日,前晚10時多才趕到武漢的著名金融家屠光紹,神採奕奕地走上中國光谷科技會展中心的舞臺,給500多位來自全球的北大校友獻上精彩演講。北大湖北校友會演唱會歌---荊楚北大情 記者高勇攝「學校在召喚、家鄉在等待、校友在呼喊。」
  • Facebook 發布 Detectron2:基於 PyTorch 的新一代目標檢測工具
    雷鋒網 AI 開發者按:Detectron 是 FAIR 在 2018 年初公開的目標檢測平臺,包含了大量業內最具代表性的目標檢測、圖像分割、關鍵點檢測算法,該框架主要基於 python 和 caffe2 實現,開源項目已獲得了超 2.2w 的星標數。
  • GAN模型生成山水畫,騙過半數觀察者,普林斯頓大學本科生出品
    作者 | 高衛華出品 | AI科技大本營近年來,基於生成對抗網絡GAN模型,圖像生成領域實現了許多有趣的應用,尤其是在繪畫創作方面。英偉達曾在2019年提出一款名叫GauGAN的神經網絡作圖工具,可以利用GAN將語意分割圖轉換為逼真的圖像,即使不擅長作畫的用戶,也能有機會享受到作畫的樂趣,將粗糙的塗鴉變成照片級的寫實作品。通過100 萬張圖片的訓練結果,該工具的神經網絡技術能夠根據對真實圖像的了解,填充所有細節和紋理,以及反射、陰影和顏色,自動生成寫實的美麗風景圖。
  • 用Java實現目標檢測|PyTorch
    這篇來自AWS軟體工程師的投稿,結合實例,詳細介紹了DJL這個為Java開發者設計的深度學習庫:5分鐘,你就能在PyTorch上,用Java實現目標檢測。5分鐘,用Java實現目標檢測文 / 知乎用戶@LankingPyTorch在深度學習領域中的應用日趨廣泛,得益於它獨到的設計。無論是數據的並行處理還是動態計算圖,一切都為Python做出了很多簡化。
  • 用Java實現目標檢測 | PyTorch
    這篇來自AWS軟體工程師的投稿,結合實例,詳細介紹了DJL這個為Java開發者設計的深度學習庫:5分鐘,你就能在PyTorch上,用Java實現目標檢測。5分鐘,用Java實現目標檢測文 / 知乎用戶@LankingPyTorch在深度學習領域中的應用日趨廣泛,得益於它獨到的設計。
  • GAN秒變肖像畫!清華劉永進提出APDrawingGAN,CVPR Oral(附微信小...
    肖像畫是一種獨特的藝術形式,通常使用一組稀疏的連續圖形元素如線條來捕捉一個人的外表特徵。肖像畫通常是在人物面前或基於人物照片進行創作的,其創作依賴於細緻的觀察、分析和豐富的經驗。一幅好的肖像畫能很好地捕捉到人的個性和情感。圖1. 一些人臉照片和對應的藝術家畫的肖像線條畫。
  • 北大四位校友創新合作:統一數論與幾何—新聞—科學網
    北大數學校友創新合作:統一數論與幾何     張偉、袁新意、朱歆文和惲之瑋是北京大學數學科學學院2000級的校友。四位優秀的校友畢業後分別選擇了美國不同的學校深造。如今,張偉是哥倫比亞大學數學系教授,袁新意任加州大學伯克利分校的助理教授,惲之瑋是史丹福大學數學系副教授,而朱歆文在加州理工學院擔任副教授。他們剛剛完成了「數學四重奏」的華美樂章,將數論與幾何統一在一起,實現了一個歷史性突破,引起了數學界的極大興奮與關注。
  • 北大校友助力科創,燕緣雄芯聚焦硬科技
    9月8日,「燕園情 雄芯志·北大校友科創高峰論壇」於北京北辰洲際酒店召開,本屆論壇由燕緣雄芯主辦,北大新世紀集團、久友資本、INKO應科公關諮詢聯合協辦。而基礎研究的創新突破一定要有思想碰撞,燕緣雄芯這樣一個北大校友組織的平臺,為創新提供了重要的交流空間。北大信科院原黨委書記郭瑛北大信科院原黨委書記郭瑛稱,燕緣雄芯平臺要整合起北大的校友資源,發揮平臺的連接作用,幹的實、幹得好,在中國下一步戰略發展中起到更大的作用。
  • 為什麼大學校友的「大國工匠」看不到清華和北大校友的影子
    為什麼大學校友的「大國工匠」看不到清華和北大校友的影子一。朱英福「遼寧艦」總設計師畢業於上海交通大學2。吳光輝「C919」南京航空航天大學總設計師三。你在北大怎麼了?你為什麼越來越讓我們中國人失望?
  • CVPR 2020 目標檢測論文精選
    這個網絡通過處理原始點雲,直接預測目標的3 d邊界框。對於檢測目標,HGNet能夠捕捉這些點之間的關係並且使用多層次語義。然後映射到相同的特徵空間的投票模塊並且用於生成建議。在下一步中,GConv基於建議推理模塊,利用方案來預測邊框。這裡是在sun rgb-d v1數據集上獲得的一些性能結果。
  • 北大校友張益唐教授回校訪問並作學術報告
    8月26日下午,應北京大學數學科學學院和北京國際數學研究中心的邀請,我校傑出校友張益唐教授在北京國際數學中心報告廳作了題為「Problems from the Distribution of Primes」的學術報告。報告會之前,王恩哥校長親切會見了張益唐,對張益唐校友回校訪問表示熱烈歡迎,對他關心和支持學校的發展表示衷心的感謝。王恩哥邀請張益唐今後多回母校看看。
  • 基於PyTorch的CV模型框架,北大學生出品TorchCV
    剛剛推出 1.3 正式版的 PyTorch 風頭正勁,人們已經圍繞這一深度學習框架開發出了越來越多的工具。最近,一個名為 TorchCV 的計算機視覺模型框架站上了 GitHub 趨勢榜。TorchCV 支持的模型TorchCV 支持圖像分類、語義分割、目標檢測、姿態檢測、實例分割、生成對抗網絡等任務中的多個常見模型,列表如下:圖像分類VGG: Very Deep Convolutional Networks for Large-Scale Image RecognitionResNet: Deep Residual Learning
  • NVIDIA出品:AI視頻通話神器,不僅高清,流暢無噪音,還能給你換張臉...
    從NVIDIA官網了解到,Maxine採用超解析度(Super-Resolution)技術,可以實時將低解析度視頻轉換為高解析度視頻。如圖,使用後的視頻像素被提升至720p。另外,AI平臺也增加了消除偽影的功能,可以使得畫面更清晰。
  • Facebook AI的DETR,一種基於Transformer的目標檢測方法
    今天,Facebook開源了一個這樣的框架,DETR(DEtection TRansformer)在本文中,我們將快速了解目標檢測的概念,然後直接研究DETR及其帶來的好處。目標檢測在計算機視覺中,目標檢測是一項任務,我們希望我們的模型將對象與背景區分開,並預測圖像中存在的對象的位置和類別。
  • 目標檢測必須要OpenCV?10行Python代碼也能實現,親測好用!
    大數據文摘出品編譯:朱一輝、雪清、小魚短短10行代碼就可以實現目標檢測?!本文作者和他的團隊構建了一個名為ImageAI 的Python庫,集成了現今流行的深度學習框架和計算機視覺庫。本文將手把手教你構建自己的第一個目標檢測應用,而且文摘菌已經幫你踩過坑了,親測有效!
  • 蔡徐坤英國進修,卻被利茲大學校友打臉,網友:北大和北大青鳥的差距
    蔡徐坤英國進修,卻被利茲大學校友打臉,網友:北大和北大青鳥的差距 現在娛樂圈當中非常多的人,他們無論才華如何,卻被大家捧的非常的高,這樣就會出現非常多的爭議,比如說蔡徐坤,或許在唱歌跳舞方面真的特別有天賦,而且表演力和舞臺控場能力也非常的強,但是卻由於他的很多腦殘粉和他的長相問題得到了大家的各種爭議