AI圖像識別:人類看的是形狀,算法看的是紋理

2021-01-12 36kr

神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。

編者按:圖片中的動物輪廓是貓,但是貓披著大象皮膚紋理,將圖片交給人識別,人會說是貓,如果給計算機視覺算法處理,它會說是大象。德國研究人員認為:人看的是形狀,計算機看的是紋理。這一發現相當有趣,但它證明計算機算法離人類視覺還有很遠距離。

當你看著一張貓的照片,輕鬆就能知道貓有沒有條紋,不管照片是黑白照,有斑點,還是磨損或者褪色了,都能輕鬆識別。不論寵物蜷縮在枕頭背後;或者跳到工作檯上,拍照時留下一片朦朧,你都能輕鬆識別。如果用機器視覺系統(用深度神經網絡驅動)識別,準確率甚至比人還要高,但是當圖片稍微新奇一點,或者有噪點、條紋,機器視覺系統就會犯傻了。

為什麼會這樣呢?德國研究團隊給出一個原因,這個原因出乎意料:人類會關注圖中對象的形狀,深度學習計算機系統所用的算法不一樣,它會研究對象的紋理。

德國的發現告訴我們人類與機器「思考」問題時有著明顯區別,也許還能揭示人類視覺進化的秘密。

有大象皮膚的貓和時鐘做的飛機

深度學習算法是怎樣「工作」的呢?首先人類向算法展示大量圖片,有的圖片有貓,有的沒有。算法從圖片中找到「特定模式」,然後用模式來做出判斷,看看面對之前從未見過的圖片應該貼怎樣的標籤。

神經網絡架構是根據人類視覺系統開發的,網絡各層連接在一起,從圖片中提取抽象特點。神經網絡系統通過一系列聯繫得出正確答案,不過整個處理過程十分神秘,人類往往只能在事實形成之後再解釋這個神秘的過程。

美國俄勒岡州立大學計算機科學家Thomas Dietterich說:「我們正在努力,想搞清到底是什麼讓深度學習計算機視覺算法走向成功,又是什麼讓它變得脆弱。」

怎樣做?研究人員修改圖片,欺騙神經網絡,看看會發生什麼事。研究人員發現,即使只是小小的修改,系統也會給出完全錯誤的答案,當修改幅度很大時,系統甚至無法給圖片貼標籤。還有一些研究人員追溯網絡,查看單個神經元會對圖像做出怎樣的反應,理解系統學到了什麼。

德國圖賓根大學(University of Tübingen)科學家Geirhos領導的團隊採用獨特方法進行研究。去年,團隊發表報告稱,他們用特殊噪點幹擾圖像,給圖像降級,然後用圖像訓練神經網絡,研究發現,如果將新圖像交給系統處理,這些圖像被人扭曲過(相同的扭曲),在識彆扭曲圖像時,系統的表現比人好。不過如果圖像扭曲的方式稍有不同,神經網絡就無能為力了,即使在人眼看來圖像的扭曲方式並無不同,算法也會犯錯。

對於這樣的結果如何解釋?研究人員深入思考:到底是什麼發生了變化,即使只是加入很少的噪點,也會發生如此大的變化?答案是紋理。當你在很長的時間段內添加許多噪點,圖中對象的形狀基本不會受到影響;不過即使只是添加少量噪點,局部位置的架構也會快速扭曲。研究人員想出一個妙招,對人類、深度學習系統處理圖片的方式進行測試。

研究人員故意製作存在矛盾的圖片,也就是說將一種動物的形狀與另一種動物的紋理拼在一起,製作成圖片。例如,圖片中的動物輪廓是貓,但是貓披著大象紋理;或者是一頭熊,但它們是由鋁罐組成的;又或者輪廓是飛機,但飛機是由重疊的鐘面組成的。研究人員製作幾百張這樣的拼湊圖片,然後給它們標上標籤,比如貓、熊、飛機。用4種不同的分類算法測試,最終它們給出的答案是大象、鋁罐、鍾,由此看出算法關注的是紋理。

Columbia大學計算機神經科學家Nikolaus Kriegeskorte評論說:「這一發現改變了我們對深度前向神經網絡視覺識別技術的認知。」

乍一看,AI偏愛紋理而非形狀有點奇怪,但細細深思卻是有理的。Kriegeskorte說:「你可以將紋理視為精密的形狀。」對於算法系統來說精密的尺寸更容易把握:包含紋理信息的像素數量遠遠超過包含對象邊界的像素數量,網絡的第一步就是檢測局部特徵,比如線條,邊緣。多倫多約克大學計算機視覺科學家John Tsotsos指出:「線段組按相同的方式排列,這就是紋理。」

Geirhos的研究證明,憑藉局部特徵,神經網絡足以分辨圖像。

另有科學家開發一套深度學習系統,它的運行很像深度學習出現之前的分類算法——像一個特徵包。

算法將圖像分成為小塊,接下來,它不會將信息逐步融合,變成抽象高級特徵,而是給每一小塊下一個決定,比如這塊包含自行車、那塊包含鳥。再接下來,算法將決定集合起來,判斷圖中是什麼,比如有更多小塊包含自行車線索,所以圖中對象是自行車。算法不會考慮小塊之間的空間關係。結果證明,在識別對象時系統的精準度很高。

研究人員Wieland Brendel說:「這一發現挑戰了我們之前的假定,我們之前認為深度學習的行為方式與舊模型完全不同。很明顯,新模型有很大飛躍,但飛躍的幅度沒有大家預料的那麼大。」

約克大學、多倫多大學博士後研究員Amir Rosenfeld認為,網絡應該做什麼,它實際做了什麼,二者之間仍有很大差異。

Brendel持有相似觀點。他說,我們很容易就會假定神經網絡按人類的方式完成任務,忘了還有其它方式。

向人類視覺靠近

目前的深度學習技術可以將局部特徵(比如紋理)與整體模式(比如形狀)結合 在一起。

Columbia大學計算機神經科學家Nikolaus Kriegeskorte說:「在這些論文中有一點讓人感到稍稍有些奇怪,架構雖然允許這樣做,不過如果你訓練神經網絡時只是希望它分辨標準圖像,它不會自動整合,這點在論文中得到明顯證明。」

如果強迫模型忽視紋理,又會怎樣呢?Geirhos想找到答案。團隊將訓練分類算法的圖片拿出來,用不同的方式給它們「粉刷」,將實用紋理信息剔除,然後再用新圖片重新訓練深度學習模型,系統轉而依賴更全局的模式,像人類一樣更加偏愛形狀。

當算法這樣行動時,分辨噪點圖像的能力同樣更強了,雖然在此之前研究人員並沒有專門訓練算法,讓它識彆扭曲圖像。 

對於人類來說,可能自然而然也存在這樣的「偏愛」,比如偏愛形狀,因為當我們看到一件東西,想確定它是什麼時,靠形狀判斷是最有效的方式,即使環境中有許多幹擾,同樣如此。人類生活在3D世界,可以從多個角度觀察,我們還可以藉助其它感知(比如觸覺)來識別對象。所以說,人類偏愛形狀勝過紋理完全合理。

德國圖賓根大學研究人員Felix Wichmann認為,這項研究告訴我們數據產生的偏見和影響遠比我們認為的大得多。之前研究人員也曾發現相同的問題,例如,在面部識別程序、自動招聘算法及其它神經網絡中,模型過於重視意料之外的特徵,因為訓練算法所用的數據存在根深蒂固的偏見。想將這種不想要的偏見從算法決策機制中剔除相當困難,儘管如此,Wichmann認為新研究證明剔除還是有可能的。

雖然Geirhos的模型專注於形狀,不過如果圖像中噪點過多,或者特定像素發生變化,模型仍然會失敗。由此可以證明,計算機算法離人類視覺還有很遠距離。在人類大腦中,可能還有一些重要機制沒有在算法中體現出來。Wichmann認為,在某些情況下,關注數據集可能更重要。

多倫多大學計算機科學家Sanja Fidler認同此觀點,她說:「我們要設計更聰明的數據和更聰明的任務。」她和同事正在研究一個問題:如何給神經網絡分派第二任務,通過第二任務讓它在完成主任務時有更好表現。受到Geirhos的啟發,最近她們對圖像分類算法進行訓練,不只讓算法識別對象本身,還讓它識別對象輪廓(或者形狀)中的像素。

結果證明,執行常規對象識別任務時,神經網絡越來越好,自動變得越來越好。Fidler指出:「如果指派單一任務,你會特別關注某些東西,對其它視而不見。如果分派多個任務,也許能感知更多。算法也是一樣的。」當算法執行多個任務時,它會關注不同的信息,就像Geirhos所做的「形狀紋理」實驗一樣。

美國俄勒岡州立大學計算機科學家Thomas Dietterich認為:「這項研究是一個激動人心的突破,深度學習到底發生了什麼?我們對此有了更深的理解,也許研究還能幫助我們突破極限,看到更多東西。正因如此,我很喜歡這些論文。」

編者:小兵手

相關焦點

  • 基於陰影重建形狀的視覺技術:一種重要的圖像形狀提取技術及其應用
    而視覺檢測的應用可分類為測量、有/無檢測、機器人導航、瑕疵檢測、一維或二維碼識別,以及光學文字識別(OCR)閱讀等等。常規的2D算法通常擅長處理某些特徵清晰且定義明確的應用,因此檢測更加可靠。 換句話說,目標特徵必須穩定並且清晰一致地呈現,檢測和識別才會比較可靠。
  • 人臉識別算法分析原理
    人臉識別算法的原理:系統輸入一般是一張或者一系列含有未確定身份的人臉圖像,以及人臉資料庫中的若干已知身份的人臉圖象或者相應的編碼,而其輸出則是一系列相似度得分,表明待識別的人臉的身份。人臉識別算法分析1.
  • 乳腺癌AI算法登上《自然》!識別準確率達92%,要搶醫生飯碗?
    人類善於通過觀察細胞的模式來發現癌症。但一種新的人工智慧工具——ReceptorNet,則可以通過識別這些模式的細微差異來補充醫生的「漏診」,從而提供更好的治療決策。「我們根據年齡、種族和地點等數據進行了分割分析,從統計學上看,算法的性能沒有差異。」全世界每年有200多萬女性患乳腺癌,美國每8名女性中就有1人在一生中罹患乳腺癌。2018年,美國男性乳腺癌新發病例為2550例。令人擔憂的是,全球幾乎每個地區的乳腺癌發病率都在上升。
  • 谷歌推出基於AI的開源手勢識別算法,可識別單手21個骨骼點
    8月20日消息,谷歌發布全新的手勢識別技術,該技術集成於開源跨平臺框架MediaPipe(可為多種類型的感知數據構建處理流程),特點是採用機器學習技術,支持高準確性手勢和五指追蹤,可根據一幀圖像推斷出單手的21個立體節點。
  • AI技術加持色彩還原,揭秘紫光展銳圖像算法
    人類進入智慧型手機時代後,攝影方式也發生了巨大變化:用來拍照的不再只是鏡頭和傳感器了,背後還加載著一系列的圖像算法,它可以用更快的速度處理圖像,並獲得更好的拍攝效果。 好作品只能依賴專業攝影師的時代過去了,圖像算法引入到手機拍照應用後,讓人人拍出好照片成為可能。
  • 谷歌和OpenAI研發新工具,深入了解AI如何識別圖片
    但通過機器的眼睛「看」世界,仍然是一個不小的挑戰,比如我們該怎麼理解為什麼它把有些人歸為行人,而把有些人歸為路標。如果我們無法做到這一點,就有可能會造成嚴重的,甚至是致命的後果。比如前段時間已經發生的,自動駕駛汽車撞上行人致死的事件。雖然,神經網絡在識別圖像中的物體等任務上取得了巨大的成功,但它們是如何做到的在很大程度上仍是一個謎。
  • 手機掃一掃就能識別物品,手機做了哪些過程?背後的算法是啥?
    分類學危機目前,手機的掃一掃功能可以幫助我們識別商品信息,識別花的名稱,識別各種動物。這背後有一系列的技術支持。物種識別需要什麼樣的技術?識別的過程中用到哪些核心算法和理論?這都是大多數人不知道的。不過,物種識別理論與算法多種多樣,針對不同的東西用到的識別算法也不相同,因此本文著重帶大家了解其中一種算法和理論。
  • 硬核科普人臉識別,讓你看的清清楚楚明明白白
    計算機視覺,通俗來說就是利用攝像頭等設備代替人眼,來獲取圖像,利用計算機對圖像信息進行處理,綜合人類的認知模式來建立人類視覺的計算理論。這其中,最難的無疑是如何處理圖像信息、如何模擬人類的認知模式。為了解決這些問題,計算機視覺還引入了圖像處理、模式識別、圖像理解、圖像生成等學科的知識。
  • 人體圖像合成製作可信和逼真的人類圖像
    打開APP 人體圖像合成製作可信和逼真的人類圖像 陳根 發表於 2020-12-14 11:17:39 技術和算法的開發和精進讓AI換臉、AI克隆都成了可實現的事情。
  • 圖像去噪算法的優點和缺點
    圖像去噪算法的優點和缺點 會飛的碼 發表於 2020-05-04 18:36:00 圖像降噪算法總結 分析各種算法的優點和缺點 1、BM3D
  • Arnold渲染器之aiImage(ai圖像)著色器介紹及渲染測試
    aiImage著色器」aiImage「著色器,是一個」顏色「著色器,它可以使用指定的紋理貼圖賦予對象,進行著色,並進行諸如:UV縮放、翻轉等參數調節>下面將以這個場景為基礎,對」aiImage「著色器節點屬性進行講解
  • 【新時代 新作為 新篇章】AI圖像算法+大數據識別 蘇州數字賦能...
    AI圖像算法+大數據識別。斑鳩AI無源智能回收箱是基於AI圖像算法和大數據識別,做到在線稱重、在線回收,能補齊智慧社區垃圾回收的「最後一塊拼圖」。即使你不會垃圾分類,「新成員」也能幫你忙!
  • 圖像識別與人工智慧圖像識別和機器視覺有什麼區別
    人工智慧領域發展到現在,ai與人工智慧、圖像識別領域、計算機視覺領域等近年來越來越多的整合和融合。首先,人工智慧在生活工作中將普遍應用;其次,人工智慧在不同的工作場景都有其應用,從金融到醫療,從服務到工廠,應用無處不在;最後,人工智慧正在與自動駕駛技術等聯繫在一起。
  • 「AI 大毒瘤」Deepfake 識別賽排名出爐!3.5 萬種算法準確率最高...
    同時,Facebook 投入了 1000 萬美元發起「Deepfake 檢測挑戰賽」(Deepfake Detection Challenge,DFDC),競賽於 2019 年末在溫哥華舉行的 NeurIPS 2019 上正式啟動,旨在激勵研究人員以及業餘愛好者尋找能夠識別出由 AI 操縱的視頻算法。Deepfake 檢測結果如何?
  • AI看臉就知道性取向,不服氣的我做了一個實驗,結果……
    這一次,大家的關注點不僅僅是準確率本身,還有少年在復現研究中展現出的對AI的觀察:憑什麼說我是直男AI到底是靠哪些線索,來判斷人類的性向?約翰用了控制變量法,仔細觀察人臉的每個角落。首先,他用眼睛、眉毛、輪廓、嘴巴和鼻子的特徵,單獨指導AI的預測。
  • AI 圖像智能修復老照片,效果驚豔到我了!| 附代碼
    圖像識別技術本身的原理並不複雜,信息的處理是這一技術的關鍵點所在。近年來,由於深度學習的發展,大大提高了圖像識別的準確率,深度學習通過大量圖像數據信息特徵的積累與分析,可自動完成特徵提取和圖像匹配等任務。最近一段時間,最受歡迎的必須是圖像修復功能。早在文藝復興時期,人們就開始修復一些中世紀的藝術品,其目的在於通過填補一些裂縫來使畫面恢復原貌,這一工作就稱之為"Inpainting"(修復,潤飾)或"Retouching"。
  • 手機拍照進化論:為什麼需要圖像算法?
    人類進入智慧型手機時代後,攝影方式也發生了巨大變化:用來拍照的不再只是鏡頭和傳感器了,背後還加載著一系列的圖像算法,它可以用更快的速度處理圖像,並獲得更好的拍攝效果。好作品只能依賴專業攝影師的時代過去了,圖像算法引入到手機拍照應用後,讓人人拍出好照片成為可能。紫光展銳擁有自主研發的圖像算法團隊,而且這些算法已普遍應用在展銳的晶片平臺裡。
  • 從AI香水到AI美妝 算法能否求出審美最優解
    近年來,在圖像、影像及語音識別等領域大放異彩的人工智慧也開始逐漸滲透到美妝行業,市場顯示,由人工智慧配製的香水在消費者中獲得良好反饋。「配製香水是一個複雜的系統工程,涉及原料、工藝、用戶、市場等諸多因素,在浩如煙海的參數空間中搜索對路的方案工作量巨大,僅僅依賴人工經驗很難窮舉所有可行方案,很可能會錯過最受市場和用戶歡迎的最佳解。」
  • 從AI香水到AI美妝 算法能否求出「審美最優解」?
    近年來,在圖像、影像及語音識別等領域大放異彩的人工智慧也開始逐漸滲透到美妝行業,市場顯示,由人工智慧配製的香水在消費者中獲得良好反饋。「配製香水是一個複雜的系統工程,涉及原料、工藝、用戶、市場等諸多因素,在浩如煙海的參數空間中搜索對路的方案工作量巨大,僅僅依賴人工經驗很難窮舉所有可行方案,很可能會錯過最受市場和用戶歡迎的最佳解。」
  • 從心理語義學維度看人臉識別
    人工智慧研究者和心理語言學家都試圖了解如何從心理圖像角度來探討人臉識別問題。了解面部表情背後的心理運作機制有助於深入認識人類的大腦是如何處理、存儲相關信息的。人類所擁有的識別陌生人臉的能力涉及許多複雜的問題,目前科學家所開發出的最好的人臉識別算法也還無法完全解答所有的相關問題。因為,每個個體的面孔都是特殊的,承載著不同人物的心理、生理和社會背景等諸多層面的信息。