谷歌圖像識別神經網絡製造幻景

2021-02-15 中國指揮與控制學會

【靜點評】今天讀到一篇文章,講的是深度學習在語音識別和智能翻譯方面的應用,微軟的一位研究員把機器比喻成一個嬰兒,學習的過程跟嬰兒很接近。只是嬰兒學習語言主要是一個整體的學習,不會特意分為識別、理解、合成等不同環節,而對機器來說,識別、翻譯、合成,目前還是分開訓練的。但目前已可實現實時智能翻譯,你聽到的可以是非常逼真的機器合成。
另一方面,今天看到兩組讓人吃驚的消息。一是騰訊科技報導,谷歌新發布的一些機器識別圖像,顯示機器可以製造出一些奇異的幻景。看起來有些像梵谷,特別是畢卡索的畫風,略顯詭異。如果說這些奇異的圖像多少還有非人類的特徵,那麼Facebook發布的消息可能更令人深思。今天36氪的一篇報導說:Faebook的AI技術可以自主生成一些含有飛機、汽車、小鳥等東西在內的場景圖像樣本,令受試者在40%的時間把計算機生成的圖樣當作是真的照片。
今後,我們在網絡上看到的圖片,哪些是人類的創造,哪些是機器的夢想?虛擬和現實之間,還會有明確的邊界麼?

【騰訊科技】原標題:製造幻景:谷歌圖像識別神經網絡讓人大跌眼鏡

谷歌的圖像識別神經網絡不但可以識別圖像,而且可以製造出人意料的奇幻景象。

機器有什麼夢想?谷歌新發布的一些機器識別圖像為我們給出了一個可能的答案:將不同的景物合成一種奇幻風景。

這些照片是由谷歌的圖像識別神經網絡產生的,該網絡已被「教育」,以識別建築物、動物和物體等圖像。

研究人員將圖片輸入圖像識別神經網絡,並讓它識別該圖片中的一個特徵,並修改圖片以強調這項特徵。修改後的圖象然後被反饋到神經網絡,並讓神經網絡再次識別其他特徵並強調它們。最終,這幅圖片被修改得面目全非。

在一個低水平上,這種神經網絡可以被用來檢測圖像的邊界。在這種情況下,這些圖像就像繪畫作品,使用過Photoshop濾鏡的人應該對此感到不陌生:

但是,如果神經網絡被要求識別更複雜的圖像,——例如識別一頭動物,它會產生令人不安的奇幻圖景:

最終,這個軟體可以對隨機噪聲進行識別,但生成的結果完全屬於自身的想像:

如果你讓一個用來識別建築物的神經網絡去識別一幅毫無特徵的圖像,它將產生這樣的結果:

這些照片是驚人的,但他們不僅僅是用來展示的。神經網絡具有機器學習的一個共同特徵:它不是向計算機輸入程序以讓它能夠識別特定的圖像,而是向它輸入許多圖像,並讓它自己整合這些圖像的關鍵特徵。

但是,這可能會導致軟體更加出人意料。我們很難知道軟體正在審查哪些特徵,以及它忽略了哪些特徵。例如,研究人員要求神經網絡在一幅隨機噪聲圖像中識別啞鈴,發現它認為啞鈴一定是有手臂握住的:

解決方案可能是向它輸入更多放在地上的啞鈴圖像,直到它明白手臂並非啞鈴的內在組成部分。

「神經網絡面臨的一個挑戰是逐層識別。例如,第一層可以識別邊緣或拐角。中間層識別基本特徵,以尋求整體的形狀或部件,例如門或葉子的形狀。最後幾層將這些組合成一個完整的圖像,在識別非常複雜的事情時,——如整個建築物或樹木,這些神經元很活躍。」谷歌的工程師解釋說。

圖像識別軟體已經成為消費產品,如谷歌新的照片服務Google Photos。Google Photos可以根據文本搜索圖像:例如,你輸入「狗」,它將提供谷歌找到的所有包含狗的照片(偶爾也會出現其他四足哺乳動物的照片)。

所以,未來機器人的夢想將不僅僅是製造電子綿羊,它們的夢想是製造出更加令人吃驚的夢幻奇景。(譚思)

Facebook 的深度學習系統可製造以假亂真圖像

【36氪報導,作者Boxi】在Google、微軟、百度等巨頭的推動下,人工智慧技術的發展突飛猛進。能識別圖像已經不算什麼本領了,現在Faebook的AI技術已經幾乎可以以假亂真,令受試者在40%的時間把計算機生成的圖樣當作是真的照片。

這項成果是由Facebook人工智慧實驗室的三位研究人員Soumith Chintala、Arthur Szlam、Rob Fergus與紐約大學庫朗計算機科學研究所的Emily Denton聯合完成的,論文題目叫做《用對抗網絡拉普拉斯金字塔的深度生成式圖像模型(Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks)》,Facebook已經把論文提交到即將在蒙特婁舉行的神經信息處理系統大會(NIPS,AI業界最著名的會議之一)上供討論。不僅如此,Facebook還打算稍後(可能下周末)將工作的代碼開源出來供大家參考。

簡單來說,Facebook的AI技術可以自主生成一些含有飛機、汽車、小鳥等東西在內的場景圖像樣本令觀看者信以為真。Facebook這項研究成果的特別之處是,其AI採用的是無監督學習。以往包括Faebook在內的大公司和初創企業採用的普遍都是監督式學習,即需要利用大量帶標籤的數據去訓練人工神經網絡,後者才能逐漸學會識別東西。比方說,給它看1000張貓的圖片,看多了之後AI才會逐步對貓建立模型並識別新的圖像。


Google的人工神經網絡可以根據原圖生成帶魔幻色彩的圖像,但Facebook的Rob Fergus認為,自家生成以假亂真圖像取得的技術進展更高。

而無監督學習中樣本數據是不包含標籤的。這更接近於人學習認東西的方式。比方說,看過1、2部手機之後,我們很快就能認出第3部。在實現上,Facebook採用了兩套受訓神經網絡,一套是產生式的,賦予其隨機向量後就能生成圖像;而另一套則用來確定圖像是否看起來是真的。目前這套系統能生成64x64像素的圖像。

由於不需要對訓練數據打上標籤,這項技術無疑可以幫助Facebook更好地進行圖像、視頻、語音的識別工作,自然語言處理技術也可以相應提高。Google前兩天也公布了自己的一項AI成果,利用人工神經網絡生成迷幻圖像。儘管看起來很酷,但Facebook的研究科學家Rob Fergus認為,與Facebook可生成以假亂真圖像相比,自家的技術顯然更難,取得的學術進展更多。當然,64x64的解析度尚不具備使用價值,Facebook的下一步計劃是逐步提高生成圖像的解析度,屆時,虛擬與現實的界限將進一步模糊,人類距離AI的聖杯越來越近了。

本文參考了多個信息來源:venturebeat.com、arxiv.org、googleresearch.blogspot.com

相關焦點

  • 當神經網絡遇上量子計算:谷歌證明量子神經網絡可訓練圖像分類
    谷歌已經證明了量子計算也能解決傳統機器學習中的圖像分類問題,而且隨著技術發展,量子計算機將在在學習能力上超越經典的神經網絡。另外量子計算還能解決經典網絡中一些棘手問題,比如預防出現模型訓練中的梯度消失問題。量子神經網絡在第一篇論文中,谷歌構建一個神經網絡的量子模型,研究如何在量子處理器上執行神經網絡的分類任務。
  • 谷歌開放Inception-ResNet-v2:一種新的圖像分類卷積神經網絡模型
    昨天,谷歌宣布開放 TF-Slim,這是一個在 TensorFlow 中定義、訓練、和評估模型的輕量軟體包,同時它還能對圖像分類領域中的數個有競爭力的網絡進行檢驗與模型定義。今天,谷歌再次宣布開放 Inception-ResNet-v2,一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。文中提到的論文可點擊「閱讀原文」進行下載。為了在該領域取得更多進展,今天我們非常高興的宣布開放 Inception-ResNet-v2,這是一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。
  • 如何通過人工神經網絡實現圖像識別?
    人工神經網絡(Artificial Neural Networks)(簡稱ANN)系統從20 世紀40 年代末誕生至今僅短短半個多世紀,但由於他具有信息的分布存儲目標識別是模式識別領域中大多數課題都會遇到的基本問題,並且在不同的課題中,由於具體的條件不同,解決的方法也不盡相同,因而目標識別的研究仍具有理論和實踐意義。
  • 業界 谷歌開放Inception-ResNet-v2:一種新的圖像分類卷積神經網絡模型
    TF-Slim,這是一個在 TensorFlow 中定義、訓練、和評估模型的輕量軟體包,同時它還能對圖像分類領域中的數個有競爭力的網絡進行檢驗與模型定義。今天,谷歌再次宣布開放 Inception-ResNet-v2,一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。文中提到的論文可點擊「閱讀原文」進行下載。為了在該領域取得更多進展,今天我們非常高興的宣布開放 Inception-ResNet-v2,這是一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。
  • 谷歌語音轉錄背後的神經網絡
    在過去的幾年中,深度學習在世界計算機科學難題中表現出了卓越的成就,從圖像分類、字幕添加到機器翻譯,再到可視化模型技術。最近,我們宣布了在谷歌語音轉錄上使用長短期記憶遞歸神經網絡(LSTM RNNs)所取得的成就(然而其他神經網絡也在提升服務性能)。我們想更詳細地講述我們是怎麼做到這些的。
  • 神經網絡是怎樣理解圖片的?谷歌大腦研究員詳解特徵可視化
    我們總是聽說人工智慧在圖像識別上超越了人類,刷臉也逐漸成了生活中司空見慣的事兒。這些圖像識別技術背後,通常是深度神經網絡。本文引用地址:http://www.eepw.com.cn/article/201711/371232.htm  不過,神經網絡究竟是怎樣認識圖像的?
  • ...網絡用|圖像處理|圖像傳感器|光電二極體|ai晶片|神經網絡|傳感器
    Nature579, 32-33 (2020)doi: 10.1038/d41586-020-00592-6一、將圖像傳感器變成人工神經網絡現代圖像傳感器最早在1970年代初開發出來,主要分為電荷耦合器件和有源像素傳感器兩種類型。
  • 機器翻譯、圖像識別,如何影響我們的生活?
    更好的圖像識別技術對於機器人、無人機以及無人駕駛汽車的改進至關重要。福特、特斯拉、Uber、百度和谷歌均已在上路測試無人駕駛汽車的原型。  深度神經網絡  不過,大多數人都不知道所有的這些突破從本質上說都是同一突破。它們均通過一種名為深度學習的人工智慧(AI)技術來實現,不過不少科學家還是喜歡以其最初的學術名稱來稱呼它:深度神經網絡。
  • 谷歌發布神經網絡翻譯系統
    谷歌發布神經網絡翻譯系統 Google今天宣布發布Google神經網路機器翻譯系統(Google Neural Machine Translation),簡稱GNMT,使用當前最先進的訓練技術,能夠實現到迄今為止機器翻譯質量的最大提升。
  • 深度卷積神經網絡CNNs的多GPU並行框架 及其在圖像識別的應用
    將深度卷積神經網絡(Convolutional Neural Networks, 簡稱CNNs)用於圖像識別在研究領域吸引著越來越多目光。由於卷積神經網絡結構非常適合模型並行的訓練,因此以模型並行+數據並行的方式來加速Deep CNNs訓練,可預期取得較大收穫。
  • 深度學習與圖像識別
    今天了解一下深度學習和圖像識別。歡迎添加小庫微信,加入智能製造知識庫交流群。
  • 神經網絡能否識別鏡像翻轉
    然而,神經網絡卻可以通過自監督訓練的方法在這個任務上達到非常高的精度,並能指出圖片中哪些區域可以被用於識別鏡像翻轉(以上三張圖片利用了類激活映射(CAM)方法進行了高亮)。 康奈爾的研究人員將這一視覺現象定義為「視覺手性」(Visual Chirality)。
  • 3D海龜點中谷歌視覺識別AI的「完全死穴」
    谷歌公司目前已經從「移動優先」戰略向「AI優先」戰略發展,從DeepMind取得的成功和近期發布的谷歌服務和產品中,構建於神經網絡和深度學習的人工智慧的先進程度給人們留下深刻印象。但是一項麻省理工學院labsix團隊最新的研究實驗卻表明,谷歌人工智慧視覺識別AI系統(應用於AI視頻分類器)對於一隻3D列印的海龜毫無辨識能力,不管從任何角度谷歌AI都無法準確識別出這是只海龜,研究人員將之稱為「3D視覺幹擾對象」似乎點到了谷歌視覺識別AI的「完全死穴」。
  • 圖像識別中的卷積神經網絡
    深度卷積神經網絡(ConvolutionalNeural Networks, CNN)解決了傳統神經網絡參數量過大的問題,為圖像分類實現了突破
  • 使用Siamese神經網絡進行人臉識別
    ,特別是其中的 Siamese 神經網絡。而且,如果它不能識別圖片,那就意味著這個人的圖像沒有存儲在系統的資料庫中。為了解決這個問題,我們不能只使用卷積神經網絡,有兩個原因:1)CNN 並不在一個小的訓練集上工作 ;2) 我們每次向系統添加一個新人的圖片時,不方便對模型進行再訓練。然而,我們可以使用 Siamese 神經網絡來進行人臉識別。
  • 谷歌和OpenAI研發新工具,深入了解AI如何識別圖片
    雖然,神經網絡在識別圖像中的物體等任務上取得了巨大的成功,但它們是如何做到的在很大程度上仍是一個謎。它們的內部工作方式被屏蔽,隱藏在層層計算中,不讓人看到,使得人類很難診斷錯誤或偏差。「由於神經網絡固有的複雜性,它們有時缺乏可解釋性,」但他說,在未來,當網絡被廣泛用於自動駕駛汽車和引導機器人時,這將是必不可少的一步。Open Ai的Chris Olah也參與了這個項目,他說:「這有點像製作顯微鏡。至少,這是我們所設想的。」要了解激活圖集和其他功能可視化工具的工作原理,首先需要了解一點人工智慧系統如何識別對象。
  • 神經網絡立功勞 谷歌:翻譯誤字率下降超30%
    Conference大會上發表講話,期間披露了公司語音識別軟體在準確性上的最新狀況。據科技網站Mashable的卡麗莎·貝爾(Karissa Bell)發布的推文稱,迪恩說,谷歌語音識別軟體的誤字率(即轉錄單詞的錯誤率)已經下降超過30%。谷歌發言人後在電子郵件中向VentureBeat證實了這一數據。根據貝爾的推文,迪恩將這一改進歸功於「神經網絡的加入」。神經網絡屬於谷歌等公司應用於深度學習技術的系統。
  • 谷歌、Facebook研發的神經元網絡,如何進行場景識圖?-虎嗅網
    Facebook表示,其正在教授自家的神經元網絡完成創建包括飛機、汽車及動物在內的圖像的任務,在40%的情況下,這些圖像足以讓我們相信自己看到的是真實照片。而來自谷歌的研究人員則正在進行截然相反的工作,他們通過神經元網絡將真實的照片轉換成某種超現實主義的風格。
  • 神經網絡加持!有它出國不再找翻譯 谷歌翻譯上手體驗
    五、即時相機翻譯即時相機翻譯,就是用谷歌翻譯打開攝像頭後,就可以直接翻譯畫面中的語言,需要注意的是谷歌不需要拍照,只要對準目標即可翻譯,這得益於谷歌強大的圖像識別技術。六、翻譯實測對比 神經網絡加持的谷歌表現如何?2016年9月份,谷歌正式發布了Google神經網路機器翻譯系統(Google Neural Machine Translation),簡稱GNMT,簡單的說,就是谷歌翻譯擁有了神經網絡。神經網絡是什麼意思呢?傳統計算只包含了輸入、計算、輸出三個部分。
  • 螢光標記out了,谷歌靠算法不用「侵入」也能識別細胞特徵
    然後,谷歌找到了他。因為谷歌一直是人工智慧領域的「扛把子」,並在神經網絡算法方面有著絕對的權威。所以Finkbeiner決定與谷歌通力合作。「我們用同一細胞的兩張不同狀態的圖像來訓練神經網絡,一張是未標記的,另一張帶有螢光標記,」Google Accelerated Science軟體工程師Christiansen解釋說,「我們重複了這個過程數百萬次,然後,我們用神經網絡模型識別未標記的那一張圖片時,發現它可以準確預測出螢光標籤所屬的位置