【靜點評】今天讀到一篇文章,講的是深度學習在語音識別和智能翻譯方面的應用,微軟的一位研究員把機器比喻成一個嬰兒,學習的過程跟嬰兒很接近。只是嬰兒學習語言主要是一個整體的學習,不會特意分為識別、理解、合成等不同環節,而對機器來說,識別、翻譯、合成,目前還是分開訓練的。但目前已可實現實時智能翻譯,你聽到的可以是非常逼真的機器合成。
另一方面,今天看到兩組讓人吃驚的消息。一是騰訊科技報導,谷歌新發布的一些機器識別圖像,顯示機器可以製造出一些奇異的幻景。看起來有些像梵谷,特別是畢卡索的畫風,略顯詭異。如果說這些奇異的圖像多少還有非人類的特徵,那麼Facebook發布的消息可能更令人深思。今天36氪的一篇報導說:Faebook的AI技術可以自主生成一些含有飛機、汽車、小鳥等東西在內的場景圖像樣本,令受試者在40%的時間把計算機生成的圖樣當作是真的照片。
今後,我們在網絡上看到的圖片,哪些是人類的創造,哪些是機器的夢想?虛擬和現實之間,還會有明確的邊界麼?
【騰訊科技】原標題:製造幻景:谷歌圖像識別神經網絡讓人大跌眼鏡
谷歌的圖像識別神經網絡不但可以識別圖像,而且可以製造出人意料的奇幻景象。
機器有什麼夢想?谷歌新發布的一些機器識別圖像為我們給出了一個可能的答案:將不同的景物合成一種奇幻風景。
這些照片是由谷歌的圖像識別神經網絡產生的,該網絡已被「教育」,以識別建築物、動物和物體等圖像。
研究人員將圖片輸入圖像識別神經網絡,並讓它識別該圖片中的一個特徵,並修改圖片以強調這項特徵。修改後的圖象然後被反饋到神經網絡,並讓神經網絡再次識別其他特徵並強調它們。最終,這幅圖片被修改得面目全非。
在一個低水平上,這種神經網絡可以被用來檢測圖像的邊界。在這種情況下,這些圖像就像繪畫作品,使用過Photoshop濾鏡的人應該對此感到不陌生:
但是,如果神經網絡被要求識別更複雜的圖像,——例如識別一頭動物,它會產生令人不安的奇幻圖景:
最終,這個軟體可以對隨機噪聲進行識別,但生成的結果完全屬於自身的想像:
如果你讓一個用來識別建築物的神經網絡去識別一幅毫無特徵的圖像,它將產生這樣的結果:
這些照片是驚人的,但他們不僅僅是用來展示的。神經網絡具有機器學習的一個共同特徵:它不是向計算機輸入程序以讓它能夠識別特定的圖像,而是向它輸入許多圖像,並讓它自己整合這些圖像的關鍵特徵。
但是,這可能會導致軟體更加出人意料。我們很難知道軟體正在審查哪些特徵,以及它忽略了哪些特徵。例如,研究人員要求神經網絡在一幅隨機噪聲圖像中識別啞鈴,發現它認為啞鈴一定是有手臂握住的:
解決方案可能是向它輸入更多放在地上的啞鈴圖像,直到它明白手臂並非啞鈴的內在組成部分。
「神經網絡面臨的一個挑戰是逐層識別。例如,第一層可以識別邊緣或拐角。中間層識別基本特徵,以尋求整體的形狀或部件,例如門或葉子的形狀。最後幾層將這些組合成一個完整的圖像,在識別非常複雜的事情時,——如整個建築物或樹木,這些神經元很活躍。」谷歌的工程師解釋說。
圖像識別軟體已經成為消費產品,如谷歌新的照片服務Google Photos。Google Photos可以根據文本搜索圖像:例如,你輸入「狗」,它將提供谷歌找到的所有包含狗的照片(偶爾也會出現其他四足哺乳動物的照片)。
所以,未來機器人的夢想將不僅僅是製造電子綿羊,它們的夢想是製造出更加令人吃驚的夢幻奇景。(譚思)
Facebook 的深度學習系統可製造以假亂真圖像【36氪報導,作者Boxi】在Google、微軟、百度等巨頭的推動下,人工智慧技術的發展突飛猛進。能識別圖像已經不算什麼本領了,現在Faebook的AI技術已經幾乎可以以假亂真,令受試者在40%的時間把計算機生成的圖樣當作是真的照片。
這項成果是由Facebook人工智慧實驗室的三位研究人員Soumith Chintala、Arthur Szlam、Rob Fergus與紐約大學庫朗計算機科學研究所的Emily Denton聯合完成的,論文題目叫做《用對抗網絡拉普拉斯金字塔的深度生成式圖像模型(Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks)》,Facebook已經把論文提交到即將在蒙特婁舉行的神經信息處理系統大會(NIPS,AI業界最著名的會議之一)上供討論。不僅如此,Facebook還打算稍後(可能下周末)將工作的代碼開源出來供大家參考。
簡單來說,Facebook的AI技術可以自主生成一些含有飛機、汽車、小鳥等東西在內的場景圖像樣本令觀看者信以為真。Facebook這項研究成果的特別之處是,其AI採用的是無監督學習。以往包括Faebook在內的大公司和初創企業採用的普遍都是監督式學習,即需要利用大量帶標籤的數據去訓練人工神經網絡,後者才能逐漸學會識別東西。比方說,給它看1000張貓的圖片,看多了之後AI才會逐步對貓建立模型並識別新的圖像。
Google的人工神經網絡可以根據原圖生成帶魔幻色彩的圖像,但Facebook的Rob Fergus認為,自家生成以假亂真圖像取得的技術進展更高。
而無監督學習中樣本數據是不包含標籤的。這更接近於人學習認東西的方式。比方說,看過1、2部手機之後,我們很快就能認出第3部。在實現上,Facebook採用了兩套受訓神經網絡,一套是產生式的,賦予其隨機向量後就能生成圖像;而另一套則用來確定圖像是否看起來是真的。目前這套系統能生成64x64像素的圖像。
由於不需要對訓練數據打上標籤,這項技術無疑可以幫助Facebook更好地進行圖像、視頻、語音的識別工作,自然語言處理技術也可以相應提高。Google前兩天也公布了自己的一項AI成果,利用人工神經網絡生成迷幻圖像。儘管看起來很酷,但Facebook的研究科學家Rob Fergus認為,與Facebook可生成以假亂真圖像相比,自家的技術顯然更難,取得的學術進展更多。當然,64x64的解析度尚不具備使用價值,Facebook的下一步計劃是逐步提高生成圖像的解析度,屆時,虛擬與現實的界限將進一步模糊,人類距離AI的聖杯越來越近了。
本文參考了多個信息來源:venturebeat.com、arxiv.org、googleresearch.blogspot.com