OpenAI新模型曝光:給它半張圖片,能夠猜測補全

2020-07-19 DeepTech深科技

去年 2 月,位於美國舊金山的研究實驗室 OpenAI 宣布,其 AI 系統已經可以自行用英文寫出一段令人信服的短文。在這個被稱為 GPT-2 的模型中輸入一個句子或段落的開頭,該模型就可以按照所給文本的思路續寫出一篇文章,其上下文的連貫性幾乎同人類一樣,可以假亂真。

如今,該實驗室正在探索若在相同的算法中輸入某張圖片的一部分會發生什麼。在本周的機器學習國際會議(ICML 2020)上,這一研究成果獲得了最佳論文的榮譽稱號,為圖像生成開闢了一條新的路徑。

OpenAI新模型曝光:給它半張圖片,能夠猜測補全

GPT-2 的核心其實是一個強大的預測引擎。它通過查看從網際網路各處搜索得來的數十億單詞、句子和段落,學習並掌握了英語這門語言的結構。掌握了這一結構,GPT-2 就可以從統計學的角度預測單詞出現的順序,從而操縱單詞,將不同的單詞組成新的句子。

因此,OpenAI 的研究人員決定將單詞換成像素,在 ImageNet(最受歡迎的深度學習圖像庫)上用圖片訓練相同的算法。由於該算法最初是為處理一維數據(例如文本字符串)而設計的,於是研究人員將圖片展開為單像素序列。他們將新模型命名為 iGPT,發現它可以理解視覺世界的二維結構。提供給該模型某張圖片上半部分的像素序列,它就可以合乎情理地預測出圖片的下半部分。

下面,你可以看到一些例子。最左列是研究人員提供的圖片,最右列是原始圖片,中間是 iGPT 在預測的基礎上補全的圖片。

OpenAI新模型曝光:給它半張圖片,能夠猜測補全

iGPT 的這一訓練結果讓人非常吃驚,它展示了開發計算機視覺系統的一條新路徑,即利用在無人為標籤的數據上進行訓練的無監督學習。事實上,2005 年左右,早期的計算機視覺系統就曾試用過這一技術,但由於當時使用人為標籤數據的監督學習更為成功,這一技術就遭到了冷落。但是,無監督學習的優勢就在於 AI 系統可以在沒有人工過濾器的前提下去了解世界,大大減少了標記數據的體力勞動。

iGPT 與 GPT-2 使用相同算法的,這一事實也顯示了 iGPT 具有良好的適應能力。這也與 OpenAI 的最終目標一致,即創造出更通用的機器智能。

同時,該方法為生成深度偽造圖片提供了一種新思路。在過去,生成式對抗網絡(GAN)是生成深度偽造圖片最常用的算法類別,必須用高度精確的數據進行訓練。例如,若想用 GAN 生成一張臉,那麼訓練的數據也只能是臉。相反,iGPT 通過數百萬和數十億的圖片學習了視覺世界的結構,從而可以生成極有可能真實存在的圖片。雖然從計算層面上來看,訓練這一模型成本太過昂貴,為其進入圖像庫設下了一道天然的屏障,但這一問題在不久的將來很快就可以得到解決。

OpenAI 沒有接受採訪,但在《麻省理工科技評論》去年參加的一次內部政策小組會議上,其政策總監傑克·克拉克(Jack Clark)對 GPT 式生成模型未來存在的風險進行了思考,包括將其應用於圖像領域會發生什麼。他基於自身所見,預測了該領域的研究軌跡走向並說到,「很快會應用到視頻。大概再過 5 年,就可以在 5 到 10 秒的間隔內完成條件視頻生成。」接著,他描述了自己想像的情景:輸入一張政客的照片,照片上政客的旁邊發生了爆炸,該模型就很可能輸出該政客被謀殺的信息。

相關焦點

  • ...不用跨界也能從文本生成圖像,OpenAI新模型打破自然語言與視覺...
    另一個神經網絡 CLIP 能夠可靠地執行一系列驚人的視覺識別任務。給出一組以語言形式表述的類別,CLIP 能夠立即將一張圖像與其中某個類別進行匹配,而且它不像標準神經網絡那樣需要針對這些類別的特定數據進行微調。在 ImageNet 基準上,CLIP 的性能超過 ResNet-50,在識別不常見圖像任務中的性能遠超 ResNet。
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    另一個神經網絡 CLIP 能夠可靠地執行一系列驚人的視覺識別任務。給出一組以語言形式表述的類別,CLIP 能夠立即將一張圖像與其中某個類別進行匹配,而且它不像標準神經網絡那樣需要針對這些類別的特定數據進行微調。在 ImageNet 基準上,CLIP 的性能超過 ResNet-50,在識別不常見圖像任務中的性能遠超 ResNet。
  • OpenAI發布120億參數圖像版GPT-3
    從上面生成的例子看,雖然大多數情況生成的圖片是符合要求的,但也有少量錯誤的案例。 具體來說,作者使用了大量可用的監管資源,包括文本和在網上能夠找到的圖像配對。利用這些數據,CLIP可以訓練出一個proxy,當給定一張圖片時,便能預測在32768個隨機採樣的文本片段集中哪個片段更匹配。這裡的方案是,CLIP模型將學習識別圖像中的多種視覺概念,然後將它們與圖像名字進行關聯。
  • AI加持,Kite增加智能代碼補全功能:減少一半操作,實時補全
    機器之心報導機器之心編輯部代碼補全工具 Kite 近日更新了最新的版本,增加了名為「Intelligent Snippets」的新功能。這一功能可以幫助開發者更為智能和高效的補全 Python 代碼中的函數命令了。
  • 來自星星的你:美國NASA曝光多張星雲圖片
    來自星星的你:美國NASA曝光多張星雲圖片 (/18) 2014-02-25 13:58 [提要]隨著《來自星星的你
  • OpenAI開源機器人仿真軟體Roboschool:已整合OpenAI Gym
    選自OpenAI作者:JOHN SCHULMAN、JACK CLARK、OLEG KLIMOV機器之心編譯參與:黃小天、蔣思源近日,OpenAI 在其官方博客上宣布推出 Roboschool,一款用於機器人仿真的開源軟體,它基於 Bullet 物理引擎,並已實現與 OpenAI 之前發行的 Gym 之間的整合,也使得在同一環境中同時訓練多個智能體變得簡單。
  • OpenAI發布「顯微鏡」,可視化神經網絡內部結構
    OpenAI Microscope顯微鏡地址:https://microscope.openai.com/models如上圖所示,初始版本包含8個計算機視覺領域的神經網絡模型。每個神經網絡都用可視化的形式展示了一些重要神經元的內部結構。
  • OpenAI發布強化學習環境Gym Retro:支持千種遊戲
    使用它我們可以讓 AI 智能體做很多事情,比如行走、跑動,以及進行多種遊戲。目前,它運行在支持 Python 3.5 和 3.6 的 Linux、macOS 和 Windows 系統上。項目連結:https://github.com/openai/retro/tree/developOpenAI 近日發布了完整版遊戲強化學習研究平臺——Gym Retro。
  • DL時代的代碼補全利器,北大出品,效果遠超語言模型
    aiXcoder 官網:https://www.aixcoder.com/#/aiXcoder 的代碼補全效果我們先看看寫 TensorFlow 時的代碼補全效果:如上所示,aiXcoder 在 TensorFlow 的代碼環境下能夠直接「猜測」到模型建立後的一系列代碼流程。
  • 手把手 | OpenAI開發可拓展元學習算法Reptile,能快速學習
    它通過對任務進行重複採樣,利用隨機梯度下降法,並將初始參數更新為在該任務上學習的最終參數。其性能可以和MAML(model-agnostic meta-learning,由伯克利AI研究所研發的一種應用廣泛的元學習算法)相媲美,操作簡便且計算效率更高。
  • OpenAI最新研究:「對抗樣本」能輕易黑掉AI系統,如何抵禦?
    「對抗樣本」是攻擊者故意設計的,被用來輸入到機器學習模型裡,引發模型出錯的值,它就像是讓機器在視覺上產生幻覺一樣。在這篇文章裡,我們將會展現「對抗樣本」是如何通過不同的媒介工作的,並且將會討論為什麼針對「對抗樣本」的安全防禦很困難。
  • 5張「靈異」的錯覺圖片,圖一的半人馬,最後一張驚現莫名黑洞
    5張「靈異」的錯覺圖片,圖一的半人馬,最後一張驚現莫名黑洞   烏龜有時候說它可愛,有時候也不讓人省心,這隻烏龜也許是因為看了戰爭片的緣故吧,直接把不知道哪國兵哥哥的帽子戴在背上
  • 多多自走棋:新棋子的蛛絲馬跡,官方放出剪影圖片,全民猜測!
    多多自走棋官方微博,在今天放出了一張有關新英雄的圖片,這張圖片是馬上要上線英雄的一張剪影圖片,在本次並沒有公布新棋子的種族、屬性,只是單純的想要炫耀下新英雄的成果,今天老譚就為大家推測下,這個新英雄的種族與屬性會是什麼?點擊上方關注,第一時間了解自走棋資訊!
  • 4張動物變異圖片曝光,觸目驚心
    看看這些圖片就懂了,動物完全發生變異,從它們的身上長出不屬於它們的東西,場景簡直觸目驚心。在福島附近的生物,不管是陸地生物還是海洋生物,基本都發生變異,比如像貓能夠長出四隻耳朵,魚長出兩個頭,這完全不符合生長的邏輯。
  • 剛剛,首張真實黑洞事件視界照片衝洗兩年後曝光,黑洞原來是這樣
    就在剛才,「事件視界望遠鏡項目」將全世界第一張黑洞的照片公布了出來,它長這樣:別看只是一張簡簡單單圖片,但它卻是由位於南極望遠鏡;位於智利的阿塔卡馬大型毫米波陣;位於智利的阿塔卡馬探路者實驗望遠鏡;墨西哥的大型毫米波望遠鏡;位於美國亞利桑那州的
  • NAS-DIP: 基於神經架構搜索的自監督圖像補全算法
    為了獲取更好的網絡架構和學習參數,來自維吉尼亞理工的研究人員們提出了一種基於神經網絡架構搜索(NAS)的方式,在更為豐富的結構空間中尋找到能夠捕捉更強圖像先驗的結構。  文末有實習生招聘,有需求的同學們不要錯過!
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    此前,GPT-3 的輸出可能會看上去與實際脫節,讓人感覺莫名其妙,這是因為它確實不知道自己在說什麼。因此,OpenAI 和其它地方的研究者試圖將圖像與文本結合起來,讓 AI 更好地理解人類日常事物的概念。
  • 7 papers|NeurIPS 2019獲獎論文揭曉;OpenAI刀塔2論文公布
    具體而言,給定一組帶標籤樣本(x, y),採樣於 R^d+1 維的分布 D,如此以來,未帶標籤點 x 上的邊緣分布是任意的,並且標籤 y 通過一個未知半空間生成,而這個未知半空間被 Massart 噪聲破壞,其中噪聲率η<1/2。現在我們的目的是找出假設 h,它能夠最小化誤分類誤差(misclassification error)。
  • 平面設計教程-PS製作雙重曝光效果圖片
    早在膠片時代,就有不少攝影師和攝影愛好者,通過雙重曝光的方式將兩張甚至更多的底片疊加在一起,以實現增加圖片虛幻效果的目的。進入到數碼時代後,要實現雙重曝光更為簡單了。
  • 90後孕婦墜樓身亡現場圖片曝光 或患有抑鬱症(組圖)
    90後孕婦墜樓身亡現場圖片曝光或患有抑鬱症(組圖) (/4) (共4張) 2016-08-03 16:46 來源:華西都市報