谷歌的DeepMind團隊一直致力於將最新的人工智慧技術帶給世界。儘管讓圍棋界震顫的AlphaGo已經宣布「退役」,但是DeepMind的人工智慧研髮腳步從未停止。
近日,他們又取得一項新成果:研究人員們創造出一種新的方法,使得他們的人工智慧可以依據人類輸入的句子來創造圖片。
在這個技術中,句子的內容越詳細,依此創造出的圖片就越細緻,這在AI圖片處理領域無疑是一個大突破。
圖丨將4*4的低解析度圖片轉化為256*256的高解析度的圖片
科幻電影《銀翼殺手》和《犯罪現場調查》這樣的影視作品中都曾出現過網絡程序生成逼真圖片的場景。2017年2月,谷歌的英國籍科學家開發一種「強化」圖片的新方法,處理過的圖片和影視劇裡呈現的效果已經非常接近。不過,當時的方法是藉助的是PixelCNN(像素卷積神經網絡),機器通過效果優異的近似算法成功將低解析度的圖片轉化為高解析度的圖片。
圖丨圖片強化過程
像素卷積神經網絡在對自然圖片進行密度估計方面達到了最高水平。然而,儘管訓練是十分快速的,推斷卻耗費巨大,這是因為對每個像素點的估計,都需要一個神經網絡;那麼對於對N個像素點,複雜度為O(N)。緩存的激活可以將這一過程加速,但仍然需要對每個像素逐個處理。
圖丨左上角是像素組1,右上角是像素組2,以此類推。為了清晰,只使用箭頭記號去標明及時臨近的依賴關係,但是注意分組中的所有像素都能被用於一個給定分組中的所有像素。比如說所有2組中的像素都會被用於預測組4中的像素
這一問題在這個新算法中得到解決。並行的像素卷積神經網絡通過將特定的像素組成有條件獨立的模型,可以更有效的進行推斷。新的像素卷積模型實現了有效的密度估計,並在速度方面實現了量級的提升——在用來測試的512 × 512的樣本圖片中複雜度達到O(log N)。
圖丨當輸入「一個年輕男人騎在棕色的馬的背上」時,AI可以從圖片集中識別出各部分信息對應的圖像,圖片下半部分為其識別出的「棕色的馬」
現在,這項技術被應用於將文本轉化成圖片,可以通過圖片集進行學習,分辯諸如鳥類、人臉等概念,並創造與所學圖片明顯不同的圖像。
而且,一個詳盡的提示能夠比沒有任何細節的提示獲得更為精準地輸出圖片。例如,如果你輸入「一隻有著黑色頭部、橙色眼睛和嘴巴的黃色小鳥」,人工智慧將會返回一張十分詳細的圖片。