作者: 王楠 胡祥傑
【新智元導讀】1月20日,國外多家媒體報導,暮光之城女主角 Kristen Stewart 發表了一篇關於圖像風格遷移的人工智慧論文,引起業內廣泛討論。不少人感嘆,人工智慧領域將迎來一位高顏值研究者。不過,最近 Quora上的討論卻不那麼激動,眾多業內人士紛紛指出,Kristen Stewart 的研究根本算不上是一篇人工智慧論文,充其量只能算一篇博客,並且毫無價值,完全沒有新意。
幾天前,人工智慧研究界忽然掀起一陣喧譁——ArXiv上出現了一篇電影《暮光之城》的女主角 Kristen Stewart 署名的學術論文,內容有關使用神經網絡進行圖像風格遷移的技術,並以電影《Come Swin》為案例進行研究。
國外許多媒體紛紛跟進報導,其中包括 Quartz 就使用了《Kristen Stewart (對,就是眾所周知的 Kristen Stewart )剛剛發表了一篇人工智慧論文》的大標題。
近日,Quora上,一些機器學習業內人士對這一話題展開了討論,他們基本的觀點是:Kristen Stewart 署名的文章根本算不上是一篇「人工智慧論文」,最多只是一篇博客,從內容上來說,與 Prisma 此前的研究論文有很大的相似性,基本是重複工作。
隨著人工智慧越來越火,似乎任何事情都可以跟人工智慧沾邊,Kristen Stewart 的真實意圖是什麼現在不得而知,但是媒體上動輒「AI+」的大標題,確實有誤導之嫌。
我們先來看一下論文的主要內容:
在摘要部分,作者寫道:Neural Style Transfer 是最近開發出來的一種令人矚目的技術,利用神經網絡將一幅圖像重新描繪為源圖像的藝術風格。這篇論文探討了在電影製作中使用這種技術的過程,利用 Neural Style Transfer 將影片《Come Swin》中的關鍵場景轉換為印象主義風格繪畫,《Come Swim》這部影片也正是受了印象主義風格的啟發。我們記錄下了如何在逐次迭代的創作過程框架中使用這種技術使畫面呈現理想的結果,並提出了一種將廣闊的參數空間映射到一組關鍵創意控制元素(control)的方法。我們希望這種映射方法能為以後的研究提供參考。
可以用論文中的一張圖來看懂作者的研究意圖:
輸入左邊的圖片+系統內存儲的照片風格(中),得到最右邊風格變換後的照片。這就是神經網絡圖片風格遷移。
論文:
論文地址:https://arxiv.org/pdf/1701.04928v1.pdf
總共3頁。
1. 把 Kristen Stewart 去掉,ML 界不會有人看這篇論文超過兩次俄羅斯斯科爾科沃理工學院信息工程與數據專業碩士, Facebook AI 研究室2016年實習生 Roman Trusov 說:
他們幾乎從來沒有想過這個問題。這不是一份研究論文,並且也不算關於人工智慧的。報導的題目唯一正確的部分是「Kristen Stewart」。這,就是我的看法。
他們做了什麼:他們下載了一個經過預訓練的、可用的架構,將自己的圖像在這一框架上運行,不需要訓練任何東西。難點在於找到一個足夠輕量(lightweight)的解決方案(vgg16 vs vgg19),並且設置降噪的常規。
如果你把文章中的「Kristen Stewart」 名字去掉,ML 界不會有人看這篇論文超過兩次,這麼說你應該能理解其中的科學含量有多少了。
除此之外,這一文章也是一個減少 Erdős–Bacon 數量的嘗試。顯然,這是實實在在的。另外,也許這會鼓勵更多的女性選擇計算機科學。
機器學習研究者,Quora工程主管 Xavier Amatriain說:
這裡可能有兩個不同的問題需要回答:1)我們怎麼評價這篇論文?2)我們怎麼評價這篇論文引起的報導?
我首先回答第二個問題,因為我認為這是(潛在)問題的根本所在。現在,大多數事情都圍繞著 AI,所以肯定會有一些過熱效應。我也理解,對於一篇嘗試把 AI 和一位好萊塢女星聯繫在一起的論文,公眾的整體反應會是什麼樣的。老實說來,我發現 Quartz(一家新聞媒體)的方式既有好處也有害處。我必須承認,我在Twitter 和 Facebook 上分享了這篇論文。
首先需要說明的是,Quartz 使用的詞是「released」 (發布)而不是「publish」(發表)。這很好。他們也在文章後解釋了,在 ArXiv 上發表一篇 paper 並不意味著已經通過同行評議或者被任何的研究社區接收。人們應該記住, ArXiv 會審核提交的論文,但是他們並不會對網站上論文的質量負責。換句話說,提交一份草稿或者一個課程作業也是可以的。目前,在這篇論文被其他任何社區接收之前,強調這一背景是很有必要的。
第二,正如其他人所指出的那樣,和新聞報導標題報導的不一樣,這並不是一篇關於 AI 的研究論文。這是一篇使用了人工智慧的應用型論文。二者是完全不同的。當然,這也不意味著文章本身是一篇很爛的研究論文,但是它需要基於不同的標準進行評估,因為顯然論文並沒有給 AI/ML 社區帶來任何新東西。基於以上幾點,AI 研究者們的評論都沒有真正地抓住重點。
在這件事上,我覺得自己是有資格進行評論的。雖然我自己做的研究是關於機器學習的,但是我的大部分作品實際上都是應用型的論文,涉及的領域包括推薦系統和多媒體系統。事實上,我也曾與藝術家一起合作論文,其中的一些論文已經發表在國際會議和期刊上。
所以,記住了這一點後,我來回答另一個問題:我對論文本身的評價如何?
不幸的是,論文沒有給我留下什麼印象。作為一篇藝術應用 AI 論文,它的價值非常有限。論文本身有很多問題,導致其很難被大多數的會議接收:
1. 這一應用總結的經驗實際上很難推廣,甚至連希望實現的目標都不能滿足。
2. 其採用的思路和方法比較有限。
3. 引用不夠。特別是,作為一篇應用型的論文,僅僅引用最近的 AI/ML 論文是不夠的。作者應該引用其他藝術家用 AI 進行創作的研究。
也就是說,我認為論文可能足夠提交到一個「poster」或者 workshop上。考慮到其形式和長度,我認為這也許是作者的本意。
最後,我回答一下,Kristen Stewart 該不該成為論文的作者的問題。我的觀點非常清晰:Kristen 肯定應該成為作者之一。再次強調,這是一篇應用性論文(或者說,是一篇藝術創造論文)。藝術家或者創作者本身的角色應該和 AI 研究者的作用一樣重要,或者更加重要。事實上,我想透露的秘密是,與一些博士論文中的署名導師或教授比起來,Kristen 在這篇論文中所做的貢獻肯定要多得多。
新加坡-MIT研究與技術聯盟實習研究員,Shashwat Verma 說:
聽說過 Prisma 嗎?這個 APP 能根據源照片的風格重新繪製你上傳的照片風格。關於這一APP 的最初論文:https://arxiv.org/pdf/1508.06576. 作者 Gatys 等人。
如果你還不知道Prisma,可以看下面的例子:
這是使用卷積神經網絡來完成的。我上面提到的論文使用了深度學習來進行藝術創造而不僅僅是識別貓。這是一篇很好的論文。你可以重新驗證其結果。
Kristen Stewart 的論文(可能?)擴展了 Gatys 等人的工作。
首先需要指出,Kristen Stewart 等人的論文並不是一篇真正的 AI 論文。可能,他們自己也並沒有打算稱其為一篇 AI 論文。讓我們分析下這一點和這篇 「AI」 論文中唯一的數學等式。
試驗風格轉移比率後,我們得出結論,要進行有意義的創造性探索,它需要是指數形式的。主觀地,這種指數形式給了我們一個對不真實性的有用測量,表示為u,這是一個粗略地反映風格轉移的圖像看起來會有什麼印象的方法:
style transfer ratio = 10^u
Kristen Stewart 的論文的貢獻(可能是最重要的一點)甚至都不能稱之為貢獻。Gatys 最初的論文已經對這一公式進行了論述,甚至還附上了一張非常好的照片,來展示U的改變帶來的效應。
他們提到了另外的一些貢獻,但是這對於一篇論文來說是遠遠不夠的,我認為。他們談到了一系列參數(不是超參數),已經如何調整。但是這不足以讓其成為一篇 AI 論文。他們本可以發一篇博客就夠了的。我本人並沒有發現這篇論文有任何好的地方。沒有讓我學到任何新的東西。
但是,這篇論文對於那些希望使用深度學習進行風格遷移的電影製作者來說可能會有用。他們可能會需要調整參數,讓輸出的圖片足夠好(主觀的)到可以產出。
如果你真的想知道 Kristen Stewart 的論文究竟是什麼,或者 Prisma APP 的工作原理,還是去讀 Gatys 的論文吧。
最後,我不認為 Kristen 做了任何技術方面的工作用於深度學習的預訓練。她可能就像其他教授一樣,只是署名而不做任何工作。 Kristen 是一名演員而不是深度學習工程師。所以,對論文的批評應該指向研究工程師 Bhautik J Joshi。
我的分析可能有錯,如能指正,不甚感激。
新智元招聘
新智元日前宣布,獲6家頂級機構總額達數千萬元的PreA輪融資,藍馳創投領投,紅杉資本中國基金、高瓴智成、藍湖資本 、藍象資本跟投。本輪融資將用於新智元團隊規模擴充並增加新產品服務線,目標打造 To B 的人工智慧全產業鏈服務平臺。
職位 執行總編、主編
職位年薪:50萬(工資+獎金)-100萬元(工資+獎金+期權)
工作地點:北京-海澱區
所屬部門:編輯部
匯報對象:CEO
下屬人數:20人
年齡要求:25 歲至 40 歲
語 言:專業英語八級以上或海外留學從業背景
職位背景:在IT媒體領域有專業團隊管理經驗與主流話語權
學歷要求:碩士及以上
職位描述:
熱愛人工智慧和媒體事業;
具有3年以上媒體採編經驗,在業內有一定影響力及人脈;
具有原創+編譯團隊管理經驗,善於部門間協作溝通;
對TMT領域有深入理解,對行業趨勢有獨到的洞察;
英文閱讀寫作及溝通能力優異;
較強的抗壓能力和自驅力,能在競爭激烈的環境下激勵團隊;
具有創業精神及團隊精神,有恆心肯吃苦;
理工科背景優先,有知名企業或知名媒體機構工作經驗者優先。
職責
全權負責新智元內容平臺策劃、生產與運營,對內容質量、用戶閱讀體驗、影響力負責。具體負責完成對內容平臺定位和規劃,組建並管理採編團隊,策劃執行重點選題,建立和維護供稿作者資源;監控公眾號各項數據指標變動,並以此為基礎改進提升內容質量。
新智元歡迎有志之士前來面試,更多招聘崗位請訪問新智元公眾號