深度學習提出以來,人工智慧熱潮持續升溫,AI研究的重要拼圖計算機視覺也越發火爆。2017年10月下旬,兩年一度的計算機視覺頂級會議ICCV (International Conference of Computer Vision) 相約世界第一水城威尼斯。揣著一半對學術的熱忱,一半對威尼斯的期待,我來到這座歷史悠久的義大利名城。
大大小小的教堂塔樓,隔三差五的石橋河道,無拘無束的紅頂房宇,時而狡黠時而糊塗的威尼斯商人,和不讓遊客使用的「公廁」,構成了我對這個城市的主要印象。
本次ICCV選擇的會場也是誠(bi)意(ge)十(man)足(man),直接選在了威尼斯電影節的舉辦地點,Lido島上的Palazzo del Cinema電影中心,面朝大海,又星味十足。由於我們住的旅館在旁邊的Venezia主島,必須乘坐當地的公交船來回會場。於是,早霞出海晚霞歸來,體會碼頭的沉靜與喧囂就成了日常項目。
10月22日註冊完會議,正好趕上了Ross, Kaiming, Jifeng, Justin等人做的從object recognition到beyond object instances的tutorial報告。不禁感嘆Kaiming等人讓計算機視覺真正實用越來越成為可能,而Feifei高徒Justin的研究一步步探索著計算機視覺的想像力邊界, visual reasoning好複雜讓人感慨臥槽這都可以
10月23日,趁著主流程main conference還沒開始,小夥伴一行幾人決定把威尼斯的主要景點遊覽一番。清晨的碼頭很美,聖馬可廣場還很空曠,我們早早買票進入了總督府,一路經過法院,監獄和二者連接的嘆息橋,體驗了一下囚犯從審判到入獄的感受。然後去了久負盛名的聖馬可大教堂和高聳的時鐘塔樓,在塔樓上可以一覽威尼斯的全貌。下午,坐船前往周邊的幾個小島,有亦可賽艇的彩色島,把房子塗成了五顏六色;也有因吹思艇的玻璃島,販賣各種精緻的玻璃藝術品。
10月24日,main conference開始,上午先頒發了幾個重要獎項,best paper和best student paper,獲獎人大家都熟,流水的intern鐵打的他。
在頒發了傑出研究者和久經考驗論文獎之後,第一個oral session就開始了,轉播團隊也很專業,在合適的時候會切換到報告人的大特寫,特別帶感。幾天下來,發現還是華人和印度口音的報告人最多,但論自信程度,我還是服一個歐洲大叔,講解自帶廣告效應,臨了霸氣的說,你們要是不信哥說的,那咱就在poster見吧。
主會議一共四天,我的poster在最後一天,前三天觀摩了好多poster,和同行的交流獲得了很多收穫,也認識了好多小夥伴。大廳的公司展臺被國內的公司佔據了半壁江山,真是大國崛起,AI當先。
時間來到10月27日,哥準備登場講poster,然而前一天接到組委會通知,說今天9點之後船家會罷工,你在逗我嗎。一早起來,梳洗罷,穿上特意準備的襯衣和緊身褲,登上準備罷工的船,前往Lido島。來到會場,提前把海報一掛,心裡就開始默默過解說詞了。時間迫近10點半,觀眾絡繹不絕而來,儘管是第一次講poster,還是儘量裝作不是的樣子,但終究免不了捉急的時候,實在沒法了來一句Youknow what I mean你懂我意思吧。
最後,經過了2個多小時的交流,得到了一些同行的認可,深感欣慰,可真的只是一點微小的工作,很慚愧。10月29日,一行人收拾行李,踏上歸途,發現義大利也存在中國式過馬路,畢竟歐洲中國隊,世界盃都能被帶出局,我還能說啥。據說威尼斯哪天可能就沉了,AI也曾經沉淪過,但是現在迎來了華麗重生,所以還是祝威尼斯一直都在吧。
----帥帥的分割線--
這裡簡單介紹一下此次ICCV錄用的工作Referring expression generation and comprehension via attributes。先放上維基百科的定義:Referring expression is any noun phrase, or surrogate for a nounphrase, whose function in discourse is to identify some individual object. 指代性表達經常出現在人們的日常對話中,用來確認或識別某些特定目標(物體),表現形式通常為名詞性短語。設想如下情景,20年後的某一天,作為老司機的你去某商場逛街,碰巧進入一個仿真娃娃商店,貨架上擺著各種相貌服飾的仿真娃娃。
機器人服務員小A熱情的說:「客官,您想要哪款娃娃?」
老司機犀利的目光停留在一款娃娃身上,說:「那個黑色長髮的娃娃。」
小A:「大叔,那幾個都是黑色長髮,您說的哪個啊?」
老司機:「不好意思,沒說清,左數第二,戴蝴蝶結那個。」
小A:「大叔您的眼光真犀利!都說這款神似當年島國某老師。」
老司機:「滾犢子,我送給我女兒當生日禮物,現在這AI咋都這德行了...」
說罷小A長手一伸,把那個娃娃拿了下來,遞給虛偽的老司機
以上,老司機和小A分別作為對話中的speaker說者和listener聽者,老司機第一次對娃娃的描述存在歧義(ambiguity),導致小A無法理解(comprehension),並給了老司機一次反饋feedback/reward,老司機得到反饋後重新描述,採用了更詳盡的描述,包括方位序數詞(location word):左數第二,以及屬性特徵(attribute):戴蝴蝶結。這下終於沒有歧義(disambiguity)了,小A最後直接定位(localize)目標物體,代表自己真的理解了。這事兒現在看著還有點科幻,但以後遲早是要實現了。
回到學術上,現在的任務有兩個,第一個是referring expression generation,要求計算機根據給定的圖中物體,給出一個沒有歧義的描述,要達到人類能理解的地步;第二個是referring expression comprehension,要求計算機根據給定圖片和目標的描述,定位出目標物體。相關工作包括較早的[1][2],和後來的[3],特別感謝UNC製作的RefCOCO和RefCOCO+的datasets[3],成為了今後的標準資料庫;以及後來CVPR17的兩篇佳作[4][5],都引入了listener對speaker的監督調整,進一步減少了speaker產生的歧義;[4]還首次將兩個任務joint learning,得到了進一步提升。
我們的工作[6]首次將attribute屬性引入了兩個任務,預先訓練好屬性學習模型,並將屬性作為額外信息送入兩個任務的模型之中。屬性集合事先從訓練樣本中的描述referring expression中提取,並採用多標籤分類模型進行訓練和學習。上圖展示了兩個任務的pipeline。另外,我們還對attribute進行了更深入的分析,包括一些適用場景和失敗場景,並對屬性根據類別進行了分類和分析,相信可以對以後的研究者提供幫助。實驗結果表明attribute對於referring expression的生成和理解都具有顯著的提升。下左圖是referring expression comprehension的一些結果,下右圖是referring expression generation的一些結果。
【參考文獻】
[1]Mao et al, Generation and Comprehension of Unambiguous Object Descriptions, CVPR 2016.
[2]Hu et al, Natural Language Object Retrieval, CVPR 2016.
[3]Yu et al, Modeling Context in Referring Expressions, ECCV 2016.
[4]Yu et al, A Joint Speaker-Listener-Reinforcer Model for Referring Expressions, CVPR 2017.
[5]Luo et al, Comprehension-guided referring expressions, CVPR 2017.
[6]Liu et al, Referring expression generation and comprehension via attributes, ICCV 2017.