機器之心分析師網絡
分析師:羅賽男
編輯: Joni Zhong
人工智慧頂級會議 AAAI 2020 將於 2 月 7 日-2 月 12 日在美國紐約舉辦,AAAI 2020 最終收到 8800 篇提交論文,評審了 7737 篇,接收了 1591 篇,接收率 20.6%。常識問題是人工智慧領域最難的問題之一。在 NLP 領域,BERT 模型雖然已經表現出色,但是在常識知識問答數據集上的性能仍舊遠低於人類。在計算機視覺領域,結合視覺場景的常識知識問答問題仍然具有較大難度。促進人工智慧發展,使得機器具有「常識思維」,對於常識知識、常識推理的研究是值得關注的未來發展方向。本次 AAAI 2020 學術會議論文提前看,筆者挑選了常識知識、常識推理相關的 3 篇論文為大家作以解讀。
Joint Commonsense and Relation Reasoning for Image and Video Captioning(聯合常識和關係推理用於圖像和視頻描述)
論文連結:https://wuxinxiao.github.io/assets/papers/2020/C-R_reasoning.pdf
論文速覽
這篇論文是北京理工大學和阿里合作的一篇關於利用對象之間的關係進行圖像和視頻描述 (image caption/video caption) 的論文。大多數現有方法嚴重依賴於預訓練的對象及其關係的檢測器,因此在面臨諸如遮擋,微小物體和長尾類別等檢測挑戰時可能效果不佳。
在本文中,作者提出了一種聯合常識和關係推理的方法 (C-R Reasoning),該方法利用先驗知識進行圖像和視頻描述,而無需依賴任何目標檢測器。先驗知識提供對象之間的語義關係和約束,作為指導以建立概括對象關係的語義圖,其中一些對象之間的關係是不能直接從圖像或視頻中獲得。
特別是,本文的方法是通過常識推理和關係推理的迭代學習算法交替實現的,常識推理將視覺區域嵌入語義空間以構建語義圖,關係推理用於編碼語義圖以生成句子。作者在幾個基準數據集上的實驗驗證了該方法的有效性。
為了讓大家更直觀的感受,圖 1.1 率先為大家展示了本文的方法在 MSVD 英文視頻數據集和 Youku-vc 中文視頻數據集上的定性結果。
圖 1.1 本文方法在 MSVD 視頻數據集合 Youku-vc 中文視頻數據集上的效果示例
黃色和藍色的框分別表示對象和關係的候選,『o-r-o』表示的是語義圖中的『對象-關係-對象』,『o-r-a』表示的是『對象-關係-屬性』。Ours 指的是作者的方法生成的描述,GT 是真實的描述語句。三張圖片表示的是從視頻中隨機採樣的幀。
作者的方法能夠檢測出一些難以「檢測」的物體來生成精準的描述,比如 (b) 中用來化妝的小物體眉筆,比如 (d) 中被嚴重遮擋的人,分別通過先驗知識<woman,put_on,makeup>和<woman,play_with,cat>推斷了出來。並且該方法也能生成中文描述如 (c) 和 (f),圓括號中的英文是對中文的翻譯。
論文方法
C-R Reasoning 方法包括三個模塊,如圖 1.2 所示。視覺映射和知識映射模塊(Visual Mapping & knowledge mapping)在生成語義實體候選後,通過視覺映射學習語義實體候選的視覺特徵向量,通過知識映射來學習候選的知識向量。常識推理模塊(Common sense)根據給定的候選,在先驗知識圖的指導下構建語義圖。關係推理模塊 (Relation Reasoning)中根據給定的語義圖,通過圖卷積網絡 (GCN) 和基於序列的語言模型來生成文本描述。
圖 1.2 以生成視頻描述為例展示 C-R Reasoning 方法
1. 視覺映射和知識映射模塊
(1) 視覺映射用於生成語義實體候選(例如對象,屬性,關係)的視覺特徵。對象和屬性的候選通過局部區域的視覺特徵表示。而關係候選是通過兩個局部區域聯合的視覺特徵表示。使用預訓練的 CNN 從輸入圖片或視頻中密集採樣局部區域,將採樣的區域進行聚類,將聚類中心的候選作為代表性候選,將候選的視覺特徵向量記為 V。
(2) 知識映射通過將候選的視覺特徵向量 V 映射到先驗知識的知識嵌入向量語義概念空間中,學習候選的知識向量 K。K=[k1,...,k_(Nv)],其中 ki=Epi,E 表示知識嵌入向量,pi 表示知識嵌入向量的權重。知識嵌入向量使用 Visual Genome 上的知識圖計算。作者構建了三種非線性映射網絡來為對象、關係和屬性這三類概念標籤軟分配(soft-assign)視覺特徵向量。概念標籤的真實值通過對真實描述使用詞類標註工具得到。
圖 1.3 C-R reasoning 迭代執行示意圖
2. 常識推理模塊
將視覺特徵向量 V 和知識向量 K 作為輸入,使用非線性映射函數 si=φ(vi,ki) 將候選表示為語義特徵 S。語義特徵滿足通過常識推理標準推斷出的對象,關係和屬性之間的相關性和約束,以生成圖像或視頻的語義圖。語義映射φ() 通過 C-R Reasoning 框架的反向傳播進行更新。具體來說,知識圖是三元組集,每個三元組 (Sh,Sr,St) 表示頭實體 Sh 和尾實體 St 之間的關係 Sr。三元組的相關性準則由下式表示:
其中 W 是將語義特徵轉換成復向量的權重矩陣,帶上劃線的 Ws^t 是 Ws^t 的復共軛,<>表示三元組中向量的多線性點乘,Re() 是取實部,Im() 是取虛部。
從候選中選擇對上述準則有較大響應的三元組來生成語義圖。
3. 關係推理模塊
關係推理模塊採用 GCN+LSTM 的模式,使用 [1] 中提出的圖卷積網絡沿著圖的邊來傳播信息,並根據上下文對語義圖中的特徵進行編碼,以生成對關係敏感的 (relation-aware) 三元組特徵。採用了 [2] 的模型,該模型用自上而下的注意力 LSTM 來加權視覺特徵,用語言 LSTM 來生成描述。根據加權的視覺特徵和注意力 LSTM 中的隱藏狀態計算出三元組特徵的注意力權重,級聯後輸入到語言 LSTM 中可獲得單詞描述的條件分布。
4. 模型訓練
總的損失 L=L_c+βL_s,其中β是超參數,L_c 是用於生成句子的交叉熵損失,L_s 用於指導學習三元組的語義特徵。
理論上講,C-R Reasoning 方法可以以端到端的方式進行訓練,然而常識推理模塊中語義圖的構建面臨優化挑戰,因此作者設計了迭代算法,在常識推理模塊的語義圖生成和關係推理模塊的描述生成之間交替優化。算法如下所示:
實驗評估
作者使用了 MSVD 視頻數據集和 MSCOCO 圖像數據集進行了實驗,MSVD 數據集從 Youtube 視頻收集而來,訓練驗證和測試集劃分為 1200,100,670。MSCOCO 數據集包含超過 100K 圖像,每個圖像有 5 個描述,作者採用的訓練驗證和測試圖片數量劃分為 113287,5000,5000。此外,作者還對中文視頻描述數據集 Youku-VC 進行了定性實驗,訓練驗證測試數據劃分為 1000,215,215,每個短視頻帶有 10 個中文描述在 MSVD 和 Youku-VC 上的可視化結果已在前文的圖 1.1 中展示。
Table1 展示了 MSVD 視頻數據集上的實驗結果,前四種方法是簡單的 sequence-to-sequence 模型,沒有利用到對象間的關係,相比而言作者的方法取得了更好的性能,證明了聯合常識和關係推理的優越性。與使用了在圖像數據集上預訓練的檢測器然後視頻中檢測對象的方法相比,作者的方法仍舊更好,說明使用先驗知識來識別對象是更為可靠的。Table2 展示了在 MSCOCO 圖像數據集上的結果,與未利用語義信息的方法相比(第一行)更高,與使用了預訓練檢測器的方法相比,作者提出的方法也是能夠與之相提並論的。作者同樣展示了他們的方法使用預訓練的 Faster R-CNN 檢測器用於從圖像中提取初始區域的結果。此外,針對各部分的消融實驗證實了各模塊的有效性,如 Table3 所示。
筆者小結
這篇論文並不是聚焦於常識知識和常識推理本身,而是聯合常識和關係推理使得圖像和視頻描述中那些「難以捉摸」,「並非直接可見」的物體或關係現形,使得描述更加精準。並且本文的方法並不需要使用預訓練的對象或關係檢測器。通過這種常識性關係,聯合學習的策略,能夠更好地實現全局語義的一致性。筆者認為這篇論文對於將常識知識、常識推理用於視頻圖像描述、視覺知識問答等領域一定的啟發。
參考文獻:
[1]Johnson J, Gupta A, Fei-Fei L. Image generation from scene graphs[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1219-1228.
[2]Anderson P, He X, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 6077-6086.
Graph-Based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering (利用異構外部知識基於圖的推理進行常識知識問答)
論文連結:https://arxiv.org/pdf/1909.05311.pdf
論文引入
常識問答往往需要那些並沒有在問題中顯著表達的背景知識。這一挑戰的關鍵在於如何從外部知識中獲取證據並根據證據做出預測。
如圖 2.1 所示,問題「人們在彈吉他的時候通常做些什麼?」選項 A. 哭 B. 聽聲音 C. 唱歌 D. 關節炎 E. 製作音樂,根據從 ConceptNet 上的證據可以幫助我們挑出 A 和 C 這兩個選項,根據來自維基百科的證據,我們可以挑出 C 和 E 兩個選項,結合二者,我們能夠得到正確答案 C。
來自結構化的知識源(如 ConceptNet)包含概念之間的寶貴結構關係,對於推理很有幫助,但是它們的覆蓋率低。而純文本知識源(如維基百科)是對結構化知識的補充,可以提供豐富且覆蓋面廣的證據。最近的研究還沒有同時利用這兩類知識源進行推理的,因此在這項工作中,作者提議自動從這兩個異構知識源中提取證據,並根據提取的證據回答問題。
圖 2.1 CommonsenseQA 數據集中的一個示例,該示例需要多個外部知識才能做出正確的預測。
論文方法
本文的方法包括知識提取和基於圖的推理兩個部分,如圖 2.2 所示。
圖 2.2 本文方法概覽
(1)知識提取部分:根據給定的問題和選項,從結構化知識庫 ConceptNet 中自動提取圖路徑,從維基百科純文本中自動提取句子。為了更好地利用證據的關係結構,作者為兩種知識源分別構建圖。ConceptNet 是大型常識知識庫,常識知識由三元組表示(實體節點,關係,實體節點),對於給定的問題和選項,首先識別出其中的實體,然後在 ConceptNet 中搜索從問題實體到選項的路徑,將涉及到的三元組合併到一個圖中,讓三元組作為節點,邊為三元組之間的關係;對於維基百科的句子,作者使用了 Elastic Search 工具為句子建立了索引,在刪除問題和選項中的停用詞後進行搜索,將匹配到的維基百科句子根據匹配分數進行排名,取前 K 個匹配句子作為證據,並通過語義角色標記(Semantic Role Labeling)為維基百科證據中的每個謂語提取主語(主體)和賓語(客體),將主語謂語和賓語作為圖的節點,將謂語和其它兩者之間的關係作為圖的邊。
(2)基於圖的推理部分:基於圖的推理部分包含兩個模塊:(a)基於圖的上下文表示學習模塊,該模塊利用圖結構信息重新定義單詞之間的距離以學習更好的上下文單詞表示。作者提出拓撲排序算法(Algorithm 1)根據構造圖對證據進行排序,需要說明的是,對於結構化知識源 ConceptNet,使用了 ConceptNet 提供的關係模板將三元組轉換為自然語言文本句子。作者使用 XLNet 作為 backbone,將已排序的 ConceptNet 證據語句、已排序的維基百科證據語句、問題語句、選項這四者的級聯作為 XLNet 的輸入,得到的 XLNet 輸出是上下文單詞表示。通過將提取的圖轉換為自然語言文本,就將兩個不同的異構知識源融合到了同一表示空間中。(b)基於圖的推理模塊。作者採用 [1] 中的圖卷積網絡對圖結構信息編碼來獲取節點表示,通過合併相鄰節點的特徵來更新節點表示。第 i 個節點表示 h_i^0,是通過對 XLNet 輸出中相應證據的隱藏狀態取平均值並通過非線性變換來減小維數而得到的:
其中 si = {w0,···,wt} 是第 i 個節點對應的證據,h_wj 是 XLNet 對 wj 的上下文表示,W 將高維 d 縮減為低維 k,σ是激活函數。
為了對圖進行推理,首先聚集來自每個相鄰節點的信息。第 i 個節點聚集的信息 z_i^l:
其中 Ni 是第 i 個節點的鄰居,h_j^l 是第 j 個節點在第 l 層的表示。將 z_i^l 與轉換後的第 i 個節點表示結合起來獲得更新節點表示 h_i^(l+1).
利用圖注意機制來聚集圖表示進行預測,圖表示 h^g 的計算:
其中 h_i^L 是第 i 個節點在最後一層的表示,h^c 是 XLNet 最後一個序列的表示,也可被視為輸入表示,α_i 是第 i 個節點的權重,h^g 是圖表示。
作者將輸入表示 h_c 與圖表示 h^g 級聯在一起,輸入多層感知器來計算置信度得分 score(q,a)。對於問題 q 而言,候選答案 a 的概率計算如下:
其中 A 是候選答案集,最終選擇最高的置信度得分回答作為預測回答。
實驗評估
作者使用 CommonsenseQA 數據集進行了實驗,該數據集包含 12102 個樣本 (train:9741,val:1221,test:1140),作者選擇了在驗證集上最好的模型,並提交了在測試數據上的預測結果。比較實驗選擇了排行榜上有名的模型,作者將它們分為四組:
Group1:模型沒有相應的描述,也沒有發表論文Group2:模型沒有使用提取的知識Group3:模型使用了提取的結構化知識Gropu4:模型使用了提取的非結構化知識這些方法要麼使用的是來自結構化知識源的證據,要麼利用了來自非結構化知識源的證據,沒有同時利用到兩種知識源的優勢。在 CommonsenseQA 驗證集和測試集上的結果如 Table1 所示,與四組方法相比,作者的方法均達到了最佳性能。Table2 展示了作者的方法在驗證集上進行消融實驗的結果,在 baseline 中作者將所有的證據簡單地連接到 XLNet 中,並採用上下文表示進行預測。通過添加拓撲排序算法,獲得了比 baseline 高 1.9% 的收益,單獨添加圖形推理模塊帶來了 1.4% 的提升,二者一起添加獲得了 3.5% 的提高。隨後作者進行了知識源的消融實驗,Table3 的結果證明了結合使用 ConceptNet 和 Wikipedia 獲得的巨大效果提升,說明異構知識源的性能要優於單個知識源和不同知識源。
筆者小結:這篇論文作者的創新在於提出了一種基於圖的方法,利用不同結構的知識源進行常識知識問答,並且提出了基於圖的上下文表示學習模塊和基於圖的推理模塊,更好的利用了圖信息。作者的方法在目前的 CommonseQA 排行榜上達到了最先進的性能。
參考文獻:
[1]Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
PIQA: Reasoning about Physical Commonsense in Natural Language(物理交互問答:自然語言中的物理常識推理)
論文連結:https://arxiv.org/pdf/1911.11641.pdf
論文速覽:「在不使用刷子塗眼影的情況下,我應該用棉籤還是牙籤?」類似這種需要物理世界常識的問題對現今的自然語言理解系統提出了挑戰。雖然最近的預訓練模型 (如 BERT) 在更抽象的如新聞文章和百科詞條這種具有豐富文本信息的領域問答方面取得了進展,但在更現實的領域,由於報導的偏差,文本本質上是有限的,類似於「用牙籤塗眼影是一個壞主意」這樣的事實很少得到直接報導。人工智慧系統能夠在不經歷物理世界的情況下可靠地回答物理常識問題嗎?是否能夠捕獲有關日常物品的常識知識,包括它們的物理特性、承受能力以及如何操縱它們。在本文中,作者介紹了一個關於物理常識推理任務和相應的基準數據集 PIQA(Physical Interaction:Question Answering)進行評估。雖然人類應對這一數據集很容易 (95% 的準確率),但是大型的預訓模型很難 (77%)。作者分析了現有模型所缺乏的知識為未來的研究提供了重要的機遇。
圖 3.1 PIQA 數據樣本示例
PIQA 數據集
PIQA 專注於日常生活中的物理常識,偏愛非典型的解決方案。圖 3.1 展示了一個 PIQA 示例,要使用礦泉水瓶將蛋黃和蛋清分離開你應該怎麼做?a. 對著蛋黃擠壓礦泉水瓶,然後再鬆開,就能產生吸力吸走蛋黃。b. 將礦泉水瓶放在蛋黃上,不斷推動,就能夠產生吸力吸走蛋黃。對於人類來說,選出答案 a 是很容易的,而機器卻很容易上當。
圖 3.2 PIQA 數據集示意(左邊的問答更側重於物體的屬性,右邊的問答從技術角度而言都是對的,但是側重於更方便可取)
PIQA 數據集的產生
PIQA 任務的本質是選擇問答,給定問題 q 和兩個可能的解決方案 s1,s2,其中只有一個是正確的 (如圖 3.2 所示),模型或人類必須選擇最合適的解。數據集由人工注釋者按照目的-解決方案對進行定義。目的可被看作一種後置條件,而解決方案則表示完成這一條件的過程。目的越詳細,就越容易寫出正確和不正確的解決方案。為了提醒注釋者進行創造性地思考設置出非典型性的解決方案,會啟發注釋者從 instructables.com 網站的連結上獲取靈感以構建任務數據集。instructables.com 網站是一個眾包指導網站,指導如何使用日常材料構建、製作、烘焙,涉及到從烹飪到汽車維修等等,大多數情況下每個步驟會配有圖像、視頻以及所需要的工具列表。注釋者會使用一些語言上的技巧,對正確的解決方進行細微的修改就能得到錯誤的方案,比如說改變某個關鍵詞,改變數值,替換成對實現目的沒有幫助的另一個動作等等。在對數據集進行驗證時,會將需要專家知識的樣本進行移除,並使用 AFite 算法進行進一步清理。
PIQA 數據集信息統計
PIQA 數據集由 16,000 多個訓練的 QA 對組成,另外分別提供了約 2K 和 3K 進行開發和測試。目的長度平均為 7.8 個單詞,正確和不正確的解決方案平均長度為 21.3 個單詞,正確和不正確解決方案所使用的單詞之間至少有 85% 的重疊。通過對名詞,動詞,形容詞,副詞出現的詞頻統計,驗證了數據集確實是和物理現象強相關的。比如,出現詞頻最高的形容詞中包括狀態(乾燥的、乾淨的、燙的),形狀(小的、鋒利的、平坦的),形式(快速的、仔細的),這些屬性通常決定了解決方案的正確與否。
實驗評估
作者在 GPT 模型,BERT 模型,和 RoBERTa 模型(BERT 的一個版本,使用了更多數據進行預訓練)上進行了實驗。實驗結果如 Table 1 所示,結果表明現今最好的模型和人類之間仍有近 20% 的差距。接下來作者對數據集的哪些方面愚弄了 RoBERTa 模型進行了分析。兩個解決方案的編輯距離(即不同單詞的個數)越大,模型的準確率越低。作者發現 RoBERTa 模型仍舊難以理解許多常見且通用的物理概念,如圖 3.4 所示,驗證集樣本 (q,s1,s2) 中 s1 和 s2 唯一的區別在於單詞 w,當 w 是'cold','before','after'時,RoBERTa 模型的準確率接近隨機猜測 50%。以準確率較高的'water'和'spoon'為例,作者進一步探究了訓練集中最常替代它們的詞彙,如圖 3.5 所示。替代勺子的最常見詞彙是叉子、刀子,但物理世界中勺子通常不能用鋒利的或者尖頭的器具進行代替,RoBERTa 在'spoon'上的表現 (90%) 表明它可能理解到了勺子的這種簡單特性。'water'在訓練集中很常見,具有很高的通用性,替代它的最常見詞彙是牛奶、油、蘇打,物理世界中用這些東西替代水可能會產生很糟糕的後果,RoBERTa 約 75% 的準確率表現,說明它對'water'的概念還沒有理解到位。而'freeze'僅 66% 說明動詞的理解對於 RoBERTa 而言仍不是強項。
(左)圖 3.4 通過常識概念看 RoBERTa 對物理世界的理解
(右)圖 3.5 『water』,『spoon』,『freeze』的最常見替換詞
筆者小結
本篇論文提出的任務非常新穎,物理常識推理任務,相較於常識知識庫中所收納的那類常識而言,物理常識更注重於物體的物理屬性,且 PIQA 數據集偏向於非典型性物理常識,不能直接從已有的文本庫中得到答案。對於這類物理常識推理問題,目前最好模型的表現與人類仍有較大差距,說明模型缺乏對物理世界一些最基本物理特性的理解。如果在此類問題上能有所突破,那麼人工智慧領域將會更進一步。
總結
筆者選取的這 3 篇論文從不同角度展示了常識知識、常識推理的研究進展。第一篇論文打開視野,將常識與關係推理相結合,應用到圖像視頻描述生成的領域,三個部分互相配合,達到了很好的效果。第二篇論文提出新的方法來解決常識知識問答問題,將異構常識知識源融合到同一表示空間,使用圖推理進行常識知識問答,在標杆數據集 CommonsenQA 上效果極佳。第三篇論文推出了新的物理常識推理任務並提出了 PIQA 數據集,為未來常識問題的研究提供了機遇和挑戰。由於常識知識、常識推理常常和自然語言理解、視覺問答等相結合,因此解決和常識相關的問題相比一般的自然語言處理和計算機視覺問題更為棘手,但除了第三篇是介紹數據集為目的,第一篇和第二篇文章不約而同的都採用了圖或者圖神經網絡來解決,說明了這可能是解決該問題的一個方向。目前最先進的語言模型在解決常識知識、常識推理等問題時仍和人類有較大差距(如在 CommonseQA 和 PIQA 上的表現),常識知識和常識推理仍然是人工智慧中值得探索的領域!
AAAI 2020 接收論文列表:https://aaai.org/Conferences/AAAI-20/wp-content/uploads/2020/01/AAAI-20-Accepted-Paper-List.pdf
本次 AAAI2020 其它相關論文:
Commonsense Knowledge Base Completion with Structural and Semantic Context(利用結構和語義上下文的常識知識庫實現)論文連結:https://arxiv.org/pdf/1910.02915.pdfUnderstanding the semantic content of sparse word embeddings using a commonsense knowledge base(使用常識知識庫理解稀疏詞嵌入的語義內容)論文連結:https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_29.pdfEvaluating Commonsense in Pre-trained Language Models(在預訓練語言模型中評估常識)論文連結:https://arxiv.org/pdf/1911.11931.pdfKnowIT VQA: Answering Knowledge-Based Questions about Videos(KnowIT VQA:回答關於視頻的知識問題)論文連結:https://arxiv.org/pdf/1910.10706.pdf分析師簡介:羅賽男,西安電子科技大學計算機科學與技術專業在讀研究生,研究方向為網絡安全,對計算機視覺各領域都有較大的好奇心,希望和大家共同學習共同進步。