語言有親密度嗎?如何量化並測量語言親密度?性別、社交距離和匿名性又是如何影響人際交流的?密西根大學的研究者希望使用自然語言處理和數據科學技術來回答這些問題。相關工作「Quantifying Intimacy in Language」已發表於自然語言處理旗艦會議EMNLP 2020。本文為科普性質,技術細節及已開源的數據、模型請見文末項目主頁。
讓陌生人相愛的36個問題
1997年,美國心理學家阿瑟·亞倫等人發表了一項研究,他們發現彼此詢問一些特別親密的問題,可以快速增強兩個陌生人之間的親密度。
這一研究在被紐約時報報導後,也在中文網際網路上被廣泛轉載,並被宣傳為快速讓心上人愛上你的良方。
然而當人們在現實生活中面對心上人的時候,卻會對這些問題大失所望,因為就像知乎上最高贊的評論所言,這些在實驗室中效果良好的問題,在真實的生活中卻很難找到合適的場景或契機。
這些問題究竟有什麼奧秘?他們同其他稀鬆平常的諸如「吃了沒」這樣的寒暄有什麼區別?又究竟有哪些因素最終影響著人們在日常生活中的語言表達呢,本文將通過作者在EMNLP 2020上的一項最新研究,試圖從語言親密度和社會約束的角度來回答這些問題。
我們的研究
就像是人和人之間的關係一樣,我們在人際交流中所使用的語言也具有親密度的屬性。語言親密度受到了廣泛的社會和個體因素的約束,而違反這樣的約束則往往會造成尷尬,或者帶來更嚴重的後果。中國有一句古話叫做「交淺而言深者,愚也」, 意思是說與交情淺的人深談,是人際交往之中的大忌,這反映了社會文化中關係遠近對於語言親密度的約束。
在這一研究中,作者提出了一套量化語言親密度的數據標註方法和一個用於測量語言親密度的NLP模型,並使用八千萬 Reddit, Twitter, 書籍和電影對話數據研究了性別、社交距離和匿名性對於人際交流中語言親密度的影響。
語言親密度 ( Intimacy in language )
親密度這一概念來源於社會心理學,主要被用來描述人和人之間關係或者互動的親密程度。在這裡作者將這一概念沿用到了語言中,用來描述人際交流中所使用語言的親密程度,比如「我今天心情真的好差」比「吃了嗎」一般來說具有更高的語言親密度,因為它涉及到了更個體化的情緒表達;而「你最糟糕的童年回憶是什麼」則比「你覺得新的蘋果手機怎麼樣」要更加親密,因為它過於私密和個人化。
那麼我們是否能夠量化語言親密度呢,答案是肯定的。作者主要使用Best-Worst-Scaling這一方法來標註人們在對話中所使用問題的親密度,並最終得到了2397條標註有親密度 的文本數據,具體細節請見論文。
測量語言親密度
使用NLP模型測量語言親密度是一個回歸任務,簡單來說就是對輸入的文本,本文的模型可以自動地得出一個介於-1和1之間的親密度分值。作者在標註好的親密度數據上微調了 RoBERTa模型,最終在基於Reddit上的測試集上得到了0.87的相關係數,說明我們可以使用微調過的語言模型來準確地測量語言中的親密度。使用這一模型,作者測量了來自Reddit, Twitter, 書籍和電影的八千萬條對話數據的親密度。
主題分析
有哪些話題更親密呢?如下圖所示,涉及到家庭、親密關係等個人化的內容往往會比生活常識性的話題更加親密,但同時值得注意的是,一個話題的親密度往往有很大的跨度,這也說明了僅僅使用主題是無法準確地測量語言的親密度的。
性別
作者對來自Reddit, Twitter, 書籍和電影中的對話數據進行了分析,如下圖所示,我們發現:在Twitter和Reddit這兩個非常有代表性的社交媒體上,男性同男性之間的語言親密度均低於其他性別之間的對話。這說明雖然社交媒體往往可以賦予人們更大的交流自由,關於男性氣質的規訓仍然普遍存在於線上的人際互動中。對於書籍和電影來說,其對話並不來源於真實的個體,而存在於作家的想像,本文的分析進一步證明了廣泛存在的對於性別和語言親密度的社會期待,即男性需要保持一種不露聲色的威嚴形象,而談論情感性和個人性的話題則往往被認為是不夠man的。
那麼是否這樣的規訓僅僅存在於男性之中呢?答案是否定的。作者進一步分析了作家性別同書籍中人物對話親密度之間的關係,如下圖所示,儘管女性作家同男性作家相比傾向於使用具有更高親密度的語言,其作品中男性同男性之間的對話始終具有最低的語言親密度,這說明對於男性氣質的社會規訓也同樣被女性所接受。
社交距離
語言親密度天然受到社交距離的影響,因為社會心理學中的親密度本身就是社交距離的一個反映,而一般來說,更接近的社交距離往往伴隨著更加親密的交流方式和內容。然而,就像電影《愛在黎明破曉前》所呈現的那樣,兩個在火車上的陌生人卻可能向彼此分享最為私密的一些信息,心理學家把這種現象叫做「火車上的陌生人」。
那麼這兩種截然不同的社會期待是否會存在於線上社交中呢?為了回答這一問題,我們使用了 Twitter 數據計算了用戶在社交網絡上的距離,並分析了其互動的語言親密度,結果正如我們所預料的那樣,最親密的互動發生在關係最近和關係最遠的用戶對之間。
當兩個用戶之間的距離從0變為1時,也就是從直接好友變成存在一個共同好友的時候,他們往往仍然處於同一個社交圈子中,因而其語言親密度隨著社交距離的增加而顯著下降,而對於社交距離大於3 的用戶來說,隨著他們之間的關係越來越陌生,他們受到了越來越少的社交關係對於語言的限制,這使得他們可以不受限制地討論更加私密的內容。我們的研究在線上環境中同時驗證了兩個經典的關於社交距離如何影響人際交流的假說。
匿名性
前面兩個實驗討論了性別和社交距離對於人際交流的規訓,那麼是否存在一種場景可以使得人們暫時擺脫這樣的規訓呢?答案是肯定的。在Reddit上,人們可以使用帶有throwaway或者anonymous的用戶名來給自己建立一個匿名的身份。而正如下圖所示,使用匿名身份的用戶會比其他類別的用戶提出更加私密的問題。我們同樣分析了那些不帶有任何個人身份信息的帳號 ,結果表明儘管這些帳號具有同樣的匿名性,用戶並不會使用他們來提出更加親密的問題,這再一次表明,對於人際交流的社會約束仍然存在於Reddit這樣一個相對匿名的社區,而想要去除這些約束的最好辦法是使用一個匿名的身份。
失效的陌生人36問
回到最開始的問題,為什麼在實驗室中效果良好的問題,在現實中卻不適用呢?因為人們的語言親密度受到社會關係的約束,而想要詢問這些超出關係親密度的問題則需要特定的場合或者契機。人們可以坦然的在實驗室,或者在特定的場合中使用這樣的問題,是因為這些特定的環境暫時去除了社會關係對於人們的語言親密度的約束。
結論
總而言之,同關係一樣,人際交流中所使用的語言同樣具有親密度這一屬性,並受到諸多社會因素的影響。我們的研究首次提出了語言親密度 這一概念,並驗證了使用NLP模型來測量語言親密度的可行性,繼而分析了性別、社交距離和匿名性對於人際交流的影響。作為自然語言處理和社會心理學的結合,我們的模型不但可以支撐社會科學的研究,同時還可以支持對話機器人等NLP任務,並且已經被應用於密西根大學今年Amazon Alexa Prize的參賽模型Audrey中。