一項對10種不同人類語言的大數據分析表明,這些語言的常用詞彙中,都是正面詞彙更多,並且這種現象不受詞彙使用頻率的影響。[1]研究論文於2月10日發表在《美國科學院院刊》(PNAS)上。果殼網科學人對論文第一作者,美國佛蒙特大學的彼得·謝裡丹·多茲(Peter Sheridan Dodds)進行了採訪。
早在1969年,就有心裡語言學家提出了波麗安娜假說(Pollyanna Hypothesis),該假說認為人類在交際過程中,普遍更喜歡使用帶有正面色彩的詞彙。然而,以往的研究都沒能對此進行有力證明。這一次,研究者們利用大數據分析,對這一假說進行了更深層次的探究。
研究者首先選取了10種來源和文化背景不同的語言,包括:英語、西班牙語(墨西哥)、法語、德語、葡萄牙語(巴西)、韓語、中文(簡體)、俄語、印尼語和阿拉伯語。在這些語言中,研究者重點關注了那些使用頻率最高的詞彙,「但由於不可能將一種語言中的所有詞彙都按使用頻率排序,因此我們分語料庫(corpus,在語言學上意指大量的文本,通常經過整理,具有既定格式與標記)進行研究。」多茲向科學人解釋說。研究共使用了24個語料庫,來源包括書籍、新聞報導、社交媒體、網絡、電視劇和電影字幕以及歌詞。
多茲表示:「我們以往對英語常用詞彙的研究發現,帶有正面色彩的詞彙更多,在此基礎之上,我們想要了解這一現象是否也存在於其它語言當中。」從各個語料庫中,研究者們最終選取了每種語言最常用的約1萬個詞彙,並讓以各語言為母語的人給每個詞彙的正面程度打分。最終,每個詞彙獲得了50次評分,總評分次數為500萬次。
評分示例。受調查者需要對每個詞語的正面程度打分(1為最負面,9為最正面,5為中性)。圖片來源:研究論文
分析結果顯示,所有語料庫中都是正面色彩的詞彙較多。不過,不同語言中詞彙的正面程度分布之間還是存在一些微小差異。多茲指出:「拉丁美洲的語料庫中(西班牙語、葡萄牙語),快樂程度的中值和其變化幅度(方差)都較大。而在快樂程度的方差上(下圖右側),4個英語語料庫的都排得很靠前,而中文和俄文詞語的方差則較小。」
10種語言,共24個語料庫的詞彙正面程度分布。從每個語料庫選取了最常用的5000個詞彙,黃色部分為得分>5的區域而藍色部分為得分<5的區域,灰色線連接各分布之間的十分位點。左圖為按評分中值大小(紅色豎線)排列,而右圖為按方差大小(分散程度)排列。圖片來源:研究論文
對各個語料庫的進一步分析發現,每個詞彙的正面程度得分與該詞彙的使用頻率基本沒有聯繫。研究者們以語料庫中使用頻率排名連續的500個詞彙為區間,發現各個區間內得分的十分位點基本一致,並未受到使用頻率的影響。
詞彙的正面程度與使用頻率之間並無聯繫,各個詞彙使用頻率排名區間的正面程度分布基本一致,顯示詞彙為隨機挑選。圖片來源:研究論文
另外,研究者們還進一步將10種語言兩兩配對(共45對),並利用谷歌翻譯找出其中意思相同的詞彙,並對它們的正面程度得分進行比較。結果顯示,在不同語言中,表達同一意思的詞彙得分也很一致。也就是說,對於那些研究中沒有涉及的語言,可以通過參考語言中某個詞彙在其他語言中對應詞彙的正面程度,做出大致估計。
研究者們通過大數據分析證明了波麗安娜假說,不過他們的目標不止這一個。多茲表示:「我們一開始想要測量文字中的情緒,並用這些信息開發工具,來測量各種大型文本中所用詞彙的正面程度。包括通過推特(Twitter)上的文字來分析人們的情緒,以及跟蹤文學作品中的情緒變化。」(這兩項功能可訪問hedonometer.org)他還說:「我們目前正在建設panometer.org網站,這個網站將會對推特上的各種話題進行分析,包括健康、飲食、睡眠不足等。我們的長期目標之一,就是用大數據來描繪人們生活的各個方面。而這些測量工具可以幫助決策者、城市管理者、記者、公司等獲得相關信息,比如消費者對某種產品的評價。」
hedonometer.or網站上英語推特詞彙的平均正面程度分析圖,可選擇時間跨度,點擊每個圓點還可以看到當天使用頻率最高的詞彙。圖片來源:hedonometer.org
多茲表示,研究團隊希望進一步研究更多的語言以及不同的語料庫,但由於研究難度大並且較昂貴,他們目前正在申請所需經費。(編輯:球藻怪)