我分析了42萬字歌詞,就為了搞清楚民謠歌手們在唱些什麼

2021-01-09 雷鋒網

雷鋒網(公眾號:雷鋒網)註:本文作者王登科,原文來自微信公眾號「超級王登科」(ID:superwdk),雷鋒網獲授權發布。近日因民謠歌手趙雷參加了《歌手》,憑藉一首《成都》高居第二位,朋友圈和微博已被無數媒體和自媒體的趙雷文刷屏,民謠也成為公眾討論的熱點。但是用科學的方法進行量化的本文,卻是眾多民謠分析文中的清流。

聽了這麼多年民謠,我有一種感覺,就是很多歌都似曾相識,但是仔細一想,又哪一首都想不起來,為了搞清楚這群流浪在祖國大地的現代遊吟詩人們都在唱些什麼,我做了一些數據分析的工作。

我選取了大約30個覆蓋從程式設計師,朋克,基佬到女權主義者,中國大媽,穆斯林的能夠覆蓋所有人群的民謠歌手和樂隊,包括李志,夭十三,趙雷,宋冬野,周雲蓬,逃跑計劃等等,為了設立參照,我還取了一些其他風格的樂隊,比如老一些的汪峰,竇唯,樸樹和新一些的低苦艾,謝天笑,反光鏡,草東等等。

我首先寫了一個爬蟲,它可以根據歌手或樂隊的名字來自動抓取這個歌手的所有歌,為了保證平衡,我最多只抓取前50首歌,老實說,大多數歌手被人熟知的歌並不會超過這個數字。

這樣,我得到了小一百個裝滿歌詞的文件,滑鼠滑過就能感覺到從裡面溢出來的文藝氣息,我感覺一陣憂鬱襲來,為了寫接下來的代碼,我吹掉了一瓶可樂。

接下來,我開始了對這些歌詞(約42萬字)的分析。

首先是情緒分析,通過對這些歌詞的自然語言處理,我知道了不同歌手們吟唱的到底是開心還是不開心的事情:

數值的分布比較平均,但大致可以看得出有三個分類,一類是特別開心的,例如郝雲。但是我一開始也不太懂,為什麼丟火車的情緒也這麼高,後來聽了幾遍他們的歌,發現他們雖然唱腔慘兮兮的,但是歌詞還是充滿正能量的,丟火車樂隊歌詞中出現次數最多的三個詞分別是「永遠」「晚安」「倔強」,這些都是正面情緒的詞。第二類則是比較憂傷的,以我們熟悉的逼哥為代表,他們的歌詞中充斥著孤獨,沉默,淚水等詞語。雖不暴力,但是多少有一些黑暗。

第三類則以趙雷為代表,比較平靜,就像一個朋友給你講故事,不疾不徐,娓娓道來,裡面也有開心,也有難過,但總體情緒趨於中值。這也許解釋了為什麼趙雷這麼晚才火起來的原因——平淡的情緒較難快速給人以強烈的衝擊。但無論如何,好的音樂總會被人們發掘。

基於某種趣味,我又分析了一下其他風格的音樂的情緒:

民謠的情緒很豐富,而搖滾的情緒則大多是負面的,人們說,沒有憤怒就沒有搖滾,這話至少在歌詞的情緒上是正確的。

民謠歌手最喜歡什麼季節?通過對歌詞的分析,這個問題也可以解決:

其中,春天出現了81次,冬天出現了74次,夏天和秋天各出現了70和47次。由此可見,最受歡迎的是春天和冬天,最不受歡迎的是秋天。但我個人覺得秋天挺好的,秋高氣爽,菜價便宜。

同樣的,我也分析了歌手們最喜歡的城市,結果如下:

可以看得出,北方城市完全戰勝了南方城市,成了在歌詞中被唱的最多的地方,特別是北京,一共出現了81次。說到一線城市,人們會說北上廣深,但是在民謠的世界裡,北京絕對是不可撼動的存在。南方城市只有成都勉強露了幾個照面。作為一個成都人,我對此還挺高興的。

難以理解的是,雖然北方城市大獲全勝,但是歌手們卻更多的念叨著「南方」而不是「北方」,「南方」比「北方」多出現了大約5.7%

另一個我感興趣的問題是,民謠歌手們是在向前看還是向後看,是往未來寄託希望,還是緬懷過去?

看得出,民謠歌手是在往前看的,至少是活在當下的,「明天」這個詞在歌詞中出現的次數最多,接著是「今天」和「昨天」,而「前天」和「後天」則幾乎可以忽略不計,這也是可以理解的,比如說「我拿青春賭明天」,這聽上去很美好,如果要說「我拿青春賭后天」乃至於「我拿青春賭下個月5號」,這聽上去就像一個賭徒發瘋了。

在我的統計中,出現最多的幾個意象是:再見,姑娘,夜空,孤獨,快樂。

如果把民謠擬人化,那應該是一個喜歡南方的北京小夥子,覺得世界很操蛋,但罵歸罵,到底是對生活有希望的,憧憬著明天,在春天感到快樂,在冬天感到孤獨,沒有女朋友,但有幾個糾纏不清的前女友,經常和她們見面,見面的地方可能是成都,昆明,南京,上海,武漢。。。。。

最後推薦一下我珍藏多年的汽缸汪汪樂隊,雖然他們只出了半首歌,但依然非常不錯。哈哈。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 技術流|為搞清楚民謠歌手們在唱什麼,我分析了42萬字的歌詞
    文◈DK 文章經授權轉自公眾號超級王登科(ID:superwdk)聽了這麼多年民謠,我有一種感覺,就是很多歌都似曾相識,但是仔細一想,又哪一首都想不起來,為了搞清楚這群流浪在祖國大地的現代遊吟詩人們都在唱些什麼,我做了一些數據分析的工作。
  • 大數據分析42萬字的歌詞,預測2018年會大火的技能(附贈教程)
    聽了這麼多年民謠,有沒有一種感覺,很多歌都似曾相識,但仔細想一想,又好像哪一首都想不起來,為了搞清楚這個流浪在祖國大地的現代遊吟詩人群體都在唱些什麼
  • 愛票子也愛妹子:300萬字歌詞分析看中國rapper到底在唱什麼
    認識了這麼多你之前聞所未聞的中國rapper,聽過了這麼多中國嘻哈歌曲之後,你是否想知道:中國嘻哈到底在唱些什麼?中國的嘻哈rapper又是一個怎樣的群體呢?為了解開這些疑問,大數據文摘從網易雲音樂和蝦米的「嘻哈」標籤和嘻哈音樂排行榜抓取了5700餘首嘻哈歌曲,分析了將近300萬字的歌詞,為各位呈現了這份分析中國嘻哈音樂的詳細報告。如果意見,歡迎diss,歡迎battle。
  • 我用Python做了六百萬字的歌詞分析,告訴你中國Rapper都在唱些啥
    作為一名對中國HipHop毫無了解的吃瓜群眾,我開始好奇以下三個問題:1、HipHop到底在唱些什麼?2、各個國家和地區的 Rapper 們想要說的唱的都有哪些特色?為了解答這個疑問,我用Python抓取了美英、臺灣、香港、中國大陸四個地區,總共六千萬的歌詞,其中包括大陸600萬的歌詞,做了一些數據分析的工作,目的就是給我以及像我一樣的吃瓜群眾們一個有理有據的答案。
  • 我做了六百萬字的歌詞分析,告訴你中國Rapper都在唱些啥
    我努力努力改天還靠這個吃飯嗎?然後,你作為一個對HipHop,尤其是中國HipHop毫無了解的吃瓜群眾,你自然會好奇以下三個問題:HipHop到底在唱些什麼?各個國家和地區的 Rapper 們想要說的聊的唱的都有哪些特色?如果想當一個Rapper,我應該怎樣寫詞才能緊跟潮流又不會離題太遠?
  • 我研究了林夕、黃偉文的43萬字歌詞,他們到底在唱些什麼?
    作為他們的迷妹,並且最近恰好在看一些關於文本挖掘的文章,忍不住從文本挖掘的角度對他們的歌詞做了一個頗粗淺的分析。接下來是對他們兩人所有的歌詞文本通過Python庫(主要是jieba、snownlp)作分詞、詞性處理和情緒分析。
  • 文本挖掘林夕、黃偉文的43萬字歌詞,他們到底在唱些什麼?
    作為他們的迷妹,並且最近恰好在看一些關於文本挖掘的文章,忍不住從文本挖掘的角度對他們的歌詞做了一個頗粗淺的分析。首先我通過Python爬蟲在蝦米音樂上抓取了所有他們的歌詞文本,對比了蝦米、網易雲和QQ三大音樂門戶,蝦米上收錄的比較全,但是抓取下來的數據也不能保證囊括了兩人出道來所有的作品,所以呢結果僅作參考。
  • 我分析了王力宏、周杰倫、林俊傑和潘瑋柏的32萬字歌詞:為了找到最傷感的一首歌
    我分析了王力宏、周杰倫、林俊傑和潘瑋柏的32萬字歌詞,就是為了找到最傷感的一首歌。
  • 林夕和黃偉文的43萬字歌詞,到底唱了什麼?
    作為他們的迷妹,並且最近恰好在看一些關於文本挖掘的文章,忍不住從文本挖掘的角度對他們的歌詞做了一個頗粗淺的分析。首先我通過Python爬蟲在蝦米音樂上抓取了所有他們的歌詞文本,對比了蝦米、網易雲和QQ三大音樂門戶,蝦米上收錄的比較全,但是抓取下來的數據也不能保證囊括了兩人出道來所有的作品,所以呢結果僅作參考。
  • 2600萬字的歌詞分析告訴你,歐美嘻哈都在唱什麼
    而近日,在孫八一唱起了主旋律rap後,和李小璐陷入桃色醜聞的PG One也被官媒點名批評歌詞內容低俗下流,有教唆未成年人吸毒和侮辱婦女的內容。對此,PG One是這樣回應的:究竟什麼才是真正的嘻哈精神?歐美嘻哈歌手的作品,真的很黃很暴力嗎?為了解答嘻哈歌手們都在唱什麼,文化詮釋網站The Pudding在2017年9月的時候曾對Billboard's Rap Chart(公告牌饒舌歌曲排行榜) 中前500位嘻哈歌手的5萬首歌曲,近2600萬詞的歌詞進行了分析。對了進行對比,他們還分析了27.6萬首其他類型歌曲的歌詞,約4680萬詞。
  • 分析了周杰倫17年間的歌詞,才知道他都唱了些什麼
    於是今天,為了幫助歌迷再一次回顧周杰倫所唱過的那些歌,小編特地將周董這17年來所有歌曲的歌詞進行了一次內容整合及及分析,試著幫助大家總結出那些周董曾經最「美麗」、最 「悽婉」、最 「熱血」的歌詞;並告訴你,隨著時間的推移,哪張專輯曾表現出周杰倫的「悲情」、而哪張專輯最「溫暖」;以及方文山與黃俊郎這些作詞大神們在Jay的歌曲中都有哪些愛用的詞藻。
  • 我們分析了六百萬字歌詞,告訴你中國的Rapper唱的都是什麼嘻哈
    數據分析少不了,嘻哈也能分析這樣搞,教教我好不好。yo yo……● ● ●我們分析了六百萬字歌詞,告訴你中國的Rapper唱的都是什麼嘻哈當「你有freestyle嗎」火遍全網之後,一個個你從來沒聽過的 rapper 像加拿大土撥鼠播報春天一樣冒出洞口——你突然感覺到,HipHop還真要成主流了?我努力努力改天還能靠這個吃飯嗎?
  • 我們分析了22萬字熱歌歌詞,這屆年輕人好像有點「喪」
    為了弄明白這屆年輕人心裡到底怎麼想的,我們分別採集了網易雲音樂12月12日和酷我音樂12月11日的熱歌榜TOP200的歌詞(對,加在一起是400首歌,總共被播放可能過億次)。從兩個榜單400首歌總計近22萬字的歌詞裡,我們不小心「偷聽」了他們心底的聲音,整明白了那些藏在心底的小情緒是怎麼回事兒。突然發現,這屆年輕人好像有點「喪」哦!
  • 數據 | 我們分析了22萬字熱歌歌詞,這屆年輕人好像有點「喪」
    為了弄明白這屆年輕人心裡到底怎麼想的,我們分別採集了網易雲音樂12月12日和酷我音樂12月11日的熱歌榜TOP200的歌詞(對,加在一起是400首歌,總共被播放可能過億次)。從兩個榜單400首歌總計近22萬字的歌詞裡,我們不小心「偷聽」了他們心底的聲音,整明白了那些藏在心底的小情緒是怎麼回事兒。突然發現,這屆年輕人好像有點「喪」哦!
  • 四萬字歌詞分析:那些年,我們一起追的五月天到底在唱什麼?
    五月天也從此成為了一種文化的代名詞,不管是歌詞還是曲風,或者每一位樂隊成員,都有著自己濃濃的特色。  在五月天最新電影發布的這個契機,文摘菌想用數據試著去分析一下這個不老的樂隊,看看這些年陪伴我們的這五月天,到底在唱些什麼?  數據介紹  首先,先來看看我們的數據。
  • 回顧周杰倫17年間的歌詞,才知道他都唱了些什麼
    回顧周杰倫17年間的歌詞,才知道他都唱了些什麼        每當提到周杰倫的歌時
  • 「我就想搞清楚在這段關係裡我是什麼位置.」
    「 我 們 都 應 該 知 道 怎 麼 讓 自 己 開 心 」A    s    p    i     r
  • 我做了六百萬字的歌詞分析,終於知道:為什麼10句rap有4句在罵人?
    然後,你作為一個對HipHop,尤其是中國HipHop毫無了解的吃瓜群眾,你自然會好奇以下三個問題:HipHop到底在唱些什麼?各個國家和地區的 Rapper 們想要說的聊的唱的都有哪些特色?如果想當一個Rapper,我應該怎樣寫詞才能緊跟潮流又不會離題太遠?
  • 我走過了生活,我沒聽見歌唱
    還有好事者給民謠看了個相,說如果把民謠擬人化,那應該是一個喜歡南方的北京小夥子,覺得世界很操蛋,但罵歸罵,到底是對生活有希望的,憧憬著明天,在春天感到快樂,在冬天感到孤獨,沒有女朋友,但有幾個糾纏不清的前女友,經常和她們見面,見面的地方可能是成都,昆明,南京,上海,武漢……(引自@調皮的王登科《我分析了42萬字的歌詞,為了搞清楚民謠歌手們在唱些什麼》) 這是綜合對流行民謠的歌詞