浙大用大數據解讀唐詩宋詞,有驚人發現

2021-01-09 大豫網

當科技感滿滿的「數據可視化」邂逅古典的唐詩宋詞,會擦出怎樣的火花?

近日,一組可視化數據作品《宋詞繾綣,何處畫人間》(以下簡稱《宋詞》)和《唐女詩人群像》(以下簡稱《唐詩》)在朋友圈刷屏。該作品由浙江大學CAD&CG國家重點實驗室和新華網數據新聞部合作,歷時半年完成。

團隊分析了5.5萬首唐詩、2.1萬首宋詞,用大數據技術解讀古典唐詩宋詞,意外發現不少隱藏的信息。

大數據顯示

蘇東坡去得最多的地方是杭州

這個作品長什麼樣呢?錢報記者打開了網頁版的《宋詞》。

多處留白,水墨插圖,素雅的配色風格,這個作品的風格「整體上是向山水畫靠攏」的。

據了解,《宋詞》以《全宋詞》為樣本,為完成這一解讀,團隊分析了近2.1萬首詞作、近1330家詞人、近1300個詞牌名。而《唐詩》作品的基礎,則是5.5萬首唐詩的數據分析。

記者觀察到,《宋詞》網頁版是由詩人行跡圖和年代生平圖聯動的時空圖,以及宋詞詞雲圖、意象情緒圖、韻律圖組成的。

在年代生平圖中,記者選中代表「蘇軾」的折線,根據圖示,顯示出一條「先平再升又平」的折線,其試圖反映的是蘇軾一生的仕途起伏。

和生平圖聯動的行跡圖上,地圖同步出現大小不同的褐點,用線連接,每個點的大小因蘇軾踏足的次數決定。這呈現的是蘇軾一生的軌跡。從點線圖上看,蘇軾的足跡幾乎遍布整個宋朝疆域。其中,最大的點所在位置是杭州城,這說明杭州是他最多造訪的地方。

「東風」一詞

在宋詞中共出現1264次

隨著頁面下拉,映入眼帘的是宋詞「詞雲圖」部分。詞雲圖根據宋詞詞語使用次數分析,使用次數越多的字號越大,顏色越深,位置越居中。記者看到,位於正中的詞是「東風」,該詞被使用了1264次。排在其後的是「何處」,一共被使用了1157次。排第三的是「人間」,在宋詞中一共出現1061次。

「我們之前了解宋詞唐詩,更多地是一首一首分開理解賞析,而這次的研究讓我們可以從大數據層面去尋找詩詞背後所隱藏的信息。」浙江大學CAD&CG國家重點實驗室設計主管張瑋告訴錢報記者。

此次的研究歷時半年,浙大團隊和新華網數據新聞部製作完成的《宋詞》《唐詩》作品,均以網頁的形式呈現,裡面包含的信息頗為豐富。其中,信息量最大、製作最為複雜的當屬《宋詞》作品。

「在傳媒行業,如此成熟的傳統文化題材的可視化數據新聞作品還很鮮見。」張瑋說,這也是浙江大學可視化小組研究團隊在這方面的首次嘗試。

詩人作品中提到「酒」

一半是在追思,三成是開心

團隊不僅分析了《全宋詞》文本表面的信息,還深入挖掘宋詞所表達的意象含義,整合成意象情緒圖。

意象情緒圖選取了30個像「月」「酒」等常見的字詞,以蘇軾、李清照等24位高產詞人作為代表。通過大數據分析,得出這些意象詞彙所表示的情緒,並將情緒分為五種——「喜怒哀樂思」,然後用餅狀圖表現出各種字詞所表示的不同情緒的比例。

比如詩人在寫「酒」時,近半數想要表現的意象是懷念和思考。陸遊寫「紅酥手,黃滕酒」,或者晏殊寫「一曲新詞酒一杯,去年天氣舊亭臺」,都是在追憶故人以及對人生的思考。還有近三成,是類似朱敦儒筆下「日日深杯酒滿,朝朝小圃花開」的開懷一笑。

那麼,大數據技術是如何從宋詞的字裡行間體察到詞人當時的情緒呢?

首先,團隊需要將基本只表示某種特定情緒的典型意象整理出來。張瑋說,為了更精確,團隊還專門請來浙大文學院博士胡秋研進行了核對。

負責數據分析和前端開發的潘如晟告訴記者,他們會用大數據分析上下文,根據典型意象去計算該字詞屬於某一情緒的概率,得出詩人最有可能想要表達的情感。

簡單來說,比如詩人張在的《題興龍寺老柏院》中寫到:「南鄰北舍牡丹開,年少尋芳日幾回。惟有君家老柏樹,春風來似不曾來。」其中,「松柏」表達的就是一種「追思」的情緒。再聯繫上下文,可以得出「牡丹」和「春風」想要傳達的也是「思」。

通過可視化的數據呈現

讓唐詩宋詞真正通俗易懂

當問及這項研究的難點所在,張瑋首先提到的是圖表的選擇。為了找到最合適的數據呈現方式,許多圖表都是幾易其稿。

合適的圖表,既要美觀,又要能涵蓋所需要呈現的信息,同時還要表現得直觀,還要與讀者進行比較順暢的互動,這著實讓團隊費了不少工夫。據張瑋介紹,團隊曾嘗試用「小山峰」視圖去表現詞的抑揚頓挫,但考慮到圖像重疊影響觀感,又不利於擺放意象圖像,最後只能作罷。

「人是視覺性的,可視化形式的科普手段,可以把晦澀的古詩詞變得通俗易懂,讓科普擺脫說教或者沉悶的刻板印象,從而起到推廣傳統文化的作用。」浙江大學計算機科學與技術學院副院長陳為說。

這項研究定位是科普,因此選擇分析的對象也以唐詩宋詞最基本的內容為主。張瑋說:「這個產品的製作並不是為了得出某一結論,而是給人們提供一種探索唐詩宋詞的有趣工具。」因此,更多有意思的結論還有待於讀者們去發現。

相關焦點

  • 大數據解讀唐詩宋詞:蘇東坡去得最多的地方是杭州
    近日,一組可視化數據作品《宋詞繾綣,何處畫人間》(以下簡稱《宋詞》)和《唐女詩人群像》(以下簡稱《唐詩》)在朋友圈刷屏。該作品由浙江大學CAD&CG國家重點實驗室和新華網數據新聞部合作,歷時半年完成。團隊分析了5.5萬首唐詩、2.1萬首宋詞,用大數據技術解讀古典唐詩宋詞,意外發現不少隱藏的信息。
  • 大數據解讀唐詩宋詞,太驚豔了!
    唐詩、宋詞,是中國文學史上的兩顆明珠,見證了中華民族的悠悠歷史。那麼,當唐詩、宋詞遇上數據可視化,中國傳統文化走進數據時代,它們之間會產生怎樣奇妙的「化學反應」?當黨建與科研相融合兩者又會碰撞出怎樣的激情與火花?
  • 以大數據「全景式」呈現唐詩宋詞-王兆鵬 唐詩宋詞 文學地圖 數據...
    原標題:以大數據「全景式」呈現唐詩宋詞  一場讀詩方式的創新——  以大數據「全景式」呈現唐詩宋詞  「問汝平生功業,黃州惠州儋州。」蘇軾曾給自己做了這麼個總結。但是蘇軾一生到底有多顛沛?光看文字可能不太好想像。但是打開《唐宋文學編年地圖》,輸入「蘇軾」,一張中國地圖上被密密麻麻地標記了位置。
  • 大數據告訴你,宋朝文人是有多想借「東風」
    近日,一組可視化數據作品《宋詞繾綣,何處畫人間》(以下簡稱《宋詞》)和《唐女詩人群像》(以下簡稱《唐詩》)在朋友圈刷屏。該作品由浙江大學CAD&CG國家重點實驗室和新華網數據新聞部合作,歷時半年完成。團隊分析了5.5萬首唐詩、2.1萬首宋詞,用大數據技術解讀古典唐詩宋詞,意外發現不少隱藏的信息。
  • 「文化」唐詩宋詞除了誦讀,還可以「走進去」
    該產品突破了唐詩宋詞文字閱讀的「套路化」模式,變成了直觀生動的地圖展示,一上線即收穫廣泛關注。最初上線的前兩天,點擊量超過220萬。《唐宋文學編年地圖》為何會產生這麼大的影響?新版本又有哪些變化?記者就此進行了採訪。
  • 在唐詩宋詞中發現的秘密
    為了避免聽到秋老虎的吼叫之聲,看到秋老虎張牙舞爪的樣兒,眼不見心不煩,躲到唐詩宋詞中納涼,別有一番風味。 唐詩宋詞,初看模樣兒平平,但極為耐看,越看越美麗。那美,不是用文字可以表達的。明朝的文學家思想家方孝孺(就是被朱棣慘滅十族的)說詩歌之根的《詩經》云:「舉世皆宗李杜詩,不知李杜更宗誰。能探風雅無窮意,始是乾坤絕妙詞。」
  • 大數據分析5萬首《全唐詩》,發現了這些秘密
    你知道唐詩描寫最多的感情是什麼?唐詩、宋詞、元曲又有哪些區別呢?今天,詩詞君帶著這些問題,通過基於人工智慧的語義分析技術,對《全唐詩》進行深度的文本數據分析,發現了一些有趣的秘密《全唐詩》VS《全宋詞》VS《全元曲》通過文本對比《全唐詩》、《全宋詞》、《全元曲》,
  • 漫談唐詩宋詞的多樣性
    作者:寺洪勝唐詩宋詞把中國的詩詞藝術推向了巔峰,深受人們的喜愛。但在唐詩宋詞的認識上,我認為存在著許多誤區,很有必要予以澄清。本文僅就唐詩宋詞的多樣性作如下探討。正是由於詩人多,詩作多,涉獵廣泛,唐詩宋詞的水平也是參差不齊。與現代的詩作一樣,也分三品,上中下。並非首首都是精品,首首都是千古流傳之作,首首都高於或好於今人所創作的詩詞。糟粕之作屢見不鮮。要實事求是的認識和評價唐詩宋詞。當前最值得注意的是,過高評價唐詩宋詞,過度解讀唐詩宋詞。二、寫作方法的多樣性唐宋詩人重視以物寄情,以物言志。
  • 《全唐詩》遇到大數據
    唐詩、宋詞、元曲又有哪些區別呢?今天,帶著這些問題,通過基於人工智慧的語義分析技術,對《全唐詩》進行深度的文本數據分析,發現了一些有趣的秘密。出人意料的是,《全唐詩》中出現最多的不是風花雪月,而是「人」李白有很多故人,他說「故人西辭黃鶴樓」杜甫感嘆著人生,他寫「人生有情淚沾臆」白居易愛管人間之事,他願「天上人間會相見」「人」,是唐詩的魂魄
  • 談談唐詩宋詞的傳承問題
    而且凡是涉獵到的事物,幾乎都有一首千古流傳的詩詞再那裡罩著你,你很難再有新的突破。所以,如果現代詩人還在這些題材上摸爬滾打,只能是一條死胡同。那麼出路在何方呢?自唐至今千餘年,祖國的疆域變了,山河變了,景色變了,人文變了,一切都變了。新的天地,新的事物,新的人文,新韻新聲,新字新詞,一片新景象。現代詩人只有在新字上下功夫,才能走出唐詩宋詞的死胡同,開闢新天地。
  • 唐詩與宋詞的風格區別 唐詩與宋詞的風格有什麼不同
    唐詩宋詞是接觸得最多的詩詞,在學校的課本中,也時常會有一些唐詩和宋詞。那經過這麼多年的學習,你是否清楚唐詩與宋詞的風格區別呢?下面我們就來看看唐詩與宋詞的風格有什麼不同吧!  唐詩與宋詞的風格區別  1、唐詩和宋詞的歷史背景起源不同  唐詩起源於魏末晉初時,有五言、七言古詩、長篇敘事詩,還有五言絕句、七言絕句、五言律詩、七言律詩等近體詩。  宋詞始於梁代,形成於唐而盛於宋。
  • 《唐詩/宋詞排行榜》的出現,是傳播和普及傳統詩詞文化的新嘗試
    這類流傳比較廣泛的普及性書籍,就有大家熟知的《唐詩三百首》和《宋詞三百首》,這也是唐詩宋詞最流行的兩個選本。2011年和2012年先後出版的《唐詩排行榜》和《宋詞排行榜》,都是王兆鵬帶領他的團隊完成的,通過整理各項數據,進行統計分析,分別排出唐詩和宋詞的前100名作品。
  • 以詞達意 看唐詩宋詞在詞牌韻律上的寬窄局限
    曲調、韻律和詞意,滋潤了唐詩宋詞內容的寬,令唐詩宋詞在內容的挖掘上,可以吸取多元化的養分,變得豐滿起來。但是,它們在豐富內容的同時,又成為限制唐詩宋詞在表現形式上的窄。因為,必須滿足的詩詞規則,一旦越細化越具體,則會限制和束縛詩詞自身的創新突破。唐宋時的詞,伴曲而唱,曲有曲調。曲調即詞牌,全部旋律和節奏的總和。
  • 用心,你就活在唐詩宋詞裡
    如果真有心碎的聲音,是怎樣的?可能會有人說,如果真有,很可能是肇事現場。更多人會說,不過是調侃和開玩笑,表達的是那個人的心情,對方沒有理解或辜負了那人的心意,而用的一種比喻。說的都有道理。但針對上述兩個問題,在宋詞中的說法,卻是更加生活和細緻。
  • 用rap講唐詩宋詞,白客和喜馬拉雅咋做到的?
    但白客上的不是綜藝節目,而是一檔叫做《唐宋有嘻哈》的喜馬拉雅自製音頻節目。古人身上很具有嘻哈反叛無謂的精神在這檔喜馬拉雅出品的自製節目中,知名演員、配音演員白客一個人「精分」成了50多位唐宋遊吟詩人,用嘻哈視角來解讀唐詩宋詞背後的故事。
  • 宋詞和唐詩的區別 宋詞和唐詩的不同地方
    我們經常說唐詩宋詞,二者都是非常優秀的古詩詞,我們學習的詩詞中也有很多優秀的唐詩宋詞,那麼二者之間有什麼區別呢?今天就讓我們一起來看看吧!  什麼叫唐詩  唐詩指的是唐朝詩人所作的詩,是中華民族珍貴的文化遺產之一,唐代出現了許多優秀的詩人與作品,對許多民族和國家都產生了非常大的影響
  • 普通話是「胡音」 讀不對唐詩宋詞?
    (柳宗元《江雪》)這首詩,千年流傳,但用普通話怎麼也讀不出韻,而用福建的客家話,卻很合韻。北京語音調既是「胡音」,語言也是漢胡語言的「大雜燴」、「大融合」。例如下面這一句話:「我帶著哇單客了一趟車站旁邊的那條胡同,想買點東西」。這句話是北京年老的老太太還說的活語言,其中「哇單」(wadnn)乃滿語「包袱皮」(兜東西用的),「客」是滿語「去」(gene)的篩稱,「站」是蒙古語的「站赤」(jam),「胡同」即蒙古語的「浩特」或「河屯」(hoton)。
  • 唐詩宋詞是用粵語寫的,對嗎?
    維護母語的立場是好的,可是微博中的「唐詩宋詞是用粵語寫的」「唐朝沒有普通話」等說法,卻實在讓人無法認同。那麼,唐詩宋詞是用粵語寫的嗎?當然不是。無論唐詩還是宋詞,都是用詩人詞人們掌握的語言寫的。那麼,他們是否會說粵語呢?
  • 62首名篇,帶你縱覽唐詩、宋詞史!
    唐詩、宋詞,是中國文學史上的璀璨明珠。唐詩煌煌數萬首,囊括萬象。 在初、盛、中、晚不同的發展時期,有山水田園、盛唐邊塞、韓孟、元白等不同的風格流派,有初唐四傑、吳中四士、大曆十才子等不同的詩人群體。 宋詞與唐詩並稱雙絕。
  • 唐詩宋詞與「現代生成」
    我以為一切好詩,到唐已被做完,此後倘非能翻出如來掌心之『齊天大聖』,大可不必動手,然而言行不能一致,有時也謅幾句,自省殊亦可笑。」——這段話也是大家常常引用的,用來證明今人寫詩填詞的窘境乃至徒勞。  魯迅說的自然有道理,唐詩宋詞是中國古典文學高標,並稱「雙絕」。