《全唐詩》遇到大數據

2021-01-19 舞林秘籍

你知道唐詩中出現頻率最高的字是什麼?

你知道唐詩中描寫最多的季節是哪一個?

你知道唐詩描寫最多的感情是哪一種?

唐詩、宋詞、元曲又有哪些區別呢?


今天,帶著這些問題,

通過基於人工智慧的語義分析技術,

對《全唐詩》進行深度的文本數據分析,

發現了一些有趣的秘密。

《全唐詩》是清康熙四十四年(1705年),彭定求等10人奉敕編校,「得詩四萬八千九百餘首,凡二千二百餘人」, 共計900卷,編成之後,康熙親自作序,由曹寅奉旨刊刻。後來又經過歷代學者的增補、校正,目前比較通行的版本是「中華書局」《全唐詩(增訂本)》,一共十五冊,收錄了《全唐詩補編》等研究成果,可以說是「最全的一部《全唐詩》」。


對《全唐詩》採取逐字切分的處理方式,同時去掉一些常見的虛詞,如「之」、「乎」、「者」、「也」。經過文本預處理後,就可以進行文本挖掘中最常規的分析——字頻統計。


出人意料的是,《全唐詩》中出現最多的

不是風花雪月,而是「人」


李白有很多故人,他說「故人西辭黃鶴樓」

杜甫感嘆著人生,他寫「人生有情淚沾臆」

白居易愛管人間之事,他願「天上人間會相見」

「人」,是唐詩的魂魄



《全唐詩》中最常見的148個字排名如下:

照著這張表,你可以找人玩《飛花令》了~

編者忍不住先拿排名前七的來了一局——


生得意須盡歡

此去無多路

大漠塵日色昏

孤城落鬥兵稀

梁家畫閣中起

將船買酒白

漁舟逐水愛山




這個,你可能已經猜到了吧

春天萬物生發,確實讓人有寫詩的欲望

看見山山水水,別猶豫,寫一首

看見花花草草,別客氣,寫一首

看見春遊的美人,那更是要寫一首的

春,是唐詩的夢幻



編者找了51個古語中常用的顏色的單字

注意是古漢語語境中的顏色稱謂

主要的色系有——

紅色系(紅、丹、朱、赤、絳等)

黑色系(暗、玄、烏、冥、墨等)

綠色系(綠、碧、翠、蒼等)

白色系(白、素、皎、皓等)

這些顏色及其對應的字頻如下表所示:

這裡面「白」字的字頻最高

本意是「日出與日落之間的天色」

常見的有「白髮」、「白雲」、「白雪」

常渲染出一種韶華易逝、悲涼的氣氛

白髮三千丈,緣愁似個長

乘興輕舟無近遠,白雲明月吊湘娥

居延城外獵天驕,白草連天野火燒


將上述主要的色系綜合統計一下

得到下面的環形佔比圖:


在《全唐詩》的色譜上

出現最多的色系是綠色系


「綠樹」、「碧水」、「蒼松」、「翠柳」

這些高頻字從側面反映出全唐詩中

描寫景物、寄情山水的詩句佔比很大,

透露出平靜、清新和閒適之感。


《全唐詩》中的綠色,

是「綠樹村邊合,青山郭外斜」

是「客路青山外,行舟綠水前」

綠得自然,綠得愜意


白,綠,是唐詩的基準色

漢語的語素大都是由單音節(字)表示,即所謂的「一音一義」。當這些單音節語素,能夠獨立應用的話,就是詞。古漢語中存在著許多單音節詞,這也就是文言文翻譯中要經常把一個字翻譯成現代漢語中雙音節詞的原因。


有些單音節語素,不能夠獨立使用,就不是詞,只能夠是語素,如「第~「、」躊~「、」-~們「。唐詩中的常用雙字詞都有哪些呢?



經過程序猿哥哥的神秘運算,

以下是TOP200的共現雙字詞:


從上面的雙詞探測結果中,可以發現如下6類成詞規律:

(1)複合式(A+B等於C):由兩個字組成,這兩個字分別代表意義,組成雙音節的詞,這類詞出現的頻次最多。比如,弟兄、砧杵、紀綱、捐軀、巡狩、犬吠。

(2)重疊式(AA等於A): 琅琅、肅肅、忻忻、灼灼。

(3)疊音(AA不等於A):琅琅(單獨拆開不能組其他詞)、的的(拆開後的單字的詞義不同)等。

(4)雙聲(聲母相同): 躊躇(聲母都是c,分開各自無法組詞)、參差(聲母都是c)、緬邈(聲母都是m)。

(5)疊韻(韻母相同):噫嘻(韻母是i)、繚繞(韻母是ao)、妖嬈(韻母是ao)等。

(6)雙音節擬聲詞:歔欷、咿啞等。



選取高頻字的TOP148抽取共現關係,可以看到,上述的語義網絡可以分為3個簇群,即橙系、紫系和綠系,TOP148高頻字中,字體清晰可見字的近40個。圓圈的大小表示該字在語義網絡中的影響力大小,在詩句中,這些字常以「字眼」的形式呈現,也就是詩文中精要的字。


橙系:北、流、馬、草、閒、孤、逢、雲等;

紫系:遊、樹、雨、回、笑、言、幽、清、白、野、行等

綠系:知、金、柳、難、愁、舊、仙、望、客。


其中,根據字的構成來看,綠系簇群中的字大多跟送別(好友)有關。


分析全唐詩中所表達出來的內在境界,也就是內在情感,為了豐富分析維度,採用7種細顆粒的情緒分類,即悲、懼、樂、怒、思、喜、憂。根據上面獲取到的字向量,經過人工遴選後,得到可以用於訓練的「情緒字典」,根據詩歌中常見的主題類別,七種情緒類別分為:


悲:愁、慟、痛、寡、哀、傷、嗟…

懼:讒、謗、患、罪、詐、懼、誣…

樂:悅、欣、樂、怡、洽、暢、愉…

怒:怒、雷、吼、霆、霹、猛、轟…

思:思、憶、懷、恨、吟、逢、期…

喜:喜、健、倩、賀、好、良、善…

憂:恤、憂、痾、慮、艱、遑、厄…


對《全唐詩》近5萬首詩的情緒分析結果,展示如下:


出乎很多人的意料,

代表大唐氣象的唐詩應該以

積極昂揚的情緒為主,

可最後卻是「悲」、「思」、「憂」

這樣的情緒佔據主流,

而 「喜」、「樂」這樣的情緒卻佔據末流!


「天地悠悠」是悲情的

「落木蕭蕭」是悲涼的

「黃沙百戰」是悲壯的

「彩雲易散」是悲傷的

悲,是唐詩的筋骨




從上面呈現的TOP10高頻字和象限區塊(左上角「唐詩」、右上角「宋詞」和正下方「元曲」)來看,唐詩、宋詞、元曲中出現的獨有高頻字依次是:

唐詩:唯、餘、始、鳥、含、爾、昔、茲、忽、棲、川、旌、戎、秦…

宋詞:闌、沈、匆、簾、濃、約、淡、觴、蕊、屏、凝、笙、瑤、柔…

元曲:哥、俺、咱、孩、姐、吃、哩、科、廝、拿、你、叫、呀、呵…


從上面的關鍵字來看,唐詩、宋詞和元曲各自的特徵很鮮明:

唐詩:用字清澹高華、含蓄,詩味較濃,寄情山水和金戈鐵馬的特徵明顯。

宋詞:所用的字體現出婉約、宛轉柔美,表現的多是兒女情長,生活點滴。

元曲:所用的字生活氣息濃重,通俗易懂、接地氣、詼諧、灑脫和率真。


讀完你會發現,文科與理科

在詩的世界裡並沒有那麼涇渭分明

對審美的追求,對詩性的渴望

是每一個人心中固有的基因


(文章來源:詩詞中國)

以上資訊來源拾點詩詞





相關焦點

  • 大數據分析5萬首《全唐詩》,發現了這些秘密
    今天,詩詞君帶著這些問題,通過基於人工智慧的語義分析技術,對《全唐詩》進行深度的文本數據分析,發現了一些有趣的秘密《全唐詩》是清康熙年間編校的一本唐詩合集,歷時一年多編校成文。收錄詩人,凡二千二百餘人,收錄詩作四萬八千九百餘首。
  • 以大數據「全景式」呈現唐詩宋詞-王兆鵬 唐詩宋詞 文學地圖 數據...
    原標題:以大數據「全景式」呈現唐詩宋詞  一場讀詩方式的創新——  以大數據「全景式」呈現唐詩宋詞  「問汝平生功業,黃州惠州儋州。」蘇軾曾給自己做了這麼個總結。但是蘇軾一生到底有多顛沛?光看文字可能不太好想像。但是打開《唐宋文學編年地圖》,輸入「蘇軾」,一張中國地圖上被密密麻麻地標記了位置。
  • 大數據解讀唐詩宋詞,太驚豔了!
    唐詩、宋詞,是中國文學史上的兩顆明珠,見證了中華民族的悠悠歷史。那麼,當唐詩、宋詞遇上數據可視化,中國傳統文化走進數據時代,它們之間會產生怎樣奇妙的「化學反應」?當黨建與科研相融合兩者又會碰撞出怎樣的激情與火花?
  • 浙大用大數據解讀唐詩宋詞,有驚人發現
    近日,一組可視化數據作品《宋詞繾綣,何處畫人間》(以下簡稱《宋詞》)和《唐女詩人群像》(以下簡稱《唐詩》)在朋友圈刷屏。該作品由浙江大學CAD&CG國家重點實驗室和新華網數據新聞部合作,歷時半年完成。團隊分析了5.5萬首唐詩、2.1萬首宋詞,用大數據技術解讀古典唐詩宋詞,意外發現不少隱藏的信息。
  • 大數據解讀唐詩宋詞:蘇東坡去得最多的地方是杭州
    當科技感滿滿的「數據可視化」邂逅古典的唐詩宋詞,會擦出怎樣的火花?近日,一組可視化數據作品《宋詞繾綣,何處畫人間》(以下簡稱《宋詞》)和《唐女詩人群像》(以下簡稱《唐詩》)在朋友圈刷屏。該作品由浙江大學CAD&CG國家重點實驗室和新華網數據新聞部合作,歷時半年完成。
  • 數據挖掘實操|用文本挖掘剖析近5萬首《全唐詩》
    原標題:數據挖掘實操|用文本挖掘剖析近5萬首《全唐詩》 本文作者將使用多種文本挖掘方法,來分析《全唐詩》。所以,筆者想從文本(數據)挖掘的角度去「探索」全唐詩,挑戰一些不同場景下(現代漢語和古漢語)文本處理和分析的異同點,錘鍊自己的分析技能;但更想做的是,結合數據之美和詩歌之雅,用跨界思維去發現一些有趣的東西。 在這裡,筆者分析的語料是《全唐詩》,它編校於清康熙四十四年(1705年),得詩四萬八千九百餘首。
  • 大數據告訴你影響力最大的唐詩居然是這首
    4月29日,中南民族大學文學與新聞傳播學院的王兆鵬教授在上海古籍書店分享了自己在「大數據時代唐詩研究」領域的最新成果。而時至今日,我們可以通過定量分析和大數據的方法,為唐詩研究帶來哪些改變呢?王兆鵬指出,唐詩研究領域至少需要作家、作品、讀者三個方面的數據。
  • 「《全唐詩》電子檢索系統」開通
    本報訊(記者周立文)作為「中國古典詩歌大系」一個組成部分的《全唐詩電子檢索系統》,在北京大學中文系李鐸博士的主持下完成了開發,不久將製成光碟。《全唐詩》最早的本子,是康熙四十六年(1707年)的揚州書局本,共120冊。
  • 大數據告訴你,影響力最大的唐詩居然是這首
    4月29日,中南民族大學文學與新聞傳播學院的王兆鵬教授在上海古籍書店分享了自己在「大數據時代唐詩研究」領域的最新成果。「大數據時代唐詩研究」講座現場 (圖:上海古籍書店)二維地圖:一鍵檢索唐代詩人一生行跡與作品歷代以來,學者們對唐詩的批評和研究,無論是詩話、評點,還是選本、詩壇點將錄等傳統形式,大部分是感悟、直覺和印象式的,缺少整體上的理論思辨。
  • 唐詩名篇大數據排行榜,王之渙的這首詩全榜第四,五絕第一
    我拉起侄兒,站到五樓大教室的玻璃窗前,說:「看那山就是中條山,我們正站在鸛雀樓上。樓下向南流去的馬料河,就是黃河。」你王叔叔還要看得更多、看得更遠,還要窮盡到千裡之外的大格局。怎麼辦?」侄兒答:「更上一層樓。「中國自古有言:文無第一,武無第二。
  • 大數據分析《唐詩三百首》發現了這五個秘密
    「熟讀唐詩三百首,不會吟詩也會吟。」想必這句話大家都不陌生,其出自《唐詩三百首》編者蘅塘退士所作原序。關於《唐詩三百首》,你還知道多少呢?唐朝最高產的五位詩人是哪些?《唐詩三百首》中哪種類型的詩最多?你的腦袋中是不是有很多問號?
  • 程式設計師用代碼寫的《全唐詩》,竟然是這樣的……
    在這個大數據時代有人發明了《全唐詩》的另類讀法想知道《全唐詩》裡出現最多的字是哪一個嗎?當《全唐詩》遇上大數據這些都不再是秘密而結果,可能很出人意料哦~「 《全唐詩》是清康熙四十四年(1705年),彭定求等10人奉敕編校,「得詩四萬八千九百餘首,凡二千二百餘人」, 共計900卷,編成之後,康熙親自作序,由曹寅奉旨刊刻。
  • 七夕特輯丨我用統計破解了唐詩密碼
    七夕特輯丨我用統計破解了唐詩密碼 2020-08-25 08:25 來源:澎湃新聞·澎湃號·政務
  • 全唐閒話:《全唐詩》目錄解密
    全書卷帙浩繁,旨在集成唐人一代之詩,與專注藝術價值的通俗選本《唐詩三百首》不同,這一差異從目錄的編排上就能看出端倪。《唐詩三百首》按照詩歌的體裁分類,依次是古詩、樂府、律詩、絕句。而《全唐詩》的目錄,即所謂的「秘密」,就是有意模仿了官方修史,參照了二十四史通用的「紀傳體」編排法。
  • 中華版《全唐詩》《全宋詞》,五萬首唐詩、兩萬首宋詞一覽無餘
    宋詞作為詞體文學之冠,以其文體形式的獨創性與開拓性,獲得了與唐詩並駕齊驅的歷史地位。《全唐詩》與《全宋詞》分別彙輯有唐一代詩歌與有宋一代詞作,堪稱中國韻文的雙璧,不僅展示了唐詩宋詞的完整風貌,亦使讀者得以攬其菁華、識其源流,是學習和研究唐詩、宋詞的必備之本。
  • 大數據分析會遇到怎樣的難題?
    原標題:大數據分析會遇到怎樣的難題?   如今的數據具有多種多樣的形式,而且來自許多不同的數據源。
  • 大收藏家495期:季振宜,以一己之力編著《全唐詩》
    《全唐詩》。據《全唐詩進書表》稱:這年的三月十九日,曹寅等接到奉旨頒發的《全唐詩》一部,經過一年又八個月的時間,於四十五年(1706)十月初一日書成。編書速度奇快無比,原因何在呢?原來,這部書以明朝海鹽胡震亨《唐音統籤》 「為稿本,而益以內府所藏全唐詩集,又旁採殘碑、斷碣、穆史、雜書之所載,補直所遺」(《四庫全書總目提要》)而成。這裡內府所頒發的一部《全唐詩》即是指季振宜編的《全唐詩》。
  • 全唐詩收錄詩歌近五萬首,排在第一的是它,李白很尷尬!
    全唐詩收錄詩歌近五萬首,排在第一的是它,李白很尷尬!盛唐可謂是我們每一個人最為嚮往的國度,盛唐國力強盛,在當時的世界上也是獨樹一幟,其包羅萬象的璀璨文化更是中國文學的又一個高峰,其中的唐詩更是這諸多文化中最為耀眼的文學奇葩。
  • 《全唐五代詩》全面超越《全唐詩》
    「《全唐五代詩》已經不是在清編《全唐詩》基礎上糾謬補闕性質的修訂,而是基於康熙以來300年唐詩文獻研究基礎之上的重新編纂,突出體現在撰寫了數千位詩人的小傳,將詩人詩集重新排序,為詩人詩歌確定了較為完整可靠的歷史坐標。
  • 原本不是唐詩,卻被誤收錄進《全唐詩》!專家:詩人寫得太好了!
    《全唐詩》裡收錄了四萬九千多首詩,囊括了唐朝全部詩人的作品,我們正確的理解是全部的唐詩,不過裡面卻是出了一件烏龍,居然還收錄了一元朝詩人唐溫如的《題龍陽縣青草湖》,為什麼會出現這樣的烏龍?其實主要的原因,有這麼兩個;一、作者的生平不詳,《全唐詩》是由清朝的文人修訂,這就使得資料上的缺失,讓人誤以為這是唐詩;二、這首詩無論文學性,還是思想性,那都是達到了很高的藝術水準,人們錯誤地認為是唐詩。正是由於人們的誤判,使得清朝的文人要修訂《全唐詩》時,把這首詩收錄進了裡在面,從而使得人們一直錯誤地以為,那就是一首唐詩。