書 議文思
《年度媒體高頻詞語表》對辭書編纂的價值
侯瑞芬
摘 要《中國語言生活狀況報告》連續八年發布《年度媒體高頻詞語表》,不僅對人們了 解當年常用詞語的使用狀況有幫助,對漢語詞彙研究和辭書編纂來說也是珍貴的資料。頻率反映了 一個詞的穩定程度,而穩定性是詞典收詞的一個重要原則,因此,《年度媒體 高頻詞語表》對詞典收詞有重要的參考價值。藉助語料庫和頻率統計來對詞語進行篩選 是辭書編纂的一個趨勢和方向,《中國語言生活狀況報告》在這方面提供了很好的資源。
關健詞《中國語言生活狀況報告》《年度媒體高頻詞語表》辭書編纂
國家語言資源監測與研究中心對平面、有聲、網絡三種媒體的語料進行監測,整理形成 當年的《年度媒體用字總表》、《年度媒體高頻詞語表》(以下簡稱《高頻詞表》)和《年度媒 體新詞語表》等詞表,在教育部語言文字信息管理司組編的《中國語言生活狀況報告》中公 布,至今已有八年。其中的《高頻詞表》是對每年的語料進行分詞系統切分,將其中覆蓋率 達到95%的詞語去掉時間表達式、數字表達式、專有名稱後得到的。每年公布的高頻詞語 數量在2.5—2.8萬之間,並有逐年上升趨勢。《高頻詞表》不僅對於人們了解當年的常用 詞語狀況很有幫助,對漢語詞彙研究和辭書編纂來說也是一份珍貴的資料。
我們將在對《高頻詞表》中詞語的整體面貌進行分析的基礎上,對比《高頻詞表》與《現 代漢語詞典》(以下簡稱《現漢》)第7版中的詞語異同,並進一步說明《高頻詞表》對辭書編 纂特別是收詞問題的應用價值。為了對詞語的發展變化有一個相對完整的了解,我們利用 《人民日報》1946創刊到2018年這七十多年的語料對相關詞語的使用進行分析。
一、《高頻詞表》反映了當今漢語詞彙的基本面貌和發展趨勢
《高頻詞表》是當年媒體語料中出現頻率最高的詞的集合,我們將2010年一2017年間 的《高頻詞表》匯總在一起,除去字母詞外,8年間一共收錄33815個年度高頻詞,我們稱為《高頻詞表》合收詞,8年中共同收錄的有22203個詞,我們稱為《高頻詞表》共收詞。這 22203個《高頻詞表》共收詞可以視為近幾年比較穩定的高頻詞語的一個集合,反映了近年 來漢語詞彙的基本面貌和發展趨勢。我們主要從詞長和用字兩方面進行分析。
(一)《高頻詞表》中詞語的詞長分析
我們對2010年一2017年《高頻詞表》的詞長做了統計,結果如下:
可以看到,二字詞是漢語詞彙的主體,佔有絕對優勢,其次是三字詞,五字及以上的詞 很少。三字詞近年來的快速發展已經引起不少學者的關注,在新產生的詞中,三字詞更是 取代二字詞成為最主要的類型。一些學者由此認為「漢語將進入一個以三音詞為主的發展 階段」(陶原珂2003;李海霞2013等),但是通過對近8年來《高頻詞表》的分析,我們可以 看到,與《高頻詞表》合收詞相比,《高頻詞表》共收詞中的二字詞比例增加,而三字詞比例 減少。這表明漢語詞彙系統中穩定的詞語仍是二字詞,而三字詞則是相對不穩定的。
(二)《高頻詞表》中詞語的用字分析
除單字之外的19577個共收的高頻詞是由3210個漢字構成的,其中構詞能力最強的 20個漢字及它們的構詞數量分別是:
應該說,漢字的構詞能力是相當強的,常用漢字尤其如此,前20個高頻漢字的構詞量 都在100個以上。或許這個數據可以促使我們反思現在的基礎教育中是否更應注重詞彙 教學,擴大學生的詞彙量,對學生詞典收字量的確定也有一定的啟發。
二、《高頻詞表》與詞典詞目的性質同中有異
在《高頻詞表》8年共同收錄的22203個高頻詞中,有17532個被《現漢》第7版收錄, 佔到了 79. 00%,但仍有4671個詞沒有被《現漢》第7版收錄。這一方面提醒我們《高頻詞 表》與詞典的詞目有很大共性,都是一定時期內社會群體所使用的比較穩定的詞語集合,但 也說明它們同中有異,有比較明顯的差異。
首先,《現漢》是為推廣普通話,促進漢語規範化服務的,它記錄的是現代漢語普通話 詞彙的整體面貌。《現代漢語詞典編輯計劃綱要草案》指出:「這部詞典所收的通用的詞是 物質生活、文化生活和政治、經濟生活中普通的詞,各行各業的普通的詞,各學科的普通的 詞。」而《高頻詞表》是在媒體語料基礎上完成的,帶有鮮明的媒體語言的特點,比如它最高 頻的雙字詞是「記者」,排第二位的才是「我們」。一些當年的熱點事物也會出現在當年的 《高頻詞表》中,如2017年的「氫彈」和「涉臺」,這都與它選取媒體語料的特點密不可分。
其次,《現漢》中的詞目選擇是面向人的,而《高頻詞表》是機器分詞的結果。機器分詞 看中結構的凝固程度和復現率,而人的分詞考慮「意義的完整性和使用的獨立性」(蘇新 春,顧江萍2000) 0不同的出發點決定了它們必然呈現出不同的詞彙面貌。
《高頻詞表》的合收詞中未收入《現漢》第7版的4671個詞語,有相當一部分是由於兩種 詞表的差異導致的。我們主要從三個方面對《高頻詞表》和《現漢》在收詞上的差異進行分析。
(一)收詞單位
《高頻詞表》對一些高頻組合的詞語會整體收錄,如「工作委員會」「本職工作」「不僅如 此」都是《高頻詞表》中收錄的詞;而詞典以收詞為主,如果一個詞彙單位可以分解,而且分 解後的單位具有一定的組合能力,詞典通常收錄更小的單位,這樣做的目的是為了以簡馭 繁,體現詞目的層級性和統轄性。
比如對「雙音詞+於」的處理,《現漢》通常只收雙音詞,如「有賴、取決、來源」,然後通 過括注的方式說明它可以和「於」連用。這樣處理的好處是既可以涵蓋住雙音詞,又可以 涵蓋住「雙音詞+於」,收詞效率更高。而《高頻詞表》則或者只收高頻出現的「雙音詞+ 於」形式,如「有賴於、無愧於、取決於」,或者同時收「雙音詞」和「雙音詞+於」形式,如「來 源/來源於、致力/致力於、相當/相當於、甚至/甚至於」 。
再如對四字格的處理,《高頻詞表》一般會整體收錄,而《現漢》則會選取組合能力較強 的構成單位進行收錄:
雙音詞連用的四字組,如果詞義等於兩個成詞語素之和,詞典一般只出雙音詞而不再 出四字組,但《高頻詞表》則主要根據頻率來取捨。如:
《現漢》對四字格的這兩種處理方式都是為了提高收詞的效率。這類簡單的組合讀者 可以根據各組成成分的意義,通過組合關係而自然理解,不必在詞典中整體收錄再做解釋。
(二)詞彙詞與詞法詞的區分
《高頻詞表》與詞典詞目的差別也體現在對詞法詞的態度上。董秀芳(2004)指出,詞 匯詞是需要列入詞庫的詞,詞法詞則是由詞法規則生成的詞。這種區分對詞典收詞非常重 要,一方面詞法詞具有能產性,詞典不可能將全部的詞法詞都收入詞典;另一方面,詞典存 在的首要目的就是為了解釋人們在閱讀理解中存在困難的詞,所以必須考慮詞語的釋義價 值,而《高頻詞表》則不需要考慮這種區分。這種差別在重疊形式、序數詞、詞綴構成的派 生詞等的收錄中均有突出的表現。
《高頻詞表》收錄了一些重疊形式,如AA式的「層層、村村」 .AABB式的「高高興興、陸 陸續續」,數量重疊形式「一步步、一點一點」等。對於重疊形式的收錄,詞典主要看基式與 重疊式的意義有無較大變化和重疊式能否自由推廣。如「高高興興」和「高興」意義差別不 大,詞典不會收錄,但「馬馬虎虎」除了「馬虎」的「不細心」義,還發展出「勉強;湊合」義,詞 典就會收錄;再如漢語雙音節動詞的重疊形式是ABAB,如「打聽打聽」「了解了解」,這類可 以自由推廣的重疊形式詞典不收錄,但「躲躲閃閃」是無法類推的,詞典就會收錄。
《高頻詞表》著眼於詞的頻率,有些序數詞和表示序列的詞因為出現頻率高而出現在 《高頻詞表》中,如「第二、第三、第四、第六、第七、第八、第九、第十;第一季度、第二季度、第 三季度、第四季度;第一版;大一、大二、大三;二月、三月、六月、七月、八月、九月」,等等。這 些詞規律性很強,不可能也沒有必要收入詞典。比如《現漢》一般不會收錄「星期一」至「星 期六」,而是在「星期」下有所交代,但「星期日」由於是不能類推的,詞典就會收錄。這是詞 典對規律性強的詞一種簡便的處理方式,既可以涵蓋有關的詞目,又可以以簡馭繁。
《高頻詞表》會收錄一些帶有詞綴、類詞綴的詞語,比如《高頻詞表》中「性」作為詞綴構 成的詞有229個,"者」作為詞綴構成的詞有113個,「率」作為詞綴構成的詞有59個。但除 非意義比較特殊,詞典通常不會收錄太多這類詞,只在該詞綴中舉例說明。因為這些詞具 有能產性,結構上可以類推,語義比較透明,除少數高頻使用的組合外,詞典多採取在詞綴 下處理的辦法,不單獨出條。
(三)語音信息
《高頻詞表》與詞典的另一個重要區別是《高頻詞表》主要關注詞的書寫形式,而詞典 則涉及個詞的形、音、義等諸多方面。這主要體現在它們對兒化詞的收錄上,如《高頻詞 表》中的「差點、靠譜、較真、支招、貓膩、沒準、模特、納悶、年頭、起名、嗓門、玩意、餡餅、心眼、大腕、叫座、拔尖、小道」等詞在《現漢》中均以兒化的形式出現,因為這些詞在使用中是 必須讀兒化的。兒化形式的有無也是導致二者收詞差異的原因之一。另外,對於一些可以 讀成兒化也可以不讀成兒化的詞語,《現漢》也用括注的形式「(~兒)」來說明,如「開竅、吭 聲」等,這樣,詞典就採取不同的處理方式對必須兒化和可以兒化的詞語做出了區分。
三、《高頻詞表》對辭書編纂的價值
儘管《高頻詞表》與《現漢》所收的詞目在性質上存在不同,但是高頻詞語有著非常重 要的價值,「對反映語言的真正面貌與使用狀況來說,詞頻反映的信息比詞種數更為重要。詞頻顯示出一個詞的社會使用密度、人們的熟知程度,是一個詞穩定性的重要標誌」(蘇新 春等2006)0作為一部以記錄現代漢語普通話詞語為己任的規範型詞典,《現漢》在收詞 時自然應該首先注意高頻詞語。王敏(2009)已經從辭書編纂的角度分析了媒體字詞頻統 計結果的應用價值,指出這些統計結果「體現了現代漢語的最新發展情況,其成果值得辭書 編纂界關注」,我們將具體分析《高頻詞表》對辭書編纂,尤其是詞典收詞方面的價值。
除去詞表性質不同造成的差異,《高頻詞表》未收入 《現漢》第7版的4671個詞非常值 得我們去關注,它們是《高頻詞表》對辭書編纂特別是詞典收詞的主要價值所在,主要體現 在下面三個方面。
(一)增補詞目
《高頻詞表》可以為詞典增補詞目提供參考,因為使用頻率往往是判定一個新詞是否 穩定並具有收入詞典資格的重要標準之一。《高頻詞表》中有不少詞是可收入詞典的。它 們既有對新事物進行說明的詞,如「代購、試駕、夜店」;也有一些從行業詞進入日常生活中 的詞,如「橋段、藍籌、絕殺」等;還有一些因構成語素不自由而合併形成的詞,如「售罄、撰 文、殆盡」等。以「售罄」為例,它其實就是「賣完」的意思,但「賣完」的組成成分都是可獨立 使用的,且語義透明,詞典不會收錄,而「售罄」的組成成分已經不能獨立使用,「罄」也不常 用,語義透明度低,所以詞典可以收錄。我們主要分析《高頻詞表》對詞典增補漏收詞和增 收新詞兩方面的價值,增收的新詞著重分析詞綴派生詞、詞彙化而來的詞和縮略詞。
1. 增補漏收詞
《現漢》作為一部以反映現代漢語詞彙整體面貌為己任的中型語文詞典,在收詞方面 取得了公認的成績,但詞彙數量繁多,早期辭書編纂又主要依靠手工卡片記錄,難免有所遺 漏。《高頻詞表》正好可以彌補這一缺陷。比如「收緊」「疊加」「練就」這三個詞《現漢》並 未收錄,但它們在2010年一2017年的《高頻詞表》中均有出現,相對穩定,也較為常用。
「收緊」表面上看是一個普通的動補結構,如「收緊韁繩」,這種動補結構數量龐大,語 義透明度高,詞典是不會收錄的。但「收緊」還有「嚴加控制」的意思,如「收緊銀根」,這個 用法在《人民日報》中第一次出現是1957年:
(1) 但美國仍堅持它自己的主張,只同意稍稍放寬對中國的「禁運」,……;另外還要收緊對所謂「例外程序」的運用。(《英國放寬對華「禁運」以後》,《人民日報>1957 - 06 - 08)
「疊加」表示兩個事物在同一位置重疊共存,《人民日報》中第一次出現是1959年:
(2) 因此在米波波段中我們測到的太陽是扁形的,而且比肉眼看到的要大得多,當日面上出現 黑子的時候,太陽的輻射上便疊加著黑子的影響,……(《射電天文學一打開宇宙秘密的新鑰匙》,《人民日報>1959 - 08 - 22)
「練就」是「練成」的意思,表示「經過練習訓練而取得某一成就」,在《人民日報》中第 一次出現是1948年:
(3) 戰士劉貴、秦海堂拿出練兵中練就了的本領,把手榴彈從碉頂上投進去,轟然一聲,把敵人 的彈藥引炸了,碉堡裡哄隆隆的亂成一團。(《太原南區敵守碉司令畢樹武被俘記》,《人民日報》1948-11 -21)
可以看到,這些詞出現時間都比較早,現在較為常用,可以考慮收入詞典。
2. 增收詞綴派生詞
通過添加(類)詞綴構成新詞是一種很能產的構詞方式,比如「式」在《高頻詞表》中有 「中式、西式、歐式、日式、美式、意式、英式、法式」等25個詞,詞典一般不會將這些詞 _收 錄並解釋,而是在「式」下處理,如:式shl樣式:新~ 1舊~ 1西~ 1男~ I女~。(《現漢》第7版)
但當組合後意義發生變化時,就應該收入詞典。《現漢》在每一次的修訂中都注意增 加這樣的詞語。如《現漢》第5版就新增了「地毯式」 「一站式」;《現漢》第6版新增了「捆 綁式」「拉網式」「螺旋式」「填鴨式」「投幣式」;《現漢》第7版新增了「斷崖式」。根據這樣 的原則,我們發現《高頻詞表》中還有一些「X式」可以收錄。比如:「複式」,它是一種新的 建築形式,它的層高比普通的房屋高,多在內部分上下兩層「式」不僅僅是一個單純的詞綴,它常常也是一個比喻用法的標記,它的出現使得與它 共現的詞語發展出一種比喻意義,比如「病毒式」突出的是「像病毒一樣快速傳播和擴散」, 最常見的組合是「病毒式傳播」。「自殺式」也表示「像自殺一樣的」,最常見的搭配是「自殺 式襲擊」,這是一種與敵人同歸於盡的襲擊方式,在傷害敵人的同時也傷害自己。還有一種 「自殺式營銷」,這是指商家用賠本等方式來吸引消費者的一種營銷手段。「自殺式襲擊」 和「自殺式營銷」所凸顯的都是「自殺」對自己造成傷害這一特點。近年來常見的「塌方式、 跳水式、爆發式、井噴式」等也都是通過比喻構成的詞,可以適當考慮收入詞典。
3. 增收詞彙化而來的詞
高頻使用是詞彙化發生的重要條件之一。董秀芳(2011)指出,「心理的組塊過程中把 經常相連出現的兩個分立單位組織在一個組塊中,這樣二者就有可能逐漸變為一個不可再 分的單位。」侯瑞芬(2015a,2015b,2017)分析了詞彙化而來的詞在詞典中的處理方式,指出 一個詞彙化而來的語言單位要收入詞典,最重要的一點就是看其組合義是不是已經不同於 成分義的加合,但也要考慮語言結構組成成分能夠單用及整個語言結構的使用頻率等多種 因素。江藍生(2013)介紹了《現漢》第6版收錄的一些詞彙化而來的詞,比如「對了、好了、 算了、完了」等與體標記「著」連用而詞彙化的詞;「本著」和「隨著」等與體標記「著」連用而 詞彙化的詞;對「一於、一乎、一及、一以、一自」等跨層結構合成詞做了增補。《高頻詞表》 中_些詞彙化的高頻組合也可以考慮收入詞典,如:
"亟待」是急迫等待的意思,其中「亟」是「急迫」的意思,已經不能單用;"與否」是「是 (這樣)或者不是(這樣)」的意思,用來表示正反兩方面的意思;「愈發」是「更加」的意思, 表示程度更近一步;「儘可能」其實就是「儘量」的意思。這些詞的構詞成分已經不能單用, 在長期的高頻共現中詞彙化成詞,可以考慮收入詞典。
4. 增收縮略詞
縮略也是構成新詞的重要方式之一,它是從較長結構中抽取典型的語素構成新詞的一 種方法,縮略詞簡潔明快,更容易通行,但是從字面上看,縮略詞的意義往往不很明確,因 此,一些高頻的縮略詞可以考慮收入詞典。如:
「防控」是「預防控制」的縮略,「福彩」是「福利彩票」的縮略,「非遺」是「非物質文化遺 產」的縮略,它們的使用頻率都很高,可收入詞典。值得注意的是,「福利彩票」和「非物質 文化遺產」都被《現漢》第7版收錄,它們都是多字詞,在使用中逐漸縮略為二字詞。與全 稱相比,縮略的二字詞更為常用,因此,詞典應在收錄全稱的同時也收錄簡稱。
(二)同物異名形式的取捨
當一種事物具有幾種不同的語言形式時,《高頻詞表》可以幫助我們對這些同物異名 形式進行取捨。
比如《現漢》同時收錄了「冰激凌」和「冰淇淋」,「冰激凌」是主條,「冰淇淋」是副條,用 「冰激凌」直注。《高頻詞表》也同時收錄了「冰激凌」和「冰淇淋」,但是「冰淇淋」的頻次明 顯高於「冰激凌」。因此,或許我們可以把後者當作主條,前者作為副條。
再比如義大利的食品Pizza傳到中國後有幾種不同的翻譯:「匹薩(餅)」 「比薩(餅)」 「披薩(餅)」和「批薩(餅)」。《現漢》第6版收錄了「比薩餅」,第7版同時收錄了「比薩」和 「比薩餅」,並以「比薩」為主條,但我們發現《高頻詞表》中並未收錄「比薩(餅)」,而只收錄 了「披薩」,那麼,我們究竟用哪一種形式合適呢?
《人民日報》中沒有出現過「批薩」一詞,其他三個詞都有使用。「比薩」首次出現是在 1990年,那一年第一家「必勝客」在北京開業。1993年,「匹薩」一詞首次出現,這一年,「匹 薩」被頻繁使用,但之後就用得很少,從2015年開始,「匹薩」沒在《人民日報》中出現過。2013年,「披薩」第一次在《人民日報》中出現,使用頻次逐漸增多。
我們可以看到,「比薩」在過去的二三十年中的使用是比較頻繁的,有著絕對的優勢, 但是從近幾年和今後的發展來看,或許「披薩」的使用頻率會呈現一個逐漸上升的趨勢,有 可能超過「比薩」。一個原因可能是「披薩」在聲音上與pizza更接近,也就是說,在漢語口 語中pizza讀音類似「pisd」,音譯詞與實際讀音相一致。除此之外,還有一個重要的原因是 「比薩」這個中文譯名早已有其他意義。義大利城市「Pisa」的中文譯名是比薩市,那裡還有 著名的比薩斜塔,在pizza傳到中國之前,《人民日報》中的「比薩」幾乎都是指「比薩市」或 「比薩斜塔」,所以表示pizza的「比薩」基本一直都是以「比薩餅」的形式出現的,否則就容 易與表示Pisa的「比薩」弄混。而且,「比薩餅」和「比薩市」本來是完全沒有關係的,使用同 一個譯名很容易讓人們把它們錯誤地聯繫在一起。或許正是這個原因,人們一直試圖尋找 更合適的譯名,而「披薩」可能就是個不錯的選擇。因為我們對pizza的熟悉已經由「比薩 餅」完成了,「披薩」在出現之初就是以不帶類名的形式出現的,這也更符合漢語的雙音節 傾向,使得它比「比薩餅」更容易傳播。
(三)糾正收詞的失誤
詞典收詞是一個龐大複雜的工程,加上詞語一直處在不停地變化中,再好的詞典都難 免存在個別詞語失收或收詞不當的情況。通過《高頻詞表》與《現漢》收詞的對比,我們可 以發現一些詞典收詞上的失誤,進而做出修訂。前面已經提到,詞典傾向於收錄具有較強 組合能力的較小詞彙單位,《現漢》也一直努力貫徹這一原則,比如《現漢》第6版收「代言 人」,第7版改收「代言」,這是因為原先只有「代言人」,「代言」是不能單獨使用的,隨著「代 言人」的高頻使用,「代言」獨立出來,《現漢》第7版對這一變化做了及時調整。改收「代 言」既涵蓋了「代言人」,又反映了語言的發展實際。但這一原則在《現漢》中也有執行不到 位的地方,如:
這幾組詞在《高頻詞表》中出現的是較短形式,而在《現漢》第7版中出現的是較長形式,這 與詞典收詞的原則相違背,應該適時調整。但之所以出現這種情況,是因為這些二字詞原 先是不能單用的,是在多字詞的高頻使用中逐漸獨立出來的。詞典對語言事實的反應總是 相對滯後的,但隨著編纂手段的改進,這一問題會有所改善。
漢語中有一些外來詞在開始使用時往往在譯名後加類名構成三字詞,在使用過程中, 這些帶有類名的三字外來詞具有逐漸脫落類名成為二字詞的趨勢,不論是從收錄小單位的 角度考慮還是從使用頻率的角度考慮,詞典都應該首先收錄二字詞,或者同時收錄但把二 字詞作為主條。《現漢》有些詞的處理比較好,比如「桑拿」和「桑拿浴」都收錄,但是以「桑 拿」為主條;「摩託」和「摩託車」都收錄,但是以「摩託」為主條;「比薩」和「比薩餅」都收錄, 但是以「比薩」為主條。但是也有一些詞條的處理不太合適。
這些詞中類名的脫落是緩慢的,有些變化不容易發現,《高頻詞表》正好給我們提供T 參考,可以幫助我們做出取捨。當然「香檳酒、搖滾樂、芭蕾舞」是最早出現的正規說法,而 「香檳、搖滾、芭蕾」是因類名脫落後起的說法,為了體現這一演變過程,也可以處理為將前 者作為正條,將後者作為副條,或掛尾處理,總之要對頻率較高的二字詞有所交代。
四、結 語
詞頻反映著語言的面貌與使用狀況,是詞彙的重要屬性之一。它對社會的發展變化有 宜接反應,受多種因素影響而不斷變化。詞頻的動態變化不僅反映著詞彙的發展變化,也 能幫我們預測詞的發展方向。
高頻使用是常用詞的本質屬性,也是一個詞語從出現到逐漸穩定下來需要具備的重要 條件。高頻使用能夠促進人們加深對一個詞語的熟知程度,為詞語的穩定性提供重要保 證。一個新詞從出現到成為詞彙系統中穩定的一員,需要經過高頻詞的階段。
高頻詞是不斷變化的,每年都有一些高頻詞進入,也有一些高頻詞退出。所以,高頻詞 既包括不同時期都廣泛使用的比較穩定的詞,也包括某個時代特定的流行語,而那些相對 穩定的高頻詞才是共時詞典應該收錄的主要對象。2010年一2017年《高頻詞表》的合收詞 為我們提供了近幾年比較穩定的高頻詞語的集合,反映了近年來漢語詞彙的基本面貌和發 展趨勢,對詞典收詞有重要的參考價值。
藉助大規模語料庫和頻率統計來對詞語進行篩選是辭書編纂的一個趨勢和方向,《中 國語言生活狀況報告》在這方面提供了很好的資源,為我們了解媒體語料的用字用語情況 提供了重要參考,也對高頻詞語和新詞語的發展變化提供了有力證據,對辭書增補新詞、確 定同物異名形式的主副條及糾正收詞的失誤都很有幫助,希望能引起辭書編纂者的關注, 使這一資源得到充分利用。
附註
[1] 這裡的百萬詞頻次=詞語的頻次x 1000000/總頻次。因為每年的媒體語料數量不一樣,當語料 規模大的時候詞語的頻次自然多,為了讓歷年的詞語頻次具有可比性,我們釆用了百萬詞頻次來進行對 比。下同。
[2] 這裡的排名是指在2010年一2017年22203個《高頻詞語》共收詞中的百萬頻次排行。下同。
參考文獻
1. 董秀芳.漢語的詞庫與詞法,北京:北京大學出版社,2004:11.
2. 董秀芳.詞彙化:漢語雙音詞的衍生與發展(修訂版),北京:商務印書館,2011.
3. 國家語言文字工作委員會組編.中國語言生活狀況報告.北京:商務印書館,2011-2018.
4. 侯瑞芬.詞彙化與詞典的收詞及釋義一以《現代漢語詞典》(第6版)對「 x 了/著」結構的處理為 例.〃中國辭書學會《中國辭書學報》編委會編.中國辭書學報(第一輯).北京:商務印書館,2015a.
5. 侯瑞芬.「 X著」介詞的收錄及釋義.辭書研究,2015b(5).
6. 侯瑞芬.漢語「不x x」三字組考察與詞典收詞.語言科學,2017(1).
7. 江藍生.《現代漢語詞典》第6版概述.辭書研究,2013(2).
8. 李海霞.漢語將進入一個以三音詞為主的發展階段.西華大學學報,2013(6).
9. 蘇新春,顧江萍.「人」「機」分詞差異及規範詞典的收詞依據.辭書研究,2000(2).
10. 蘇新春,楊爾弘.2005年度漢語詞彙統計的分析與思考.廈門大學學報,2006(6).
11-陶原珂.漢語詞彙發展中的詞形延長.語言文字應用,2003(4).
12. 王敏.國家語委綠皮書字詞頻統計的特點與辭書編纂.辭書研究,2009(5).
13. 中國科學院語言研究所詞典編輯室.現代漢語詞典編輯計劃綱要草案.〃中國科學院語言研究所 詞典編輯室編.《現代漢語詞典》五十年.北京:商務印書館,2004.
14. 中國社會科學院語言研究所詞典編輯室編.現代漢語詞典(第5、6、7版),北京:商務印書館, 2005,2012,2016.
(中國社會科學院語言研究所 北京 100732)
本文原載於《辭書研究》2019年第4期