一款超級強大的兒童語音語料庫 語言學午餐

2021-02-19 語言學午餐Ling-Lunch

貌似午餐有段時間沒介紹語料庫相關資料了,這不,小編今天便給大家推銷一款功能強大,歷史悠久,使用範圍廣泛的兒童語音語料庫——CHILDES

CHILDES (Child Language Data Exchange System),兒童語言數據交流系統,也被稱為國際兒童口語語料庫,是在兒童語言研究相關領域被最廣泛使用的語料庫,有1000餘項基於該語料庫的研究成果發表( MacWhinney 2000)。這些文章有的是關於語法發展的(如 Eisenberg 1989;Slobin 1994),有的是關於兒童如何接受語言輸入的(如Van Houten,1988;Anderson &Shirai 1994),有的是關於兒童如何學習詞彙的(如Clark & Carpenter 1989;Au &Song 1994),有的是關於兒童音位發展的(如 Wijnen 1988; Bernstein Ratner 1993),等等。

1983 年, 心理學家 Elizabeth Bates、Brian MacWhinney和Catherine Snow等人意識到進行語言研究時記錄語音和相關轉寫數據的重要性,開始計劃建立一個大型兒童語言數據轉寫儲存系統。但如此一個龐大的工程,沒有資金支持自然是萬萬不能的,於是他們申請了美國麥克阿瑟基金會(MacArthur Foundation)的資金資助。順便插一句,麥克阿瑟基金會是美國十大私人基金會之一,其更出名的是資助了一個叫做麥克阿瑟天才獎(MacArthur Fellows Program)的獎項,目前只有少數幾位華裔獲得此獎,比如陶哲軒和張益唐。翌年,經費獲批,這一世界上最大的兒童語言語料庫在MacWhinney和Snow的負責下開始正式籌建。到目前為止,該語料庫已收集了包括英語、漢語在內的25 種語言。

獲得CHILDES很容易,只要登上其網站便可(http://childes.talkbank.org),網站上提供了幾乎一切和該語料庫相關的資料,包括數據,軟體和詳盡的使用說明,最關鍵的是,這一切都是免費的。但另一方面,也正因為上面內容很多,對於初次接觸的人來說又一時無從下手,甚感慌亂,下面小編就簡單介紹一下資料庫的使用。


CHILDES由三部分組成, 第一部分是兒童口語語料庫,第二部分為語料分析程序CLAN,第三部分為文本賦碼系統CHAT。鑑於語音文本轉寫製作費時費力還費錢,大多數讀者更可能運用已有數據進行分析和研究,本文主要介紹如何運用網站提供的數據進行分析研究,即主要涉及前兩部分。

我們先看一下這個年齡比小編大多了的語料庫都包含哪些資源,資源首先被分為轉寫文本和視頻音頻,當然內容是對應的,我們看一下轉寫文本的目錄


不難發現兒童語言分類很細很全,而且資料庫一直在保持更新,以東亞語言為例,子目錄是這樣的


這時我們會發現印尼語只有一個可用數據,而漢語,日語等則包括多個語音數據包,但數據倒是有了,可這些數據都是如何收集的呢,語音數據的元信息又如何查看呢,別著急,人家網站自然是提供了的。


網站本身支持資料庫的在線檢索分析功能,但小編感覺還是把數據下載下來,再用軟體分析更方便一些。這些數據都是CHAT格式,需要使用專門的語料分析軟體CLAN進行數據分析,軟體在CHILDES首頁下載即可,下面介紹一下如何進行簡單的數據檢索和分析。


進入軟體界面很簡單,一個用於檢索和數據分析的命令行窗口,一個用於音視頻轉寫或文本查看的主界面。CLAN的數據檢索是利用命令行來實現的,但不用緊張,這個比什麼Matlab,R之類的簡單多了。


可供查詢的數據類型還是很多的,例如常見的詞頻(freq)、關鍵詞(kwal)、類符型符比(TTR)等等,絕對滿足你各種各樣的使用需求。下面以關鍵詞查詢為例,簡單介紹一下。


首先選擇要進行統計分析的文件

然後選擇要查找的說話人,例如兒童,就選擇speaker tier,輸入相應的代碼CHI

最後,輸入你要查找的單詞就好啦,比如「dog」,然後就萬事大吉,點擊run,運行就好啦,喏,下面就是結果咯

以上就是關於資料庫統計查詢的基本流程,但這無疑是十分基礎的,如果想有更深入的了解,還需要多多使用,以及對其使用說明書進行仔細的研讀,如果嫌英文說明書讀起來慢,不妨點擊閱讀原文,參看一下由林楓老師編輯的CLAN中文使用說明書,除此之外,也可以參看《國際兒童語言研究方法:CHILDES國際兒童語料庫數據儲存和分析系統》一書,對CHILDES的使用也有詳盡的介紹。



參考文獻

溫志軍 ,胡瑰玲. 開發利用世界上最大的兒童語料庫——CHILDES[J]. 外語教學與研究,2001,05:374-377.
王立非,劉斌. 國際兒童口語語料庫錄寫系統的賦碼原則初探[J]. 解放軍外國語學院學報,2003,01:50-54.
JurgenWeissenborn,閔瑞芳. 研究第一語言習得的資料資料庫(CHILDES~*):兒童語言資料交流系統[J]. 國外語言學,1988,03:132-135.


相關焦點

  • 推薦一款強大的語料庫
    今天給大家推薦一款非常強大的英文語料庫。無需翻牆。網址:www.english-corpora.org首先給大家簡單介紹一下什麼叫做語料庫。語料庫(corpus)就是從真實語境當中挑選的大量例句,包括來自各類雜誌,報刊,新聞,學術文章等來源的例句。語料庫的一個重要作用就是給語言的正確用法提高參考和依據。
  • 推薦一款強大的語料庫 | 學英語必備
    今天給大家推薦一款非常強大的英文語料庫。無需翻牆。網址:www.english-corpora.org 首先給大家簡單介紹一下什麼叫做語料庫。語料庫(corpus)就是從真實語境當中挑選的大量例句,包括來自各類雜誌,報刊,新聞,學術文章等來源的例句。語料庫的一個重要作用就是給語言的正確用法提高參考和依據。
  • 甄鳳超:語料庫語言學研究熱點追蹤與思考
    關鍵詞:語料庫語言學;《語料庫語言學國際期刊》;語料庫短語學1.這些研究有一共同特點,即把語料庫視為語言數據來源,用於驗證某種理論或者假設,這屬於基於語料庫的研究。研究者基本上會把語料庫看成是一種研究方法,而忽視語料庫語言學的學科地位,另外,他們會批評語料庫語言學研究只是單純的描述,缺少理論探索。這顯然是種偏見。但換個視角看,語料庫被廣大研究者使用,哪怕只是作為工具在使用,它的應用面越廣,越說明它有優勢,這樣,語料庫語言學才會有更多的發展機會。
  • 計算語言學漫遊指南 | 語言學午餐
    上個月,《你好,機器作詩了解一下》這篇文章發布之後,許多讀者留言說希望小編能更全面地介紹下計算語言學的研究內容、相關讀物和轉專業留學申請等信息。於是,午餐君今天就為大家帶來一份乾貨滿滿的計算語言學漫遊指南!
  • 北京大學中國語言學研究中心CCL古代漢語語料庫
    北京大學中國語言學研究中心CCL古代漢語語料庫 2015年09月22日 11:47 來源:中國社會科學網 作者:語言學頻道綜合 字號 內容摘要:CCL語料庫由北京大學中國語言學研究中心
  • 中國語言學研究70年
    理論方面,大量翻譯介紹包括史達林《馬克思主義與語言學問題》在內的蘇聯語言學著作,並帶動對語言和思維等語言哲學問題的討論,對西方語言學前沿尤其是結構主義語言學也有所介紹,刊於《語言學資料》等書刊。這一時期,朝向世界語言學的窗口始終開啟。
  • 丨語言學午餐
    在計算語言學裡,判斷一句話的通順程度,一般是通過構建統計語言模型 (statistical language model, 簡稱語言模型) 來完成的。簡單來說,語言模型是在某個語料庫上計算得到的統計模型。它能夠對任意給定的一個句子,計算出這句話在這個語料庫中出現概率。概率越大,就意味著這句話越符合這個語料庫的特徵,自然也就越「通順」。
  • ——寫在AI同傳風波之後丨語言學午餐
    所以今天的午餐,我們就和語言類專業學生談談心,看看機器翻譯產品的現狀和問題,以及聊聊我們應該如面對AI語言科技的發展。要想把機器翻譯批判一番,我們先得明白機器翻譯是如何工作的。午餐之前有一篇詳細介紹機器翻譯的發展的文章,感興趣的讀者可以參考一下。
  • 只有語言學內行人才能看懂的11張圖 | 語言學午餐
    今天,午餐君想帶大家了解一下網際網路上一種病毒式的傳播現象——meme,並一起來看看語言學相關的meme,希望能博君一笑~首先,meme到底是什麼?meme這個詞來自希臘語"mimeme"這個詞的縮寫,意為「複製」。「免費食物?算我一個!」
  • 多人談|陸爍:語言障礙的診療急需漢語語言學的介入
    目前我國的語言康復服務主要由教育和醫療機構提供,大多從業者嚴重缺乏語言學尤其是漢語語言學知識,不了解語言本身的規律、語言的習得和認知神經過程規律,康複方法缺失科學基礎,康復效果差。因此,語言障礙的診療急需漢語語言學的介入。
  • 2012-2019年國家社科項目立項(語言學)之一
    1135《哈姆雷特》漢譯專題研究吳穎安徽師範大學語言學1136《中庸》英譯與中庸翻譯思想研究宋曉春湖南大學語言學1137二十世紀後半期美國譯入老舍小說及其對中國文化形象構建研究夏天華東政法大學語言學1138基於語音識別的口譯自動評測系統研究劉夢蓮廣東外語外貿大學語言學1139江蘇省內方言聲調的生成與感知模型研究章婷南京師範大學語言學1140豫皖兩省境內沿淮方言語音的比較研究貢貴訓湖南科技學院語言學1141
  • 2019年語言學年度書單(50本)
    作者在海南生活學習三十餘載,從事英語教學十餘年,深刻感受到海南閩語對英語學習者的影響。在本書中,作者利用語言遷移的相關理論,對比海南閩語與英語發音的特點,分析母語為海南閩語的學習者學習英語語音時所常犯典型錯誤的現象和成因,提出解決策略,探討如何克服海南閩語對英語語音的負遷移影響,從而提高英語語音教學質量和英語語音學習者的信心。
  • 百度輸入法語音功能真的很強大,日語識別率超級高!
    百度輸入法在國內的市場佔有率已經非常高,原因在於,百度輸入法背靠搜尋引擎和強大的中文儲備,在國內可謂領頭羊般的存在。特別在用戶體驗上,相比其他需要廣告彈窗的輸入法來說,百度輸入法更加乾淨、純粹。而近期的百度輸入法語音功能更是非常強大,超高的語音識別率,保證了你使用體驗的舒服。
  • 新中國成立70年:中國語言學研究進入最繁榮時期
    理論方面,大量翻譯介紹包括史達林《馬克思主義與語言學問題》在內的蘇聯語言學著作,並帶動對語言和思維等語言哲學問題的討論,對西方語言學前沿尤其是結構主義語言學也有所介紹,刊於《語言學資料》等書刊。這一時期,朝向世界語言學的窗口始終開啟。
  • 重建巴別塔,機器翻譯的前世今生丨語言學午餐
    今天,午餐君就帶你一起走進科學計算語言學,了解下機器翻譯的前世今生!下文約 2500 字,預計閱讀時間為 5 分鐘。序曲(1930-1950)機器翻譯的雛形最早可以追溯到1933年,一位蘇聯科學家利用卡片、打字機和舊式膠片相機發明了一個簡易的機械式翻譯器。
  • 認知語言學的發展趨勢之一:認知社會語言學
    從認知的角度,附加語前置的呈現句是人類通達非突顯事物的認知參照點能力在語言結構上的體現,er是一個元參照點,標示主語的不可及性;附加語類型反映和影響在線加工中主語的可及度;從變異的角度,人類普遍的認知參照點能力在荷蘭語的兩種民族變體中產生了不同的呈現句式結構特徵。
  • 計算語言學院校信息大匯總!丨語言學午餐
    之前也有不少讀者朋友們留言,說希望午餐君可以介紹下計算語言學方面的院校。正值保研準備期和留學申請季,那麼本期《語言學周刊》,我們就來介紹介紹計算語言學方面的院校信息!我們先來看看世界各地有那些著名的計算語言學研究組和實驗室。它們歷史悠久,對計算語言學領域發展貢獻巨大,擁有著最知名的學者們。了解這些實驗室,無論是對於未來升學的選擇,還是對熟悉學界分布,都大有裨益。
  • 基於漢語兒童語料庫構建的兒童語言發展測評系統
    本文轉載自:心理語言學專委會基於漢語兒童語料庫構建的兒童語言發展測評系統
  • 計算語言學相關資料
    到20世紀60年代到80年代末期的發展,再到20世紀90年代的繁榮,尤其是1993年在日本神戶召開的第四屆機器翻譯高層會議上,學者J.Hutchins在報告中指出自1989年以來,機器翻譯的發展進入了一個新紀元,重要標誌是基於規則的技術中引入了語料庫方法,其中包括統計方法、基於實例的方法、通過語料加工手段使語料庫轉化為語言知識庫的方法等等。
  • 語料庫研究學術源流考
    中國的語料庫研究,同諸多學科領域一樣,是舶來學術,其發展與西方語料庫研究傳統有著不可割裂的淵源。因此,本文將重點對西方語料庫研究的發展加以梳理,從而知源明流。釐定學術譜系,撰寫學術史,是嚴謹而審慎的工作。因此,有必要於開篇就本文談及的內容、範圍及寫作原則加以界定和說明。首先是對「語料庫」一詞的理解。目前的語言學文獻一般認為,大規模電子文本資料庫為語料庫。