貌似午餐有段時間沒介紹語料庫相關資料了,這不,小編今天便給大家推銷一款功能強大,歷史悠久,使用範圍廣泛的兒童語音語料庫——CHILDES
CHILDES (Child Language Data Exchange System),兒童語言數據交流系統,也被稱為國際兒童口語語料庫,是在兒童語言研究相關領域被最廣泛使用的語料庫,有1000餘項基於該語料庫的研究成果發表( MacWhinney 2000)。這些文章有的是關於語法發展的(如 Eisenberg 1989;Slobin 1994),有的是關於兒童如何接受語言輸入的(如Van Houten,1988;Anderson &Shirai 1994),有的是關於兒童如何學習詞彙的(如Clark & Carpenter 1989;Au &Song 1994),有的是關於兒童音位發展的(如 Wijnen 1988; Bernstein Ratner 1993),等等。
1983 年, 心理學家 Elizabeth Bates、Brian MacWhinney和Catherine Snow等人意識到進行語言研究時記錄語音和相關轉寫數據的重要性,開始計劃建立一個大型兒童語言數據轉寫儲存系統。但如此一個龐大的工程,沒有資金支持自然是萬萬不能的,於是他們申請了美國麥克阿瑟基金會(MacArthur Foundation)的資金資助。順便插一句,麥克阿瑟基金會是美國十大私人基金會之一,其更出名的是資助了一個叫做麥克阿瑟天才獎(MacArthur Fellows Program)的獎項,目前只有少數幾位華裔獲得此獎,比如陶哲軒和張益唐。翌年,經費獲批,這一世界上最大的兒童語言語料庫在MacWhinney和Snow的負責下開始正式籌建。到目前為止,該語料庫已收集了包括英語、漢語在內的25 種語言。
獲得CHILDES很容易,只要登上其網站便可(http://childes.talkbank.org),網站上提供了幾乎一切和該語料庫相關的資料,包括數據,軟體和詳盡的使用說明,最關鍵的是,這一切都是免費的。但另一方面,也正因為上面內容很多,對於初次接觸的人來說又一時無從下手,甚感慌亂,下面小編就簡單介紹一下資料庫的使用。
CHILDES由三部分組成, 第一部分是兒童口語語料庫,第二部分為語料分析程序CLAN,第三部分為文本賦碼系統CHAT。鑑於語音文本轉寫製作費時費力還費錢,大多數讀者更可能運用已有數據進行分析和研究,本文主要介紹如何運用網站提供的數據進行分析研究,即主要涉及前兩部分。
我們先看一下這個年齡比小編大多了的語料庫都包含哪些資源,資源首先被分為轉寫文本和視頻音頻,當然內容是對應的,我們看一下轉寫文本的目錄
不難發現兒童語言分類很細很全,而且資料庫一直在保持更新,以東亞語言為例,子目錄是這樣的
這時我們會發現印尼語只有一個可用數據,而漢語,日語等則包括多個語音數據包,但數據倒是有了,可這些數據都是如何收集的呢,語音數據的元信息又如何查看呢,別著急,人家網站自然是提供了的。
網站本身支持資料庫的在線檢索分析功能,但小編感覺還是把數據下載下來,再用軟體分析更方便一些。這些數據都是CHAT格式,需要使用專門的語料分析軟體CLAN進行數據分析,軟體在CHILDES首頁下載即可,下面介紹一下如何進行簡單的數據檢索和分析。
進入軟體界面很簡單,一個用於檢索和數據分析的命令行窗口,一個用於音視頻轉寫或文本查看的主界面。CLAN的數據檢索是利用命令行來實現的,但不用緊張,這個比什麼Matlab,R之類的簡單多了。
可供查詢的數據類型還是很多的,例如常見的詞頻(freq)、關鍵詞(kwal)、類符型符比(TTR)等等,絕對滿足你各種各樣的使用需求。下面以關鍵詞查詢為例,簡單介紹一下。
首先選擇要進行統計分析的文件
然後選擇要查找的說話人,例如兒童,就選擇speaker tier,輸入相應的代碼CHI
最後,輸入你要查找的單詞就好啦,比如「dog」,然後就萬事大吉,點擊run,運行就好啦,喏,下面就是結果咯
以上就是關於資料庫統計查詢的基本流程,但這無疑是十分基礎的,如果想有更深入的了解,還需要多多使用,以及對其使用說明書進行仔細的研讀,如果嫌英文說明書讀起來慢,不妨點擊閱讀原文,參看一下由林楓老師編輯的CLAN中文使用說明書,除此之外,也可以參看《國際兒童語言研究方法:CHILDES國際兒童語料庫數據儲存和分析系統》一書,對CHILDES的使用也有詳盡的介紹。
參考文獻
溫志軍 ,胡瑰玲. 開發利用世界上最大的兒童語料庫——CHILDES[J]. 外語教學與研究,2001,05:374-377.
王立非,劉斌. 國際兒童口語語料庫錄寫系統的賦碼原則初探[J]. 解放軍外國語學院學報,2003,01:50-54.
JurgenWeissenborn,閔瑞芳. 研究第一語言習得的資料資料庫(CHILDES~*):兒童語言資料交流系統[J]. 國外語言學,1988,03:132-135.