漢藏語系究竟起源於哪裡?在中國語言學術界,一直是個爭議不休的話題。
最近,這個問題得出答案:復旦大學金力研究團隊宣布,通過語言學、遺傳學等交叉學科分析方法,揭示世界第二大語系:漢藏語系分化成現代語言的最早年代在距今約5900年前,地點可能在中國北方的黃河流域。
4月25日,該成果以《語言譜系證據支持漢藏語系在新石器時代晚期起源於中國北方》為題
發表
於《自然》雜誌。這也是中國語言學研究領域的科研成果首次在《自然》發表。
《自然》官網截圖
漢藏語系包含逾400種語言和方言,如漢語、緬甸語和藏語,總使用人數達15億左右。它是世界第二大語系,母語使用人數僅次於印歐語系。
一直以來,對漢藏語系分化時間以及起源地點存在兩種爭議。其中,「北方起源假說」認為它起源於大約4000年-6000年前中國北方的黃河流域,而「西南起源假說」則認為它起源於至少9000年前的東亞西南部某地。
團隊領頭人,復旦大學遺傳工程國家重點實驗室、生命科學學院人類遺傳學與人類學系教授、中國科學院院士金力介紹,研究結果證實「北方起源假說」,估計原始漢藏語分化成現代語言的最早年代在距今約5900年前,地點可能在中國北方的黃河流域。
團隊成員嚴實介紹,他們在漢藏語系覆蓋的境域內,採集了109種漢藏語系語言,對近千個詞彙詞根-語義組合進行譜系建模分析,歷時兩年多,重構漢藏語系諸語言間的親緣關係,並以此推算了漢藏語系的分化時間和起源地。
研究發現,東亞地區漢藏語系諸多語言存在同源關係,證實漢語從原始漢藏語分離成獨立語族(支)的觀點。漢藏語系中的其餘語言構成一個單系語言群,即為藏緬語族。
在金力看來,這樣的研究結果也預示了人群在當時的行為分化:一部分向東南遷移到中原地區,以洛陽為中心形成漢語言;另一部分向西南遷移,形成藏緬語系。由於當時的氣候和戰爭等情況,使得南方更益於居住,整體人群向南遷移更為普遍。
漢藏語系中109種語言的譜系樹 復旦大學 圖
在20世紀初,金力及同事就已經開展對漢藏語系人群的研究。起初,研究採用的是純粹的遺傳學模型,數據採集的方式較為粗糙,得出了約6000年前,漢藏人群分開的結論。
但語言的演化不同於生物演化,隨著研究不斷發展,他們愈發感到這樣的結論「站不出腳」。從2009年開始,他們重新開始模型演算和推導,參考了語言學、人類學的視角,整整花了8年時間,到了2017年,才正式開始分析。
「在研究過程中,推翻了三次模型。」團隊成員張夢翰表示。整個漢藏語系的使用群體和地理面貌較為複雜,給研究帶來很大挑戰,他們在分析的同時,也開發輔助軟體進行數據清洗,整個研究不斷推倒重來,最後一次推翻模型,就在去年11月份。
漢藏語系語言的分化與中國西北地區與西南地區的人口擴張相關。
復旦大學 圖
從數學系轉學至語言學系的張夢翰,將數理統計的思維融入到模型中,用「解方程」的方法幫助解出了漢藏語系的發源時間和發源地。在原先的模型中,只允許不同語言按照固定速率進行演化,而這不符合語言演化的真實情況。最後,團隊採取對詞彙詞根-語義組合進行譜系建模分析的方式,允許不同語言按照不同速率演化,大幅提升計算的精確程度。同時,團隊也不斷追蹤國際上的研究動向,其他課題組的成果也帶給他們新的靈感。
語言學家、復旦大學人文社會科學數據研究所東亞語言數據中心負責人潘悟雲參與了此項研究。他表示,這是迄今為止國際上第一個大規模的漢藏語系語言演化研究。
金力團隊介紹,對語言學的研究將持續進行,未來將細化到各地方言,通過語言學和遺傳學記錄東亞區的起源和發展,勾勒出一幅早期中華文明流動和變遷的文化地圖。
金力團隊合照,左起:嚴實博士、金力院士、潘悟雲教授、張夢翰博士。