漢語、藏語、羌語、緬語等400多種東亞語言被認為擁有共同的祖先語言,合稱為漢藏語系。這是世界第二大語系,母語使用人數僅次於印歐語系。一直以來,語言學家對漢藏語系內部各語支親緣關係、分化時間以及起源地點長期存在爭議。
復旦大學金力院士團隊歷時兩年多,通過對109種漢藏語系語言的近千個詞彙詞根-語義組合進行譜系建模分析,重構了漢藏語系諸語言間的親緣關係,通過語言學和遺傳學等多學科交叉的分析方法,對這一問題做出了有力的回答,揭示漢藏語系在新石器時代晚期起源於中國北方。
△漢藏語系分布區域
4月25日,該成果以《語言譜系證據支持漢藏語系在新石器時代晚期起源於中國北方》為題,以原創性研究論文形式在線發表於《自然》。這是中國語言學研究領域首次在《自然》雜誌發表科研成果。
「這是第一次運用遺傳學的數學分析方法,對東亞諸多語言的材料進行系統分析,得到的結果很有意思。」復旦大學遺傳工程國家重點實驗室、生命科學學院人類遺傳學與人類學系教授、中國科學院院士金力告訴記者,關於漢藏語系的演化,有兩種假說:
北方起源假說
認為它起源於大約4000~6000年前中國北方的黃河流域
此項研究證實了東亞地區漢藏語系諸多語言的同源關係,支持了關於漢藏語系源流與分化的「北方起源假說」,為探尋中華文明的起源和發展歷程,了解中國及周邊鄰國的各漢藏語系語言之間的演化關係提供了重要依據,也為認識東亞人口遷移歷史提供了重要啟示。
語言是架起群體演化和文化演化研究的橋梁。此次研究構建出漢藏語系中109種語言的譜系樹,以語言譜系證據科學揭示出東亞地區漢藏語系諸多語言的同源關係。同時證實了漢語從原始漢藏語分離成獨立語族(支)的觀點,並且漢藏語系中的其餘語言構成一個單系語言群,即藏緬語族。
更重要的是,這項研究估計了漢語和藏緬語系的分化時間——即原始漢藏語分化成現代語言的最早年代在距今約5900年前,地點可能在中國北方,因此該語系的起源和分化可能與仰韶文化及馬家窯文化的發展有著密切關係。
這些發現也符合語言隨農業擴散的觀點,並且擴散的時間點與考古證據相符——此前的考古證據揭示出獨特建築形式和陶器類型向南擴散的特徵。
△馬家窯文化彩陶缽
語言學家、復旦大學人文社會科學數據研究所東亞語言數據中心負責人潘悟雲參與了此項研究。他表示,該研究也是迄今為止國際上第一個如此大規模的漢藏語系語言演化研究。
值得一提的是,此項研究是2018年新成立的復旦大學現代語言學研究院發表的第一篇論文。金力為通訊作者,復旦大學現代語言學研究院青年研究員張夢翰為該篇論文的第一作者,復旦大學人類表型組研究院助理研究員嚴實為共同第一作者。融合創新,讓現代語言學大學科平臺成果初顯。
我們的研究還只是開始。研究語言演化,是近年來語言學研究中新興的交叉學科方向。東亞地區語言複雜,語言種類多,隨著研究深入,還有大量有趣的話題值得繼續深挖。
論文第一作者張夢翰說,這一次,我們通過多學科的分析方法,揭示漢藏語系分化時間和起源地,可以說為今後的相關研究提供了一個框架,以此為發端,可以進一步推進考古學、民族學、社會學等研究。
附:
這個研究結果從某些方面證明Starosta(2000)對原始漢-藏-高加索語的假設,也部分支持了他對中國遠古小米和大米兩個不同農業區域的劃分。有點兒偏離「主流」,確實出人意料,但很刺激。希望今後也能在Nature上看到論證漢藏和南島語發生學的文章。
金力他們的研究與「漢藏同源——因此造成漢語VO-OV語序混合以及漢語中存在大量施通格句法配置」理論一致。(藏語是施通格語言,藏語也是OV語言)。
關於歷史比較語言學與分子遺傳學的合作研究
1. 進化生物學的貝葉斯系統發育方法,對概率的理解是人們對某些事件的一種信任程度,是對事物不確定性的一種主觀判斷,與個人因素等有關,故稱之為主觀概率。
2. 歷史比較語言學與分子遺傳學的合作應該建立在各自獨立成果基礎之上,不宜拿語源單位當作基因直接套用數學模型(貝葉斯系統發育方法)做數學分析。基因中的0和1是從有機物質中分析出的,而語源單位是否相同的這0和1是人為判定的。
3. 人類分子生物學和史前語言人群分布可以交叉研究,但這種探源性研究與依據語言資料比較有別,因為史前語言人群沒有留存當時的語言資料。這種研究應當明確為語言資料歷史比較和人類分子生物學之間的映射研究。
4. 也就是說,務必區分有文獻比較和無文獻探討之間的區別。語言歷史比較是本證,其他都是參證(分子生物學、人類體質學、考古文化學、歷史文獻學、民族文化學等)。當然,參證也有不同程度的價值。
5. 有些方法看起來很精密,其實精密方法的背後卻存在若干模糊。比如說,關於語言比較的幾十個義根單位,它們各自最早出現於什麼年代,它們之間哪些是各自本有的,也就是從遠古繼承下來的,哪些是外來的,即通過接觸借來的。如果這份資料沒有嚴格鑑定,那麼接下來的所有模式比較都可能增強主觀性。
6. 生物學的譜系樹不宜機械搬用到語言歷史比較研究中來,因為語言的發展是多向交叉。一般而言,它不是一個以主幹為分叉的簡單譜系樹模式(印歐語系是個特例,而且並非純粹的特例,更為純粹的特例是閃米特語系),而是一個複雜的多向交叉方式,通過人群遷徙、文化接觸和異群通婚等一系列社會活動而導致語言變化。如果一定要建譜系樹,那麼應當是多維交叉型譜系樹。
7. 關於漢藏語言在中國北方出現,並在大約5900年前開始分裂。這種主觀概率或或然性假說,並沒有超過美國帥德樂(Stanley Starosta, 1939-2002)2001年提出的「原始東亞語群說」的範圍。
8. 漢語的形成,這裡主要是指夏商周三代華夏語的形成,並不是簡單的漢藏語分家。或者說,「原始漢藏語」也只是華夏漢語來源的一部分,否則語言學家也就不會提出漢-歐同源說、漢-高(高加索-葉尼塞)同源說、漢-阿(阿爾泰)同源說、漢-烏(烏拉爾)同源說,也就不會提出漢語與南島語或南亞語具有親緣關係。因此,漢語的形成是複雜的,如果僅僅將目光放在西部,放在黃河上遊(漢藏同源說),而不關注黃河中下遊以及長江流域,那麼華夏漢語的起源是講不清楚的。
附:@四毋齋(洪波)近年來的語言接觸研究表明:兩個操不同語言的族群如果在較長時間內保持相對單向的通婚關係,則逐步形成一種混合型語言,該語言基本保持著父系族群語言的詞彙,而主要繼承母系族群語言的形態句法。基於此,語言親緣關係就不能單方面只考慮詞彙,反之亦然。金先生及其團隊的工作最多只能證明在詞彙上漢語跟藏緬語關係更密切。7世紀藏文所反映的藏語形態跟春秋戰國時期文獻所反映的形態有些有著高度的平行關係或一致關係。我們認為,這種平行關係或一致關係較難推嬗到原始共同語時期,更有可能是周人竄於戎狄時期所獲得的,然後帶到上古漢語當中的。
語言既然是歷史與社會的產物,自然也可以從語言和語言的變遷中找到歷史與社會的變遷。(不過)在此之前的人又是從哪裡來?說什麼話?
遺傳學數據是否有利於弄清楚語言發生學的來龍去脈,很讓人疑惑。不知道結合遺傳學的數據,能不能測出來一個長江流域的漢族人有朝一日會說一口流利的洋涇浜英語。語言可以被和平地或者暴力地徹底替換,遺傳信息似乎不容易被大規模徹底替換。
研究通過對109種漢藏語系語言近千個詞彙詞根-語義組合的譜系建模分析,重構了漢藏語系諸語言間的親緣關係,真的覺得非常偉大。只是我不太理解,譜系關係對漢藏語系分化時間和起源地的推測能提供神馬依據?最早的甲骨文好像是三四千年前的事情。再早就沒有文字記錄了。這只是漢字,不知其他108種語言的文字記錄有多早,難道都有三千多年前的文字形態?憑晚一千多年的文字殘片所形成的譜系關係就能推導出距今約5900年前的文字分布和關係?而且確定地點?這依據真是高深。後悔恢復高考時沒學理科了,跟不上節奏。不懂啊,到了這把年紀,學習也不可能了。感覺現在深陷批評理論的蜘蛛網,成天神經兮兮滴疑心。
應該這麼說,他們其實是按照他們行業裡可以接受的規則做的研究,至於到底是不是這樣,天曉得呀。就像那些天文學家,根據一個小點pixel來說這是個全部被水覆蓋的行星,在幾百萬光年之外。當然到底是不是這樣?天曉得呢。所謂的科學研究,也就是根據行業接受的規則進行的大膽想像而已。
一切的探索都是可貴的,學科交叉研究是一個重要方問。但發表了文章,並不等於就是定論。純粹從語言學的角度考慮,該研究項目所採用的材料是否具有同質性(比如如何保證「同源詞」都是真實有效的,而沒有混入借詞),所採用的各語種材料是否具有共時性(很多語言根本無法提供古代材料,好像藏語的古籍資料也早不過唐代)……這些都是從事這類研究在語言學上的難題,如果他們的研究未能在這些方面有重要突破,結論的可信度有多大,現在還很難說。
是的,涉及的變量太多,牽一髮而動全身,一個數據有問題就可能產生蝴蝶效應,導致結果偏差。我覺得他們主要是用不同民族的遺傳學基因測定來做的,語言學證據只是輔助,所以才發在《自然》上。