漢語為何成為世界上信息熵最大的語言,英語只有漢語的十分之一

2020-12-08 騰訊網

  漢語是世界上信息熵最大的主流語言。在1948年發表了一篇論文,震撼了學術界,而這篇論文也開創了一個信息度量的時代,既然事件發生的信息可以度量,語言作為一種信息傳遞的手段,那麼語言中的信息是多少?世界上有最優秀的語言嗎?

  在此之前我們先來談談什麼叫做信息熵。信息熵是指所有可能發生事件中所包含信息的期望平均值。這麼說大家聽不懂,給大家舉一個簡單一點的例子。太陽從東方升起這句話是廢話,因為大家都知道太陽不可能從西方升起,所以這句話所包含的信息熵就是0。如果你在做一道判斷題,但是你不知道答案。所以你只能靠蒙,這個時候就有了信息熵,而如果把這個判斷題改為選擇題,那麼這個題的信息熵就會變大。除此之外還有概率的問題。假如一個選擇題你知道a和b可能是正確的,c和d是完全不正確的,那麼你就會選a或者是b。相比較其他選擇題來講,信息熵就會變少。

  這就是信息熵。那麼語言的信息熵究竟是有多少呢?這個的計算方式很直觀,只需要把公式帶進去就行了,但是困擾學者很多年的問題是,大家都無法準確的知道一個語言中特定位置的出現概率,有時候甚至難以統計這個語言到底有多少種字符。

  所以信息科學家只能用各種手段來估計各個語言的信息熵,比如說有某位學者認為英語的信息熵應該在0.6~1.3比特每字節。而其他人有人認為英語的信息熵應該在1.25比特每字節。英語還算是比較好統計的,但是放到漢語的統計難度就非常大了。不過還好的是當年信息熵剛剛發展出來,各個學者科學家都紛紛對此非常有興趣。即便是中文有很大的特殊性,依然有很多學者排除萬難,採用了統計的計算方式,計量了漢語的信息熵。

  而在計量過程中他們發現中文不論是文字部首還是音節,他的信息熵都遠遠超過了英語。

  但是這樣計算出來的結果,沒辦法和其他語言直接對比。因為他們是用的不同的資料庫。而且人為翻譯也可能導致信息誤差,所以在2002年哈佛大學的某位科學家做了重新的對比實驗。他們選用了一種很有意思的辦法,那就是在計算機上把文本壓縮到信息壓縮的下界。

  也就是說不論是英語還是漢語或者西班牙語都不進行優化。之後再進行壓縮。研究者們對比了英語,西班牙語,法語,中文漢語,阿拉伯語,日文,俄語等等。像這樣壓縮情況下,如果沒有缺失文件,都是那麼所有的語言都會和英語壓縮後的文本一樣大。所以我們需要對比的就是他們的壓縮時間,壓縮時間越長的,他們的信息熵就越大。

  而中文的壓縮效率遠遠低於其他文字。除此之外他們又做了其他的對比實驗,比如說換壓縮算法。再比如說把譯文擴充。因為聖經中都是常見詞彙,但是其他語言中有很多特殊的詞彙。但是在壓縮過後,中文依然是壓縮效率最低的一個語言。可以說中文是信息熵最大的一種語言了。

  雖然說這個實驗也不完美,有很多漏洞,但是多個實驗結果看上去都是很相似的。而且即便是有很大的漏洞,這樣的實驗依然存在著很強的指導意義。

相關焦點

  • 信息熵是什麼,為啥漢語被稱為信息熵最大的語言?最普及的英語呢
    中國的歷史是世界上不可否認的最豐富的一種文化,而且關於對歷史的研究,中國敢說是最強的。在1949年外國學者發表了一篇論文,讓人們進入了一個信息化的時代,所有發生的事件都可以用信息的單位來度量,很多人就提出,語言作為人與人進行溝通的必須手段,裡面的信息量應該很大吧,到底有多少?經過各學者多年的探究和各種語言的統計,得出一個結果,漢語是世界上信息熵最大的語言。那麼這個信息熵是什麼呢?
  • 漢語的使用人口是世界第一,為何「世界普通話」卻是英語?
    寫在前面:漢語的使用人口是世界第一,為何「世界普通話」卻是英語?世界語言中,使用人數最多的語言是哪一種?面對這個問題,很多人的回答一定是:英語。因為在他們看來,中國人都學習英語,是因為很多國家的人都學習英語。
  • 我們的漢語將來有可能像英語一樣,成為世界通用語言嗎?
    我們的漢語將來有可能像英語一樣,成為世界通用語言嗎?對於漢語能不能成為世界通用語言這一事,我認為不能就語言說語言,也就是說不能就事論事。英語之所以成為世界通用語言,其根本原因並不是像大家所說的英語方便好用,什麼電腦鍵盤、電腦編程、數學公式等等,這些都是皮毛。記得電腦剛出現的時候,我們還在學校讀書,操作電腦必須要學英語,電腦當時用的是dos系統,不懂英語的人沒辦法操作電腦。當時很多人就懷疑說漢語沒辦法在電腦上應用,可是現在,漢語打字、漢語操作電腦是一件輕而易舉的事。
  • 為什麼英語能夠成為全球通用語言,漢語卻不行?
    以英語為母語的人數僅次於漢語,居世界第二位,大約有4億多人,而以漢語為母語的人口據說有15億,雖然兩者相差巨大,但是分布在世界各地、各民族的人口中,以英語作為第二語言的人數,卻要佔全球總人口的15%左右。
  • 漢語被稱為世界上最難學的語言,沒有之一
    漢語被稱為世界上最難學的語言,沒有之一隨著現代社會的發展,越來越多的人崇尚國際化,中國也走向國際,跟國際接軌。所以我們日常生活中不可或缺的一門語言,除了漢語就是英語,從小學就開始學習,以至於現在英語是一門非常重要的學科,有的家長甚至在孩子幼兒園的時候就培養他們學習英語,這也是早教的重要課程。可今天小編要說的是,世界上最難學的語言是什麼?可能覺得英語日語等等很多外語都非常難學。但對於其他國家來說,最難學的語言竟然是漢語。
  • 新加坡基本是華人,為何一獨立就廢除漢語?李光耀:漢語有個劣勢
    那麼則不得不提一個人——新加坡最偉大的總理李光耀;那麼則不得不提一項重大的政策——廢除漢語,將英語作為國語。新加坡一實現獨立便廢除漢語,在上個世紀的世界裡,可以說是一項極具積極意義的決策,它從多方面推動了新加坡綜合國力的巨大進步。
  • 漢語不是世界上最難學的語言,最難的語言竟然是鄰國的它?
    網絡上一度流傳著,聯合國教科文組織發布的世界上最難學的十大語言排行,漢語被認為是全世界最難學的語言,想必大家都聽說過。在實際教學中,據美國外交學院的統計,以母語為英語者,至少需要學滿2200個小時,漢語才能達到精通水平。
  • 漢語真的是世界上最難學習的語言嗎?
    「漢語」對於我們中國人來說,是一件再簡單不過的事情了。我們平時交流、通信、都離要用漢語來表達。因為漢語是我們的母語。但是知道嗎?聯合國教科文組織公布的世界上最難學習的十種語言中,漢語名列第幾位嗎?漢語在這份名單中位居榜首。
  • 漢語的「信息熵」劣勢
    有人為漢字信息量大而驕傲,殊不知它使得中文信息管理和傳遞的成本增加,困難加大。★中文信息產業基礎建設的中心課題,就是要利用信息熵的基本原理和方法來提高中文的效率。美國的信息產業能有今天的稱雄世界的實力,能接連不斷地產生新的技術產品,是跟堅實的基礎建設分不開的。
  • 世界上最難學的五種語言!漢語竟然只能屈居第二?!
    如果提起世界上的語言種類,你能想到哪些?漢語、英語、日語、韓語、法語、德語、俄語、西班牙語、希臘語、阿拉伯語……除了這些知名度很高的語言,你還能想到哪些呢?是不是又要默默打開百度了?而世界三大語言分別是英語、漢語和西班牙語。英語是國際指定的官方語言,是世界上最廣泛的第一語言,也有不少人將英語作為第二語言,世界上80%的網頁都是英語網頁。
  • 世界上使用人數最多的語言是什麼?英語還是漢語?
    本文導航 第1頁: 世界上使用人數最多的語言是什麼 第2頁: 世界上使用人數最多的語言是什麼答案  世界上使用人數最多的語言是什麼 世界上使用人數最多的語言是什麼?英語還是漢語?小雞寶寶考考你,世界上使用人數最多的語言是什麼答案?看看小雞寶寶考考你,世界上使用人數最多的語言是什麼答案?
  • 世界語言難度係數排名 厲害了我的漢語!
    據美國議會所屬的「政府審計總署」(GAO)最近向參議院外交委員會提出的有關「美國國務院外語績效評估」報告中指出,國務院將派遣到全世界工作的兩千八百三十二名外語任職者,正在使用的六十九種外語分為「世界語言」、「高難度語言」、「超高難度語言」以及「其他語言」等四類語言。包括漢語、韓國語、日本語、阿拉伯語等四種語言,已選為「超高難度語言」。
  • 英語的強勢地位與漢語文藝復興
    倘若對話的語言改為漢語,那麼,這種位置關係就可能會顛倒過來。然而,我的假設在大多數國際性的學術活動中難以成為現實,因為英語是當今世界上的主流語言。  即使在中國本土,英語的強勢地位也毫無遮飾地展現著。全民學英語的激情早已顯露了英語在國人心目中的地位。漢語學人即使對此局面心存不甘,但最終也不得不承認英語的強勢地位。許多在中國召開的國際學術會議開始以英語為會議語言,便是這種態勢的明證。
  • 英語正在深度侵入漢語 300年後漢語會消亡嗎?
    歷史可能這樣記載:世界上最古老的三種文字,古代埃及的聖書字(俗稱埃及象形文字)消亡於公元400年;古代蘇美爾人的楔形文字消亡於公元前330年;由古代中國的甲骨文演變的漢字,消亡於公元2300年。歷經5000年的漢字終於抵抗不住英語的侵入而最後消亡。這不是危言聳聽。
  • 英語能夠傳播到世界各地,為什麼漢語就不行?到底出了什麼問題?
    理論上說每種語言發展幾千年都是無限拓展詞彙量的,但同時也會把常用詞(字)控制在一個合理的範圍內。你說英文單詞數量會爆炸,可英文也是有詞根等規律可循,也總不斷地有詞退出歷史舞臺成為生僻詞。工業革命。蒙古人佔地殺人更多,蒙語也沒有成為通用語言,滿族人統治中原200多年,也沒有人學習滿語。一個語言的影響力還是看他的文明程度的先進性。
  • 世界語言難度排行榜出爐!漢語排名第一,3大難點虐哭外國人
    語言是人類最重要的發明,也是人類進行溝通交流最重要的表達方式,根據數據,目前全世界共有5651種預言,幾乎每一個民族都有自己獨特的語言,在聯合國當中,有6種工作語言,分別是漢語、英語、西班牙語、俄語、法語和阿拉伯語,這6種語言也是當今世界上使用最廣泛的語言。
  • 全球十大主流語言排名,看看咱們漢語排第幾
    在歷史的長河中,有紛繁的語言之星,在當今的世界舞臺上綻放著獨一無二的光彩。下面請大家來看看當今世界十大主流語言:二.漢語普通話儘管排名第二,但能力值只有一半。三.法語四.西班牙語五.阿拉伯語六. 俄語排名前六名的語言恰好是聯合國的六種官方語言,而即便排除掉外交影響,她們也依然排名前六。前十名中剩下的四種語言中,兩種來自金磚國家:葡萄牙語-巴西、印地語-印度,兩種則是兩個經濟強國的官方語言:德語和日語。
  • 未來20年最受歡迎十大語言,漢語排名第四!
    世界上絕大多數國家的人們都在潛心學習英語,面對全球化背景下的就業市場,他們無形中已經成為掌握兩種語言的專家(一種是自己的母語;另一種是英語),這對於很多企業的僱主有著強烈的吸引力,僱主們更願意僱用掌握多種語言的人士,來方便自己企業的國際交流。
  • 英語中常見的漢語詞彙
    漢語詞彙很早就進入歐洲的語言。至少從17世紀開始,一些表達中國特有事物的漢語詞彙就通過音譯或者借譯的手段進入英語。全音借入是英語借入漢語詞彙最主要的方式,也是借入速度最快和最直接的方式。這種方式主要考慮英語與漢語拼音的音似。
  • 漢語真成了「中世紀的茅坑」?
    文章感慨道:一個使用中國納稅人的錢財並在中國召開的會議,卻要一律用英語進行交流,甚至,中國聽眾連翻譯服務都無法享有,豈非咄咄怪事?  看罷,我氣得差點吐了血!如果我是個不懂洋文的人,有人會認為我在「憤英」呢。我大學學了英語、法語,自學過世界語、西班牙語、葡萄牙語和日語,我的感覺是,世界上再沒有比漢語更科學、有嚴謹、更高效的語言了。