漢語的「信息熵」劣勢

2020-12-05 光明網

有人為漢字信息量大而驕傲,殊不知它使得中文信息管理和傳遞的成本增加,困難加大。

★中文信息產業基礎建設的中心課題,就是要利用信息熵的基本原理和方法來提高中文的效率。

美國的信息產業能有今天的稱雄世界的實力,能接連不斷地產生新的技術產品,是跟堅實的基礎建設分不開的。這個基礎建設的基本依據,是信息科學技術的基本原理和方法:信息熵(ENTROPY)。

第二次世界大戰期間,美國為了提高信息儲存和傳遞的效率,發明了多種新的編碼方法,奠定了現代信息科學技術的基礎。戰爭結束後,這些方法得到了飛躍發展。在這些方法當中,科學家山農和霍夫曼提出的信息熵和數據壓縮的理論和方法最能代表現代信息學的基本概念。個人計算機和BBS問世以後,信息熵和數據壓縮技術迅速普及。現在,這種技術已經成為計算機和聯網必不可少的組成部份。

信息熵的基本目的,是找出某種符號系統的信息量和多餘度之間的關係,以便能用最小的成本和消耗來實現最高效率的數據儲存、管理和傳遞。

五十年代,現代資訊理論介紹到中國;七十年代,我國科學家完成了中文漢字字符信息熵的初步計算工作;八十年代又做了更完整的計算。他們的基本方法是:逐漸擴大漢字容量,隨著漢字容量增大,信息熵的增加趨緩;漢字增加到12370以後,不再使信息熵有明顯的增加。通過數理語言學中著名的齊普夫定律(ZIPF』SLAW)核算,我國科學家指出,漢字的容量極限是12366個漢字,漢字靜態平均信息熵的值(平均信息量)是9.65比特。這是當今世界上信息量最大的文字符號系統。下面是聯合國五種工作語言文字的信息熵比較:

法文:3.98比特

西班牙文:4.01比特

英文:4.03比特

俄文:4.35比特

中文:9.65比特

可以看出,拼音文字的信息熵小,差別不大。漢字的信息量最大,因而,在信息管理和傳遞的時候,中文處於最不利的地位。

(一)

隨著計算機的速度、儲存和兼容能力等各方面的提高,中文信息管理和傳遞的困難是否會自動得到解決呢?不一定。例如,即便我們用四個字節來作國際標準字符集(國際標準組織已經多次提出這個方案),使每個漢字有足夠的比特剩餘來作奇偶檢驗和特性參數,讓所有的計算機和作業系統都能使用,然而,數據全面管理和傳遞的效率問題依然存在。原因是:

(一)中文數據的文字方式決定了標準的多重性和規模過大,而且,只要漢字還再增加,它的字符集就是不穩定的。不管一個字符用多少字節,也不管計算機的儲存容量有多大,也不管各種系統的兼容有多麼全面,這樣的字符集做數據儲存和檢索還可以,做全面的數據管理就總是有嚴重問題。

(二)不管用什麼中文輸入方法,漢字輸入輸出的字符仍然需要多次轉換,還是高成本和高消耗的。現有的中文輸入方法跟語言文字的標準規範之間的差別依然存在,人的操作和學習等效率還是沒有得到提高。電筆和聲音輸入是重要的技術,但是,這些技術突破並不能取代鍵盤輸入,更不能解決中文的效率問題。

(三)拼音文字的每個字符只要一個字節,現在用兩個字節的聯碼(UNICODE),已經有一個字節是多餘的,在做數據處理和傳遞的時候,為此多支出了一倍的成本(包括處理多餘字節的程序消耗)。這些多餘成本基本是為了遷就中文等亞洲文字的需要。如果用四個字節,就有三個字節是多餘的,使用拼音文字就要多支出三倍的成本。將來,各方面的發展能否抵消這些多餘成本,還不清楚。拼音文字的母語國家是否樂意為了中國漢字的需要而繼續犧牲自己的利益來年復一年地支出更多和毫無回收可能的成本,也不清楚。

(四)通訊傳遞中,漢字字符由雙字節變成了四字節,使原來的成本和消耗增加了一倍,平衡或抵消了字節增加和速度提高所帶來的效益。

中文效率的根本問題不是出在計算機方面,而是出在漢字方式本身。因而,不管用不用計算機,也不管計算機技術怎麼發展,中文的低效率問題依然存在。再說,計算機技術發展,所有的語言文字都得益,相比之下,原來高效率的文字方式的效率仍然是高效率的,漢字方式仍然處於不利地位。

(二)

可以看出,漢字信息量大,是中文信息管理和傳遞成本高、消耗大和效率低的基本原因。漢字為中國文明的延續發展發揮了巨大的歷史作用。今天,漢字方式是阻礙中文信息科學技術發展的頭號困難因素。中國可以在信息工業的機械設計和製作方面趕上世界先進水平,然而,如果不能擺正和改善中文的信息熵和多餘度之間的關係,那麼,中國的信息產業的整體就總是低效率的,就總得跟著別人後面走,難免挨打。一些美國人擔心中國發展計算機和飛彈技術會造成「中國威脅」,那的確是誇張了。即便把美國所有的計算機技術和飛彈技術都交給中國,只要中國還是按照漢字方式來操作,那麼,在計算機和飛彈技術方面,中國就總是處於不利地位。中國火箭飛彈技術專家錢學森等人早就說過:如何提高中文效率是關係到國家安全的戰略大事。

許多從事中文信息熵研究的科學家們說:中國失去了整整一個打字機時代(工業革命),對中國的綜合國力建設帶來了不利條件。在計算機資訊時代,漢字方式和現代科學技術矛盾更加深化了,其中最大的問題是如何利用信息熵的原理和方法來優化中文數據的管理和傳遞,其中包括文字方式和書寫工具(例如計算機)的最優結合。這是中國科學家近30年之久的中文資訊理論研究的經驗,其中有些科研成果受到了國際科學界的承認和高度重視。面對日益強盛的資訊時代的挑戰,中國科學家是有充分準備的。如果中國能按照原來準備好了的方向發展,那麼,中國的信息產業(包括軟體產業)就會避免許多彎路,微軟公司對中國軟體市場的誤導作用也不會那麼嚴重。

然而,這些年來,中國有些報刊雜誌望文生義,以為「漢字信息量大」是好事情,把它作為鼓吹「漢字文化」和「漢字優越」論的依據,甚至把這些違背科學技術基本原理的東西貼上愛國主義的標籤。這種作法極大地誤導了人們對信息科學技術的理解。微軟公司最關心的是中國市場的利潤,而不是中文信息科學技術的前途。「漢字優越」論鼓動人們不要去過問中文信息產業發展的基礎科學技術問題。

信息科學技術跟語言文字息息相關,它的發展對許多國家的傳統文化提出了挑戰,包括對美國一類信息工業大國的挑戰。中國的歷史悠長,文字方式獨特,自然就受到最嚴峻的挑戰。面對科學技術的挑戰,就要用科學技術的發展來迎戰。用極端民族主義的作法回應挑戰,最後總是失敗,傳統文化最後也還是保不住。

中國政府可以通過法律、標準和專利等手段來為中文軟體和中文信息產業的發展提供環境保護。然而,「發展才是硬道理」。中文軟體和中文信息產業到底能不能在日益全球化的競爭中倖存,最後還得看自己的基礎建設搞得怎麼樣。就目前和將來的狀況來說,中文信息產業基礎建設的中心課題,就是要利用信息熵的基本原理和方法來提高中文的效率。

相關焦點

  • 信息熵是什麼,為啥漢語被稱為信息熵最大的語言?最普及的英語呢
    在1949年外國學者發表了一篇論文,讓人們進入了一個信息化的時代,所有發生的事件都可以用信息的單位來度量,很多人就提出,語言作為人與人進行溝通的必須手段,裡面的信息量應該很大吧,到底有多少?經過各學者多年的探究和各種語言的統計,得出一個結果,漢語是世界上信息熵最大的語言。那麼這個信息熵是什麼呢?
  • 漢語為何成為世界上信息熵最大的語言,英語只有漢語的十分之一
    漢語是世界上信息熵最大的主流語言。在1948年發表了一篇論文,震撼了學術界,而這篇論文也開創了一個信息度量的時代,既然事件發生的信息可以度量,語言作為一種信息傳遞的手段,那麼語言中的信息是多少?世界上有最優秀的語言嗎?   在此之前我們先來談談什麼叫做信息熵。
  • 信息、熵、螺旋星系
    在新的研究中,我們證明了信息和熵也能以一種完全相同的方式聯繫在一起,成為「信息熵」。電流會產生磁場,而變化的磁場會產生電流;信息和熵也會以同樣的方式相互影響。 熵是物理學中的一個基本概念,簡單地說,它是對一個系統混亂程度的度量。
  • 坤鵬論:信息是熵?錯!
    三、信息不是熵!香農說過,信息是熵。實話講,這話挺害人。就算我們按照熱力學中熵的錯誤理解——熵=混亂,也不能想明白「信息是熵」是個什麼道理?在《錯了!信息熵≠信息量 輕鬆讀懂什麼是信息熵》中,我們已經知道了,資訊理論裡面的熵,指的是不確定性的程度。如果說「信息是熵」,那麼到底是:信息=不確定程度?還是信息=不確定性?顯然都不對吧?!
  • 第二個麥克斯韋妖——信息熵
    " 第一個小妖,分離了速率不同的分子,降低了系統的熵,引發了人們對生命的思考;第二個小妖,讓一個分子推動活塞做功,降低了系統的熵,引導了人們建立信息理論。兩個妖啟迪了人類的智慧,開闢了新的疆域。"齊拉特通過一個奇妙的想像中的實驗,進行理性思考,發現了信息與熵的聯繫,展示了理性思考的強大作用。他的這個看法,意義深遠,開啟了現代資訊理論的先河。03布裡淵對小妖工作分析齊拉特遠在計算機時代到來之前,就注意到了熵和信息的聯繫,這是一件很了不起的事情。
  • 最大信息熵模型Maxent
    最大信息熵模型Maxent軟體V3.4.1是美國哥倫比亞大學 Steven J. Phillips基於 Java平臺設計的一款用於預測物種潛在分布軟體。目前在第四次全國中藥資源普查成果應用方面發揮重要作用(中藥材適宜性評價及區劃)。
  • 信息過載 你受「熵」了嗎?
    目不暇接之時,騰訊「下一代移動生活」主題分論壇一個若大的「熵」字把小編吸引了過去。這個字倒是考到了小編,首先讀音這關都很難邁過,更別說它的涵義了。正在小編跟會場所有人一樣迷惑不解時,QQ瀏覽器首席產品架構師葉駿講述了其中的奧妙。
  • 信息熵是怎樣煉成的 | 紀念資訊理論之父香農
    撰文 | 丁玖(南密西西比大學數學教授)紀念"資訊理論之父"香農的最好方式,莫過於重溫一下他怎樣定義信息熵的數學思想,去理解現代資訊理論這個基本概念——僅用初等代數即可推導,令人賞心悅目,流連忘返!確定性過程在數學裡是司空見慣的現象。
  • 大數據之從存儲單位到信息熵
    bit表示計算機的位,同時它也是信息熵的度量單位。定性看信息與信息熵我們常說的信息是一個很抽象的概念,人們常說信息多,信息少,但很難量化信息到底有多少。香農借鑑了熱力學的概念,把信息中排除了冗餘後的平均信息量稱為「信息熵」,信息熵的數學表達式通俗的理解,當一個事物有多種可能發生的情況時,具體單個情況發生的不確定性叫做熵,而能夠消除這種情況發生的不確定性的事物叫做信息。二者數量相等,意義相反,我們可以通過獲取信息來消除不確定性(熵) 。
  • 生活中的熵增定律&信息維度的熵減
    關鍵詞:熵、熵增、熵減、信息工具。 解答問題:為什麼生活中有那麼多越來越亂的現象?人為什麼需要自律? 1 「熵」的概念 熵,讀「shāng」, 音同商,熵的概念最初是德國克勞修斯提出,是一個物理學概念,後來被應用到資訊理論、統計物理、概率論等領域,不同學科中引申不同的含義。
  • 【20180928】原小點科普·最大信息熵原理
    這兒所說的最佳方案,與資訊理論中的「最大信息熵原理」有關。什麼是最大信息熵原理?它來自於熱力學及統計物理中的熵增加原理。要講清楚這個問題需要太多篇幅,在此只作簡單介紹。用通俗的話來說,最大信息熵原理就是當你對一個隨機過程不夠了解時,你對概率分布的猜測要使得信息熵最大。熵最大就是事物可能的狀態數最多,複雜程度最大。
  • 坤鵬論:為什麼漢字信息熵大,表現出來的卻是言簡意賅?
    ——坤鵬論昨天《是信息熵越大,信息量越多?還是信息熵越大,信息量越少?》發布後,有網友和坤鵬論進行了討論。坤鵬論琢磨了一晚上,連做夢都在琢磨。所以,資訊理論的信息量都是講從現在的不確定到未來完全的確定性,還需要輸入多少信息。那麼,像「信息量 = 獲取信息前事件的信息熵 - 獲取信息後事件的信息熵」,這樣的公式就不太正確了。
  • 價格機制的減熵功能
    根據資訊理論原理,如果以信息熵代表購買者的需求信息,那麼,相比其他配置方式,價格提供的信息量最大,消除的信息熵最多,保證評價大於或等於市價的人獲取商品,使得買者盈餘最大。這是古今中外多數經濟資源通過價格交換的主要原因,也是「讓市場在資源配置中起決定性作用」的主要原因。
  • 新加坡基本是華人,為何一獨立就廢除漢語?李光耀:漢語有個劣勢
    那麼則不得不提一個人——新加坡最偉大的總理李光耀;那麼則不得不提一項重大的政策——廢除漢語,將英語作為國語。新加坡一實現獨立便廢除漢語,在上個世紀的世界裡,可以說是一項極具積極意義的決策,它從多方面推動了新加坡綜合國力的巨大進步。
  • 意識的進化即智慧的進化,就是一個信息熵減的過程
    驅使外部環境熵減的能力其實也是來自於量子,這就是量子自由意志帶來的結果,是較多個量子自由意志綜合的結果,即較多個量子的綜合效應實際上是達到了信息熵減的作用,在對外界的作用上表現出來就是物理熵減。上述所說的多個量子造成的信息熵減,實際上人類的觀念以及直接反應,甚至其他生命也具有同樣的功能。
  • 理解熵、交叉熵和交叉熵損失
    為了全面理解,我們需要按照以下順序理解概念:自信息, 熵,交叉熵和交叉熵損失自信息"你對結果感到驚訝的程度"一個低概率的結果與一個高概率的結果相比,低概率的結果帶來的信息量更大。現在,如果$y_i$是第i個結果的概率,那麼我們可以把自信息s表示為:熵現在我知道一個事件產生某個結果的自信息,我想知道這個事件平均帶來多少自信息。對自信息s進行加權平均是很直觀的。現在的問題是選擇什麼權重?因為我知道每個結果的概率,所以用概率作為權重是有意義的,因為這是每個結果應該發生的概率。
  • 熵:傷腦筋的熵
    Williard Gibbs)熵、香農(Claude Shannon)的信息熵 (見下文),其定義都是基於概率的概念,所以都有一個負號。因為利用狀態數有其便利的一面,為避免混淆,一些統計力學書中把熵公式寫成 S=k logΩ的形式,用Ω表示同宏觀狀態相恰的微觀狀態數。
  • 熵:傷腦筋的熵-虎嗅網
    後來出現的吉布斯熵、香農的信息熵 ,其定義都是基於概率的概念,所以都有一個負號。因為利用狀態數有其便利的一面,為避免混淆,一些統計力學書中把熵公式寫成 S=k logΩ的形式,用Ω表示同宏觀狀態相恰的微觀狀態數。
  • 《量子信息不守恆定律:信息量子的序動量與熱輻射的熵能量可以相互轉化嗎?》
    我們在深入研究黑洞信息悖論問題時發現:物體毀滅,物質不滅。信息丟失,熱熵增加。能量守恆,序動量減少,熵能量增加。我們最終發現了:「物質質量、信息量、能量、熵能量」四者之間存在此起彼伏的正相關關係。這就是質能量信息量轉化和守恆定律。質能量信息量轉化和守恆定律或者信息量子熱力學第一定律認為:物體是生成的,信息是生成的,時空是生成的,熱熵量是生成的。
  • 深究熵的概念和公式以及最大熵原理
    怎麼描寫和衡量信息,也有一個非常奇妙信息熵的公式:S=-p log p。這個公式不像E=mc²那麼知名,但愛因斯坦說過一句話:等到人類的知識往前推進,牛頓力學可能不對,量子力學可能不對,相對論可能也不對,但信息熵的公式是永恆的。