有人為漢字信息量大而驕傲,殊不知它使得中文信息管理和傳遞的成本增加,困難加大。 ★中文信息產業基礎建設的中心課題,就是要利用信息熵的基本原理和方法來提高中文的效率。
美國的信息產業能有今天的稱雄世界的實力,能接連不斷地產生新的技術產品,是跟堅實的基礎建設分不開的。這個基礎建設的基本依據,是信息科學技術的基本原理和方法:信息熵(ENTROPY)。
第二次世界大戰期間,美國為了提高信息儲存和傳遞的效率,發明了多種新的編碼方法,奠定了現代信息科學技術的基礎。戰爭結束後,這些方法得到了飛躍發展。在這些方法當中,科學家山農和霍夫曼提出的信息熵和數據壓縮的理論和方法最能代表現代信息學的基本概念。個人計算機和BBS問世以後,信息熵和數據壓縮技術迅速普及。現在,這種技術已經成為計算機和聯網必不可少的組成部份。
信息熵的基本目的,是找出某種符號系統的信息量和多餘度之間的關係,以便能用最小的成本和消耗來實現最高效率的數據儲存、管理和傳遞。
五十年代,現代資訊理論介紹到中國;七十年代,我國科學家完成了中文漢字字符信息熵的初步計算工作;八十年代又做了更完整的計算。他們的基本方法是:逐漸擴大漢字容量,隨著漢字容量增大,信息熵的增加趨緩;漢字增加到12370以後,不再使信息熵有明顯的增加。通過數理語言學中著名的齊普夫定律(ZIPF』SLAW)核算,我國科學家指出,漢字的容量極限是12366個漢字,漢字靜態平均信息熵的值(平均信息量)是9.65比特。這是當今世界上信息量最大的文字符號系統。下面是聯合國五種工作語言文字的信息熵比較:
法文:3.98比特
西班牙文:4.01比特
英文:4.03比特
俄文:4.35比特
中文:9.65比特
可以看出,拼音文字的信息熵小,差別不大。漢字的信息量最大,因而,在信息管理和傳遞的時候,中文處於最不利的地位。
(一)
隨著計算機的速度、儲存和兼容能力等各方面的提高,中文信息管理和傳遞的困難是否會自動得到解決呢?不一定。例如,即便我們用四個字節來作國際標準字符集(國際標準組織已經多次提出這個方案),使每個漢字有足夠的比特剩餘來作奇偶檢驗和特性參數,讓所有的計算機和作業系統都能使用,然而,數據全面管理和傳遞的效率問題依然存在。原因是:
(一)中文數據的文字方式決定了標準的多重性和規模過大,而且,只要漢字還再增加,它的字符集就是不穩定的。不管一個字符用多少字節,也不管計算機的儲存容量有多大,也不管各種系統的兼容有多麼全面,這樣的字符集做數據儲存和檢索還可以,做全面的數據管理就總是有嚴重問題。
(二)不管用什麼中文輸入方法,漢字輸入輸出的字符仍然需要多次轉換,還是高成本和高消耗的。現有的中文輸入方法跟語言文字的標準規範之間的差別依然存在,人的操作和學習等效率還是沒有得到提高。電筆和聲音輸入是重要的技術,但是,這些技術突破並不能取代鍵盤輸入,更不能解決中文的效率問題。
(三)拼音文字的每個字符只要一個字節,現在用兩個字節的聯碼(UNICODE),已經有一個字節是多餘的,在做數據處理和傳遞的時候,為此多支出了一倍的成本(包括處理多餘字節的程序消耗)。這些多餘成本基本是為了遷就中文等亞洲文字的需要。如果用四個字節,就有三個字節是多餘的,使用拼音文字就要多支出三倍的成本。將來,各方面的發展能否抵消這些多餘成本,還不清楚。拼音文字的母語國家是否樂意為了中國漢字的需要而繼續犧牲自己的利益來年復一年地支出更多和毫無回收可能的成本,也不清楚。
(四)通訊傳遞中,漢字字符由雙字節變成了四字節,使原來的成本和消耗增加了一倍,平衡或抵消了字節增加和速度提高所帶來的效益。
中文效率的根本問題不是出在計算機方面,而是出在漢字方式本身。因而,不管用不用計算機,也不管計算機技術怎麼發展,中文的低效率問題依然存在。再說,計算機技術發展,所有的語言文字都得益,相比之下,原來高效率的文字方式的效率仍然是高效率的,漢字方式仍然處於不利地位。
(二)
可以看出,漢字信息量大,是中文信息管理和傳遞成本高、消耗大和效率低的基本原因。漢字為中國文明的延續發展發揮了巨大的歷史作用。今天,漢字方式是阻礙中文信息科學技術發展的頭號困難因素。中國可以在信息工業的機械設計和製作方面趕上世界先進水平,然而,如果不能擺正和改善中文的信息熵和多餘度之間的關係,那麼,中國的信息產業的整體就總是低效率的,就總得跟著別人後面走,難免挨打。一些美國人擔心中國發展計算機和飛彈技術會造成「中國威脅」,那的確是誇張了。即便把美國所有的計算機技術和飛彈技術都交給中國,只要中國還是按照漢字方式來操作,那麼,在計算機和飛彈技術方面,中國就總是處於不利地位。中國火箭飛彈技術專家錢學森等人早就說過:如何提高中文效率是關係到國家安全的戰略大事。
許多從事中文信息熵研究的科學家們說:中國失去了整整一個打字機時代(工業革命),對中國的綜合國力建設帶來了不利條件。在計算機資訊時代,漢字方式和現代科學技術矛盾更加深化了,其中最大的問題是如何利用信息熵的原理和方法來優化中文數據的管理和傳遞,其中包括文字方式和書寫工具(例如計算機)的最優結合。這是中國科學家近30年之久的中文資訊理論研究的經驗,其中有些科研成果受到了國際科學界的承認和高度重視。面對日益強盛的資訊時代的挑戰,中國科學家是有充分準備的。如果中國能按照原來準備好了的方向發展,那麼,中國的信息產業(包括軟體產業)就會避免許多彎路,微軟公司對中國軟體市場的誤導作用也不會那麼嚴重。
然而,這些年來,中國有些報刊雜誌望文生義,以為「漢字信息量大」是好事情,把它作為鼓吹「漢字文化」和「漢字優越」論的依據,甚至把這些違背科學技術基本原理的東西貼上愛國主義的標籤。這種作法極大地誤導了人們對信息科學技術的理解。微軟公司最關心的是中國市場的利潤,而不是中文信息科學技術的前途。「漢字優越」論鼓動人們不要去過問中文信息產業發展的基礎科學技術問題。
信息科學技術跟語言文字息息相關,它的發展對許多國家的傳統文化提出了挑戰,包括對美國一類信息工業大國的挑戰。中國的歷史悠長,文字方式獨特,自然就受到最嚴峻的挑戰。面對科學技術的挑戰,就要用科學技術的發展來迎戰。用極端民族主義的作法回應挑戰,最後總是失敗,傳統文化最後也還是保不住。
中國政府可以通過法律、標準和專利等手段來為中文軟體和中文信息產業的發展提供環境保護。然而,「發展才是硬道理」。中文軟體和中文信息產業到底能不能在日益全球化的競爭中倖存,最後還得看自己的基礎建設搞得怎麼樣。就目前和將來的狀況來說,中文信息產業基礎建設的中心課題,就是要利用信息熵的基本原理和方法來提高中文的效率。