對於廣大的研究「僧」同胞來說,在漫長的科研道路上應該都翻譯過英文文獻,不知道大家有沒有發現,相同的一篇文章,為什麼用中文翻譯過來後,篇幅要明顯比之前的英文原文縮短很多,這是為什麼呢?難道僅僅是因為英語單詞佔的位置比中文漢字佔的位置長這麼簡單嗎?今天小編就帶著大家從熵(entropy)這一角度來分析下這個問題。
熵(entropy)的概念最早起源於物理學中,它被用於度量一個熱力學系統的無序程度,無序程度越高,熵越大;無序程度越低,熵越小。這裡需要特別強調的是,熵代表的是不確定性的度量而不是確定性的度量,因為越是隨機的信源所包含的信息越多,熵越大;反之,越是規則的信息所包含的信息越少,熵越小。水的三種存在方式:冰、水、水蒸氣就是解釋熵的概念很好的例子。
冰中的分子位置相對固定,因此熵值最低;水中的分子相比較冰來說,活動位置更加不確定,因此熵值較大;而水蒸氣中的分子就更加不固定,活動的範圍最大,因此水蒸氣的熵值也三者之中最大的。簡而言之,越是不確定的東西它所具有的熵值也就越大。在資訊理論中,熵指的是接收到的每條消息中所包含的信息平均量,又被稱作為信息熵、信源熵或者平均自信息量,用H表示。比特(BIT)是衡量信息的單位,直觀上傳遞1比特的信息量就是將不確定性減半。例如我們考慮投一枚分布均勻的硬幣,那麼結果可能為正面朝上或者是反面朝上,並且二者概率一樣均為p=0.5。那麼我預測拋硬幣這件事情的結果為正面或者是反面的期望(平均)信息熵為:接下來回到我們最初考慮的問題,英語有26個字母,為了簡化問題我們假設每個字母在一篇文章中出現的概率相同,在這種情況下,每個字母的信息量為log2(1/26)=4.7,而常用的漢字有2500個,如果每個漢字在一篇文章中出現的概率相同的情況下,那麼每個漢字的信息量為log2(1/2500)=11.3。這樣就會解釋一個非常有趣的現象:如果兩個系統具有相同大小的信息量,例如一篇用不同文字書寫的同一篇文章。由於每個漢字的信息量較大,中文文章使用的漢字數量就比英文文章使用的字母數量要少。所以用漢字印刷的文章要比用英文字母印刷的文章要短,即使一個漢字佔用了兩個字母的空間,使用漢字印刷的文章用紙也要比使用英文字母印刷的用紙少一些。這樣通過熵來解釋為什麼相同的一篇文章,中文要比英文篇幅更小就很清楚了吧。