為何英文文章的篇幅要比中文文章的長?——從熵的角度來看

2021-02-15 道器
 點擊上方「道器」,輕鬆關注我們

    對於廣大的研究「僧」同胞來說,在漫長的科研道路上應該都翻譯過英文文獻,不知道大家有沒有發現,相同的一篇文章,為什麼用中文翻譯過來後,篇幅要明顯比之前的英文原文縮短很多,這是為什麼呢?難道僅僅是因為英語單詞佔的位置比中文漢字佔的位置長這麼簡單嗎?今天小編就帶著大家從熵(entropy)這一角度來分析下這個問題。


      熵(entropy)的概念最早起源於物理學中,它被用於度量一個熱力學系統的無序程度,無序程度越高,熵越大;無序程度越低,熵越小。這裡需要特別強調的是,熵代表的是不確定性的度量而不是確定性的度量,因為越是隨機的信源所包含的信息越多,熵越大;反之,越是規則的信息所包含的信息越少,熵越小。水的三種存在方式:冰、水、水蒸氣就是解釋熵的概念很好的例子。 

冰中的分子位置相對固定,因此熵值最低;水中的分子相比較冰來說,活動位置更加不確定,因此熵值較大;而水蒸氣中的分子就更加不固定,活動的範圍最大,因此水蒸氣的熵值也三者之中最大的。簡而言之,越是不確定的東西它所具有的熵值也就越大。在資訊理論中,熵指的是接收到的每條消息中所包含的信息平均量,又被稱作為信息熵、信源熵或者平均自信息量,用H表示。比特(BIT)是衡量信息的單位,直觀上傳遞1比特的信息量就是將不確定性減半。例如我們考慮投一枚分布均勻的硬幣,那麼結果可能為正面朝上或者是反面朝上,並且二者概率一樣均為p=0.5。那麼我預測拋硬幣這件事情的結果為正面或者是反面的期望(平均)信息熵為:接下來回到我們最初考慮的問題,英語有26個字母,為了簡化問題我們假設每個字母在一篇文章中出現的概率相同,在這種情況下,每個字母的信息量為log2(1/26)=4.7,而常用的漢字有2500個,如果每個漢字在一篇文章中出現的概率相同的情況下,那麼每個漢字的信息量為log2(1/2500)=11.3。這樣就會解釋一個非常有趣的現象:如果兩個系統具有相同大小的信息量,例如一篇用不同文字書寫的同一篇文章。由於每個漢字的信息量較大,中文文章使用的漢字數量就比英文文章使用的字母數量要少。所以用漢字印刷的文章要比用英文字母印刷的文章要短,即使一個漢字佔用了兩個字母的空間,使用漢字印刷的文章用紙也要比使用英文字母印刷的用紙少一些。這樣通過熵來解釋為什麼相同的一篇文章,中文要比英文篇幅更小就很清楚了吧。

相關焦點

  • 漢語文章要不要夾用英文
    在學習中他發現,許多翻譯成漢語的外來名詞他百思不得其解,但一看到英文原詞則恍然大悟。於是,他向漢語老師建議:外國的人名、地名、企業、產品等名稱在漢語中是否應該用英文表示。     用外文還是用中文     記者:賽明遇到的麻煩並不是偶然現象,它在我們的生活中還有著更深遠的意味。今天我們請來傳播學專家與語言學專家一起來談談關於語言的話題。
  • 高熵合金的納米力學與納米結構的高熵合金:閒聊那些年寫過的文章
    不過從基礎研究的角度來看,在另一個金屬固溶體裡,沒有區分哪個元素是溶質,哪個元素是溶劑,所有元素「平等」,這樣的結構聽起來還是挺有趣的。 我開始接觸到高熵合金這個概念的時候大概是2013年,當時這個方向還沒有現在這麼火。純屬偶然的一個機會,HEA成了我博士課題的一個side project(附帶項目)。
  • 如何看待中國科學技術大學博士畢業,要求發表一篇中文文章?
    事件起因:2019年6月20日,中國科學技術大學韓正甫教授要求:自2019年入學的博士開始,必須發表1篇中文文章或論文才能畢業,哪怕是媒體、雜誌的科普文章。小西一下子就想到百家號發文,之前在百家有關注幾個中科大的在讀博士生,非常優秀!
  • 做對三件事,SCI文章在招手
    以我自己的投稿經驗來看, Letters to the Editor和針對期刊已經發表的文章進行Commentaries是比較容易發表的。因為這兩種類型的文章沒有太多固定的格式,更多是一種觀點、態度的表達,而且篇幅也比較短小精悍,比較容易在短時間內完成,而且整個審稿周期相對也很快,甚至從投稿到接收,可以在10天左右就完成。
  • 探討科技文章標題的寫作與翻譯
    科技文章的標題,也就是論文、技術報告等的標題。它要求簡明、高度地概括全文的實質性內容。而且,標題應該是讓人看了一目了然,並給讀者留下深刻的印象。因此,處理好科技文章標題的寫作和翻譯,是準確概括和表達科技文章實質內容的關鍵,往往要經過反覆推敲才能確定。
  • 別人能讀英文文章,你卻一看就頭疼?三個方法讓你輕鬆讀英文
    小悠剛上大一,學的是會計專業,以後想出國深造,於是趁著假期來補習英文。由於之後會參加語言考試,所以我選用的是真題文章,詞數一般在2000詞上下。小悠第一次看到文章,直用拳頭錘眉心,大呼頭暈,僅僅看了一眼就扔掉了。我問她為什麼這麼反感,她回答說:「我從小英文就不好,沒有語言天賦,這麼長的文章肯定讀不懂。」
  • 熵:傷腦筋的熵-虎嗅網
    Entropy如何轉變成了中文的「熵」, 這一點還盼國內科學史家詳加考證。中文熵,或曰熱溫商,確實易讓人聯想到除式 ds=dQ/T 而非能量轉換的內在問題。此公式是計算工具,卻不是entropy 的定義。若由熵,或熱溫商,來理解entropy,難免誤入歧途。其根據積分公式而來的漢譯有其歷史的合理性,但從根本上來說卻是錯誤的,似乎熵的定義或計算依賴溫度的存在。
  • 熵:傷腦筋的熵|賢說八道
    Entropy如何轉變成了中文的「熵」, 這一點還盼國內科學史家詳加考證。中文熵,或曰熱溫商,確實易讓人聯想到除式 ds=dQ/T 而非能量轉換的內在問題。此公式是計算工具,卻不是entropy 的定義。若由熵,或熱溫商,來理解entropy,難免誤入歧途。其根據積分公式而來的漢譯有其歷史的合理性,但從根本上來說卻是錯誤的,似乎熵的定義或計算依賴溫度的存在。
  • 熵:傷腦筋的熵
    篇幅所限,不能詳述玻爾茲曼的工作,此處僅指出玻爾茲曼基於原子假設,把事件的不可能性(impossibility)表述成了相應體系狀態的極小概率 (improbability)。考慮一個佔據有限體積,能量有限的系統,龐加萊循環定理說,無論你的初始態如何,只要你等足夠長的時間,系統會回到任意靠近這個初始態的一個態。既然是相空間的構型經過一個過程回到原點,則必然既有熵增加的時候,也有熵減小的時候,這和熵增加原理似乎存在不可調和的矛盾。筆者以為這個所謂的矛盾有關公戰秦瓊的味道。
  • 最大熵方法及其在自然語言處理中的應用研究
    因為句子是一種主要的連接媒介,所以要想探究文章的承上啟下內容,就應當以它為主要的研究方向。利用最大熵方法就可以在內部模型的結構理論中,找尋有效的自然語言處理,從而實現對語言的加工。英文詞性標註英文詞性中的標準器會有45個詞彙,根據最大熵方法的理論研究,其中的英文詞性解注選用十八種特點,總的概括分類,可以將其分為以下幾個方面。第一,五個單詞,視為前一個詞彙的前後第一和第二單詞的本身含義。第二,兩個單詞的性質含義標註,即為前一個和前兩個單詞詞性的解釋。
  • 強烈推薦這部簡短的英文小說,你可能讀懂文章卻被它的標題迷惑!
    今天我要給大家分享一位非知名作家羅伯特·貝斯特(Robert Best)的優秀短篇小說《我的第一份工作》(My First Job)。如果這篇文章是完整的而不是節選,那作者起的標題是不是有點欠考慮呢?從篇幅來看,它可以算是一個微型小說,會讓有些讀者產生「沒寫完」的錯覺。讀完的朋友應該發現了,從「我」開始找工作,一直到結尾面試完的那句This was the last straw. 通篇都沒有講到工作的具體內容。
  • 中文為何比英文美麗?美在哪裡?雅在哪裡?動聽在哪裡?
    如果對中文和英文都深入研究,你會發現中文遠比英文更美!如果說中文是精心錘鍊的高級文字,那英文就顯得粗糙簡陋:幾千年的錘鍊讓中文詞彙典雅、凝練、雋永、回味悠長、意境深遠,而英文詞彙則簡單、直白,內外通透,缺乏意境;如果說中文是美妝盛宴,那英文就是素麵朝天;中文是身穿華麗晚禮服、風情萬種的貴婦,那英文就是T恤、牛仔褲的鄰家女孩。
  • 坤鵬論:沒有信息熵,就不可能在電腦和手機上聽音樂、看電影?
    所以信息熵公式不是文字效率公式,是碼長的節約或冗餘,而不是信息本身的節約或冗餘。就像前面文章舉過的香農本人設計的例子:Most people have little difficulty in reading this sentence.
  • 學術界為啥不愛投中文期刊?
    ;中國期刊的影響因子逐年提高,但很多中文期刊獲差評;對比國際期刊的「秒回」,一些中文期刊的審稿時間長達9個月;對比國際期刊全文刊載,不少中文期刊吝嗇地將篇幅限制在8頁;對比國際期刊的專家審稿,很多中文期刊審稿人將審稿權給了在校生。
  • 專欄| 中文NLP難於英文?從語言學角度看中文NLP、NLU難在哪裡
    作者:竹間智能自然語言與深度學習小組長期以來,中文自然語言處理(NLP)的研究遭遇瓶頸,其中一個重要原因就是中文的語言學基本無法遷移到已有的成熟的深度學習模型中,這也是中文 NLP 難於英文的重要原因之一。而竹間智能在自然語言處理的研究中,結合深度學習、語言學和心理學等,通過 NLU 來彌補傳統中文 NLP 在語言理解上的不足,取得了不錯的成果。
  • 如何統計一篇文章的字數、行數
    寫的文章篇幅較長,怎樣利用電腦快速統計出其字數。在word中是有專門的功能的,通過菜單欄-編輯-查找功能還可以統計出整篇文章中某幾個字的字數。全部統計都是word自動進行。首先將文章打開,或者複製別處的文章到word中。文章進來後,點擊菜單欄-工具-字數統計。
  • 中科大光學工程博士必須發一篇中文文章才能畢業,有這個必要嗎?
    「從今年入學的博士生開始,必須發一篇中文文章或論文才能畢業,哪怕在媒體或雜誌上發一篇科普文章,甚至科技新聞報導都可以,但你不能沒有。即使發再多很好的英文論文,也不行。」 中國科學技術大學中科院量子信息重點實驗室教授韓正甫告訴記者。
  • 「輕鬆閱讀」學術界為啥不愛投中文期刊?
    作者:卜葉來源:「中國科學報」官網;瞭望智庫微信平臺編輯:周悅來看一組數據:中國SCI論文發表數量位列世界第二,但超90%發表在國外期刊;中國期刊的影響因子逐年提高,但很多中文期刊獲差評;對比國際期刊的「秒回」,一些中文期刊的審稿時間長達9個月
  • 高熵合金領域高被引的11篇文章,給過你那些啟示?
    (多主元合金)在論文中第一次被提出後,關於高熵合金的文章如雨後春筍層出不窮。在這裡我們詳細介紹高熵合金兩年內高被引的11篇文章,希望這些高質量的文章能祝你更好地理解高熵合金,也給你靈感閃現的瞬間。中熵、低熵的劃分界限(R氣體摩爾常數),高的熵值使它不同於其它合金,更易於形成單一穩定的相。
  • 好文章為何被扣除20分?
    因為是世界終極難題,各個領域研究的角度不一樣,各人看法不同,所以答題者說啥的都有。有的人回答說:人類是由猴子進化來的。有的人回答說:人類是由魚蟲進化來的。有的人回答說:人類是從石頭縫裡蹦出來的。反正說啥的都有,很多人隨便找個理由,或者幻想一個故事,就成了沒有理由的答案,頭條也都給他們審核通過,並且持續推薦。