本文略長,但確保能非常詳細地解決你的困惑,要看下去哦。
B站老用戶們應該已經敏銳地發現,前兩天B站終於買下了諾蘭關於時空逆轉的最新大作《信條 Tenet》,而且還做了一項小創新:在這部影片中所有的彈幕,全都是倒著飛的。
說起彈幕文化,「彈幕」最初其實是個炮兵術語,在軍事裡指集中火力攻擊某一區域。隨著媒體技術的發展,一些視頻播放網站開發了即時評論功能,由於這些即時評論在視頻播放器上飛過去的效果就像子彈一樣,「彈幕」一詞才被沿用到這個場景下。
在彈幕文化的起源地日本(日本的 Niconico 為第一個彈幕視頻網站),只有當大量相同即時評論出現的時候,人們才稱其為「彈幕」,而到了中國大陸,「彈幕」已經指代了所有屏幕上的即時評論。
這一種新興的視頻播放附加功能給觀看者提供了一個全新的交互平臺:通過彈幕,人們可以參與精確和即時的吐槽,獲得觀看陪伴感,還能窺探到觀看群體的文化生態。一個視頻能夠提供的信息量,一下被放大了不少。
於是,在若干年前還只是小眾文化的彈幕,如今已經出現在國內各大視頻網站,且以一些網站也開發出了各種新功能,讓彈幕不再局限於橫屏文字。熟悉它們的老網民們也早已將它們玩出了花兒。有時候,彈幕還會「喧賓奪主」,成為比視頻本身更有看點的元素。
一些誇張的特例(第二張和第三張分別是數碼寶貝和某科學的超電磁炮歌曲片段,截圖自B站 BV1aW41187Qw),生動形象地展現了動畫區的粉絲生態。
日常彈幕更偏娛樂性和實用性,比如在老番茄12月4日晚的直播間中,有觀眾解答了直播遊戲名,有觀眾在給主播實時遊戲提示,還有觀眾在閒聊問候。彈幕增強了直播形式的參與感,同時拉近了主播與粉絲之間的距離。
彈幕也是當之無愧的玩梗利器,如B站舞蹈區熱門視頻《【猛男版】新 寶 島》中,彈幕裡的空耳(誤聽歌詞)和動作取名一下將視頻的好笑程度翻倍。
看到這裡的衝浪小朋友或許已經有了些問號。按照網際網路的調性和媒體發展的趨勢,
如此好用又好玩的彈幕功能,為什麼遲遲不見YouTube開發?
仔細想想,可以有許多說法。
YouTube 的最常使用語言是英語(其次是印地語,但也遠趕不上英語),這些母語地區沒有像東亞這樣濃厚的 ACG(anime, comic and games的簡稱)文化氛圍,而彈幕又與 ACG 文化緊密相連;
YouTube 的行業壟斷使新的彈幕視頻網站沒有蛋糕可分,而巨大的用戶基數帶來的改變成本與風險又使得 YouTube 本身難以轉型;
Niconico 與 YouTube 早年的版權糾紛也讓 YouTube 沒有效仿的意願;
……
這些政治文化因素都是在YouTube裡見不到彈幕的可能原因。而本文今天來專門討論一下語言因素,從中文、日文和英文的本質差異著手,帶大家站在語言學的角度理一理,為什麼英語彈幕沒有流行起來。(如果日後YouTube上也有彈幕了請不要回來打我的臉)
信息傳遞效率不一樣!香農的信息熵如是說
這裡要先引入一個概念。
「熵」這個詞大家應該就算不懂也多少聽說過。我們通常所說的熵指的是entropy,是德國物理學家魯道夫·克勞修斯(Rudolf Clausius)在1865年提出的一個熱力學概念,指系統中無法轉換為機械功的熱力學量。它通常也被用來解釋系統的無序和混亂程度。
熱力學第二定律告訴我們,熱力學系統從一個平衡態到另一平衡態的過程中,其熵永不減少:若過程可逆,則熵不變;若不可逆,則熵增加。
也就是說,在自然過程中,一個孤立系統的總混亂度(即「熵」)不會減小。
文章開頭提到的《信條》世界中的時間逆轉,就是基於違反熱力學第二定律的「熵減效應」。好傢夥,首尾呼應啦。
許久以後的1948年,數學家克勞德·艾爾伍德·香農(Claude Elwood Shannon)又提出了一個劃時代的衍生概念:信息熵,又叫香農熵(Shannon entropy)。這個概念首次量化了通訊過程中的信息漏失的本質。
香農認為,一條信息所傳遞的信息量大小,與其不確定性有著直接關係。不確定性大,則需要大量額外信息來搞清事件,反之亦然。在研究不確定性的度量時,他發現自己得到的公式與熱力學熵在數學模型的意義上相同,於是也用「熵」來命名了這個概念。(不過不像熱熵,信息熵是無量綱的。)
關於不確定性和信息量的度量,我們有這些已知信息:
總結這些信息,香農最終得到的公式是,對於任意一個隨機變量 X,它的熵 H 為:
其中 P 為 X 的概率質量函數(probability mass function)。
簡而言之,信息熵可以理解為信息量的期望值。變量 X 的不確定性越大,熵就越大,也說明弄明白它所需要的額外信息量越大。
讀到這一步,是不是意識到了什麼?沒錯,有了這個量化衡量標準,我們可以更直觀地發現,不同語言系統在傳遞信息時的效率是不一樣的。不同語言有著不一樣的信息熵。
在進入到複雜的中英文信息熵計算之前,讓我們先來看一些簡單的例子來增強理解。
假設一個語言只有一個符號,那麼它出現的概率 P(x) 就是 100%,代入公式計算得到該語言系統的信息熵 H(X) = 0。也就是說,這個語言系統什麼信息也不能傳遞,非常符合直覺。
假設一個語言系統由兩個符號組成,且它們出現的概率相同,那麼每個符號出現的概率 P(y) 就是 50%,代入得 H(Y) = 1。這個語言的信息熵為 1,能傳遞 1 比特的信息量。
以此類推,我們可以看到,
(1)一個語言的符號越多,信息熵越大。
那麼在語言符號數量相等的時候,改變符號出現的概率分布會如何呢?以上面兩個符號的語言為例,如果它們出現的概率分別是 90% 和 10%,那麼計算得出的信息熵就只有 0.47。多次動手嘗試(加上一些數學驗證)以後,我們也能確認:
(2)一個語言的符號頻率分布越均勻,信息熵越大。
第一個結論很好理解,符號更多樣了,能在同樣長度的信息裡傳遞的信息自然就多了。比如中文的符號量遠大於英文,同樣長度的信息,前者就比後者的信息量更大。中英文的標識中,表述同樣的含義,似乎總是英文更長一些,就有這個原因。
而第二個結論可以這樣理解:當符號頻率比較均勻時,說明每個符號都差不多重要,符號之間的關聯性較小,丟掉其中一些會造成較大的信息漏失, 也就說明信息的傳遞效率較高。而當符號頻率較不均勻,則說明符號之間的關聯性較大,一些符號即使被省去也不那麼影響表達,信息的傳遞效率就相對較低。
比如,在英文中給一些強關聯性的詞根組合去掉一兩個符號(字母),會比在中文中這麼做,更容易讓人還原這條信息的表意。
Like this: I'm glad you'r readin this setence and undrstndin wat it means.
總之,我們現在搞懂了影響一個語言的信息熵的因素都有哪些。那一些常用語言的信息熵具體都是多少呢?
要得到準確的結果還真是一項艱難的任務。首先,統計符號數量和分布頻率是個大工程,每個語言之間的語料庫完整性都不一樣。其次,計算過程中的符號標準還難以界定。比如有的計算裡一個字母為一個符號,而有的計算裡一個單詞才是。諸如此類的難題讓我們很難得到一個完全客觀標準的數學結果。
不過,我們還是可以從一些結果中窺見一些規律。香農自己算的書寫英文(written English)的信息熵為 11.82 bits/word,而以英文單詞平均長度為 4.5 個字母來計算,就是 2.62 bits/letter,2.62 比特/字母。文獻連結放在末尾,感興趣的人可以自取研究。
後來也有很多人嘗試改良算法重新計算書寫英文的信息熵,得到的結果少有超出 4.2 比特/字母的。
而手寫中文的信息熵,普遍要高很多。Dr John D. Cook 公布的計算結果為 9.56 bits per character,9.56 比特/漢字。其他計算結果也普遍位於 8 到 10 之間,不管在哪種統計方法內,都遠大於手寫英文的信息熵。
手寫日語的信息熵雖然沒有中文那麼高,但也穩穩超過了英文:僅算平假名(hiragana characters)和片假名(katakana characters),也有 5.50 比特/字,加上漢字(kanji)後更高。
現在讓我們帶著新知識回到之前的問題:為什麼大家愛用中文和日語彈幕,而不是英語彈幕?
雖然中文漢字比英文字母字形更複雜,所佔面積也更大,但在討論彈幕問題時,這比讓中文漢字與英文單詞來比較更能說明問題。在一個視頻播放器內,相同字號下,一個中文漢字只比一個英文字母多佔一點微小的空間,卻傳遞了翻倍的信息量。
當我們在三四個字內能讀懂的精準中文吐槽被換成英文,或許就變成了需要分更多的神去閱讀的一整個短句。彈幕本身就是視頻之外具有強即時性的附加娛樂信息,當它的信息傳遞效率不高時,用戶體驗自然也會相應下降。所以,從信息熵的角度來看,英語本身就更不適合作為鋪滿屏幕的另一層信息。
不過,這也不代表中文就一定是一個比英語高效許多的語言。剛才討論的信息熵全部為書面語言,而我們對語言的使用有極大一部分都是通過語音。中文裡大量漢字和詞語的同音會相應削減語音中的信息熵。
在中文語音中,一條信息的不確定性比在書面中更大。比如聽到 ge,我們不知道是對方是在說哥,還是歌,還是鴿,又或是擱,需要許多額外信息(如上下文和語境)來判斷。
或許這也和「中國人與其他國家的人相比更喜歡大聲說話」這一刻板印象有一定關係:因為語音中的信息熵降低了,所以要大聲把話說清楚,以免造成更大的信息漏失。
有人猜想,不同語言在單位時間內輸出的信息熵是類似的,人們會根據一句話的信息量相應調整語速。不過回到彈幕的問題上來,如果為了讓英語彈幕達到相同的信息傳遞效率,而使彈幕在屏幕上飛的速度過快,同樣會影響用戶的體驗。
所以,非常可惜,英語文化圈的網友們應該是很難看到倒著飛的《信條》彈幕了。
如果你默默保存了本文中出現的貓貓表情包,可以來讀一讀這篇文章:在?進來看看貓貓。
另:信息熵也是機器學習入門的重要概念。如果你對這篇文章中所講的概念產生了興趣,不如來了解一下全中國最大的青年科技峰會哦。
Reference
本文在知識的講解上參考了以下知乎回答:
https://www.zhihu.com/question/22178202/answer/49929786; https://zhuanlan.zhihu.com/p/89958871
香農計算英語信息熵的論文掃描件:
https://www.princeton.edu/~wbialek/rome/refs/shannon_51.pdf
其他參考文獻:
http://mattmahoney.net/dc/entropy1.html
https://www.johndcook.com/blog/2019/10/18/chinese-character-entropy/
https://gawron.sdsu.edu/crypto/lectures/hiragana.html