B站彈幕都倒著飛了… 為什麼YouTube上還沒有彈幕呢?

2021-02-09 TechXAcademy

本文略長,但確保能非常詳細地解決你的困惑,要看下去哦。

 

B站老用戶們應該已經敏銳地發現,前兩天B站終於買下了諾蘭關於時空逆轉的最新大作《信條 Tenet》,而且還做了一項小創新:在這部影片中所有的彈幕,全都是倒著飛的。

說起彈幕文化,「彈幕」最初其實是個炮兵術語,在軍事裡指集中火力攻擊某一區域。隨著媒體技術的發展,一些視頻播放網站開發了即時評論功能,由於這些即時評論在視頻播放器上飛過去的效果就像子彈一樣,「彈幕」一詞才被沿用到這個場景下。

 

在彈幕文化的起源地日本(日本的 Niconico 為第一個彈幕視頻網站),只有當大量相同即時評論出現的時候,人們才稱其為「彈幕」,而到了中國大陸,「彈幕」已經指代了所有屏幕上的即時評論。

 

這一種新興的視頻播放附加功能給觀看者提供了一個全新的交互平臺:通過彈幕,人們可以參與精確和即時的吐槽,獲得觀看陪伴感,還能窺探到觀看群體的文化生態。一個視頻能夠提供的信息量,一下被放大了不少。

 

於是,在若干年前還只是小眾文化的彈幕,如今已經出現在國內各大視頻網站,且以一些網站也開發出了各種新功能,讓彈幕不再局限於橫屏文字。熟悉它們的老網民們也早已將它們玩出了花兒。有時候,彈幕還會「喧賓奪主」,成為比視頻本身更有看點的元素。

一些誇張的特例(第二張和第三張分別是數碼寶貝和某科學的超電磁炮歌曲片段,截圖自B站 BV1aW41187Qw),生動形象地展現了動畫區的粉絲生態。

日常彈幕更偏娛樂性和實用性,比如在老番茄12月4日晚的直播間中,有觀眾解答了直播遊戲名,有觀眾在給主播實時遊戲提示,還有觀眾在閒聊問候。彈幕增強了直播形式的參與感,同時拉近了主播與粉絲之間的距離。

彈幕也是當之無愧的玩梗利器,如B站舞蹈區熱門視頻《【猛男版】新 寶 島》中,彈幕裡的空耳(誤聽歌詞)和動作取名一下將視頻的好笑程度翻倍。

 

 

看到這裡的衝浪小朋友或許已經有了些問號。按照網際網路的調性和媒體發展的趨勢,

如此好用又好玩的彈幕功能,為什麼遲遲不見YouTube開發?

仔細想想,可以有許多說法。

 

YouTube 的最常使用語言是英語(其次是印地語,但也遠趕不上英語),這些母語地區沒有像東亞這樣濃厚的 ACG(anime, comic and games的簡稱)文化氛圍,而彈幕又與 ACG 文化緊密相連;

 

YouTube 的行業壟斷使新的彈幕視頻網站沒有蛋糕可分,而巨大的用戶基數帶來的改變成本與風險又使得 YouTube 本身難以轉型;

 

Niconico 與 YouTube 早年的版權糾紛也讓 YouTube 沒有效仿的意願;

……

 

這些政治文化因素都是在YouTube裡見不到彈幕的可能原因。而本文今天來專門討論一下語言因素,從中文、日文和英文的本質差異著手,帶大家站在語言學的角度理一理,為什麼英語彈幕沒有流行起來。(如果日後YouTube上也有彈幕了請不要回來打我的臉)

 

信息傳遞效率不一樣!香農的信息熵如是說

 

這裡要先引入一個概念。

 

「熵」這個詞大家應該就算不懂也多少聽說過。我們通常所說的熵指的是entropy,是德國物理學家魯道夫·克勞修斯(Rudolf Clausius)在1865年提出的一個熱力學概念,指系統中無法轉換為機械功的熱力學量。它通常也被用來解釋系統的無序和混亂程度。

熱力學第二定律告訴我們,熱力學系統從一個平衡態到另一平衡態的過程中,其熵永不減少:若過程可逆,則熵不變;若不可逆,則熵增加。

 

也就是說,在自然過程中,一個孤立系統的總混亂度(即「熵」)不會減小。

 

文章開頭提到的《信條》世界中的時間逆轉,就是基於違反熱力學第二定律的「熵減效應」。好傢夥,首尾呼應啦。

許久以後的1948年,數學家克勞德·艾爾伍德·香農(Claude Elwood Shannon)又提出了一個劃時代的衍生概念:信息熵,又叫香農熵(Shannon entropy)。這個概念首次量化了通訊過程中的信息漏失的本質。

 

香農認為,一條信息所傳遞的信息量大小,與其不確定性有著直接關係。不確定性大,則需要大量額外信息來搞清事件,反之亦然。在研究不確定性的度量時,他發現自己得到的公式與熱力學熵在數學模型的意義上相同,於是也用「熵」來命名了這個概念。(不過不像熱熵,信息熵是無量綱的。)

關於不確定性和信息量的度量,我們有這些已知信息:

 

 

總結這些信息,香農最終得到的公式是,對於任意一個隨機變量 X,它的熵 H 為:

其中 P 為 X 的概率質量函數(probability mass function)。

 

簡而言之,信息熵可以理解為信息量的期望值。變量 X 的不確定性越大,熵就越大,也說明弄明白它所需要的額外信息量越大。

 

讀到這一步,是不是意識到了什麼?沒錯,有了這個量化衡量標準,我們可以更直觀地發現,不同語言系統在傳遞信息時的效率是不一樣的。不同語言有著不一樣的信息熵。

在進入到複雜的中英文信息熵計算之前,讓我們先來看一些簡單的例子來增強理解。

 

假設一個語言只有一個符號,那麼它出現的概率 P(x) 就是 100%,代入公式計算得到該語言系統的信息熵 H(X) = 0。也就是說,這個語言系統什麼信息也不能傳遞,非常符合直覺。

 

假設一個語言系統由兩個符號組成,且它們出現的概率相同,那麼每個符號出現的概率 P(y) 就是 50%,代入得 H(Y) = 1。這個語言的信息熵為 1,能傳遞 1 比特的信息量。

 

以此類推,我們可以看到,

(1)一個語言的符號越多,信息熵越大。

 

那麼在語言符號數量相等的時候,改變符號出現的概率分布會如何呢?以上面兩個符號的語言為例,如果它們出現的概率分別是 90% 和 10%,那麼計算得出的信息熵就只有 0.47。多次動手嘗試(加上一些數學驗證)以後,我們也能確認:

(2)一個語言的符號頻率分布越均勻,信息熵越大。

 

第一個結論很好理解,符號更多樣了,能在同樣長度的信息裡傳遞的信息自然就多了。比如中文的符號量遠大於英文,同樣長度的信息,前者就比後者的信息量更大。中英文的標識中,表述同樣的含義,似乎總是英文更長一些,就有這個原因。

而第二個結論可以這樣理解:當符號頻率比較均勻時,說明每個符號都差不多重要,符號之間的關聯性較小,丟掉其中一些會造成較大的信息漏失, 也就說明信息的傳遞效率較高。而當符號頻率較不均勻,則說明符號之間的關聯性較大,一些符號即使被省去也不那麼影響表達,信息的傳遞效率就相對較低。

 

比如,在英文中給一些強關聯性的詞根組合去掉一兩個符號(字母),會比在中文中這麼做,更容易讓人還原這條信息的表意。

 

Like this: I'm glad you'r readin this setence and undrstndin wat it means.

總之,我們現在搞懂了影響一個語言的信息熵的因素都有哪些。那一些常用語言的信息熵具體都是多少呢?

 

要得到準確的結果還真是一項艱難的任務。首先,統計符號數量和分布頻率是個大工程,每個語言之間的語料庫完整性都不一樣。其次,計算過程中的符號標準還難以界定。比如有的計算裡一個字母為一個符號,而有的計算裡一個單詞才是。諸如此類的難題讓我們很難得到一個完全客觀標準的數學結果。

 

不過,我們還是可以從一些結果中窺見一些規律。香農自己算的書寫英文(written English)的信息熵為 11.82 bits/word,而以英文單詞平均長度為 4.5 個字母來計算,就是 2.62 bits/letter,2.62 比特/字母。文獻連結放在末尾,感興趣的人可以自取研究。

 

後來也有很多人嘗試改良算法重新計算書寫英文的信息熵,得到的結果少有超出 4.2 比特/字母的。

 

而手寫中文的信息熵,普遍要高很多。Dr John D. Cook 公布的計算結果為 9.56 bits per character,9.56 比特/漢字。其他計算結果也普遍位於 8 到 10 之間,不管在哪種統計方法內,都遠大於手寫英文的信息熵。

 

手寫日語的信息熵雖然沒有中文那麼高,但也穩穩超過了英文:僅算平假名(hiragana characters)和片假名(katakana characters),也有 5.50 比特/字,加上漢字(kanji)後更高。

 

 

現在讓我們帶著新知識回到之前的問題:為什麼大家愛用中文和日語彈幕,而不是英語彈幕?

 

雖然中文漢字比英文字母字形更複雜,所佔面積也更大,但在討論彈幕問題時,這比讓中文漢字與英文單詞來比較更能說明問題。在一個視頻播放器內,相同字號下,一個中文漢字只比一個英文字母多佔一點微小的空間,卻傳遞了翻倍的信息量。

 

當我們在三四個字內能讀懂的精準中文吐槽被換成英文,或許就變成了需要分更多的神去閱讀的一整個短句。彈幕本身就是視頻之外具有強即時性的附加娛樂信息,當它的信息傳遞效率不高時,用戶體驗自然也會相應下降。所以,從信息熵的角度來看,英語本身就更不適合作為鋪滿屏幕的另一層信息。

不過,這也不代表中文就一定是一個比英語高效許多的語言。剛才討論的信息熵全部為書面語言,而我們對語言的使用有極大一部分都是通過語音。中文裡大量漢字和詞語的同音會相應削減語音中的信息熵。

 

在中文語音中,一條信息的不確定性比在書面中更大。比如聽到 ge,我們不知道是對方是在說哥,還是歌,還是鴿,又或是擱,需要許多額外信息(如上下文和語境)來判斷。

 

或許這也和「中國人與其他國家的人相比更喜歡大聲說話」這一刻板印象有一定關係:因為語音中的信息熵降低了,所以要大聲把話說清楚,以免造成更大的信息漏失。

 

有人猜想,不同語言在單位時間內輸出的信息熵是類似的,人們會根據一句話的信息量相應調整語速。不過回到彈幕的問題上來,如果為了讓英語彈幕達到相同的信息傳遞效率,而使彈幕在屏幕上飛的速度過快,同樣會影響用戶的體驗。

 

所以,非常可惜,英語文化圈的網友們應該是很難看到倒著飛的《信條》彈幕了。

如果你默默保存了本文中出現的貓貓表情包,可以來讀一讀這篇文章:在?進來看看貓貓。

另:信息熵也是機器學習入門的重要概念。如果你對這篇文章中所講的概念產生了興趣,不如來了解一下全中國最大的青年科技峰會哦。

Reference

本文在知識的講解上參考了以下知乎回答:

https://www.zhihu.com/question/22178202/answer/49929786; https://zhuanlan.zhihu.com/p/89958871

香農計算英語信息熵的論文掃描件:

https://www.princeton.edu/~wbialek/rome/refs/shannon_51.pdf

其他參考文獻:

http://mattmahoney.net/dc/entropy1.html

https://www.johndcook.com/blog/2019/10/18/chinese-character-entropy/

https://gawron.sdsu.edu/crypto/lectures/hiragana.html

相關焦點

  • 秒懂傳播學 |彈幕開花宣言!——BILIBILI奇蹟
    大量吐槽評論從屏幕飄過時效果看上去像是飛行射擊遊戲裡的彈幕,所以NICO網民將這種有大量的吐槽評論出現時的效果做彈幕。在中國,本來只有大量評論同時出現才能叫彈幕,但是隨著誤用單條評論也能叫彈幕了。還不懂?那就放兩張圖讓你感受一下!
  • 高難度的十級彈幕!你都能看懂嗎?
    馬子俊是一個什麼剛出道的新明星?別想了,你的答案都不對,進來看正解吧。彈幕彈(dàn)幕(Bullet Curtain)起源於日本,表示炮彈(dàn)一樣的評論(吐槽)充斥屏幕。彈幕(barrage)的本義是軍事術語,指用大量或少量火炮進行密集炮擊,後STG射擊遊戲中密集的子彈幕(Bullet Curtain)被稱為彈幕,進而在形式上類似的直接顯現在視頻上的流動評論也被稱作彈幕。
  • 彈幕實名制要來了,關於彈幕,那些你不知道的事兒
    初識彈幕是在高中時,那會特別喜歡在b站看恐怖片和恐怖遊戲,每次恐怖畫面出現之前,就能看到那些在畫面前飄來飄去的五顏六色的小字齊刷刷地變成「前方高能預警」,那時就會覺得特別安心特別踏實,所以就對這種叫「彈幕」的新奇玩意兒生出了好感。後來更是喜歡在看電視劇的時候配上彈幕,彈幕上的吐槽腦洞大又奇葩,時常讓人笑得不能自已。
  • bilibili_api,僅用 3 行代碼獲取B站(彈幕、評論、用戶)數據
    我是對比沒有對比,就沒有傷害,就像最近的「哈工大」某學生和「浙大」某學生一樣。這是之前獲取彈幕的過程:1、彈幕數據接口https://comment.bilibili.com/123072475.xml (一個固定的url地址 + 視頻的cid + .xml)2、利用Request模塊,獲取數據
  • 2333333-彈幕,彈幕的正確打開方式!
    — Gustave Le Bon,《烏合之眾》當彈幕已經不是什麼新鮮的話題,一路從A、B、C、D站(Acfun/Bilibili/吐槽網/嘀哩哩)滾動到了各大主流視頻網站,當這種原本屬於二次元文化的表達以一種未經修飾,粗魯但充滿生命力的形式歡快的奔騰進了大眾視野——「彈幕+影院」、「彈幕+音樂」、「彈幕+搜索」、「彈幕+教育」,甚至「彈幕+閱讀」——在這一場場看似很美的亞文化和所謂的「
  • 沒有彈幕,我看視頻做什麼
    無論如何,這些和你一起觀看的朋友們,他們中總有一些有趣的人,他們發的彈幕或許會讓你忍俊不禁。今天給大家列舉的是那些彈幕中有趣,或者有點汙但你卻無法明白的梗,彈幕資源來自於嗶哩嗶哩彈幕視頻網,以下簡稱「B站」。所以二丫所說的彈幕是動漫等一些分享視頻中的彈幕,而不是平臺直播上的彈幕哦。
  • 關注 | 發這樣的彈幕,你的良心不會痛嗎?
    我對彈幕的印象,經歷了一個從好到壞再到不好不壞的過程。初識彈幕是在高中的時候,那會兒特別喜歡在b站看恐怖片和恐怖遊戲,每次恐怖畫面出現之前,就能看到那些在畫面前飄來飄去的五顏六色的小字齊刷刷地變成「前方高能預警」,那時就會覺得特別安心特別踏實,所以就對這種叫「彈幕」的新奇玩意兒生出了好感。
  • 原來日本媒體是這樣評價A站B站的彈幕,你服不服?
    嚴格來說中國彈幕網站是從日本的NICONICO學習而來的,那麼現在問題來了,日本的NICONICO跟國內的彈幕網站又有什麼區別呢?看柯南不關彈幕的後果_(:з」∠)_而很多日本宅人可能會覺得NICONICO這樣的形式只能在國內行得通,那麼為何在中國也會引發這麼多話題呢?為此,我們需要從中國特有的情況來看待這個現象。中國人習慣於字幕由於中國是一個擁有多鍾方言的國家,因此即便是普通的電視節目也往往會有字幕出現。為此,中國的宅人早就習慣了一邊看字幕一邊看視頻的行為,所以對於彈幕出現在視頻上也不會產生特別強的牴觸情緒。
  • B站年度彈幕排行公布,「爺青回」542萬次登榜首!
    放在幾年前,提及彈幕,可能還會有許多人認為看視頻時亂飛的彈幕十分礙眼,但放在今天,大多數人都「真香」,沒有彈幕的視頻反倒才叫人不習慣。
  • 彈幕語言是如何變色的?
    原本這是90後、00後「御宅族」的專利,最初在小眾視頻網站流行,語言風格可賣萌可犀利,可幽默可抖機靈,但當彈幕從小眾走向大眾,尤其是在直播平颱風行後,彈幕語言漸漸變色。 雖然那些年大家上過的語文課都差不多,但不表示所有中文表達你都認識,比如屏幕上飛過去的彈幕語言,這是一條赤裸裸的年齡分割線。
  • B站公布2018年度彈幕,怎麼全是我的屏蔽詞
    「前方高能」「彈幕護體」「合影」「開口跪」「空降成功」等詞都是彈幕裡的常年熱詞了,具有很強的功能性,脫離了彈幕語境可能就會失去意義。從內容上來看,從視頻內容衍生出來的梗、科普、打卡或者單純情緒性的表達,都可以成為彈幕的內容。用戶通過打字這一十分簡單的操作來完成自己對視頻的「二次加工」。
  • 原來爬取B站彈幕這麼簡單
    點擊彈幕列表,查看歷史彈幕,並選擇任意一天的歷史彈幕,此時就能找到存儲該日期彈幕的ajax數據包,所有彈幕數據放在一個i標籤裡。,oid應該是視頻標識之類的東西,換個oid可以訪問其他視頻彈幕頁面。在這裡插入圖片描述二、獲取彈幕數據本文爬取該視頻1月1日到8月6日的歷史彈幕數據,需構造出時間序列:import pandas as pdstart
  • [彈幕]視頻網站<( ̄ ﹌  ̄)>
    再問自殺」or「愛的自殺,再問供養」「祥瑞玉兔,家宅平安」 or 「羊踹玉兔,玉兔喊疼」 再or 「羊踹玉兔,一秒八腳」……對啦!我還是強行解釋一下吧:bilibili彈幕視頻網站,現為國內最大的年輕人潮流文化娛樂社區,該網站於2009年6月26日創建,又稱「B站「。
  • 浪漫而又危險的彈幕遊戲
    曾經有這樣一個說法,「彈幕是男人的浪漫」。然而彈幕是什麼,為什麼說它浪漫?
  • 原來爬取B站彈幕這麼簡單
    一、分析網頁點擊彈幕列表,查看歷史彈幕,並選擇任意一天的歷史彈幕,此時就能找到存儲該日期彈幕的ajax數據包,所有彈幕數據放在一個i標籤裡。可以發現Request URL關鍵就是 oid 和 date 兩個參數,date很明顯是日期,換日期可以實現翻頁爬取彈幕,oid應該是視頻標識之類的東西,換個oid可以訪問其他視頻彈幕頁面
  • 原來爬取B站彈幕這麼簡單
    一、分析網頁點擊彈幕列表,查看歷史彈幕,並選擇任意一天的歷史彈幕,此時就能找到存儲該日期彈幕的ajax數據包,所有彈幕數據放在一個i標籤裡。可以發現Request URL關鍵就是 oid 和 date 兩個參數,date很明顯是日期,換日期可以實現翻頁爬取彈幕,oid應該是視頻標識之類的東西,換個oid可以訪問其他視頻彈幕頁面
  • 【遊戲攻略】Stg彈幕遊戲入坑指南——彈幕類型篇
    雖然理論上,這種彈幕可以只移動一點點來躲開,但是後續後面的彈幕就沒有辦法躲了,所以我們要移動到更寬闊的地方來增大容錯空間(人形tas除外)。在下一期我們會詳細介紹這一點。另一種彈幕是偶數彈這種彈幕的特點是彈幕組的幾何中心瞄準自己,但是幾何中心由於是偶數彈幕,幾何中心沒有子彈,所以理論上不動也是可以的。
  • 如何用一條彈幕代表一個動漫人物,我先來,啊我的王之力啊!
    一個動漫人物的影響力如何,有時候刷視頻看他們的應援彈幕就能看出來了,有時候一個彈幕就是一個新梗,雖然是那麼簡單的一句話,但是也是無數漫迷的真情流露,所以可以由一條彈幕代表的那些動漫人物,那麼他們的影響力如何呢?
  • 如何把彈幕文化帶到海外去?
    彈幕文化的本質是能夠讓用戶在同一時間裡發表對視頻內容的想法, 一經推出便受到年輕人的追捧,更有甚者認為,有彈幕讓視頻變得更加有意思。彈幕文化能不能出海?那麼中國式彈幕文化在國外是否有發展空間呢?答案是肯定的。
  • 留學生的b站 【前方高能,非戰鬥人員請緊急撤離】
    >