重複,在任何組織中都非常很重要。從宣傳角度看,許多時候,不一定是事情本身大,只是它被重複的次數夠多。——坤鵬論
前兩天,我們充分討論了信息的特徵。
今天,坤鵬論主要講幾個與資訊理論、信息熵相關的基本概念,如果沒有它們作為基礎,理解後面的內容會比較困難些。
同時,再講一下香農給信息的定義是什麼。
一、認識信息傳輸模型
在開始前,咱們首先得了解信息傳輸模型以及相關的幾個名詞。
它們對於後面理解資訊理論和信息熵至關重要。
如圖所示就是信息傳輸系統的基本組成。
它主要由信源、信道和信宿組成。
1.信源是產生消息的系統。
2.信宿是接收消息的系統。
3.編碼器和解碼器的作用是把消息變換成便於傳輸的信號形式。
再細分下去:
信源編碼器——對信源的輸出進行無損編碼(或符合要求的有損編碼)。
目的是減少信源輸出信息的冗餘,可以理解為壓縮。
信道編碼器——對信源編碼器的輸出進行編碼,使得到的序列能夠較好地在信道中傳輸。
一般會增加冗餘來增強抗幹擾性。
信道解碼器——對接受的序列進行解碼(解碼),可以恢復一定的傳輸錯誤。
信源解碼器——對信道解碼器的輸出進行解碼(解碼),恢復原始的信息序列。
解碼其實就是編碼的逆過程,同時去掉比特流在傳播過程中混入的噪聲。
利用解碼表把文字譯成一組組數碼,或用解碼表將代表某一項信息的一系列信號譯成文字。
這樣的過程就是解碼。
4.信道,用來傳輸信息的信號的通道,是信號的傳輸媒質,作用是傳輸信號。
在實際通信中,信道就是傳輸的物理媒介,比如由明線、同軸電纜等固體介質所組成的有線信道,以及空氣介質所組成的無線信道、還有由混合介質所組成的光纖信道等。
5.噪聲在信息領域,又被稱為幹擾。
它是除了有用信號以外的一切不需要的信號,以及各種電磁擾動的總稱。
噪聲可分為自然噪聲、人為噪聲和內部噪聲。
二、學以致用,理解電腦和手機
其實,我們的電腦、手機,就相當於信息發送和接收一體機。
其中的CPU叫中央處理器,相當於人類的大腦,它負責讀取指令,將對指令解碼並執行指令。
不過,目前的CPU還不能完成所有指令的編譯及執行,特別是聲音和圖像的壓縮編碼和解碼工程比較大,因此也就有了音效卡和顯卡來專門負責聲音和圖像的壓縮編碼和解碼,CPU則負責將相應的指令交付給它們來執行。
想想看,為什麼玩遊戲的電腦顯卡要用高端的?
因為遊戲的畫面變化頻繁,不僅是信息量大,而且對速度還有要求。
這背後都是對壓縮的聲音和圖像信息進行編碼和解碼。
這就要求顯卡,一是顯示晶片的編解碼能力強;二要顯示內存要大,這樣數據的中轉站才夠寬敞,才能同時處理更多的編解碼操作。
同時,如果是玩網遊,你家的網絡寬帶這個信道也要容量大。
如果電腦的CPU編解碼的效率不行,自然就會影響信息發布的效率,導致音效卡和顯卡的延遲,如果顯卡再不給力,延遲就會增加,如果帶寬網速不夠,那就是嚴重的卡頓。
目前,手機的CPU已經集成了顯示的編解碼能力,所以可以做得更加小巧,還能處理越來越多電腦才能完成的操作。
三、如何讓信息傳輸得更快、更準?
在搞清楚了信息的傳輸模型後,其實大部分人都能說出怎麼讓信息傳輸得更快、更準。
這就是為什麼坤鵬論一直強調,凡事先搞清基礎概念以及本質的原因。
可見,在信息傳輸系統中,最關鍵的點就是信道。
它的容量決定著傳輸的信息量;而信道中的噪聲(幹擾)則影響著信息傳輸的質量。
那麼,改善的方法無非是:
第一,不斷擴大信道,使其容量增加,這樣就能容納更多信息在其中流動。
第二,儘量消減噪聲,比如:把密閉性做得更好等。
第三,重要的事情說三遍,比如:在發送的信號中進行重複,這樣準確率也會提升。
現實中對這三點的改進確實沒有停止過。
比如:我們的寬帶速度越來越高,千兆已經走入尋常家庭,手機也從3G到4G,再到5G,這些都是信道擴容;
而消減噪聲呢,信道設備的不斷更新升級自然就有這個原因。
還有用有線傳輸比無線傳輸更穩定,也是減低噪聲幹擾的原因。
重複,在任何組織中都非常很重要。
從宣傳角度看,許多時候,不一定是事情本身大,只是它被重複的次數夠多。
資訊理論之父香農曾說過,通信技術的主要矛盾就是傳輸速率與可靠性的矛盾。
不管什麼時候,在信道質量不變的前提下,一味地提升數據傳輸速率,必然導致信號的失真,甚至完全識別不出來。
這個世界上,牛人都是從改變自己開始,正如芒格所說,要想得到什麼,先得讓自己配得上。
改變不了世界,就改變自己。
正如坤鵬論所說,不要整天改變這個,改變那個,其實我們常常連自己的孩子都改變不了。
所以,與其做無卵用且只能讓自己越來越負面的抱怨,不如埋頭做能夠積累的事情。
這就是改變自己。
還有就是,想改變別人,也要先從改變自己開始,這就叫以身作則。
既然是傳輸信息,那麼,信息才是這件事的本質、核心。
儘管以上三點都是好辦法。
但是,都不如改變信息自己來得更加高效。
就說擴大信道,那可不是一張嘴就能實現的。
它牽扯到了服務商設備的更新換代,那是一項不小的工程,意味著時間、金錢的投入。
消減噪聲也是一樣的道理,絕對不是一蹴而就。
如果圍繞信息,我們有什麼辦法呢?一起想想看吧。
首先,如果信道的容量是一定的,是不是可以讓信息變得小些,這樣不就能傳輸更多信息了嗎!
其次,噪聲是一種能量,信息也是一種能量,如果信息的能量大於噪聲的能量,也就是我信息的嗓門比你噪聲的嗓門大,噪聲不就無法奈我何了嗎!
同時,信息變小後,也能給重要事情講三遍留出空間。
再次,信息變小這事是有利無一害,信道容量越大,噪聲越小,它的效率越高。
最後,信息變小這事牽扯到成本最小,很長一段時間內只需要升級編碼器和解碼器的碼錶即可。
另外,在香農的資訊理論中,除了關於信息壓縮的理論外,還提出了用重複的方式增加一定冗餘來增強抗噪聲的能力。
抗幹擾是信道編碼的基本目的,重複是信道編碼的基本方法。
而如何重複,就是信道編碼研究的重點。
香農對此的貢獻非常重大。
那麼,信息怎麼變小?變小有沒有界限?
四、壓縮是什麼?
壓縮的原理並不難理解,我們在日常生活中經常用。
就像維根斯坦所說的,語言就像遊戲,只要約定即可俗成。
其中縮略語就非常具有代表性。
我們國家的全稱是「中華人民共和國」,7個字符。
但是,我們平時總是用「中國」,兩個字符,省了5個字符。
如果再簡單,還可以用「華」來代替,縮短了6個字符。
壓縮也是一樣道理——找出那些重複出現的字符串,再用更短的符號代表,從而達到縮短字符串,使文件更小的目的。
想想看,如果一篇文章中出現了1000個「中華人民共和國」,使用「中國」就能省出5000個字符。
如果用「華」代替,那就是省了6000個字符。
其實,只要保證對應關係,你可以用任意字符代替那些重複出現的字符串。
所以,從本質上講,壓縮的原理不複雜,它就是找出文件內容的概率分布,把那些出現概率高的部分替代成更短的形式。
所以,內容越重複,就能壓縮得越小,比如"ABABABABABABAB"可以壓縮成"7AB"。
不過,如果內容重複率小、毫無重複,就很難壓縮了。
甚至當遇到均勻分布的隨機字符串,往往一個字符都無法壓縮。
比如:任意排列的10個阿拉伯數字——5271839406,無法壓縮。
再比如,無理數(比如π)也很難壓縮。
可見,壓縮就是一個消除冗餘的過程,相當於用一種更精簡的形式,表達相同的內容。
可以想像,壓縮過一次以後,文件中的重複字符串將大幅減少。
好的壓縮算法,可以將冗餘降到最低,以至於再也無法進一步壓縮。
計算機系統中,壓縮就是把文件的二進位代碼壓縮,把相鄰的0、1代碼減少。
比如:有000000,就可以把它變成6個0的寫法「60」,從而減少該文件的空間。
五、壓縮的極限在哪裡?
正如坤鵬論一直強調的,世間除了死亡外,都有概率。
而概率告訴我們,任何事不可能100%絕對,所以,壓縮也是有極限的。
極限的唯一標準就是解壓縮後沒有錯誤。
套用香農的話,這就叫:壓縮技術的主要矛盾就是壓縮比率與可靠性的矛盾。
如果壓縮得很小,但解壓縮還原後面目全非,這種壓縮是沒有意義的。
從上面的例子,我們可以得出兩個重要結論:
文件內容重複越多,說明其中字符的出現概率高,越具確定性,越有序,可壓縮空間越大所需要的二進位位越短;
文件內容重複越少,說明其中字符的出現概率低,越不確定性,越無序,可壓縮空間越小,所需要的二進位位越長。
香農為什麼牛?
他牛就牛在了提出信息熵公式,這個信息熵可以度量文件內容的不確定性,於是也就:
度量出了文件佔用的二進位位數;
度量出了文件的極限的壓縮率;
而這些其實都是在度量信息。
歷史上,凡是給出度量方法的,都能稱之為偉大。
秦始皇統一了度量衡,被寫進了歷史課本。
你現在可能還不太理解,沒關係,繼續跟著坤鵬論學習香農。
六、香農的信息定義
對於科學而言,關鍵是要能夠將術語進行數學量化,這樣才能繼續推進。
而量化之前的關鍵,則是先要精煉出一個術語。
就像熱力學第一定律是(內)能,第二定律是熵。
術語就像一把通向相關科學領域的鑰匙,想要打開它的大門,必須先得找到鑰匙。
回首牛頓的時代,那時的物理學已經到了難以突破的地步。
恰恰是牛頓給一些古老但意義模糊的詞,比如:力、質量、運動,甚至是時間,賦予了新的含義。
於是物理學就像打開了一扇大門,新時代便在這些爍爍散發著新鮮光芒的詞彙中開啟了。
可以說,以牛頓為代表的科學時代,可謂至今以來人類歷史中科技最璀璨的時代。
牛頓將這些術語加以量化,以便能夠放在數學方程中使用。
而在他之前,光是「運動」這個詞的含義都像「信息」一樣龐雜不清。
牛頓做的事就是用奧卡姆剃刀——剃掉一切複雜!
毫不留情地將其中絕大多數的運動類型揚棄掉。
正是這樣的披荊斬棘,牛頓的運動定律才能適用,科學也才繼續前進。
那麼,該如何剃掉信息的一切複雜,從而能夠進行數學度量呢?
這裡我們要明白,香農的初心並沒有現在我們理解的那麼複雜。
他當初只是純粹就通信的理論進行考慮。
解決的是信息傳輸中的核心問題——有效性、可靠性以及兩者間的關係。
於是,他給信息的定義是:
信息,是能夠用來消除不確定性的東西。
這個定義道出了信息的作用。
於是,信息不僅被剃得極為簡潔。
更關鍵的是,它揭示了一種衡量信息的方法——使用能夠消除不確定性的多少來衡量信息。
香農在進行信息的定量計算時,明確地把信息量定義為隨機不確定性程度的減少。
這就表明他對信息更準確的理解是:信息是用來減少隨機不定性的東西。
逆其定義的定義似乎更容易理解:信息是確定性的增加。
有人說,香農的信息定義比以前的認識有了巨大進步,但仍存在局限性。
因為嚴格講,他並沒有回答「信息是什麼」這個作為一個定義概念必須回答的問題。
他的定義沒有包含信息的內容和價值,只考慮了隨機的不定性。
是的,這確實是問題。
但是,就像前面所說的,我們要明白香農的目的是什麼。
他只是為了解決一些實際問題。
香農不是神。
那麼多哲學家、科學家都無法給信息以完美定義,憑什麼要求人家一位電氣工程師呢?
如同「人」一樣,「信息」的內涵太豐富,外延太鋪張,作為一個概念,真的很難準確定義。
在為信息明顯了定義後,香農還為其指定了衡量的單位——比特。
「用於測量信息的單位」,他如此寫道。
自此,信息成了一種可測可量的東西。
七、什麼是比特?
最後,坤鵬論再補充解釋一下什麼是比特。
比特是英文bit的音譯。
而bit又是Binary digit(二進位數位)的混成詞。
比特一詞的發明者是美國著名數學家、統計學家、拓撲學家約翰·維爾德·圖基,他也曾在貝爾實驗室工作過。
坤鵬論查了查發現,這位牛人一生創造了不少名詞,其中以統計術語居多。
該詞誕生的時間有說1943年,還有說1946年,但比較權威的說法應該是1947年。
不過,它首次被公開正式使用,還是在香農1948年發表的《通信的數學原理》論文中。
比特,是在電子儲存硬體中的一個位。
它的值是由電位來決定的,所以只有1和0、開和閉兩種情況。
這是因為電子硬體本身的物理性質決定的。
最早期的計算機並非二進位,但是,這導致其元器件的生產設計難度增大。
馮·諾依曼提出了以二進位開和關來構成的馮氏計算機,此後由於優越性,計算機的底部構成變為了0和1,bit位也是如此。
另外,我們日常所說的1位元組(英文byte)由8比特組成,1Byte=8bit,也就是1:8的對應關係。
而經常使用的MB則是英文「MByte」的簡寫,其含義是「兆字節」,讀作「兆」。
請注意,MB與Mb是不同的,Mb是Mbit的含義是「兆比特」。
所以,在書寫單位時一定要注意B字母的大小寫和含義。
當在用Bytes/s和bits/s來表示網速時,請注意它們的關係是:1MB/s=8Mbps=8Mb/s。
MB/s:每秒傳輸的兆字節數的數量;
Mbps和Mb/s:每秒傳輸兆位(比特)的數量。
比如:目前5G網絡的理論下行速率為10Gb/s(=10Gbps),其實也就等於是1.25GB/s(10Gbps÷8=1.25GB/s),這個網速也就是顯示在我們手機狀態欄中的數據。
因為比特表示數位訊號數據的最小單位,所以網速一般都用bit/s來表示也就不難理解了。
而且,Byte(字節)實際上只有在表示數據存儲時才有意義,因為傳輸中的數位訊號並不是必然按照8比特為1組來計量的。
不過,在實際生活中,MB/s的單位才更為方便我們對網速的理解,因為它是和數據存儲容量直接掛鈎的。
當然,知道了MB和Mb的區別,你也就知道該如何清楚如何換算了。
本文由「坤鵬論」原創,轉載請保留本信息
請您關注本百家號,坤鵬論自2016年初成立至今,創始人為封立鵬、滕大鵬,是包括百度百家、頭條、雪球、搜狐、網易、新浪等多家著名網站或自媒體平臺的特約專家或特約專欄作者,目前已累計發表原創文章與問答6000餘篇。