大數據之從存儲單位到信息熵

2020-12-06 啊窩額1

我們都知道,計算機的存儲單位有KB、MB、GB、TB等,換算起來,1TB=1024GB、1GB=1024MB、1MB=1024KB、1KB=1024B。1B我們稱為一個字節,一個字節有8位,即1B=8bit。bit表示計算機的位,同時它也是信息熵的度量單位。

定性看信息與信息熵

我們常說的信息是一個很抽象的概念,人們常說信息多,信息少,但很難量化信息到底有多少。不過1948年,資訊理論之父香農在他發表的論文」通信的數學理論(A Mathematical Theory of Communication )」中指出,任何信息都存在冗餘,冗餘大小與信息中每個符號(數字、字母或單詞)的出現概率或者說不確定性有關。

香農借鑑了熱力學的概念,把信息中排除了冗餘後的平均信息量稱為「信息熵」,信息熵的數學表達式

通俗的理解,當一個事物有多種可能發生的情況時,具體單個情況發生的不確定性叫做熵,而能夠消除這種情況發生的不確定性的事物叫做信息。二者數量相等,意義相反,我們可以通過獲取信息來消除不確定性(熵) 。能夠消除不確定性的信息有三種類型:

1) 調整概率

2) 排除幹擾

3) 確定情況

以商場抓獎活動為例,你的面前有四個顏色分別為紅、黃、藍、綠的小球,其中一個小球裡面有大獎。如果四個小球獲獎概率相等(都是1/4),那麼此時的信息熵最大;如果確定了紅色小球裡面有獎,那麼此時的信息熵最小。

如果我們告訴客戶,藍色小球有一半的概率有獎,這就是調整概率,使得藍色小球中獎的不確定性降低,其他小球中獎的不確定性增加;如果我們告訴客戶,綠色小球肯定沒有獎,這就是排除幹擾,使得綠色小球沒有了不確定性,其他小球獲獎的不確定性也降低了;如果我們直接告訴客戶紅色小球裡面有獎,這就是確定情況,使得消除了各個小球的不確定性。

定量看信息與信息熵

我們知道,當事物發生的不確定性越大,它的信息熵越大,反之,信息熵越小。但是我們如何量化信息呢,為何信息熵的還有單位(bit)?

弄清這個問題前,我們先看一下我們是如何定義其他常見的物理量(長度、質量、時間)的呢?

以長度為例,米是如何定義出來的,我們如何去量化一個物體的長度呢?答案是我們選擇了參照物標準,我們規定了一個物體長度為1米,其他物體的長度就相當於多少倍參照物體的長度。比如一個物體的長度是參照物的長度的兩倍,參照物長度1米,那麼這個物體的長度就是2米。

與長度、質量、時間相同,信息熵也是一個物理量。把長度定義引申到信息熵,我們如果也定義一個參照事件的不確定性(信息熵),只要看待測事件的不確定性(信息熵)相當於多少個參照事件的不確定性(信息熵)即可。

拋一枚硬幣,有正、反兩種等概率情況,這個事件所能產生的結果的信息熵我們規定為1bit,上文中4個小球抓獎,有四種等概率情況,這個事件所能產生的結果的信息熵相當於我們拋兩次硬幣所產生的結果,因此為2bit。不過要注意,如果是8個小球抓獎,有八種等概率情況,信息熵不是4bit,而是3bit(2^3=8),因為八種等概率情況相當拋3次硬幣所產生的結果,它們之間是指數關係。

相關焦點

  • 坤鵬論:為什麼漢字信息熵大,表現出來的卻是言簡意賅?
    所以,資訊理論的信息量都是講從現在的不確定到未來完全的確定性,還需要輸入多少信息。那麼,像「信息量 = 獲取信息前事件的信息熵 - 獲取信息後事件的信息熵」,這樣的公式就不太正確了。所以,一個包裹可以小到巴掌大,也可以大到整個貨櫃。訊息也一樣,以條為單位,一條訊息可以是一個字符,也可以是一整本書。「通信的基本問題是,在一點精確地或近似地復現在另一點所選取的訊息。」這裡的「點」字用得特別好。
  • 第二個麥克斯韋妖——信息熵
    過了近二十年,到了1948年,貝爾實驗室的電器工程師香農發表了有關信息的數學理論的一系列文章,為資訊理論奠定了基礎,而且,他還把熵引入通信領域。他認為,玻爾茲曼的熵是表示系統中分子運動的不確定度,而信息是一個系統不確定性的減少,二者是有關聯的,因此他參照熱力學中熵的定義,定義了信息熵。
  • 漢語的「信息熵」劣勢
    有人為漢字信息量大而驕傲,殊不知它使得中文信息管理和傳遞的成本增加,困難加大。★中文信息產業基礎建設的中心課題,就是要利用信息熵的基本原理和方法來提高中文的效率。美國的信息產業能有今天的稱雄世界的實力,能接連不斷地產生新的技術產品,是跟堅實的基礎建設分不開的。
  • 逆熵科技亮相Web3.0中國峰會,IPFS分布式存儲行業盛宴!
    本次大會由商務部、科技部、工信部、國家發改委、農業部、國家知識產權局、中國科學院、中國工程院等國家部委和深圳市人民政府共同舉辦,旨在共同探討Web3.0下區塊鏈存儲的機遇與生態發展,共同開創大數據分布式存儲的新時代。逆熵科技聯合創始人&COO翁梓耀受邀參加,進行這是一場IPFS與分布式存儲的行業盛會。
  • 獨家 | 熵–數據科學初學者必知的關鍵概念(附連結)
    香農開創了資訊理論領域,因此也被稱為「資訊理論之父」。「資訊理論,是一種研究信息編碼以及信息的量化、存儲和交流的數學方法。」在他的論文中,以數學方式測量了通信信號中「丟失信息」的統計性質。這項工作的目的是,探究如何最好地編碼發送者想要傳輸的信息。為此,香農開發了信息熵作為一種估計消息中信息內容的方法,這是衡量消息丟失的不確定度的一種方法。
  • 信息過載 你受「熵」了嗎?
    目不暇接之時,騰訊「下一代移動生活」主題分論壇一個若大的「熵」字把小編吸引了過去。這個字倒是考到了小編,首先讀音這關都很難邁過,更別說它的涵義了。正在小編跟會場所有人一樣迷惑不解時,QQ瀏覽器首席產品架構師葉駿講述了其中的奧妙。
  • 信息熵是什麼,為啥漢語被稱為信息熵最大的語言?最普及的英語呢
    在1949年外國學者發表了一篇論文,讓人們進入了一個信息化的時代,所有發生的事件都可以用信息的單位來度量,很多人就提出,語言作為人與人進行溝通的必須手段,裡面的信息量應該很大吧,到底有多少?經過各學者多年的探究和各種語言的統計,得出一個結果,漢語是世界上信息熵最大的語言。那麼這個信息熵是什麼呢?
  • 坤鵬論:信息是熵?錯!
    2.信息是物質存在的一種方式、形態或運動形態,也是事物的一種普遍屬性,一般指數據、消息中所包含的意義,可以使消息中所描述事件中的不定性減少。3.英國學者阿希貝認為,信息的本性在於事物本身具有變異度。到資訊理論這裡,就叫集合,也就是某個事物所有信息的集合,一條確定性的信息會減少這個集合的熵。人在做出選擇前,往往會儘可能搜集關於選擇事物的所有信息,從來沒有聽一面之詞就決定的時候。有人說,不會呀!
  • 意識的進化即智慧的進化,就是一個信息熵減的過程
    驅使外部環境熵減的能力其實也是來自於量子,這就是量子自由意志帶來的結果,是較多個量子自由意志綜合的結果,即較多個量子的綜合效應實際上是達到了信息熵減的作用,在對外界的作用上表現出來就是物理熵減。上述所說的多個量子造成的信息熵減,實際上人類的觀念以及直接反應,甚至其他生命也具有同樣的功能。
  • 信息、熵、螺旋星系
    在新的研究中,我們證明了信息和熵也能以一種完全相同的方式聯繫在一起,成為「信息熵」。電流會產生磁場,而變化的磁場會產生電流;信息和熵也會以同樣的方式相互影響。 熵是物理學中的一個基本概念,簡單地說,它是對一個系統混亂程度的度量。
  • 逆熵科技與南陽市共商區塊鏈助力新基建
    近日,河南省南陽市召開「區塊鏈分布式存儲項目座談會」,深圳市逆熵科技有限公司核心團隊參與了本次會議,與市委相關部門領導共同商討如何通過在區塊鏈分布式存儲領域達成政企合作,在地方上落實國家戰略規劃,推動新基建建設。
  • 計算機信息存儲單元的結構解析
    打開APP 計算機信息存儲單元的結構解析 zhongrg 發表於 2021-01-08 10:03:55 數據必須首先在計算機內被表示
  • 信息熵是怎樣煉成的 | 紀念資訊理論之父香農
    撰文 | 丁玖(南密西西比大學數學教授)紀念"資訊理論之父"香農的最好方式,莫過於重溫一下他怎樣定義信息熵的數學思想,去理解現代資訊理論這個基本概念——僅用初等代數即可推導,令人賞心悅目,流連忘返!確定性過程在數學裡是司空見慣的現象。
  • 最大信息熵模型Maxent
    最大信息熵模型Maxent軟體V3.4.1是美國哥倫比亞大學 Steven J. Phillips基於 Java平臺設計的一款用於預測物種潛在分布軟體。目前在第四次全國中藥資源普查成果應用方面發揮重要作用(中藥材適宜性評價及區劃)。
  • 《從Paxos到ZooKeeper》技術內幕之數據存儲
    內存數據DataTree「樹」的數據結構,代表內存中的一份完整數據。事務日誌日誌文件存儲配置項:dataDir 默認存儲dataLogDir 單獨存儲路徑帶版本號 ./事務日誌目錄/version-2/...
  • 熵:道出自然規則的熱力學單位,所以對抗自然規則的你很難自律!
    熵存在於我們身邊任何一個地方,大至宇宙,小至我們身邊。如果不能理解,那我們就把熱量這個我們並不是非常能直觀體會的參數忽略掉,只考慮混亂程度。比如我們身邊的東西都是容易被弄亂,還原難,有些甚至是不能被還原的。
  • 思維之熵
    、心理表徵和記憶印記整合起來,組合成一個統一的、整體的、有序的「意識」……這些,都是從無序到有序的「熵減」過程。這些信息可能來自各種渠道,表達不同的內容,激發你不同的思考……它們本質上是無序的,都是一塊塊信息碎片,彼此之間可以有無數種組合的可能性。這是一種高熵的狀態。但大腦是無法處理高熵狀態的。因為高熵狀態的可能性非常多,這就意味著,大腦不得不花費許許多多資源,來儲存它們。
  • 熵:傷腦筋的熵-虎嗅網
    R.普朗克 來南京講學,在南京東南大學作《熱力學第二定律及熵之觀念》等報告,胡剛復教授為普朗克做翻譯,首次將entropy譯為熵 。其根據是公式 ds=dQ/T,因為是熱力學概念,從火;此表達式又是個除式,為商,故名為熵!文獻[3]中有 「濮朗克教授……講 『熱學之第二原理及熱溫商之意義』」的說法, 但也未敢斷言。筆者未能找到胡剛復教授翻譯entropy的確切中文文獻記載。
  • 熵:傷腦筋的熵
    參照1878年吉布斯給出的熵表達式 ,其中pi 是微觀狀態「i」 在系統漲落中出現的機率,香農提出了信息熵 (一種關於事件發生的不確定性的度量,a measure of uncertainty)的定義,它反映了「發生概率越小的事件其發生包含越多的信息」的思想。香農信息熵的定義讓信息的定量化成為可能,成了通訊理論的基礎。
  • 生活中的熵增定律&信息維度的熵減
    1 「熵」的概念 熵,讀「shāng」, 音同商,熵的概念最初是德國克勞修斯提出,是一個物理學概念,後來被應用到資訊理論、統計物理、概率論等領域,不同學科中引申不同的含義。