《數學之美》筆記二

2021-01-11 小空格一

一到五在《數學之美》筆記一中

六. 信息的度量和作用

1、信息熵

引用說明:一條信息的信息量與其不確定性有著直接的關係。比如說,我們要搞清楚一件非常不確定的事,或是我們一無所知的事情,就需要了解大量的信息。相反,如果已對某件事了解較多,則不需要太多的信息就能把它搞清楚。所以,從這個角度來看,可以認為,信息量就等於不確定性的多少。

香農認為準確信息應是:H = -(p1·log i1 + p2·log i2 + ··· + pn·log in)p1, p2, p3 是概率,H 即使這個信息的信息熵。

2、信息的作用

情報的作用,就是消除不確定性。

一個事物內部會存在有隨機性,也就是不確定性,假定為U,而從外部消除這個不確定性唯一的辦法是引入信息I,而需要引入的信息量取決於這個不確定性的大小,即I > U 才行。當 I < U 時,這些信息可以消除一部分不確定性,也就是說新的不確定性。反之,如果沒有信息,任何公式或者數字的遊戲都無法排除不確定性。

幾乎所有的自然語言處理、信息與信號處理的應用都是一個消除不確定性的過程。網頁搜索本質上也是利用信息消除不確定性的過程。

不正確的做法是,在搜索關鍵詞上玩數字和公式的遊戲,由於沒有額外的信息引入,這種做法沒有效果。最糟糕的做法是引入認為的假設,這和「蒙」沒有區別,其結果是似乎滿足了個別用戶的口味,但是對大部分用戶來講,搜索結果反而變得更糟。

信息的作用在於消除不確定性,自然語言處理的大量問題就是尋找相關的信息。

3、互信息

互信息,隨機事件X的不確定性或者說熵H(X),以及在知道隨機事件Y條件的不確定性,或者條件H(X|Y)之間的差異,即I(X;Y)=H(X)-H(X|Y),互信息是一個取值1到min(H(X)),H(Y)之間的函數,當X和Y完全相關時,它的值是1,當二者完全無關時取值為0.

信息熵的物理含義是對一個信息系統不確定性的度量,在這一點上,他和熱力學中的熵有概念相似之處,因為後者就是一個系統無序的度量,從另外一個角度講也是對一種不確定性的度量,說明科學上看似不同的學科之間也有很強的相似性。

七. 賈裡尼克和現代語言處理

1、早年生活

賈裡尼克,富裕猶太家庭,爸爸牙醫,傳統猶太民族,重視教育的家庭但是從小學習不好,二戰後,生活跌落,轉戰移民美國。

賈裡尼克對教育的幾點看法:1) 小學生和中學生其實沒有必要花那麼多時間讀書,而他們的社會經驗、生活能力以及那時樹立起來的志向將幫助他們的一生。 2) 中學階段花很多時間比同伴多讀的課程,在大學以後用非常短的時間就可以讀完,因為在大學階段,人的理解力要強得多。隱藏 3) 學習(和教育)是一個人一輩子的過程,很多中學成績好的亞裔學生進入名校後表現明顯不如那些因為興趣而讀書的美國同學,因為前者不斷讀書的動力不足。 4) 書本的內容可以早學,也可以晚學,但是錯過了成長階段卻是無法彌補回來的。

2、從水門時間到莫妮卡·萊溫斯基

本標題為賈裡尼克在1999年ICASSP做的大會報告題目

處理統計方法應用到自然語言的背景

1)IBM有計算機功能和數據

2)賈裡尼克(等人)已經在這個領域做10多年理論研究

3)上世紀70年代是小吳森將IBM的事業發展到了頂點的時代,IBM對基礎研究人力投入力度也很大。

賈裡尼克不僅自己在專業領域能堅持30多年的鑽研,同時也在合適的機遇遇到了不被條條框框束縛的IBM,從而成就了人類最大貢獻之一的語音識別領域。

3.一位老人的奇蹟

賈裡尼克的2件大事和2件小事

1)賈裡尼克的2件大事:

從美國政府主管研究的部門那裡申請到了很多研究經費。每年夏天他用一部分經費,邀請世界上20-30名頂級的科學家和學生到CLSP一起工作,使得CLSP成為世界上語音和語言處理的中心之一。

2)賈裡尼克做的2件小事:

招募了一批當時很有潛力的年輕學者。利用自己影響力,在暑假把他的學生排到世界上最好的公司去實習,通過這些學生的優異表現,樹立起CLSP在培養人才方面的聲譽。

八. 簡單之美——布爾代數和搜尋引擎

搜尋引擎的「道」:所有的搜索產品都提煉成下載、索引和排序三種基本服務。

搜尋引擎的「術」:所有搜索服務都可以在這三個基本服務上儘快實現

1、布爾代數

布爾代數只有2個數字:0(假)和1(真)

它對於數學的意義等同於量子力學對物理學的意義,它將我們對世界的認知從連續狀態擴展到離散狀態。在布爾的世界裡,萬物皆可量化。

現代物理的基本研究成果表明,我們的世界實實在在是在量化而不是了連續的,我們的宇宙的基本粒子數目是有限的,而且遠比古高爾(googol,10的100次方)的平方要小的多。

2、索引

為什麼搜尋引擎能在0.0幾秒內找到成千上萬甚至上億的搜索結果?索引:圖書館的索引卡,對應位置找到對應的書,高效,快速。

搜尋引擎的索引是資料庫,把搜索的關鍵字轉換成布爾運算的算式,再到資料庫查詢。

索引的方法有很多,如位置(國家地區)、次數、類型、重要性(權重概率)、質量和訪問頻率、分級別等等。

數據(索引)存放在分布式的多臺伺服器上,在查詢的時候,就可以分發到多臺伺服器上,並行(同時)搜索,並把結果送到主伺服器進行合併處理,最後將結果返回給用戶。

布爾代數非常簡單,但是對數學和計算機發展的意義重大,他不僅把邏輯和數學合二為一,而且給了我們看待世界的全新視角,開創了今天數位化時代。在此,借用偉大的科學家牛頓的話來結束:「人們發覺真理的在形式上從來都是簡單的,而不是複雜和含混的。」

九. 圖論和網絡爬蟲

1、圖論

廣度優先搜索算法:如首先,訪問權重最高的城市(北京),接著,訪問與之有直接聯繫的城市(上廣深),以此類推直到盡頭,最後,訪問零散的城市。

深度優先搜索算法:一條路走到黑,再走另一條路。

搜索期間,要記錄已訪問過的城市。

2、網絡爬蟲

網絡爬蟲是如何下載整個網際網路的?

網絡爬蟲運用的就是圖論的辦法,連接的方式就是網頁超連結,記錄的方式是「散列表」(哈希表)。

網際網路搜尋引擎在建立索引前需要用一個程序自動地將所有的網頁下載到伺服器上,這個程序稱為網絡爬蟲,它的編寫是基於離散數學中圖論的原理。

十. PageRank——Google的民主表決式網頁排名技術

1、PageRank算法原理

一點小背景:最先試圖給網際網路的眾多網站排序的並不是Google而是雅虎,但是真正找到網頁自身質量的完美的數學模型的是Google的創始人拉裡·佩奇和謝爾蓋·布林

PageRank算法原理的核心思想是:「民主表決」。

PageRank核心思想:在網際網路上,如果一個網頁被很多其他網頁所連接,說明它受到普遍的承認和信賴,那麼它的排名就高。

當然Google的PageRank算法實際上要複雜很多,背後的原理是圖論和線性代數的矩陣運算。

計算搜索結果的網頁排名過程中需要用到網頁本身的排名,這就成了先有雞還是先有蛋的問題?

布林把這個問題變成了一個二維矩陣相乘的問題,並用迭代的方法解決了問題。先假定所有網頁的排名是相同的,並且根據這個初始值,算出各個網頁的第一次迭代排名,然後再根據第一次迭代排名算出第二次的排名。而這種算法不需要任何人工幹預。

解決計算一百億億數量級的方法是,稀疏矩陣計算技巧。

解決計算時間長的方法是,並行自動化計算。

這種算法,決定搜索質量最有用的信息是用戶的點擊數據,而一項新技術為搜索質量帶來的提升空間卻非常有限,用戶很難感覺到差別。這也就是後來微軟等公司很難在搜索上有所作為的原因。

相關焦點

  • 數學的解法之美、結論之美、繪圖之美、體驗之美
    數學之美是指從數學裡得出的美學。有數學家從數學中得到美的愉悅,形容數學是一種藝術形式,或是一種創造力活動,就如音樂和詩歌。伯特蘭·羅素以下列文字形容他心中的數學之美:"數學,正確看待時,不僅具有真理,還具有至高的美-一種冷而嚴峻的美,一種屹立不搖的美,如雕塑一般,一種不為我們軟弱天性所動搖的美。
  • 【我的大學課堂】分析之美——我的「數學分析」課
    提起數學分析,大家應該都並不陌生:外行視之為天書,滿篇符號定理,似無美感可言;內行則深諳「分析乃數學基礎」這一金科玉律,勤學苦練,卻往往仍是疑惑無數,哀嘆力不從心。故江湖有言曰「數分猛於虎也」。天地有大美而不言「人類歷史上最偉大的事情之一是將因果關係作為研究對象,特別地,當因果關係可以表徵為函數的形式時,數學分析誕生了,所以可以說數學分析的本來目的是為研究函數提供工具。但神奇的是,在提供工具的同時數學分析窺探到了這世界最本真的抽象美。有別於代數上的形式美,分析之美是依賴於實數理論的,是絕對的,它反映了我們所在世界的客觀屬性。」
  • 數學的美 在於數學思想深刻之美
    數學教育學報2011年第4期數學的美 在於數學思想深刻之美顧 沛(南開大學 數學科學學院,天津 300071)關鍵詞:數學美;數學思想;數學文化南開大學的數學文化課程,從2001年2月開設,至今已經10年了.數學文化課受到廣大學生的歡迎
  • 在數學美的風情中醉倒
    在數學美的風情中醉倒溧之道數學貌美如花,獨具魅力,數學不僅是一門科學,還是一門藝術,數學美是啟迪和明晰數學思想、進行數學創造活動的重要源泉。培養學生核心素養,離不開數學審美情趣的培養,讓學生積累數學美的知識、技能與方法,尊重數學人文藝術的多樣性,能升華學生對美的欣賞和感受,提高學生發現、感知、欣賞、評價美的能力。
  • 大學生學數學不容錯過的《數學之美》
    《數學之美》帶你領略以上算法的美!給大家推薦一本書,《數學之美》,29章,用具體例子講述了數學的美,化繁為簡,普渡眾生!如果你聽說過吳軍這個人,知道他曾經寫過一本大作,叫做《浪潮之巔》,那你一定是一位有情懷的程式設計師,一位有著創業改變世界夢想的偉大程式設計師。對程序編寫有一定基礎的人,很容易理解程序到最終都是數學這句話。那你一定不能錯過《數學之美》。
  • 認知篇—數學之美
    我國著名數學家華羅庚說:「宇宙之大,粒子之微,火箭之速,化工之巧,地球之變,生物之謎,日用之繁,無處不用數學。」在成為數學老師之前,我是一名科技工作者,深深體會到數學在科技領域的重要性。在中科院工作了五年後,我毅然決然的決定要去當一名老師,一名數學老師。
  • 數學之美的秘密,從小學數學原理開始說起~
    他用一些例子,講述了數學的美麗之處,讓我們窺探到數學之美的秘密。如果答案不漂亮,我知道一定是錯的。——富勒在二年級班上,我教小朋友一種證明乘法交換律的漂亮方法(這方法我們會在乘法意義那章講到)。有位坐在第一排的小朋友抬頭凝視一會兒,然後低聲說:「真美。」去問數學家數學這行到底什麼地方吸引他,十之八九會回答是「美」。
  • 理解數學的美妙——《數學之美》
    《數學之美》是一本備受推崇的書,今天在搭乘高鐵回廣州的時候翻看了一下。我覺得這本書的名字改為《數學應用之美》甚至《資訊理論應用之美》更為合適。對於希望體驗數學之美的同學,我推薦 S. Lang 的 《做數學之美妙》。
  • 「數學之美」講壇
    Beurling-Wintner問題    12月1日下午,清華大學數學系2020年「數學之美」系列學術報告活動在理科樓
  • 感悟數學之美 品味數學文化
    2020年與366位名師相約每天30分鐘一講座把你的思維帶到未曾去過的地方第845期感悟數學之美 品味數學文化王庚 | 南京財經大學教授華羅庚指出:「宇宙之大,粒子之微,生物之秘,火箭之速,地球之變和化工之巧,無處不用數學。」
  • 高中數學組張慶娜:生活中的數學之美
    一提到美,人們最容易想到的是「江山如此多嬌」的自然美,或是「踏花歸去馬蹄香」的圖畫美,抑或是「蒹葭蒼蒼,白露為霜」的意境美。一提到數學,就好像只能和枯燥無味扯上關係了,似乎只有到農貿市場才有點用處。數學果真是這樣的嗎?今天我將與大家分享「生活中的數學之美」。
  • 數學之美,藝術之美,科學之美,生活之美,其實是相通的
    拋開背後的數學知識,其實,我們很多人,都可能從「最速降線」 問題中找到對工作、生活、感情的啟示。比如,我們很多人如果想迫切的做成某一件事情,如果從一點出發,要達到目標,想走最短的直線距離過去,最終卻發現「欲速則不達」,我們認為的最短距離,反而不是最快的方法。從「最速降線」來看,「曲線救國」 式的繞一下,距離上長了一點,但解決問題的時間,其實並沒有受到影響。
  • 李嬋穎:感知數學之美
    這其中,數學尤其容易陷入題海戰術。對此,中國科學院數學與系統科學院研究員李嬋穎結合自己的學習經歷表示:「數學如藝術,培養對數學之美的感知力,比單純強調數量的刷題訓練更重要。」刷題是駕馭「已知」,研究是發現未知菲爾茲獎得主小平邦彥曾經說過:理解數學需要具備一種純粹的感覺,即「數感」。
  • 於真實的學習中發現數學之美
    來自各大高校數學系的碩博研究生齊聚一堂,展現優秀的數學水平,為學子們提供一場高水平的數學教學盛宴。格魯伯總校長林待秋受邀參加本次活動,並為活動致辭。他將分享格魯伯的數學教學理念,和廣大師生共同探討數學之美。格魯伯的數學教育遵從兒童心智發展的基本規律,是從形象感知,到經驗,再到抽象。數學思維的發展先後表現為三個階段:數學感知→數學經驗→數學抽象。
  • 石頭裡的數學之美
    我們敬畏自然,而數學背後揭示的往往是自然規律、展現的是自然的力量。作為一個工科生,個人覺得石頭除了人文的意境美,其攜帶著自然密碼的數學之美也非常吸引人,以本人常玩的海洋玉髓為例,常見的有這麼幾種數學呈現。一、對稱結構對稱就是鏡像,就是物體相對於某鏡面所成的像,攝影中常常用幾何對稱來體現構圖美感。
  • 數學之美
    結果這份職業卻激發了青年對圖形和設計的愛好與天賦,他的作品不是一般藝術家的天馬行空,而是基於精準的絕對理性,儘管從來沒有受過高等教育的數學訓練,但是數學成為他的靈感來源,他鑽研於規則、結構,創作出許多「不可思議」的畫面。這位青年在中年時終於成名,他的畫裡充滿著黎曼曲面、彭羅斯三角、拓撲幾何等數學命題,他被譽為數學的「譯者」,他的名字叫埃舍爾。
  • 丘成桐:享受數學之美
    文學最高境界,是美的境界,而數學也具有詩歌和散文的內在氣質,達到一定的境界後,也能體會和享受到數學之美。數學既有文學性的方面,也有應用性的方面,我對這些都感興趣,探討它們之間妙趣橫生的關係,讓我真正享受到了研究數學的樂趣。」下午1:55,到達中科院。由於車上沒有備水,丘先生一連喝了5杯水。隨後走進演講報告廳。
  • 資料| 1800頁33章數學方法精要筆記 —深入數學建模, 機器學習和...
    from=leiphonecolumn_res07091 書籍介紹  · · · · · ·在信息爆炸的當今,大到企業巨頭的經營方向, 小到和日常生活相關的人工駕駛等領域,數學建模和人工智慧都對信息數據的收集、處理、解釋以及做出決策將起到至關重要的作用。負責開發模型和算法的一線科學家和工程師, 都需要有堅實的數學基礎。
  • 於數學中發現天大之美
    於數學中發現天大之美 2018-08-02 10:04 來源:澎湃新聞·澎湃號·政務
  • 《盜墓筆記》的小筆記之「先天八卦」
    看了這麼久的《盜墓筆記》,不能光過個眼癮。也要從中學到知識。這本書中經常提到風水寶地、奇門遁甲、生門死門一類的詞語。修建陵墓講究風水,但這風水就比較廣泛了。北派的尋龍點穴都與八卦有密切的聯繫。小編因為看了《盜墓筆記》,對風水八卦感了興趣,但這也不是一朝一夕就能學會的(我覺得南派三叔懂這些,他經常用奇門遁甲找東西)。