最入門級別的機器學習圖書:Chris Bishop發布在線新書

2020-12-14 機器之心Pro

本文由機器之心編輯,「機器之心」專注生產人工智慧專業性內容,適合開發者和從業者閱讀參考。點擊右上角即刻關注。

PRML 大神、微軟劍橋研究院院長 Chris Bishop 與 John Winn 的機器學習新書 Model Based Machine Learning(基於模型的機器學習)不久之前剛剛公布。本書從實際案例出發,每一章節都著重從頭解決一個問題,本書從最基礎的概念開始,一步步帶領讀者體會機器學習建模解決問題的思路。本書現有 5 個章節,其他章節將陸續推出。

近年來,機器學習已經走到了科技世界的中心位置。今天,成百上千的科學家和工程師們正在將機器學習的各類方法應用到越來越多的領域裡。然而,在實踐中有效利用機器學習是一項艱巨的任務,特別是對於新領域而言,以下是使用機器學習解決現實世界問題面臨的一些主要挑戰:

「我正被機器學習方法和技術的海洋所淹沒,有太多的方法了!」

「我不知道該用哪個方法,不知道為什麼這個方法在我的問題中表現更好。」

「我的問題看起來不能用任何標準算法解決。」

機器學習對於入門者而言是令人畏懼的

在本書中,作者從一個新的視角審視機器學習,即基於模型的機器學習。從這個視角來看,我們會更系統、清晰地了解創建高效機器學習解決方案的過程。本教程適應於全方位了解機器學習技術和應用,並有助於大家構建成功的機器學習解決方案。

什麼是基於模型的機器學習?

在基於模型的視角中,我們不需要轉換我們的問題而去擬合一些標準算法,我們只需要精確地設計我們自己的機器學習算法而擬合我們的問題。

在基於模型的機器學習中,核心觀點即所有問題域的假設都可以在特定形式的模型中表達。實際上,模型就是對問題作出一系列假設,並用十分精確的數學形式表達出來。例如在第一章中,我們嘗試構建一個模型而解決簡單的謀殺問題。在這個任務中,模型的假設就包括一組犯罪嫌疑人、可能行兇的武器、不同犯罪嫌疑人對不同武器的偏好等,然後我們再對這些不同的假設採用具體的機器學習算法完成模型。基於模型的機器學習是一種廣義目的方法,因此我們不需要學習巨量的機器學習算法和技術。

模型和算法

從基於模型的機器學習角度來看,模型是組合一系列假設以在問題域中尋找解決方案。為了從模型獲得一組預測,我們需要收集數據並計算那些我們希望知道的變量值。而這一計算的過程就稱之為推斷。我們將在本教程中討論幾種常見的推斷技術,而模型和推斷過程的結合如下所示就可以定義成一個機器學習算法。

目標讀者

本教程並不是尋常的機器學習教科書,因此我們也不會一一介紹不同的機器學習算法。我們會通過一系列現實案例介紹各種算法的關鍵概念。案例學習在本教程中起到了極其重要的作用,因為我們只有通過案例才能真正理解不同的建模方法和算法。因此每一章主要只討論一個案例,並且將嘗試使用基於模型的方法解決該案例所出現的問題。因此本教程非常適合機器學習入門者快速了解機器學習的核心思想和方法。

本教程每一個章節(或一個案例)將分為多個小節,因此初學者可以在閱讀完每小節後消化該小節的內容再進入下一小節的內容。

當前章節內容

第一章:破密神秘謀殺任務

在破解謀殺秘密中,我們將使用各種常見的概率方法跟著作者一步步找出隱藏在幕後的兇手,本章節涉及到概率的意義、隨機變量和概率分布等核心概念。

概率:即衡量隨機事件不確定性程度的數值,其取值範圍從 0 到 1。其中 0 代表不可能發生,1 代表必定發生。

隨機變量:即數值存在不確定性的變量。

標準化約束:即對概率分布的限制,一個隨機變量在所有情況下出現的概率和為 1.

概率分布:即一個函數,該函數給定了隨機變量每一個可能的值和概率。

抽樣:抽樣是一種推論統計方法,它是指從目標總體中抽取一部分個體作為樣本,通過觀察樣本的某一或某些屬性,依據所獲得的數據對總體的數量特徵得出具有一定可靠性的估計判斷,從而達到對總體的認識。

伯努利分布:伯努利分布又名兩點分布或者 0-1 分布,是一個離散型概率分布。若伯努利試驗成功,則伯努利隨機變量取值為 1。若伯努利試驗失敗,則伯努利隨機變量取值為 0。

均勻分布:均勻分布表示隨機變量等可能出現。在實際問題中,當我們無法區分在區間 [a,b] 內取值的隨機變量 X 取不同值的可能性有何不同時,我們就可以假定 X 服從 [a,b] 上的均勻分布。

第二章:評估人才技能

在這一章節中,我們將學會使用真實的數據構建模型。這一部分主要的概念如下:

概率密度函數:連續型隨機變量的概率密度函數是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數。

β 分布:Β分布也稱貝塔分布,是指一組定義在 (0,1) 區間內的連續概率分布,有兩個參數α和β。

對數概率(似然函數):似然函數是一種關於統計模型中的參數的函數,表示模型參數中的似然性,似然函數在統計推斷中有重大作用。

真正類率(true positive rate):預測為正且實際為正的樣本佔所有正樣本的比例。

假正類率(false positive rate):預測為正且實際為負的樣本佔所有正樣本的比例。

後面第三章、第四章和第六章已經完成,而剩下的章節還沒有更新。第三章主要是構建遊戲玩家匹配系統,即使用 Xbox Live 數據構建一個可以匹配遊戲玩家的系統,我們希望能使相匹配的玩家擁有相近的技能。第四章主要是構建郵件過濾系統,因為我們的郵件非常多,有些重要郵件會因為源源不斷的新郵件而被覆蓋掉,那麼該章節就叫我們怎樣利用機器學習方法減少這種信息負載。第六章則更深入到了醫學場景中,因為兒童哮喘病近來比較嚴重,而我們更好地理解哮喘和過敏間的關係有助於幫助醫生檢測和診斷哮喘病,那麼我們是不是可以利用機器學習解決該問題。

相關焦點

  • 機器學習漫遊指南 最完整的入門書單(外文版)
    在雷鋒網所篩選的學習資源中,這堪稱是迄今為止最全面、最完整、權威性比較高的一份 ML 書單,涵蓋了最值得學習者、從業者、開發者認真研讀的精品書目。這份指南適合多樣背景的讀者:從想要了解機器學習的普通人,到入門新手,再到高階開發者和學術研究人員。因此,雷鋒網對其進行編譯整理,特來與大家分享。
  • AI 聖經 PRML《模式識別與機器學習》官方開源(附中文版下載)
    》,中文譯名《模式識別與機器學習》,簡稱 PRML。許多領域的學生和研究者都可以用到它,包括機器學習,統計學,計算機科學,信號處理,計算機視覺,數據挖掘和生物信息學等。PRML 內容十分豐富,共有 14 章的內容,每一章都是乾貨滿滿。
  • 開發 | 開發者入門必讀:最值得看的十大機器學習慕課教程
    截至目前,國內開設人工智慧(AI)專業的高校不多,相當多的開發者是跨界入門,需要自學大量知識並摸索。因而優質的學習資源至關重要。因此,編輯搜集了全世界範圍內最受歡迎的機器學習課程,整理成這份「機器學習十大入門公開課」盤點,集中呈現給各位。這份推薦榜頗費心血,綜合考慮了難易、側重點、時效性等諸多因素,希望能幫助大家找到最適合自己的學習資源。
  • 【下載】Scikit-learn作者新書《Python機器學習導論》, 教程+代碼手把手帶你實踐機器學習算法
    Müller同時也是著名機器學習Python包scikit-learn的主要貢獻者 Andreas Muller 和 Reonomy 公司數據科學家 Sarah Guido 的新書《Python機器學習導論》(Introduction to machine learning with Python)從實戰角度出髮帶你用Python快速上手機器學習方法。
  • 我的機器學習入門路線圖
  • 《PyTorch 機器學習從入門到實戰》國內最懂「小扎」的技術團隊...
    近日,由校寶在線CTO孫琳,攜校寶研究院技術專家項斌、蔣陽波、汪建成共同撰寫的國內首款介紹PyTorch 深度學習框架在教育信息化領域實戰操作書籍《PyTorch 機器學習從入門到實戰》 正式出版了。作為最早介入PyTorch 深度學習框架研究的國內技術團隊之一,該書向想要學習PyTorch 深度學習框架學習者,提供從基礎入門到商業實操的全部經驗。
  • 機器學習入門線路
    ML表示機器學習,DEV表示開發,本專欄旨在為大家分享作為算法工程師的工作,機器學習生態下的有關模型方法和技術,從數據生產到模型部署維護監控全流程,預備知識、理論、技術、經驗等都會涉及,近期內容以入門線路為主,敬請期待!往期回顧:之前寫了有關計算機開發能力和數學能力的入門,在已有一定開發和數學基礎的前提下,大家可以慢慢開展機器學習方面的學習。
  • 機器學習入門
    機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與統計推斷學聯繫尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。
  • 2019年北京圖書訂貨會現代出版社五本新書發布
    本網訊(記者 常湘萍)1月10日至12日,北京圖書訂貨會期間,現代出版社舉行了《光榮與道路》《熊班長和熊小兵》《羅指揮:兒童如何學音樂》《新概念作文大賽20年精選》《心•境》五本新書發布會。
  • Python機器學習入門實例
    本文來源《Python程序設計案例教程——從入門到機器學習(微課版)》1.
  • 資料| 連廣場大媽都聽得懂的「機器學習入門」scikit-learn -17頁...
    Scikit-learn 目前主要由社區成員自發進行維護,且專注於構建機器學習領域內經廣泛驗證的成熟算法。Scikit-learn 項目最早為數據科學家 David Cournapeau 於 2007 年發起的 scikits.learn 項目,且 Scikit 的名字可視為 SciPy Toolkit,即 SciPy 的第三方擴展。
  • 入門者的機器學習/深度學習自學指南
    連結:https://zhuanlan.zhihu.com/p/45851189來源:知乎本文提供了適合入門者的機器學習、
  • 第25屆長沙圖書交易會開幕 發布「長沙人最喜愛的10本書」
    3月30日,消費者在長沙圖書交易會上選購各類書刊。 湖南日報·華聲在線記者 徐行 熊遠帆 攝影報導 華聲在線3月30日訊(湖南日報·華聲在線記者 熊遠帆 易禹琳)今天,世界「媒體藝術之都」第25屆長沙圖書交易會暨書香長沙·全民閱讀活動在省展覽館正式啟動,即日起至4月1日,超過1000家國有、民營出版發行企業齊聚星城,展示全國最新圖書產品。
  • 《學爸實驗室》新書發布
    《學爸實驗室》新書發布 2017年06月05日 14:56 來源:中國新聞出版廣電網 作者:劉蓓蓓 字號 內容摘要:6月1日 ,黑龍江出版集團旗下的黑龍江科學技術出版社在第27屆全國圖書交易博覽會上舉行
  • 《中國圖書出版產業報告》英文版新書發布會
    英國當地時間2012年4月16日下午,在倫敦伯爵宮展覽中心Hampton會議室,中國人民大學出版社與英國聖智學習出版集團聯合舉辦了主題為「中國出版業:現狀與未來」《中國圖書出版產業報告》英文版新書發布會。新聞出版總署副署長鄔書林、中國人民大學副校長王利明、中英文出版社領導和出版業界同仁等出席了本次會議。
  • 2018年年中圖書排行榜單發布
    2018年年中圖書排行榜單發布 2018年08月15日 13:28 來源:文匯報 作者:錢好 字號 內容摘要:本報訊 (記者錢好)在今年上半年的圖書銷售情況中,經濟管理類圖書成了最搶眼的
  • 書展在即,上海新書發布會推薦百種精品圖書
    2019上海書展即將開始,剛剛,上海市書刊發行行業協會在上海交通大學出版社張元濟講堂舉辦2019年(夏季)上海新書發布會,會上發布了100種上海精品圖書書目。圖說:《走進中國戰艦叢書》 官方圖近年來,隨著網絡傳播愈加發達,出版社與書店一般圖書信息對接已趨常態化,然而出版社的專業圖書信息發送並不是很通暢;實體書店賣場日益多元化,隨著文創、咖啡等加入,賣場有效陳列圖書面積減少,如何第一時間陳列新書、進行閱讀推廣活動、營造新書話題等,都是出版社、實體書店急需溝通、探討的問題。
  • 機器學習和深度學習的區別
    人工智慧是一類非常廣泛的問題,機器學習是其中一個重要領域和手段,深度學習則是機器學習的一個分支。在很多人工智慧問題上,深度學習的方法突破了傳統機器學習的瓶頸,因而影響力迅速擴大。什麼是機器學習?機器學習擅長做什麼?當然是替代重複的人工勞動,用機器自動從大量數據中識別模式——也就是「套路」啦。
  • 2018年最值得閱讀的12本深度學習圖書
    這裡有12本深度學習入門的最佳圖書推薦。人工智慧,特別是深度學習,在過去5年取得了巨大的進步。在過去,深度學習是一個只有少數研究人員關注的小眾領域。如今它已經成為一種主流技術,許多我們日常使用的應用和服務都已經開始使用深度學習來完成一些過去不可想像的任務。深度學習並不是一個新鮮事物。
  • 推新——中文圖書借閱室設立新書專櫃
    展現新書,推薦新書,是圖書館為讀者提供導讀的服務內容之一。為滿足讀者對圖書的求新欲望,實現圖書資源的充分利用,近期,市圖書館中文圖書借閱室開設了新書專櫃。新書專櫃位於中文圖書借閱室中間顯目的位置,讓讀者一目了然。