【乾貨】數據挖掘中算法學習的2條進擊路線

2020-12-04 智能觀

在正式學習之前,你所需要的預備知識(主要是數學)應該包括:

微積分:偏導數、梯度等。

概率論與數理統計:如極大似然估計、中央極限定理、大數法則等。

最優化方法:如梯度下降、牛頓-拉普什方法、變分法(歐拉-拉格朗日方程)、凸優化等。

如果你對其中的某些名詞感到陌生,那麼還是打道回府吧。這說明你尚不具備深入開展數據挖掘算法學習的能力。你會發現到處都是門檻,很難繼續進行下去。

第1條路線

(基於普通最小二乘法的)簡單線性回歸→線性回歸中的新進展(嶺回歸和LASSO回歸) → (此處可以插入Bagging和AdaBoost的內容) → Logistic回歸 →支持向量機(SVM) →感知機學習→神經網絡(初學者可先主要關注BP算法) →深度學習

之所以把它們歸為一條線路,是因為所有這些算法都是圍繞著 y = Σxiβi這樣一條簡單的公式展開的,如果你抓住這條線索,不斷探索下去,就算是抓住它們之間的繩索了。

基於普通最小二乘的線性回歸是統計中一種有著非常悠久歷史的方法,它的使用甚至可以追溯到高斯的時代。但是它對數據有諸多要求,例如特徵之間不能有多重共線性。嶺回歸和LASSO是對這些問題的修正。

當沿著第一條路線學完的時候,其實你已經攻克機器學習的半壁江山了!

第二條路線

K-means →EM → 樸素貝葉斯→貝葉斯網絡→隱馬爾科夫模型(基本模型、前向算法、維特比算法、前向-後向算法) →卡爾曼濾波

這條線路所涉及的基本都是那些各種畫來畫去的圖模型,學術名詞稱為 PGM 。

這條線的思路和第一條是截然不同的!

貝葉斯網絡、HMM(隱馬爾科夫模型),是這個線路中的核心內容。K-means 和 EM 具有與生俱來的聯繫,認識到這一點才能說明你真正讀懂了它們。而EM算法要在HMM的模型訓練中用到,所以你要先學EM才能深入學習HMM。所以儘管在EM中看不到那種畫來畫去的圖模型,但它還在這條線路中。

樸素貝葉斯裡面的很多內容在貝葉斯網絡和HMM裡都會用到,如貝葉斯定理、先驗和後驗概率、邊緣分布等(主要是概念性的)。

最後,卡爾曼濾波可以作為HMM學習的後續擴展。儘管很多機器學習的書裡沒把它看做是一種機器學習算法(或許那些作者認為它應該是信號處理中的內容),但是它的確可以被看成是一種機器學習技術。

用於數據挖掘的工具

應用層面,R、MATLAB和Python都是做數據挖掘的利器,另外一個基於Java的免費數據挖掘工具是Weka,這個就只要點點滑鼠,甚至不用編代碼了。

給一個軟體界面的截圖如下:

必讀的5本書

中文版(含翻譯版):

1. 《統計學習方法》

作者:李航

2. 《數據挖掘導論》

作者:Pang-Ning Tan、 Michael Stein-bach 、 Vipin Kumar

3. 《機器學習實踐》

作者:Peter Harrington

英文版:

4.《Artificial Intelligence : A Modern Approach(Third Edition)》

作者:Stuart Russell、Peter Norvig

5.《The Elements of Statistical Learning:Data Mining, Inference, and Prediction》

作者:Trevor Hastie、Robert Tibshi-rani、Jerome Friedman

(人工智慧愛好者俱樂部)

在智能觀獲取乾貨的2條路徑:

想知道AI加教育領域有哪些最新研究成果?請在智能觀(zhinengguanym)對話界面回復「 論文 」; 想要AI領域更多的乾貨?請在對話界面回復「 乾貨 」; 想了解更多專家的「智能觀」,請在對話界面回復「 觀點 」,去獲取你想要的內容吧。關於我們朋友說,智能觀是幾個女文青在做科技的事情。 哪裡,我們充其量是幾個對AI和教育有無限好奇與情懷的偽文青。我們以獨特的視角觀察AI給教育帶來的變化,從國內到國外,從清華到麻省,從小學到大學,從有志於此的小團隊以及個人到巨頭,都是我們關注的對象。我們希望用心、用準確的信息介紹業內的最新研究成果、進展、願景與觀點,希望對關注這個領域的你有所幫助,希望跟你一起發現更多潛能。PS:我們團隊還是有理性大叔的~[筆芯]

相關焦點

  • 深入淺出:如何從0開始學習大數據挖掘分析?
    最近有很多人諮詢,想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據挖掘分析的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • 【大數據】最新大數據學習路線(完整詳細版】
    大數據學習路線java(Java se,javaweb)Linux(shell,高並發架構,lucene,solr)Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)機器學習(R,mahout)Storm(Storm,kafka
  • 吳信東:數據挖掘算法的經典與現代
    中科院計算所研究員沈華偉幾位特邀專家帶領了大家重溫經典,解讀他們心目中的經典機器學習與數據挖掘算法,並與大家分享了這些算法的起源、應用與影響。其中,明略科技首席科學家、明略科學院院長吳信東做了題為《數據挖掘算法回顧:經典與現代》報告,總時長為1個小時左右,內容主要分為三個部分:數據挖掘中代表性的領域、數據挖掘的經典算法、2006年之後的現代數據挖掘技術。下文是本場報告的文字版,由 AI 科技評論編輯。
  • SQL Server2008中的9種數據挖掘算法淺析
    【IT168 技術文檔】  在sql server2008中提供了9種常用的數據挖掘算法,這些算法用在不同數據挖掘的應用場景下,下面我們就各個算法逐個分析討論。  1.決策樹算法  決策樹,又稱判定樹,是一種類似二叉樹或多叉樹的樹結構。
  • 數據挖掘常用的算法
    很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?  知識發現(KDD)就是從大數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。  數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。
  • 資料|《常用數據挖掘算法總結及 Python 實現》
    今日資料推薦《 常用數據挖掘算法總結及 Python 實現 》這份資源非常適合相關的從業人員或大數據愛好者,該文檔總結了常用的數據挖掘的算法原理以及 Python 實踐內容,為初學者提供良好的參考資料目錄:第一部分:數據挖掘與機器學習數學基礎第二部分:機器學習概述第三部分:監督學習--分類與回歸第四部分:非監督學習--聚類與關聯分析
  • 十大經典數據挖掘算法—Apriori
    打開APP 十大經典數據挖掘算法—Apriori 發表於 2018-02-04 09:37:56 關聯分析 關聯分析是一類非常有用的數據挖掘方法,能從數據中挖掘出潛在的關聯關係。
  • 資料|數據挖掘:概念、模型、方法和算法(第2版)/ 國外計算機科學...
    《數據挖掘:概念、模型、方法和算法(第2版)/國外計算機科學經典教材》介紹了通過分析高維數據空間中的海量原始數據來提取用於決策的新信息的尖端技術和方法。《數據挖掘:概念、模型、方法和算法(第2版)/國外計算機科學經典教材》開篇闡述數據挖掘原理,此後在示例的引導下詳細講解起源於統計學、機器學習、神經網絡、模糊邏輯和演化計算等學科的具有代表性的、前沿的挖掘方法和算法。書中還著重描述如何恰當地選擇方法和數據分析軟體併合理地調整參數。每章末尾附有複習題。
  • 數據挖掘中的利器——XGBoost理論篇
    XGBoost是各種數據挖掘或機器學習算法類比賽中每個團隊都會使用且精度相對最好的算法之一(Deep Learning算法除外)。也就是說,對於剛轉向機器學習領域的同胞們,在掌握數據挖掘的基本常識概念之後,要想在比賽中有所收穫,掌握XGBoost算法也是當務之急。
  • 數據挖掘技術在中醫證候學中的應用
    由於證候是一種非線性的複雜的臨床表現,只有採用與證候覆雜性相適應的科學理論及思維方法對其進行研究,才能揭示其科學內涵[2]。運用數據挖掘技術對中醫證候的構成特點及其規律進行分析研究,將對中醫證候的辯證分析起到巨大的促進作用。1 數據挖掘技術1.1 數據挖掘定義  數據挖掘是從大量數據中挖掘有趣模式和知識的過程。
  • 數據挖掘之關聯規則算法(Apriori)
    1 關聯規則挖掘定義大多數關聯規則挖掘算法通常採用的一種策略是,將關聯規則挖掘任務分解為如下兩個主要的子任務:頻繁項集產生(Frequent Itemset Generation2 Apriori算法介紹Apriori算法的原理通過限制候選產生發現頻發項集由頻繁項集產生關聯規則
  • 乾貨 面向大數據的時空數據挖掘
    隨著時空數據採集效率的不斷提高,時空數據積累越來越大,時空數據挖掘也面臨諸多挑戰。  理論框架  相較於傳統的數據挖掘技術,時空數據挖掘研究還遠未成熟。對於結構複雜且形式多樣的時空數據,如何尋找合適的數據挖掘算法或者技術,可以挖掘什麼有價值的模式,如何對這些模式進行分析?這些問題的解決都迫切需要構建一個時空數據挖掘的理論框架。
  • 二十、數據挖掘之Eclat算法介紹
    Eclat算法簡介數據格式Apriori算法和FpGrowth都是從項集格式{TID: itemset}的事物集中挖掘頻繁模式,其中TID是事物標誌符,而itemset是事物TID中購買的商品。這種數據格式成為水平數據格式。
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    共4天8節,講解機器學習和深度學習的模型理論和代碼實踐,梳理機器學習、深度學習、計算機視覺的技術框架,從根本上解決如何使用模型、優化模型的問題;每次課中,首先闡述算法理論和少量公式推導,然後使用真實數據做數據挖掘、機器學習、深度學習的數據分析、特徵選擇、調參和結果比較。
  • 電子商務大數據挖掘常用算法
    通過採用關聯分析方法來對挖掘數據中的關聯性規則,能夠幫助企業採取適當的營銷方式對商品進行宣傳,從而有利於促進新產品的銷售。同時,這也有利於消費者發現新產品,從而進一步促進了新產品的宣傳與銷售。在電子商務系統中,利用關聯規則分析並挖掘出各數據之間的相互關係。例如,採用關聯規則技術在商品推薦子系統中發現新市場。根據用戶當前的購買習慣向該用戶進行商品推薦。
  • 數據挖掘:基於機器學習方法的POI品類推薦算法
    如何使用這些已校準的POI數據,挖掘出有價值的信息,本文進行了一些嘗試:利用機器學習方法,自動標註缺失品類的POI數據。例如,門店名稱為「好再來牛肉拉麵館」的POI將自動標註「小吃」品類。機器學習解決問題的一般過程:
  • 數據挖掘(DataMining)概述
    1.數據挖掘的定義數據挖掘:指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘在面向用戶的網際網路產品中發揮著及其重要的作用。2 數據挖掘的對象常見的數據挖掘對象有以下7大類關係型資料庫(MySQL)、非關係係數據庫(NoSQL);數據倉庫/多維度資料庫(HDFS/Hive);空間數據(如地圖信息)
  • 乾貨:18 張思維導圖,後端技術學習路線長這樣!
    作者 | LemonCoder頭圖 | CSDN下載自視覺中國思來想去,學習方向和路線很重要。比起具體的技術細節,可複製的經驗、清晰的學習路線,是大部分人更加需要的東西。話不多說,直接上後端技術學習路線思維導圖框架:圖中的每一個節點我都做了細分,在後面章節逐個展開介紹。
  • 清華178頁深度報告:一文看懂AI數據挖掘
    2、數據準備數據準備又分為三個階段:1)數據的選擇:搜索所有與目標對象有關的內部和外部數據信息,並從中選擇出適用於數據挖掘應用的數據;2)數據的預處理:研究數據的質量,為進一步的分析做準備,並確定將要進行的挖掘操作的類型;3)數據的轉換:將數據轉換成一個分析模型。
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。