CFA二級思維導圖分享:機器學習(machine learning)
Reading7主要了解機器學習的一些常見概念,主要分類、了解常用算法的原理及其用途。
機器學習(Machine Learning)專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。從實踐的意義上來說,機器學習是一種通過利用數據,訓練出模型,然後使用模型預測的一種方法。
相比於傳統統計學方法(回歸分析)依賴於假設和先驗性的限制性條件,機器學習可以沒有假設的情況下訓練模型,機器學習的一個計算原理是「find the pattern, apply the pattern」。
根據數據類型的不同,機器學習通用的分類為:監督學習(Supervised Learning)、非監督學習(Unsuperviese Learning)、深度學習和強化學習(Deep Learning & Reinforcement Learning)。
樣本分類
在機器學習中,訓練模型的算法數據集包括:訓練樣本(Trainning Sample),檢驗樣本(validation sample)、驗證樣本(Testing Sample)。訓練樣本用於訓練得出模型,檢驗樣本用於修正模型,驗證樣本用於檢驗模型的有效性。
監督學習和非監督學習的主要區別在於訓練樣本是否已經標定了結果,。打個簡單的類比來說,監督學習就是給你一堆習題,這些習題是有標準答案的,學習(算法)完之後給一張考卷,測驗考試成績。而非監督學習,就是給你 一堆數據,自己去發現規律,然後將規律應用到新的數據中,類似於給一堆樂高積木,自己去發現規律, 考試就給另外一堆樂高積木,看能否應用之前發現的規律。
監督學習算法
監督學習可應用於回歸和分類問題,回歸和分類的區別在於輸出的結果是連續變量還是分類變量。常見的回歸算法有懲罰性回歸算法,LASSO。常用的分類算法有支持向量機(Support vector machine (SVM))、近鄰算法(K-nearest neighbor (KNN) 、分類回歸樹(Classification and Regression Tree (CART)),以及集成算法,集成算法為將多種不同的算法或模型集成到一起,將各個不同模型的結果放到一起,按模型結果的最大值作為整個算法的結果,如Bootstrap Aggregating (Bagging)、隨機森林(random forest)
非監督學習算法
非監督學習用於解決降維和聚類問題,降維是一種減少特徵數量的方法,選出對結果影響最大的特徵。聚類問題就是把含相似特徵的數據放到一起。
降維主要的算法是主成分分析(PCA)算法,聚類問題的算法包括k-means clustering、分層聚類hierarchical clustering、樹狀圖Dendrograms。
深度學習
第三類深度學習,既可能是監督學習,也可能是非監督學習。包括神經網絡(Neural Networks,NN/ANN)、深度學習(deep learning nets ,DLNs)和強化學習(Reinforcement learning ,RL)
神經網絡由輸入層(Input layer)、隱藏層(hidden layers)和輸出層(Output layer)構成。深度學習是至少有3個,一般超過20個的隱藏層。
文中圖片均來源於CFA二級教材。