首先你要了解一下什麼是機器學習。機器學習的定義:給定一系列訓練集數據並且對其進行訓練。以數據集h來舉例:第一步,如果我們的數據集中的數據來自全國各地,那麼就要從中獲取特徵數據。比如上海分布的節氣。或者其他,而這些數據可以作為特徵。第二步,我們對這些特徵進行訓練。本地常用的數據集是kaggle的數據集,這是一個名為montrealdatasetandcompetition(聖安東尼奧數據集挑戰賽)的挑戰比賽的數據集。這個數據集裡包含了23000條數據(48個主題),每一條數據包含1行和1列的標籤。訓練集中以平均值為自變量,最大值為因變量,n是特徵數量。首先,我們對獲取的特徵進行主成分分析(pca)。
以上圖為例子,該特徵包含一個坐標,一條線,一個列,一個方向。每一列的值為1/13。為什麼需要pca?原因在於最小二乘法的假設函數是一個線性方程組,如果直接用最小二乘法的擬合方法求解,會有誤差存在。這就需要pca的運用來進行特徵轉換。可能你會問:那為什麼不直接進行線性回歸等其他回歸算法?線性回歸的擬合方法訓練的是已有的數據集,通過估計的值得出參數,而我們進行線性回歸的目的是為了獲取數據的分布規律,而這個分布和我們進行線性回歸的假設函數是有出入的。這時候需要利用pca進行特徵轉換,把隱藏的特徵轉換成我們希望的方式。pca的轉換方法包括兩種:分別是單峰平滑和對稱平滑。這裡引入pca的另一個關鍵因素:可逆性。
對於同一個轉換因變量,必然由下面兩個可逆性條件滿足:其中的是要轉換的特徵數,是參數值,是由數據不變性得到的轉換參數,我們假設已經有個參數值。分別來看單峰平滑和對稱平滑。其實我們很容易發現,單峰平滑方法要求n個變量一起相乘,對稱平滑方法只需要和一起相乘。那麼我們發現,單峰平滑的優勢在於高精度轉換,而對稱平滑可以達到更低的時間複雜度。現在我們開始利用數據進行學習。因為涉及的數據量較大,是用pca將每一個特徵全部轉換成我們希望的方式,再由數據集數據的大小來決定最小二乘法擬合出的目標值。下面引入最小二乘法的兩個參數:其中是採樣,分別是與a的相似度。
當已知兩個樣本之間的相似度(相似度s的計算包括如下兩種情況:兩個樣本的特徵相似,但a的值不同。兩個樣本的特徵相似,但a的值和a的值都不同)。因此我們希望我們知道兩個樣本之間的相似度。這樣在分析分析的時候才有意義。那麼這時候我們需要對所有特徵進行一次pca。