機器學習技術與算法
眾所周知,機器學習是技術和算法的結合。但在開始關注技術和算法之前,讓我們看看它們是否是同一個東西。技術是解決問題的一種方法,這是一個非常通用的術語。 但是,當我們說我們有一個算法時,意思是我們有一個輸入,並希望從中得到一定的輸出,明確規定了實現目標的步驟。而算法可以利用多種技術來獲得輸出。
Python的機器學習技巧
機器學習回歸算法
倒退就是回到以前的狀態: 一個往往比較落後的狀態。在有關統計學的書籍中,您會發現回歸可以衡量一個變量的平均值和其他值的對應值如何相互關聯。
回歸均值
查爾斯達爾文的表兄弟弗朗西斯高爾頓觀察了幾代人的甜豌豆大小,他得出的結論是,讓大自然完成其工作將產生一系列規模。但是,如果我們選擇性地培育甜豌豆的大小,它會產生更大的豌豆。然而隨著自然的發展,更大的豌豆開始隨著時間的推移產生更小的後代。 我們對豌豆有一定的大小要求,於是我們可以將這些值映射到特定的線或曲線。
另一個例子:猴子和股票
1973年,普林斯頓大學教授伯頓·馬爾基爾(Burton Malkiel)在他的書「隨機漫步華爾街」(The Random Walk Down Wall Street)中提出了一個主張,堅持認為蒙著眼睛的猴子可以通過投擲飛鏢選擇投資組合做專家同樣出色的工作。在這樣的選股比賽中,猴子擊敗了職業選手。但這中情況只出現了一兩次,後續,猴子的表現能力又開始下降:它回歸到了中庸之道。
什麼是機器學習回歸?
在該圖中,線條最適合所有由點標記的數據。使用這一行,我們可以預測x = 70時會找到什麼值(具有一定程度的不確定性)。
作為一種機器學習技術,回歸在監督學習中找到了基礎。我們使用它來預測連續和數值目標,並從處理我們已知的數據集值開始。它比較已知值和預測值,並將預期值和預測值之間的差異標記為誤差/殘差。
機器學習中的回歸類型
我們一般會觀察兩種回歸:
線性回歸:當我們可以用直線表示目標和預測變量之間的關係時,我們使用線性回歸,如:Y = P1X+ P2+ E。非線性回歸:當我們觀察目標和預測變量之間的非線性關係時,我們不能將其表示為直線。
機器學習分類
什麼是機器學習分類?
分類是一種數據挖掘技術,可以讓我們預測數據實例的組成員資格。這預先使用標記數據並且受監督學習,意味著我們培訓數據並期望預測其未來。通過'預測',我們將數據分類為兩種屬性:輸出屬性或從屬屬性;輸入屬性或獨立屬性。
分類方法
決策樹歸納:我們從標記為元組的類構建決策樹。它具有內部節點、分支和葉節點。內部節點表示對屬性、分支、測試結果、葉節點和類標籤的測試。涉及的兩個步驟是學習和測試,這些都很快。基於規則的分類:此分類基於一組IF-THEN規則,表示為:如果...那麼...結論。通過反向傳播進行分類:神經網絡學習(通常稱為連接學習)構建連接。反向傳播是一種神經網絡學習算法,是最受歡迎的算法之一。它迭代地處理數據並將目標值與要學習的結果進行比較。
懶惰學習:在懶惰學習方法中,機器存儲訓練元組並等待測試元組,支持增量學習,與早期學習方法形成對比。ML分類示例
試想一下我們在這裡實現不同類型的代碼,例如ITF條形碼、Code 93條形碼、QR碼、Aztec和數據矩陣等。 通過很多實例,現在輪到您確定我們向您展示時的代碼類型。這就是有監督的學習,使用了訓練和測試兩部分的例子。注意每種類型的某些恆量最終是如何出現在曲線的另一側。
聚類
聚類是一種無監督的分類,這是一種探索性數據分析,沒有標記數據。 通過聚類,我們將未標記的數據分離為自然和隱藏的、有限和離散的數據結構集。
硬聚類:一個對象屬於單個集群。軟聚類:一個對象可能屬於多個聚類。在聚類中,我們首先選擇特徵,然後設計聚類算法,然後驗證聚類。最後,解釋結果。
示例
回想一下上面的例子,您可以將這些代碼組合在一起。QR碼、Aztec和Data Matrix將屬於一個群組:我們可以稱之為二維碼。ITF條形碼和Code 39條形碼將分組為「一維碼」類別。這就是集群的樣子:
異常檢測
異常是偏離預期的過程。機器學習中,有時候我們可能想要發現異常值,異常檢測是突出這些異常現象的好方法。