推送!10大主流AI模型適用盤點

2020-11-26 IT168

  【IT168 技術】人工智慧和機器學習的出現,讓各大企業瞬間走上捷徑,不管是運營效率還是生產利潤都得到了顯著的提升。但世界上是沒有「免費午餐」的,企業面臨的問題數組龐大,用於解決這些問題的ML模型種類相當廣泛,每一種算法擅長的領域都不同,選擇一種合適的算法模型成為企業棘手難題。

  本文匯總了當下最流行的10種AI算法,對它們的優點進行了詳細梳理,以供觀摩!

  10種流行AI算法:

  1.   線性回歸

  2.   Logistic回歸

  3.   線性判別分析

  4.   決策樹

  5.   樸素貝葉斯

  6.   K-Nearest Neighbors

  7.   學習矢量量化

  8.   支持向量機

  9.   Bagging和隨機森林

  10.   深度神經網絡

  在詳細介紹各大模型之前,我們先了解一下機器學習的基本原理。

  機器學習的原理可以簡單的理解為學習函數(f),它提供輸入值(x)和輸出值(y)之間最精確的相關性。Y=F(X)

  當我們擁有了一些歷史數據X、Y時,便可以套入AI模型,得出這些數據間最佳映射。機器學習不同於數學計算,它的結果不是100%的準確,只是一個最佳數值。但我們訓練的F函數可以用於使用新X預測新Y,從而實現預測分析。不同種類的ML模型實現最佳結果的方式都是不一樣的,但是基本原理都是一樣的。

  線性回歸

  截止今日,線性回歸在數學統計中被使用了200多年。算法的要點是找到係數(B)的值, 這些值對訓練函數精度的影響很大。

  舉一個簡單的例子:y = B0 + B1 * x,其中B0 + B1就是需求。

  通過調整這些係數的權重,數據科學家可以獲得不同的訓練結果。該算法成功的核心要求是具有清晰的數據(不能有太多的「低值信息」),並除去具有相似值(相關輸入值)的輸出變量。

  線性回歸算法一般適用於金融、銀行、保險、醫療保健、營銷等行業,統計數據進行梯度下降優化。

  Logistic回歸

  Logistic回歸是另一種流行的AI算法,能夠提供二進位結果。這意味著該模型既可以預測結果,也可以指定y值的兩個類別。該函數可以改變算法的權重,但由於使用非線性邏輯函數來轉換結果,所以是不同的。此函數可以表示為將真值與虛值分開的S形線。

  該函數成功的要求與線性回歸相同——去除相同值的輸入樣本並減少低值數據的數量。Logistic回歸是一個比較簡單的函數,很好掌握,很適合二進位分類。

  線性判別分析(LDA)

  線性判別分析(LDA)是邏輯回歸模型的一個分支,可以在輸出中存在兩個以上的類時使用。該模型可以計算數據的統計特性,如每個類別平均值和所有類別的總方差。預測允許計算每個類的值,並確定具有最高值的類。想要得到正確的結果,該模型需要根據高斯貝爾曲線分布數據,事先去除所有的異常值。

  決策樹

  決策樹是最古老,最常用,最簡單和最有效的ML模型之一。它是一個經典的二叉樹,在模型到達結果節點之前,都需要確定是否進行拆分。

  該模型易於學習,不需要數據規範化,可以幫助解決多種類型的問題。

  樸素貝葉斯(NBM)

  樸素貝葉斯算法是一個簡單但非常強大的模型,用於解決各種複雜問題。它可以計算出兩種類型的概率:

  1.   每個類出現的概率

  2.   給定一個獨立類的條件概率,給出一個額外的x修飾符。

 這種模型會假設所有輸入數據彼此無關,因此也被稱為「幼稚模型」。雖然這些在現實生活中無法實現,但這種簡單的算法可以應用於多種標準化數據流,高精度地預測結果。

  K-Nearest Neighbors(KNN)

  K-Nearest Neighbors同樣也是一個非常簡單且強大的ML模型,使用整個訓練數據集作為表示欄位。通過檢查具有相似值的K數據節點的整個數據集並使用歐幾裡德數來計算結果值的預測,以確定結果值。

  這樣的數據集需要大量的計算資源來存儲和處理數據,但當存在多個屬性且必須不斷地策劃時會遭受精度損失。但是它工作速度極快,能夠非常準確且高效的在大型數據集中查找所需值。

  學習矢量量化(LVQ)

  KNN唯一的缺點是需要存儲和更新大型數據集。學習矢量量化(LVQ)是KNN模型的進化版,它是使用碼本矢量來定義訓練數據集並編碼所需結果的神經網絡。因此,這些向量最初是隨機的,在學習的過程中可以調整它們的值來最大化預測精度。

  因此,找到具有最相似值的向量可以預測結果值的最高準確度。

  支持向量機(SVM)

  支持向量機是數據科學家討論最廣泛的算法之一,因為它為數據分類提供了非常強大的功能。所謂的超平面是用不同的值分隔數據輸入節點的線,當同一類的所有數據實例都在超平面的同一側,即支持向量;當數據點在其類平面之外,即不支持向量。

  好的超平面具有最大正向量且能夠分離大多數數據節點。它是一個非常強大的分類機器,可以應用於各種數據規範化問題。

  Bagging和隨機森林

  隨機決策森林由決策樹組成,其中多個數據樣本由決策樹處理,將結果聚合(如收集袋中的許多樣本)在一起來找到更準確的輸出值。

  不是找到一條最佳路線,而是定義了多條次優路線,從而使整體結果更加精確。如果決策樹能夠解決您的需求,那麼隨機森林可以作為一種優化方式,使結果更加完善。

  深度神經網絡(DNN)

  深度神經網絡是使用最廣泛的AI和ML算法之一,其工作原理是模仿人腦思考方式,使軟體的語音識別速度更快,識別準確率更高。它擅長改善深基於學習的文本和語音應用程式,機器感知深層神經網絡和OCR等。

  總結

  AI模型和ML模型種類繁多,有的適合數據分類,有的適合數據規劃。沒有一款模型能夠適合所有的問題,因此選擇一種合適的AI模型至關重要。

  那麼如何判斷哪個模式更匹配您的需求呢?以下是一些幫助判斷的要點:

  1.   您需要處理的3V大數據(輸入的數量,種類和速度)

  2.   您可以使用的計算資源數量

  3.   您處理數據的時間限制

  4.   數據處理的目標

  綜上所述,如果一個模型可以提供94%的預測精度,另一個模型可以提供86%的預測精度,但是高精度模型的處理時間是低精度模型處理時間的兩倍,那麼就需要您基於上述條件去做選擇。

  但是,目前還存在一個比較大的問題是很多企業普遍缺乏設計、實施數據分析以及機器解決方案所需的專業知識。這就是為什麼有那麼多的企業都去選擇專門的託管服務提供商。

相關焦點

  • 「模型雲」10款3d模型適用的淺啡色網格大理石貼圖素材推薦
    很多室內設計3d模型之中會使用淺啡網大理石貼圖來作為地磚效果,不同的大理石貼圖能夠在室內裝點出不一樣的精彩。本期,模型云為您整理精選了10款3d模型適用的淺啡色網格大理石貼圖素材推薦,快來和我們一起看看吧!
  • 一周AI大事盤點:AI幫助農民精準除草,AI可分析動物行為
    今天就帶你盤點過去一周(11月4日至11月10日)AI領域發生的熱門事件: 人工智慧幫助農民精準除草11月4日消息,法國國立應用科學學院的研究人員開發了一個AI模型,該模型能夠從無人機拍攝的作物圖像中檢測出雜草。該研究團隊通過遷移學習,使用數萬張作物圖像的數據集來開發其深度學習模型。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    ,效果細膩逼真自然,適用於染髮試色、互動娛樂場景。識別不同品牌/型號的儀器儀錶盤讀數,可識別錶盤上的數字、英文、符號,支持液晶屏、字輪表等表型;適用於各類血糖儀、血壓儀、燃氣表、電錶>>立即試用ai.baidu.com/tech/ocr/meter
  • Xilinx、Spline.AI、AWS 推出 X 射線分型深度學習模型和參考設計
    開源的自適應深度學習模型,助力醫療設備製造商和醫療服務提供商快速開發經過訓練的模型,面向臨床和放射醫學應用> Spline.AI:通過準確迅速的實時圖像訓練加速肺炎和 COVID-19 檢測系統 Spline.ai
  • 年中盤點|2020最炙手可熱的10家AI晶片初創公司
    Graph Streaming Processor是首個可以在單一系統中同時運行多個人工智慧模型和工作流的處理器。Blaize主要針對汽車和智能視覺等場景,其中,Graph Streaming Processor處理器克服了AI處理成本和尺寸方面的障礙,效率是現有產品的10到100倍。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    受此啟發,他們提出了一種基於BERT架構的模型,該模型可有效解決這一問題。結果顯示,與當前最先進的層次融合模型HFM相比,提高了2.74%。與微調的BERT模型相比,提高了2.7%。此外,經過微調的BERT模型比其他基於文本的非預訓練模型表現得更好,這也再次驗證了研究人員的設想,即像BERT這樣的預訓練模型可以改進檢測任務,它表明視覺+文本模式的模型通常比其他模式能夠獲得更好的結果,同時,它也說明圖像有助於提高檢測性能。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    結果顯示,與當前最先進的層次融合模型HFM相比,提高了2.74%。與微調的BERT模型相比,提高了2.7%。如圖:此外,經過微調的BERT模型比其他基於文本的非預訓練模型表現得更好,這也再次驗證了研究人員的設想,即像BERT這樣的預訓練模型可以改進檢測任務,它表明視覺+文本模式的模型通常比其他模式能夠獲得更好的結果,同時,它也說明圖像有助於提高檢測性能。
  • AI是如何檢測色情片的?
    就像Stripe and Square為不想在內部處理支持的企業提供現成的支付解決方案一樣,而AWS已經確立了自己作為託管網站的地位,像Zeiler的Clarifai、DeLorge的Picnix、Shapiro的Lemay.ai等創業公司正在爭相成為在線內容審核的一站式解決方案提供商。
  • AI 競賽沒有意義,模型實際不可用,冠軍全憑運氣?
    這些模型是否適用於臨床任務,它們是否帶來了廣泛適用的解決方案和足夠的新穎性,或者它們只是在競賽中表現良好,而不是在現實世界中?(劇透:我要為後者辯護)。好的模型與壞的模型我們是否應該期待這場競賽會產生好的模型?讓我們看看組織者怎麼說。
  • 盤點金融領域裡常用的深度學習模型
    作者 | Sonam Srivastava ,譯者 | sambodhi ,編輯 | Vincent ,AI前線出品| ID:ai-front在今天我們發布的這篇文章中,作者 Sonam Srivastava 介紹了金融中的三種深度學習用例及這些模型優劣的證據。
  • 吳恩達deeplearning.ai五項課程完整筆記了解一下?
    自吳恩達發布 deeplearning.ai 課程以來,很多學習者陸續完成了所有專項課程並精心製作了課程筆記,在此過程中機器之心也一直在為讀者推薦優質的筆記。上個月,deep learning.ai 第五課發布,該系列課程最終結課。Mahmoud Badry 在 GitHub 上開源了五項課程的完整筆記,介紹了包括序列模型在內的詳細知識點。
  • r語言 動態面板模型 - CSDN
    模型選擇一般有三種形式 (1)無個體影響的不變係數模型(混合估計模型):ai=aj=a,bi=bj=b 即模型在橫截面上無個體影響、無結構變化,可將模型簡單地視為是橫截面數據堆積的模型。這種模型與一般的回歸模型無本質區別,只要隨機擾動項服從經典基本假設條件,就可以採用OLS法進行估計(共有k+1個參數需要估計),該模型也被稱為聯合回歸模型(pooled regression model)。
  • 吳博:目標檢測集成框架在醫學圖像 AI 輔助分析中的應用 | AI 研習...
    左邊的圖是吳恩達教授之前做的一個 X 光模型,這個模型中主要做分類,判斷是否有肺炎等病症。圖像分類與識別是常見的圖像分析(MIA: Medical Image Analysis) 任務,是圖像檢索的基本單元。
  • 2016年矽谷科技產品和行業盤點
    在這裡我們做一個簡單的梳理和盤點,盤點過去一年的創投熱點,回顧過去,展望未來。聊天機器人聊天機器人和語音智能助理是去年的一大熱點,在12月份,Google宣布向開發者開放Google Assistant的,為去年的聊天機器人大戰寫下尾聲。
  • 京東AI研究院獲QuAC機器閱讀理解競賽冠軍,模型能力業界領先
    圖 1QuAC 挑戰賽官方成績榜單(https://quac.ai)目前,QuAC 是人機多輪對話交互領域複雜度最高的數據集,要求模型具備強大的上下文語義理解、指代推理、省略語義恢復和知識推理等能力,這也吸引了全球頂級科研院所和企業研究機構參加。
  • 換一下同義詞,AI就把句子意思弄反|華人研究者揭示NLP模型脆弱性
    換了一個同義詞,自然語言處理模型就讀不對句子的意思了。麻省理工和香港大學的研究生們開發了一個算法,讓AI在文本分類和推理問題上的正確率從80%下降到10%。測試原理這個模型的名字叫Textfooler,通過生經過微調的句子,來對自然語言文本分類和推理進行攻擊。
  • Google Cloud 發布 COVID-19 數據集,可構建 AI 模型來對抗疫情
    值得一提的是,研究人員可以使用 Google 的 BigQuery ML 服務,該服務使用戶可以使用 SQL 查詢在 BigQuery(完全託管的數據倉庫)中創建和執行機器學習模型,從而在 COVID-19 數據集上訓練機器學習模型。基於這個項目的公共屬性,用戶在查詢時是完全免費的,並且查詢免費政策一直持續到直到 9 月 15 日。
  • 盤點| 機器學習入門算法:從線性模型到神經網絡
    原標題:盤點 | 機器學習入門算法:從線性模型到神經網絡 選自Dataconomy 機器之心編譯 參與:王宇欣、吳攀、蔣思源兩者都具有「過擬合(overfit)」的趨勢,這意味著模型太適應於數據而犧牲了推廣到先前未知的數據的能力。因此,這兩個模型經常需要進行規範,這意味著它們有一定的懲罰(penalty)以防止過擬合。另一個線性模型的缺點是,因為它們太簡單了,所以往往不能預測更複雜的行為。
  • 替換一下同義詞,AI就把句子意思弄反了|華人研究者揭示NLP模型脆弱性
    換了一個同義詞,自然語言處理模型就讀不對句子的意思了。麻省理工和香港大學的研究生們開發了一個算法,讓AI在文本分類和推理問題上的正確率從80%下降到10%。測試原理這個模型的名字叫Textfooler,通過生經過微調的句子,來對自然語言文本分類和推理進行攻擊。
  • 如何在集群中高效地部署和使用 AI 晶片? | 分享總結
    視頻回放:http://www.mooc.ai/open/course/479周鵬程,Thinker (AI 晶片) 團隊深度學習平臺負責人,曾就職於阿里巴巴技術保障事業部,擔任算法工程師;清華大學微電子碩士,主要研究方向:面向可重構晶片的編譯器後端優化,指令級並行,高並發編程模型以及分布式計算。