曼孚科技:AI算法領域常用的39個術語(上)

2021-01-16 曼孚科技

算法是人工智慧(AI)核心領域之一。

本文整理了算法領域常用的39個術語,希望可以幫助大家更好地理解這門學科。

1. Attention 機制

Attention的本質是從關注全部到關注重點。將有限的注意力集中在重點信息上,從而節省資源,快速獲得最有效的信息。

2. Encoder-Decoder 和 Seq2Seq

Encoder-Decoder 模型主要是 NLP 領域裡的概念。它並不特指某種具體的算法,而是一類算法的統稱。Encoder-Decoder 算是一個通用的框架,在這個框架下可以使用不同的算法來解決不同的任務。

Encoder-Decoder 這個框架很好的詮釋了機器學習的核心思路:

將現實問題轉化為數學問題,通過求解數學問題,從而解決現實問題。

Seq2Seq(是 Sequence-to-Sequence 的縮寫),就如字面意思,輸入一個序列,輸出另一個序列。這種結構最重要的地方在於輸入序列和輸出序列的長度是可變的。

3. Q-Learning

Q學習是強化學習中基於價值的學習算法。

4. AdaBoost

AdaBoost是Adaptive Boosting的縮寫。

AdaBoost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然後把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。

5. 隨機森林(Random Forest)

隨機森林屬於集成學習中Bagging(Bootstrap Aggregation的簡稱)的方法。

在機器學習中,隨機森林是一個包含多個決策樹的分類器,並且其輸出的類別是由個別樹輸出的類別的眾數而定。

構造隨機森林的4個步驟

☆隨機森林可以在很多地方使用:

對離散值的分類;

對連續值的回歸;

無監督學習聚類;

異常點檢測。

6. 學習向量量化( Learning Vector Quantization)

在計算機科學中,學習向量量化 (LVQ)是一種基於原型的監督學習統計學分類算法。 LVQ是向量量化的監督版本。

學習向量量化(Learning Vector Quantization,簡稱LVQ)屬於原型聚類,即試圖找到一組原型向量來聚類,每個原型向量代表一個簇,將空間劃分為若干個簇,從而對於任意的樣本,可以將它劃入到它距離最近的簇中,不同的是LVQ假設數據樣本帶有類別標記,因此可以利用這些類別標記來輔助聚類。

7. K鄰近(K-Nearest Neighbors)

K最近鄰(K-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。

該方法的思路是:在特徵空間中,如果一個樣本附近的K個最近(即特徵空間中最鄰近)樣本的大多數屬於某一個類別,則該樣本也屬於這個類別。

用官方的話來說,所謂K近鄰算法,即是給定一個訓練數據集,對新的輸入實例,在訓練數據集中找到與該實例最鄰近的K個實例(也就是上面所說的K個鄰居), 這K個實例的多數屬於某個類,就把該輸入實例分類到這個類中。

☆優點:

理論成熟,思想簡單,既可以用來做分類也可以用來做回歸;

可用於非線性分類;

訓練時間複雜度為O(n);

對數據沒有假設,準確度高,對outlier不敏感;

KNN是一種在線技術,新數據可以直接加入數據集而不必進行重新訓練;

KNN理論簡單,容易實現;

☆缺點:

樣本不平衡問題(即有些類別的樣本數量很多,而其它樣本的數量很少)效果差;

需要大量內存;

對於樣本容量大的數據集計算量比較大(體現在距離計算上);

樣本不平衡時,預測偏差比較大。如:某一類的樣本比較少,而其它類樣本比較多;

KNN每一次分類都會重新進行一次全局運算;

K值大小的選擇沒有理論選擇最優,往往是結合K-折交叉驗證得到最優K值選擇。

8. 線性判別分析(Linear Discriminant Analysis)

線性判別分析(LDA)是對費舍爾的線性鑑別方法的歸納,這種方法使用統計學,模式識別和機器學習方法,試圖找到兩類物體或事件的特徵的一個線性組合,以能夠特徵化或區分它們。所得的組合可用來作為一個線性分類器,或者,更常見的是,為後續的分類做降維處理。

應用於面部識別領域(在計算機化的臉部識別中,每一張臉由大量像素值表達。 LDA在這裡的主要作用是把特徵的數量降到可管理的數量後再進行分類。每一個新的維度都是模板裡像素值的線性組合。使用費舍爾線性判別得到的線性組合稱為費舍爾臉,而通過主成分分析得到稱為特徵臉。)

9. TF-IDF

簡單來說,向量空間模型就是希望把查詢關鍵字和文檔都表達成向量,然後利用向量之間的運算來進一步表達向量間的關係。比如,一個比較常用的運算就是計算查詢關鍵字所對應的向量和文檔所對應的向量之間的 「相關度」。

10. 元學習(Meta Learning)

元學習的思想是學習「學習(訓練)」過程。

元學習是人工智慧領域裡一個較新的方向,被認為是實現通用人工智慧的關鍵。

元學習的核心是具備自學能力。

元學習通常被用在:優化超參數和神經網絡、探索好的網絡結構、小樣本圖像識別和快速強化學習等。

11. 遺傳算法(Genetic Algorithm | GA)

遺傳算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優解的方法。

遺傳算法是從代表問題可能潛在的解集的一個種群(population)開始的,而一個種群則由經過基因(gene)編碼的一定數目的個體(individual)組成。

遺傳算法借鑑了生物學中的遺傳原理,是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優解的方法。

其本質是一種高效、並行、全局搜索的方法,能在搜索過程中自動獲取和積累有關搜索空間的知識,並自適應地控制搜索過程以求得最佳解。

12. 判別式模型(Discriminative Model)

在機器學習領域判別模型是一種對未知數據 y 與已知數據 x 之間關係進行建模的方法。判別模型是一種基於概率理論的方法。已知輸入變量 x ,判別模型通過構建條件概率分布 P(y|x) 預測 y 。

13. 產生式模型(Generative Model)

在機器學習中,生成模型可以用來直接對數據建模(例如根據某個變量的概率密度函數進行數據採樣),也可以用來建立變量間的條件概率分布。條件概率分布可以由生成模型根據貝葉斯定理形成。

14. Latent Dirichlet Allocation|LDA

LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。

LDA是一種非監督機器學習技術,可以用來識別大規模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。

15. 啟發式算法(Heuristic)

一個基於直觀或經驗構造的算法,在可接受的花費(指計算時間和空間)下給出待解決組合優化問題每一個實例的一個可行解,該可行解與最優解的偏離程度一般不能被預計。

現階段,啟發式算法以仿自然體算法為主,主要有蟻群算法、模擬退火法、神經網絡等。

16. 粒子群算法(Particle Swarm Optimization | PSO)

PSO 算法屬於進化算法的一種,和模擬退火算法相似,它也是從隨機解出發,通過迭代尋找最優解,它也是通過適應度來評價解的品質,但它比遺傳算法規則更為簡單,它沒有遺傳算法的「交叉」(Crossover) 和「變異」(Mutation) 操作,它通過追隨當前搜索到的最優值來尋找全局最優。

17. 深度學習(Deep Learning)

深度學習是機器學習中一種基於對數據進行表徵學習的方法。

其屬於機器學習的範疇,可以說是在傳統神經網絡基礎上的升級,約等於神經網絡。它的好處是用非監督式或半監督式的特徵學習和分層特徵提取高效算法來替代手工獲取特徵。

深度學習是機器學習研究中的一個新的領域,其動機在於建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。

18. 人工神經網絡(Artificial Neural Network | ANN)

ANN從信息處理角度對人腦神經元網絡進行抽象, 建立某種簡單模型,按不同的連接方式組成不同的網絡。

未完待續...

相關焦點

  • 《冬日計劃》常用術語有哪些 常用術語彙總
    導 讀 冬日計劃常用術語彙總 冬日計劃常用術語一覽,許多剛剛入坑本作的玩家們可能會對遊戲中老玩家的一些術語感到困惑,今天就為大家帶來由「金Mao喜歡貓Mao
  • AI 算法解決二進位安全問題,騰訊安全NeurIPS 2020論文有新方法
    該論文的成果為逆向分析領域提供了新思路,大大提升工業部署效率。 最新研究成果也將應用於騰訊安全科恩實驗室研發的代碼檢索工具 BinaryAI,使用體驗請關注:http://github.com/binaryai/sdk。
  • 房產知識常用二十大專業術語及房產的50個專用術語!
    為了避免大家經常出現這種情況,小編今天給大家謀福利,向大家闡述房產知識常用二十大專業術語及房產的50個專用術語!躍層式住宅佔兩個樓層,有內部樓梯聯繫上下層,一般首層安排起居室、廚房、餐廳、衛生間,二層安排臥室、書房、衛生間等。 三、銷售類 11、五證:五證包括建設用地規劃許可證、建設工程規劃許可證、建築工程施工許可證、國有土地使用權證、第五是商品房預售許可證 。
  • 黑科技| 狗臉識別正式上線,快帶上你家狗子來體驗!
    "在各種孤獨中間,人最怕精神上的孤獨。"——巴爾扎克養寵物能夠緩解人類壓力和孤獨感,改善人類健康,據公開數據顯示,2014年至今,中國養寵家庭數量持續增長,年增速保持在10%以上且呈現持續加快的態勢。生活中寵物的角色也逐漸向家人轉變,「毛孩子」的健康牽動著每一個家庭。
  • 黑科技|狗臉識別正式上線,快帶上你家狗子來體驗
    "在各種孤獨中間,人最怕精神上的孤獨。"——巴爾扎克養寵物能夠緩解人類壓力和孤獨感,改善人類健康,據公開數據顯示,2014年至今,中國養寵家庭數量持續增長,年增速保持在10%以上且呈現持續加快的態勢。生活中寵物的角色也逐漸向家人轉變,"毛孩子"的健康牽動著每一個家庭。
  • 機器學習特徵選擇常用算法
    (3) 定向搜索 (Beam Search )算法描述:首先選擇N個得分最高的特徵作為特徵子集,將其加入一個限制最大長度的優先隊列,每次從隊列中取出得分最高的子集,然後窮舉向該子集加入1個特徵後產生的所有特徵集,將這些特徵集加入隊列。
  • 六年磨一劍,看小蟻科技如何在AI視覺領域做到行業領先
    9月4日,小蟻科技迎來了六周歲生日。當天下午,在張江人工智慧島18號樓,小蟻舉辦了一場溫馨的6周年慶典。與往屆不同的是,本次小蟻科技選取了5位具有代表性的蟻粉前來與小蟻員工歡聚一堂,共同慶祝小蟻科技成立六周年!小蟻科技創始人達聲蔚也發言感謝小蟻人一路走來的不忘初心。
  • 對比人工翻譯及自然語言處理翻譯,ai翻譯存在哪些優勢?
    舉個簡單的例子,微博上一般都是這樣子對話的:這種對話很好「產生」,因為人的語言翻譯一般很難做出來,從整體上描述了人對話過程,這樣就完成了對話的設計和「模仿」。當然,單這麼說也不嚴謹,可能有的翻譯有點細節交流上的錯誤。另外,比如歌詞有時也可以通過一些對比的對話(bingquery)自動生成,原因在於歌詞是「不可編碼」的。這麼理解,也就沒問題了。
  • 百度AI黑幫: 李彥宏的40位「出走門徒」
    在被業界幾度猜測去向後,吳恩達成立了Deeplearning.ai,致力於培育人工智慧高等人才。這把外界關於百度科學家離職創業的討論推向高峰,而在此之前,來自百度系的技術大牛們,已成為國內AI創業公司中一道獨特的風景線。和以往百度系創業者「揮霍流量」不同,這批加入創業項目的「黑幫」成員,幾乎大多聚集在人工智慧等前沿科技領域,他們帶著的是科學家身份、高昂的身價,以及超乎尋常的融資能力。
  • 美賽常用六種算法第二期——模擬退火算法
    模擬退火算法包含兩個部分即Metropolis算法和退火過程。Metropolis算法就是如何在局部最優解的情況下讓其跳出來,是退火的基礎。1953年Metropolis提出重要性採樣方法,即以概率來接受新狀態,而不是使用完全確定的規則,稱為Metropolis準則,計算量較低。
  • 中消協:加強網絡消費領域算法規制
    投資快報 舉報   新華社北京1月7日電(記者趙文君)中國消費者協會7日在京召開網絡消費領域算法規制與消費者保護座談會
  • 500個蒙古語新詞術語提交專家會議審定
    500個蒙古語新詞術語提交專家會議審定 2014-08-14 16:47:15來源:中國新聞網作者:責任編輯: 記者在會上獲悉,500個蒙古語新詞術語的提交審定是本次會議的重要內容。  本次會議會期三天,14日開始,16日結束。參會人員來自北京、新疆、甘肅、內蒙古四省區直轄市涉及蒙古語文翻譯的有影響人物,包括廣播、電視、新聞出版等代表性機構,共計30餘人。
  • 遊戲開發者必看的11個術語
    遊開發者必看的11個術語   你知道PER是什麼意思嗎?在NBA,PER指球員效率指數,全稱The Player Efficiency Rating。而在撞球領域,Century的意思不再是世紀,而是指單杆過百。任何產業發展到一定規模,都會催生一大批術語。移動遊戲也不例外。   樹立專業形象,從了解行業術語開始。
  • 金融英語:銀行業務常用專業術語(中英)
    新東方網>英語>英語學習>行業英語>金融英語>正文金融英語:銀行業務常用專業術語(中英) 2011-10-25 11:00 來源:幫考網 作者:
  • 從理論到實踐,一文詳解 AI 推薦系統的三大算法
    算法邏輯作為CF的兩大基本分類,鄰域的相關算法比較簡單不再介紹,本文主要介紹SVD,不過在介紹SVD之前,先對K-Means做個簡單的說明K-means算法介紹推薦系統大多數都是基於海量的數據進行處理和計算,要在海量數據的基礎上進行協同過濾的相關處理,運行效率會很低,為了解決這個問題通常是先使用K-means
  • 那這50個常用術語你都懂嗎?
    公眾號矩陣公眾號運營方在微信平臺上布局多個帳號,增加用戶數量,滿足不同用戶需求。示例:視覺文化旗下的公眾號矩陣包括「視覺志」、「她刊」、「蛙哥漫畫」、「一讀」、「窈窕媽媽」和「每日七言」。04. 微信公眾號微信公眾平臺上的應用帳號,使用者可在微信平臺上和特定群體溝通互動,包括訂閱號、服務號和企業號。05.
  • 10個梯度下降優化算法+備忘單
    隨機梯度下降(Stochastic Gradient Descend)最原始的隨機梯度下降算法主要依據當前梯度∂L/∂w乘上一個係數學習率α來更新模型權重w的。默認值(來自Keras):均方根傳遞算法,也稱RMSprop算法(Hinton等,2012),是在AdaGrad算法上進行改進的另一種自適應學習率算法。 它使用指數加權平均計算,而不是使用累積平方梯度和。
  • 我國商業航天及衛星網際網路領域第一隻獨角獸誕生
    本周硬科技領域投融資事件一共24起,生物醫藥領域發生11起融資事件,佔比46%;人工智慧領域發生7起融資事件,佔比29%;半導體領域發生3起融資事件,佔比13%;區塊鏈領域發生2起融資事件,佔比8%;航空航天領域發生1起融資事件,佔比4%。
  • AI先驅、A*算法發明者Nils Nilsson去世
    吳恩達、Yann LeCun 等人在 Twitter 上紛紛悼念。Nils Nilsson 教授是人工智慧領域的元老級人物,他在搜索、規劃、知識表示等方面作出了卓越的貢獻。據 Nils Nilsson 教授個人主頁介紹,他在斯坦福國際研究院(SRI International)人工智慧中心工作了 23 年,致力於統計和神經網絡模式識別方法的研究。
  • AI、大數據齊上陣,鬥魚與武漢理工大學合作加速科技成果轉化
    2020-11-24 10:35:30 來源: 狗幫兒兒 舉報   鬥魚在直播領域科技成果轉化上有了新的動作