技術乾貨 | 如何做好文本關鍵詞提取?從三種算法說起

2021-01-09 達觀數據DataGrand

在自然語言處理領域,處理海量的文本文件最關鍵的是要把用戶最關心的問題提取出來。而無論是對於長文本還是短文本,往往可以通過幾個關鍵詞窺探整個文本的主題思想。與此同時,不管是基於文本的推薦還是基於文本的搜索,對於文本關鍵詞的依賴也很大,關鍵詞提取的準確程度直接關係到推薦系統或者搜索系統的最終效果。因此,關鍵詞提取在文本挖掘領域是一個很重要的部分。

關於文本的關鍵詞提取方法分為有監督、半監督和無監督三種:

1

有監督的關鍵詞抽取算法

它是建關鍵詞抽取算法看作是二分類問題,判斷文檔中的詞或者短語是或者不是關鍵詞。既然是分類問題,就需要提供已經標註好的訓練預料,利用訓練語料訓練關鍵詞提取模型,根據模型對需要抽取關鍵詞的文檔進行關鍵詞抽取

2

半監督的關鍵詞提取算法

只需要少量的訓練數據,利用這些訓練數據構建關鍵詞抽取模型,然後使用模型對新的文本進行關鍵詞提取,對於這些關鍵詞進行人工過濾,將過濾得到的關鍵詞加入訓練集,重新訓練模型。

3

無監督的方法

不需要人工標註的語料,利用某些方法發現文本中比較重要的詞作為關鍵詞,進行關鍵詞抽取。

有監督的文本關鍵詞提取算法需要高昂的人工成本,因此現有的文本關鍵詞提取主要採用適用性較強的無監督關鍵詞抽取。其文本關鍵詞抽取流程如下:

圖 1 無監督文本關鍵詞抽取流程圖

無監督關鍵詞抽取算法可以分為三大類,基於統計特徵的關鍵詞抽取、基於詞圖模型的關鍵詞抽取和基於主題模型的關鍵詞抽取。

NO.1

文本關鍵詞提取算法

基於統計特徵的關鍵詞提取算法

基于于統計特徵的關鍵詞抽取算法的思想是利用文檔中詞語的統計信息抽取文檔的關鍵詞。通常將文本經過預處理得到候選詞語的集合,然後採用特徵值量化的方式從候選集合中得到關鍵詞。基於統計特徵的關鍵詞抽取方法的關鍵是採用什麼樣的特徵值量化指標的方式,目前常用的有三類:

1

基於詞權重的特徵量化

基於詞權重的特徵量化主要包括詞性、詞頻、逆向文檔頻率、相對詞頻、詞長等。

2

基於詞的文檔位置的特徵量化

這種特徵量化方式是根據文章不同位置的句子對文檔的重要性不同的假設來進行的。通常,文章的前N個詞、後N個詞、段首、段尾、標題、引言等位置的詞具有代表性,這些詞作為關鍵詞可以表達整個的主題。

3

基於詞的關聯信息的特徵量化

詞的關聯信息是指詞與詞、詞與文檔的關聯程度信息,包括互信息、hits值、貢獻度、依存度、TF-IDF值等。

下面介紹幾種常用的特徵值量化指標。

詞性

詞性時通過分詞、語法分析後得到的結果。現有的關鍵詞中,絕大多數關鍵詞為名詞或者動名詞。一般情況下,名詞與其他詞性相比更能表達一篇文章的主要思想。但是,詞性作為特徵量化的指標,一般與其他指標結合使用。

詞頻

詞頻表示一個詞在文本中出現的頻率。一般我們認為,如果一個詞在文本中出現的越是頻繁,那麼這個詞就越有可能作為文章的核心詞。詞頻簡單地統計了詞在文本中出現的次數,但是,只依靠詞頻所得到的關鍵詞有很大的不確定性,對於長度比較長的文本,這個方法會有很大的噪音。

位置信息

一般情況下,詞出現的位置對於詞來說有著很大的價值。例如,標題、摘要本身就是作者概括出的文章的中心思想,因此出現在這些地方的詞具有一定的代表性,更可能成為關鍵詞。但是,因為每個作者的習慣不同,寫作方式不同,關鍵句子的位置也會有所不同,所以這也是一種很寬泛的得到關鍵詞的方法,一般情況下不會單獨使用。

互信息

互信息是資訊理論中概念,是變量之間相互依賴的度量。互信息並不局限於實值隨機變量,它更加一般且決定著聯合分布 p(X,Y) 和分解的邊緣分布的乘積 p(X)p(Y) 的相似程度。互信息的計算公式如下:

其中,p(x,y)是X和Y的聯合概率分布函數,p(x)和p(y)分別為X和Y的邊緣概率分布函數。

當使用互信息作為關鍵詞提取的特徵量化時,應用文本的正文和標題構造PAT樹,然後計算字符串左右的互信息。

詞跨度

詞跨度是指一個詞或者短語字文中首次出現和末次出現之間的距離,詞跨度越大說明這個詞對文本越重要,可以反映文本的主題。一個詞的跨度計算公式如下:

其中,表示詞i在文本中最後出現的位置, 表示詞 i 在文本中第一次出現的位置,sum表示文本中詞的總數。

詞跨度被作為提取關鍵詞的方法是因為在現實中,文本中總是有很多噪聲(指不是關鍵詞的那些詞),使用詞跨度可以減少這些噪聲。

TF-IDF值

一個詞的TF是指這個詞在文檔中出現的頻率,假設一個詞w在文本中出現了m次,而文本中詞的總數為n,那麼。一個詞的IDF是根據語料庫得出的,表示這個詞在整個語料庫中出現的頻率。假設整個語料庫中,包含詞w的文本一共有M篇,語料庫中的文本一共有N篇,則

由此可得詞w的TF-IDF值為:

TF-IDF的優點是實現簡單,相對容易理解。但是,TFIDF算法提取關鍵詞的缺點也很明顯,嚴重依賴語料庫,需要選取質量較高且和所處理文本相符的語料庫進行訓練。另外,對於IDF來說,它本身是一種試圖抑制噪聲的加權,本身傾向於文本中頻率小的詞,這使得TF-IDF算法的精度不高。TF-IDF算法還有一個缺點就是不能反應詞的位置信息,在對關鍵詞進行提取的時候,詞的位置信息,例如文本的標題、文本的首句和尾句等含有較重要的信息,應該賦予較高的權重。

基於統計特徵的關鍵詞提取算法通過上面的一些特徵量化指標將關鍵詞進行排序,獲取TopK個詞作為關鍵詞。

基於統計特徵的關鍵詞的重點在於特徵量化指標的計算,不同的量化指標得到的記過也不盡相同。同時,不同的量化指標作為也有其各自的優缺點,在實際應用中,通常是採用不同的量化指標相結合的方式得到Topk個詞作為關鍵詞。

NO.2

文本關鍵詞提取算法

基於詞圖模型的關鍵詞抽取算法

基於詞圖模型的關鍵詞抽取首先要構建文檔的語言網絡圖,然後對語言進行網絡圖分析,在這個圖上尋找具有重要作用的詞或者短語,這些短語就是文檔的關鍵詞。語言網絡圖中節點基本上都是詞,根據詞的連結方式不同,語言網絡的主要形式分為四種:共現網絡圖、語法網絡圖、語義網絡圖和其他網絡圖。

在語言網絡圖的構建過程中,都是以預處理過後的詞作為節點,詞與詞之間的關係作為邊。語言網絡圖中,邊與邊之間的權重一般用詞之間的關聯度來表示。在使用語言網絡圖獲得關鍵詞的時候,需要評估各個節點的重要性,然後根據重要性將節點進行排序,選取TopK個節點所代表的詞作為關鍵詞。節點的重要性計算方法有以下幾種方法。

1

綜合特徵法

綜合特徵法也叫社會網絡中心性分析方法,這種方法的核心思想是節點中重要性等於節點的顯著性,以不破壞網絡的整體性為基礎。此方法就是從網絡的局部屬性和全局屬性角度去定量分析網絡結構的拓撲性質,常用的定量計算方法如下。

節點的度是指與該節點直接向量的節點數目,表示的是節點的局部影響力,對於非加權網絡,節點的度為:對於加權網絡,節點的度又稱為節點的強度,計算公式為:

接近性

節點的接近性是指節點到其他節點的最短路徑之和的倒數,表示的是信息傳播的緊密程度,其計算公式為:

特徵向量

特徵向量的思想是節點的中心化測試值由周圍所有連接的節點決定,即一個節點的中心化指標應該等於其相鄰節點的中心化指標之線性疊加,表示的是通過與具有高度值的相鄰節點所獲得的間接影響力。特徵向量的計算公式如下:

集聚係數

節點的集聚係數是它的相鄰的節點之間的連接數與他們所有可能存在來連結的數量的比值,用來描述圖的頂點之間階級成團的程度的係數,計算公式如下:

平均最短路徑

節點的平局最短路徑也叫緊密中心性,是節點的所有最短路徑之和的平均值,表示的是一個節點傳播信息時對其他節點的依賴程度。如果一個節點離其他節點越近,那麼他傳播信息的時候也就越不需要依賴其他人。一個節點到網絡中各點的距離都很短,那麼這個點就不會受制於其他節點。計算公式如下:

因為每個算法的側重方向的不同,在實際的問題中所選取的定量分析方法也會不一樣。同時,對於關鍵詞提取來說,也可以和上一節所提出的統計法得到的詞的權重,例如詞性等相結合構建詞搭配網絡,然後利用上述方法得到關鍵詞。

2

系統科學法

系統科學法進行中心性分析的思想是節點重要性等於這個節點被刪除後對於整個語言網絡圖的破壞程度。重要的節點被刪除後會對網絡的呃連通性等產生變化。如果我們在網絡圖中刪除某一個節點,圖的某些指定特性產生了改變,可以根據特性改變的大小獲得節點的重要性,從而對節點進行篩選。

3

隨機遊走法

隨機遊走算法時網絡圖中一個非常著名的算法,它從給定圖和出發點,隨機地選擇鄰居節點移動到鄰居節點上,然後再把現在的節點作為出發點,迭代上述過程。

隨機遊走算法一個很出名的應用是大名鼎鼎的PageRank算法,PageRank算法是整個google搜索的核心算法,是一種通過網頁之間的超連結來計算網頁重要性的技術,其關鍵的思想是重要性傳遞。在關鍵詞提取領域, Mihalcea 等人所提出的TextRank算法就是在文本關鍵詞提取領域借鑑了這種思想。

PageRank算法將整個網際網路看作一張有向圖,網頁是圖中的節點,而網頁之間的連結就是圖中的邊。根據重要性傳遞的思想,如果一個大型網站A含有一個超連結指向了網頁B,那麼網頁B的重要性排名會根據A的重要性來提升。網頁重要性的傳遞思想如下圖所示:

圖 2 PageRank簡單描述(來自PageRank論文)

在PageRank算法中,最主要的是對於初始網頁重要性(PR值)的計算,因為對於上圖中的網頁A的重要性我們是無法預知的。但是,在原始論文中給出了一種迭代方法求出這個重要性,論文中指出,冪法求矩陣特徵值與矩陣的初始值無關。那麼,就可以為每個網頁隨機給一個初始值,然後迭代得到收斂值,並且收斂值與初始值無關。

PageRank求網頁i的PR值計算如下:

其中,d為阻尼係數,通常為0.85。是指向網頁 i 的網頁集合。是指網頁j中的連結指向的集合,是指集合中元素的個數。

TextRank在構建圖的時候將節點由網頁改成了句子,並為節點之間的邊引入了權值,其中權值表示兩個句子的相似程度。其計算公式如下:

公式中的為圖中節點和的邊的權重。其他符號與PageRank公式相同。

TextRank算法除了做文本關鍵詞提取,還可以做文本摘要提取,效果不錯。但是TextRank的計算複雜度很高,應用不廣。

NO.3

文本關鍵詞提取算法

基於主題模型的關鍵詞抽取

基於主題關鍵詞提取算法主要利用的是主題模型中關於主題的分布的性質進行關鍵詞提取。算法步驟如下:

1

獲取候選關鍵詞

從文章中獲取候選關鍵詞。即將文本分詞,也可以再根據詞性選取候選關鍵詞。

2

語料學習

根據大規模預料學習得到主題模型。

3

計算文章主題分部

根據得到的隱含主題模型,計算文章的主題分布和候選關鍵詞分布。

4

排序

計算文檔和候選關鍵詞的主題相似度並排序,選取前n個詞作為關鍵詞。

算法的關鍵在於主題模型的構建。主題模型是一種文檔生成模型,對於一篇文章,我們的構思思路是先確定幾個主題,然後根據主題想好描述主題的詞彙,將詞彙按照語法規則組成句子,段落,最後生成一篇文章。

主題模型也是基於這個思想,它認為文檔是一些主題的混合分布,主題又是詞語的概率分布,pLSA模型就是第一個根據這個想法構建的模型。同樣地,我們反過來想,我們找到了文檔的主題,然後主題中有代表性的詞就能表示這篇文檔的核心意思,就是文檔的關鍵詞。

pLSA模型認為,一篇文檔中的每一個詞都是通過一定概率選取某個主題,然後再按照一定的概率從主題中選取得到這個詞語,這個詞語的計算公式為:

一些貝葉斯學派的研究者對於pLSA模型進行了改進,他們認為,文章對應主題的概率以及主題對應詞語的概率不是一定的,也服從一定的概率,於是就有了現階段常用的主題模型--LDA主題模型。

LDA是D.M.Blei在2003年提出的。LDA採用了詞袋模型的方法簡化了問題的複雜性。在LDA模型中,每一篇文檔是一些主題的構成的概率分布,而每一個主題又是很多單詞構成的一個概率分布。同時,無論是主題構成的概率分布還是單詞構成的概率分布也不是一定的,這些分布也服從Dirichlet 先驗分布。

文檔的生成模型可以用如下圖模型表示:

其中和為先驗分布的超參數,為第k個主題下的所有單詞的分布,為文檔的主題分布,w為文檔的詞,z為w所對應的主題。

圖 3 Blei在論文中的圖模型

DA挖掘了文本的深層語義即文本的主題,用文本的主題來表示文本的也從一定程度上降低了文本向量的維度,很多人用這種方式對文本做分類,取得了不錯的效果。具體LDA的算法在請參考《一文詳解LDA主題模型》。

LDA關鍵詞提取算法利用文檔的隱含語義信息來提取關鍵詞,但是主題模型提取的關鍵詞比較寬泛,不能很好的反應文檔主題。另外,對於LDA模型的時間複雜度較高,需要大量的實踐訓練。

NO.4

文本關鍵詞提取算法

應用

現階段,文本的關鍵詞提取在基於文本的搜索、推薦以及數據挖掘領域有著很廣泛的應用。同時在實際應用中,因為應用環境的複雜性,對於不同類型的文本,例如長文本和短文本,用同一種文本關鍵詞提取方法得到的效果並相同。因此,在實際應用中針對不同的條件環境所採用的算法會有所不同,沒有某一類算法在所有的環境下都有很好的效果。

相對於上文中所提到的算法,一些組合算法在工程上被大量應用以彌補單算法的不足,例如將TF-IDF算法與TextRank算法相結合,或者綜合TF-IDF與詞性得到關鍵詞等。同時,工程上對於文本的預處理以及文本分詞的準確性也有很大的依賴。對於文本的錯別字,變形詞等信息,需要在預處理階段予以解決,分詞算法的選擇,未登錄詞以及歧義詞的識別在一定程度上對於關鍵詞突提取會又很大的影響。

關鍵詞提取是一個看似簡單,在實際應用中卻十分棘手的任務,從現有的算法的基礎上進行工程優化,達觀數據在這方面做了很大的努力並且取得了不錯的效果。

NO.5

文本關鍵詞提取算法

總結

本文介紹了三種常用的無監督的關鍵詞提取算法,並介紹了其優缺點。關鍵詞提取在文本挖掘領域具有很廣闊的應用,現有的方法也存在一定的問題,我們依然會在關鍵詞提取的問題上繼續努力研究,也歡迎大家積極交流。

參考文獻

[1] TextRank算法提取關鍵詞和摘要http://xiaosheng.me/2017/04/08/article49/

[2] Page L, Brin S, Motwani R,et al. The PageRank citation ranking: Bringing order to the web[R]. StanfordInfoLab, 1999.

[3] 劉知遠. 基於文檔主題結構的關鍵詞抽取方法研究[D]. 北京: 清華大學, 2011.

[4] tf-idf,https://zh.wikipedia.org/zh-hans/Tf-idf

[5] 一文詳解機器領域的LDA主題模型 https://zhuanlan.zhihu.com/p/31470216

[6] Blei D M, Ng A Y, Jordan MI. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003,3(Jan): 993-1022.

[7] 趙京勝, 朱巧明, 周國棟, 等. 自動關鍵詞抽取研究綜述[J]. 軟體學報, 2017,28(9): 2431-2449.

A

BOUT

作者簡介

韓偉:達觀數據數據挖掘工程師,負責達觀數據文本方面的挖掘與應用。主要參與達觀數據標籤提取與文本分類系統的構建與實現,對深度學習,NLP數據挖掘領域有濃厚興趣。

相關閱讀

技術乾貨 | 一文詳解LDA主題模型技術乾貨 | fastText原理及實踐技術乾貨|集成學習算法(Ensemble Method)淺析技術乾貨 | XGBoost原理解析技術乾貨 | 一文詳解高斯混合模型原理

相關焦點

  • 京東智能內容創作算法的演進與實踐:基於關鍵詞自動生成摘要
    來源 | 京東智聯雲開發者導讀:京東商城背後的 AI 技術能力揭秘: 基於關鍵詞自動生成摘要過去幾十年間,人類的計算能力獲得了巨大提升;隨著數據不斷積累,算法日益先進,我們已經步入了人工智慧時代。確實,人工智慧概念很難理解,技術更是了不起,背後的數據和算法非常龐大複雜。
  • 文本提取一秒搞定 華為OCR技術到底厲害在哪?
    華為手機上的文本提取功能可以快速提取屏幕上的文字,且支持電話號碼、郵件、網站一步跳轉,助力高效辦公。智慧視覺神操作,分分鐘搞定文本提取那麼,這麼好用的文本提取功能到底怎麼用?其實這就要從我們的手機攝像頭說起,可別小瞧了這個攝像頭,它可是隱藏在手機裡的智慧眼。卡路裡、翻譯、識物……一掃便知。
  • 「深度學習」從專利文本中提取化學反應——ChEMU數據集
    ——前言——當代人工智慧技術發展飛速,各行各業都在應用其中的機器學習、深度學習算法對感興趣的目標進行預測。在有機合成、藥物合成領域,機器學習與深度學習算法被用來預測一個有機反應的產物或反應物,甚至用來預測一個藥物分子的逆合成路線。
  • 網頁敏感關鍵詞匹配技術研究
    高效、準確的關鍵詞匹配算法能提升這些系統的性能,提高審核人員的效率。本文提出了一種網頁敏感關鍵詞匹配的技術,通過對待檢測文本預處理,減少敏感詞庫的負擔,採用Trie存儲檢索敏感詞,最大限度地減少無謂的字符串比較,最後通過管理人員的反饋信息及時更新敏感詞庫使得過濾更加高效。
  • EXCEL中混合文本中如何提取數字部分?
    短路這只是一個小插曲,我在回答的問題中有很多是字符提取或數字提取的問題,比如:如果提取數量單位混合填寫中的數量值,或是如何提起車牌號的最後一位數字?大家了解麼?今天我們就來聊一聊這個問題。如何提取數量單位混合填寫中的數量值:如下圖,如何提取數量/單位中的數量值?如果是數量值或是單位位數統一,比如都是元、萬元等,直接數值-分列即可。但下圖中恰恰是數量和單位位數都不統一,那如何取值?
  • Excel數字提取技巧:從混合文本中提取數字的方法
    前面我們分享了不用函數公式提取數字的5種方法。今天我們分享用簡單公式從混合文本中提取數字的方法。因為採用的公式很簡單,所以總體來說只適合數字在文本中的位置有一定規律的情況。如果想用公式提取沒有位置規律的數字,那就得看我們下一篇教程。學習更多技巧,請收藏關注部落窩教育excel圖文教程。
  • 萬字長文詳解文本抽取:從算法理論到實踐
    本文是這兩次技術直播的內容總結,包括信息抽取傳統算法和前沿算法詳解、比賽介紹,以及比賽baseline模型代碼分析和改進建議。 在前半部分,達觀數據的聯合創始人高翔詳細講解了自然語言處理中信息抽取算法技術。在後半部分,達觀數據的工程師們分享並介紹了「達觀杯」文本信息抽取挑戰賽的baseline代碼以及改進建議。
  • 萬字長文綜述:給你的數據加上槓桿——文本增強技術的研究進展及...
    機器之心機器之心發布作者:李漁樣本少、分布不均衡,如何讓訓練的模型性能更優越?文本增強技術算得上一個不錯的辦法。關於 EDA 技術,另一個需要重點關注的問題是,在運用 EDA 技術,如何設置替換比例 和 增強的文本倍數,比如 2000 條語句應對多少數據進行隨機刪除,增加等。
  • 萬字長文綜述:給你的數據加上槓桿—文本增強技術研究進展及應用
    機器之心發布作者:李漁樣本少、分布不均衡,如何讓訓練的模型性能更優越?文本增強技術算得上一個不錯的辦法。關於 EDA 技術,另一個需要重點關注的問題是,在運用 EDA 技術,如何設置替換比例 和 增強的文本倍數,比如 2000 條語句應對多少數據進行隨機刪除,增加等。
  • 算法有沒有價值觀?知乎內容推薦算法解析
    同樣是AI算法,同樣是內容推薦,知乎更側重於將關注點放在內容生產本身,對違規內容的處理速度也是極其快速。本文詳細介紹了知乎算法是如何通過識別垃圾廣告導流信息、識別低質量回答並處理違規信息的,想必對業內不少工程師會有借鑑意義。
  • 自動化文本情感分析的基本概念和研究思路
    自動化文本情感分析算法模型現已開放給個人用戶使用啦!中文、英文均可搞定,在界面首頁點擊領取免費的算法額度!本期小編將帶大家一起了解下關於文本數據自動化情感分析的基本知識!隨著主觀性文本的增多,在面對複雜的自然語言時,機器是否能夠做出準確的自我判斷?
  • 文本分類六十年
    本文通過回顧文本分類領域自1961年到2020年以來的歷年SOTA模型來填補這類綜述研究的空白,聚焦於從淺層學習到深度學習的各種模型。根據文本分類任務所涉及的文本數據來源、特徵提取的方法以及分類模型的不同進行分類對比研究。隨後,將討論每一個類別的詳細情況,其中涉及到給預測和測試提供可信支撐的技術變遷以及基準數據集。
  • 外貿人如何做好YouTube視頻營銷?趕緊學學這三種方法
    根據我們這麼多年的積累,對於玩轉YouTube平臺上的視頻營銷,我推薦你嘗試以下三種直接有效的好方法:1、多發優質內容提高視頻排名要想在YouTube中獲得更多流量,需要把視頻排名做到靠前,建議大家從以下兩點著手優化
  • 全方面分析概念元素的提取,讓你的設計方案更精彩!
    方案故事大多來源於設計師對地理風貌、風土人情、文化物產等的感悟和理解,但是如何將這些抽象的感悟和具體的方案設計產生關聯呢,這時候設計師可以通過提取概念元素的方法來打開設計思路,讓設計更具有說服力和感染力。01.什麼是室內設計概念元素那麼,什麼是室內設計概念元素呢?
  • 2014中考複習之提取關鍵詞專題
    提取關鍵詞,說到底就是要善於提取「核心信息」,是一種壓縮信息類的題型,考查學生提取關鍵信息的能力。這種題,因為不僅綜合考查了理解、分析、篩選、概括、語言表達等各項能力,有較好的區分度,而且與社會生活結合緊密。是近年來國考和高考考察的一項重點。   經典考題   1、根據下列消息內容,提取四個關鍵詞語並填寫在橫線上。
  • ​萬字長文詳解文本抽取:從算法理論到實踐(附「達觀杯」官方baseline實現解析及答疑)
    達觀數據目前已經舉行過兩次圍繞比賽的技術直播分享,並開源了baseline模型。本文是這兩次技術直播的內容總結,包括信息抽取傳統算法和前沿算法詳解、比賽介紹,以及比賽baseline模型代碼分析和改進建議。
  • 許哥筆記:如何打造完美的亞馬遜Listing?(Bullet Point篇)-雨果網
    ,2019年入行跨境,致力於把所學到、正在思考的知識和乾貨以文字形式記錄給予到所... 說起 Listing, 就是一個產品頁面,賣家需要在這個頁面撰寫產品標題、產品標籤、產品描述等等,lisitng寫的好,那麼你基本就打下了一個爆款的基礎。
  • SLAM算法解析:抓住視覺SLAM難點,了解技術發展大趨勢
    機器之心專欄作者:閱面科技趙季SLAM(Simultaneous Localization and Mapping) 是業界公認視覺領域空間定位技術的前沿方向,中文譯名為「同步定位與地圖構建」,它主要用於解決機器人在未知環境運動時的定位和地圖構建問題。本次閱面科技資深研究員趙季也將從 SLAM 方向著手,為大家展現更深層次的技術乾貨。
  • Excel中如何提取數字或文字?
    從文本框中,提取其中的數字,或者是提取其中的文字。一、我們先來認識下三個函數left函數:left(對象,從左邊開始取多少個字符)right函數:right(對象,從右邊開始取多少個字符)mid函數:mid(對象,從中間第幾字符開始取,取多少個字符)舉例如下:二、再來介紹下計算文本長度的函數len函數:len(按字符來計算個數)lenb函數
  • 常見的機器學習算法,你知道幾個?
    事實上,機器學習是一門多領域交叉學科,涉及概率論、統計學、算法複雜度理論等多門學科。專門研究計算機如何模擬或實現人類的學習行為,利用數據或以往的經驗,以此優化電腦程式的性能標準。根據學習任務的不同,我們可以將機器學習分為監督學習、非監督學習、強化學習三種類型,而每種類型又對應著一些算法。