人工智慧難點之——自然語言處理(NLP)

2020-12-05 野生極客匯

如果單從NLP縮寫包含很多方面:

有數學的非線性規劃(Non-linear programming)醫學的無光感(No light perception)心理學的 神經語音規劃 (Neuro-linguistic programming)計算機科學與語言學轉換的領域(natural language processing)

這裡指的是計算機科學與語言學轉換的領域。(NLP)是人工智慧和語言學領域的分支學科。(人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。NLP應用背後有大量的基礎任務和機器學習模型。

什麼是自然語言處理

NLP是計算機以一種聰明而有用的方式分析,理解和從人類語言中獲取意義的一種方式。通過利用NLP,開發者可以組織和構建知識來執行自動摘要,翻譯,命名實體識別,關係提取,情感分析,語音識別和話題分割等任務。

自然語言處理如何工作

目前NLP的方法是基於深度學習,這是一種AI,它檢查和使用數據中的模式來改善程序的理解。深度學習模型需要大量的標記數據來訓練和識別相關的相關性,匯集這種大數據集是當前NLP的主要障礙之一。早期的NLP方法涉及更基於規則的方法,在這種方法中,簡單的機器學習算法被告知要在文本中查找哪些單詞和短語,並在這些短語出現時給出特定的響應。但深度學習是一個更靈活,直觀的方法,在這個方法中,算法學會從許多例子中識別說話者的意圖,就像孩子如何學習人類語言一樣。

自然語言應用

NLP算法通常基於機器學習算法。NLP可以依靠機器學習來自動學習這些規則,而不是手工編碼大量的規則集,通過分析一系列的例子(如,一個大的資料庫,像一本書,直到一堆句子的集合),並且做一個靜態的推論。一般來說,分析的數據越多,模型越精確。社交媒體分析是NLP使用的一個很好的例子。品牌在線跟蹤對話以了解客戶的意見,並洞悉用戶行為。

開源的NLP庫

Apache OpenNLP:一種機器學習工具包,提供標記器,句子分段,詞性標註,命名實體提取,分塊,解析,共參考解析等等。自然語言工具包(NLTK):提供用於處理文本,分類,標記化,詞法分析,標記,解析等模塊的Python庫。斯坦福的NLP:一套NLP工具,提供詞性標註,命名實體識別器,共識解析系統,情感分析等等。

視頻資料查找

史丹福大學NLP - Dan Jurafsky&Chris Manning教授自然語言處理 - 密西根大學 (IIT Bombay計算機科學與工程系Pushpak Bhattacharyya教授的自然語言處理)自然語言理解:基礎和藝術 西蒙斯學院自然語言處理導論 - 劍橋編碼學院

處理的主要範疇

文本朗讀(Text to speech)/語音合成(Speech synthesis)語音識別(Speech recognition)中文自動分詞(Chinese word segmentation)詞性標註(Part-of-speech tagging)句法分析(Parsing)自然語言生成(Natural language generation)文本分類(Text categorization)信息檢索(Information retrieval)信息抽取(Information extraction)文字校對(Text-proofing)問答系統(Question answering)機器翻譯(Machine translation)自動摘要(Automatic summarization)文字蘊涵(Textual entailment)

使用NLP構建您自己的RSS閱讀器

可以使用以下算法在30分鐘內構建機器學習RSS閱讀器:

ScrapeRSS從RSS提要中獲取標題和內容;Html2Text保留重要的文本,但從文檔中去除所有的HTML;AutoTag使用潛在的Dirichlet分配來識別文本中的相關關鍵字;情感分析然後用來確定文章是積極的,消極的還是中立的;Summarizer終於被用來識別關鍵句子。

本文參考資料

WikipediaThe Stanford NLP GroupCourseraMatt KiserMargaret Rouse

相關焦點

  • 國內自然語言處理(NLP)研究組
    Lab)ByteDance AI Lablab.toutiao.com中科院計算所自然語言處理研究組歡迎來到中科院計算所自然語言處理組網站nlp.ict.ac.cn中科院自動化研究所語音語言技術研究組中文信息處理組nlpr-web.ia.ac.cn中國科學院軟體研究所中文信息處理實驗室中科院軟體所中文信息處理實驗室www.icip.org.cn
  • NLP 與 NLU:從語言理解到語言處理
    同理,在自然語言處理領域中,自然語言處理(NLP)的概念是否會讓位於自然語言理解(NLU)? 或者兩個概念之間的關係是否變得更微妙,更複雜,抑或只是技術的發展?在這篇文章中,我們將仔細研究NLP和NLU的概念以及它們在AI相關技術中的優勢。值得注意的是,NLP和NLU儘管有時可以互相交換使用,但它們實際上是兩個有一些重疊的不同概念。
  • 中文NLP福利!大規模中文自然語言處理語料
    新智元推薦來源:AINLP作者:徐亮【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    •  Dan Jurafsky 和 Chris Manning:自然語言處理[非常棒的視頻介紹系列]https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269 •  斯坦福CS224d:自然語言處理的深度學習[更高級的機器學習算法、深度學習和NLP的神經網絡架構]http://cs224d.stanford.edu/syllabus.html •  Coursera:自然語言處理簡介[由密西根大學提供的NLP
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    並著重介紹了大數據和自然語言處理的發展,對自然語言處理在大數據中扮演的角色作了探討。機器之心對文章進行了編譯,原文連結附於文末。人工智慧概述AI 指代「人工智慧」,是讓機器能夠像人類一樣完成智能任務的技術。AI 使用智能完成自動化任務。
  • 自然語言處理 NLP 發展簡史
    人工智慧的興起1950 年,計算機科學之父阿蘭·圖靈(Alan Turing)發表了一篇劃時代的論文,文中預言了創造出具有真正智能的機器的可能性。這一系列顛覆性的研究成果在學術界引發轟動,激發了人工智慧(AI)的思潮,同時也催生了自然語言處理(NLP)和計算機技術的發展。NLP 的早期理論基礎人們最早對 NLP 的探索始於對機器翻譯的研究。1947年,美國科學家韋弗(W. Weaver)博士和英國工程師布斯(A. D.
  • 自然語言處理的最佳實踐
    雷鋒網 AI 開發者按,近年來,自然語言處理(NLP)在質量和可用性方面快速增長,這有助於推動人工智慧解決方案的實際落地。在過去的幾年裡,研究人員一直在將新的深度學習方法應用於 NLP。數據科學家開始從傳統的方法轉向最先進的(SOTA)深度神經網絡(DNN)算法,這種算法使用的語言模型經過了大文本語料庫的預訓練。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    5月26日,由百度與中國計算機學會中文信息技術專委會、中國中文信息學會青工委聯合舉辦的「2019自然語言處理前沿論壇」正式召開。本屆論壇主題為「機器之『讀、寫、說、譯』—— 探尋NLP未來之路」。論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題,與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。
  • 中國的自然語言處理領域的人工智慧公司
    原來,它應用了最新的人工智慧自然語言處理技術。什麼是自然語言處理?自然語言處理的英文是Natural Language Processing,一般被簡寫為NLP,它實際上包括了三個方面:語音識別、自然語言理解與語音合成(有一些人把語音識別作為自然語言處理之外的技術,在本文中,我們將語音識別也包含在自然語言處理的技術範疇之內)。
  • 重磅發布 | 牛津大學Deep NLP深度自然語言處理課程17年最新(漢化視頻)
    大數據文摘作品,轉載要求見文末大數據文摘重磅推出牛津大學深度學習與自然語言處理課程(Deep NLP)漢化視頻!大數據文摘視頻團隊在今年又獲得重磅資源,牛津大學深度學習與自然語言處理課程(Deep NLP)!大數據文摘已聯繫課程主講人取得翻譯授權,並聯合北京郵電大學模式識別實驗室組織了視頻漢化,免費發布。 所以大家可以看到中文字幕了!開不開心!
  • 一文讀懂Smartbi的自然語言處理(NLP)技術
    由於自然語言是人類區別於其他動物的根本標誌,沒有語言,人類的思維也就無從談起,所以NLP體現了人工智慧的最高任務與境界。也就是說,只有當計算機具備了處理自然語言的能力時,機器才算實現了真正的智能。 從技術角度看,NLP包括序列標註、分類任務、句子關係判斷和生成式任務等。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    大數據文摘作品編譯:糖竹子、吳雙、錢天培自然語言處理(NLP)是一種藝術與科學的結合,旨在從文本數據中提取信息。從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。為什麼要寫這篇文章?
  • 實踐入門NLP:基於深度學習的自然語言處理
    可以說,自然語言的研究歷史雖然還不是很長,但近些年在谷歌、IBM、斯坦福、阿里巴巴、Facebook等NLP領域的核心企業和研究所的推動下,其取得的成績,足以顯示它在人工智慧領域乃至整個計算機科學研究的重要性和廣闊應用前景。
  • 科普丨什麼是NLP(自然語言處理)
    自然語言處理(NLP)是一種專業分析人類語言的人工智慧。(下文皆簡稱為「NLP」),它的工作原理是這樣的:接收自然語言,這種語言是通過人類的自然使用演變而來的,我們每天都用它來交流轉譯自然語言,通常是通過基於概率的算法分析自然語言並輸出結果
  • 資源| MIT自然語言處理數據集和語料庫集合
    原標題:資源 | MIT自然語言處理數據集和語料庫集合 選自Github 作者:Karthik Narasimhan等 >機器之心編譯 參與:李澤南 最近,麻省理工學院(MIT)的在讀博士 Karthik Narasimhan 發起了一個為自然語言處理(NLP)準備的數據集/語料庫列表,以時間順序排列。
  • NLP市場規模超百億,自然語言處理專業大熱,英專學生也可以申請
    雖然自然語言處理是如今大火的人工智慧的一個分支領域,但自然語言處理的應用-機器翻譯的研究卻早於人工智慧這個詞的出現。1956年的達特茅斯會議是公認的人工智慧的起源,但著名的展示機器翻譯的喬治敦實驗卻是在1954年進行的。作為人類歷史上第一次機器翻譯,喬治敦實驗的唯一內容就是把有機化學領域的60多個俄語句子翻譯成英文。自此之後的十年,自動翻譯成為熱門研究課題。
  • AI自然語言處理(NLP)領域常用的16個術語
    自然語言處理(NLP)是人工智慧領域一個十分重要的研究方向。NLP研究的是實現人與計算機之間用自然語言進行有效溝通的各種理論與方法。本文整理了NLP領域常用的16個術語,希望可以幫助大家更好地理解這門學科。
  • 自然語言處理系列之人機之間的巴別塔之謎【一】
    本文從「人機互動的本質」入手,重點解析自然語言處理中的難點及潛在機會,竹間智能自然語言系列專欄文章第一篇,雷鋒網(公眾號:雷鋒網)已獲授權。AI能否真正理解人類的語言,甚至感情?根據《聖經·舊約》的記載,在很久以前,人類是使用相同的語言的。而當人類逐漸壯大,在虛榮心的趨使下,他們想建造一座通天的巨塔,聳入雲霄,並欲藉此達到至神的領域。可上帝對人類的行為非常不滿,故令世人的語言互不相通,人類因此陷入無休止的爭端和混亂中,計劃也就此失敗。這就是有名的「巴別塔之謎」。
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    新智元報導 來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具
  • 2019自然語言處理前沿論壇:聚焦機器「讀、寫、說、譯」,探尋NLP...
    人工智慧的本質是讓機器像人一樣感知世界、認知世界。以語言和知識為研究對象的自然語言處理(NLP)技術是人工智慧的核心問題之一。5月26日,百度、中國計算機學會中文信息技術專委會和中國中文信息學會青工委聯合舉辦「2019自然語言處理前沿論壇」。百度高級副總裁、ACL Fellow王海峰博士為論壇做開場致辭。