NLP 從入門到實戰,阿里 iDST 9 大名師即將開講

2021-01-11 雷鋒網

在大數據計算和深度神經網絡等技術的推動下,NLP 正在不斷趨於成熟,並在人們的生產生活中發揮著越來越重要的作用:從搜尋引擎、拼寫檢查、關鍵詞提取,到文本分類、情感分析、機器翻譯和對話機器人等,幾乎隨處都能看到 NLP,隨時都能享受 NLP 帶來的便捷。

但在誕生之初,NLP 的發展其實並不順利。

業內普遍認可的 NLP 起源大約可以追溯到 1954 年。當時,IBM 和喬治城大學(Georgetown University)聯合發起了一次著名試驗:Georgetown–IBM Experiment,科學家們想通過計算機自動將 60 個俄語文本翻譯成英語。當時一個普遍認知是:機器翻譯只是簡單的詞彙列表遍歷問題,在三到五年之內就能完美解決。於是各研發機構投入了大量的研發資源。

然而,事情的進展並不順利。在此後長達 30 多年的時間裡,NLP 的研究成果幾乎乏善可陳。唯一值得一提的可能就是 1972 年美國麻省理工學院開發的一個用自然語言指揮機器人的人機對話系統 SHRDLU,以及 1964-1966 年間開發的世界上第一個真正意義上的聊天機器人系統:ELIZA。但在當時,SHRDLU 和 ELIZA 的語言處理能力都非常簡單,例如 SHRDLU 只存儲了 200 個單詞,而 ELIZA 所做的也僅僅是用符合語法的方式將問題複述一遍,毫無「智能」可言。

這一時期的研究者們進行自然語言處理的主要思路是按照短語結構語法(Phrase Structure Grammar,PSG)的理論進行分析,他們認為語法規則的數目是有限的,但據此生成的語句的數目卻是無限的,試圖通過語言學家窮舉的方法列出所有語法規則,再根據這些語法規則展開計算機的模式化分析。

這種思路有兩大致命缺陷:

● 忽略了自然語言的歧義性。例如同樣是動詞加名詞的組合,「打擊力度」就是名詞短語,但「打擊盜版」就是動詞短語;

● 語法規則實際上是無法窮舉的。人們發現,雖然日常對話中最長使用的語法規則只有幾十條,它們出現的頻率也的確很高,但隨著語料庫規模的擴大,新的規則仍然不斷出現。

直到 1980 年代以後,開始有學者將機器學習算法引入 NLP,從此引發了一場 NLP 的革命。

人們開始認識到 PSG 分析法的缺陷,認識到依靠人類語言學家人工歸納總結所有語法規則的方法走不下去。於是逐漸出現了依靠複雜特徵集(Complex Feature Set)描述的語法約束,出現了依靠大數據和數理統計的統計學 NLP 分析模型,以及針對統計模型無法處理的歧義現象出現的「詞彙主義」(Lexicalism)。研究者們認識到在詞彙層採用顆粒度更小的語言描述單元的必要性,於是開始將自然語言描述的主體從語法規則層轉移到了詞彙層。目前,詞彙知識庫的構建已經成為了業界普遍關注的問題。美國的 WordNet、FrameNet 以及我國的各種語法知識庫和語義知識庫,都反映了這種強烈的「詞彙主義」的傾向。

隨著技術的不斷進步,NLP 通過不斷地從數學、生物神經科學以及統計語言學等交叉學科中吸收營養來豐富自己,目前已經取得了長足的進步。雖然在自然對話等一般場景中的表現還不盡如人意,但在一些特定領域,例如語音識別(微軟 / IBM 語音識別)和機器翻譯(谷歌 GNMT 機器翻譯)等細分場景中,最新的 NLP 技術已經超越了許多普通人類的表現。

在這種情況下,作為一名 AI 相關領域的研發從業者,更有必要對 NLP 技術有一個全面的認識和了解。為此,雷鋒網聯合國內頂級 AI 培訓平臺「1024 MOOC 學院」,有幸邀請到 9 位來自阿里巴巴 iDST 數據科學與技術實驗室的頂級專家,利用 4 月 8-9 日一個周末的時間,為大家奉上一期「NLP快速入門實戰特訓班」。

如果你對人工智慧了充滿熱情,如果你對 NLP 充滿了好奇心和求知慾,如果你是一個不甘心被機器超越的 AI 開發者,那麼請不要猶豫,加入我們。本課程將系統涵蓋 NLP 技術中的分詞算法、語義理解、對話系統以及機器翻譯等四大版塊,重點介紹基礎理論與實戰應用,幫助大家解決實戰過程中會遇到的技術難題。

  課程內容(10個課時):

1. 詞法分析

1、中文詞法分析的基本概念和核心問題

2、基於馬爾科夫模型的中文詞法分析

3、基於序列標註模型(CRF、LSTM)的中文詞法分析

4、詞法分析之工業界實踐

2. 意圖理解

意圖理解的基本概念

意圖理解的難點和基本方法

深度學習在意圖理解中的應用

意圖理解在阿里產品中的具體實現

3. Slot 抽取

屬性抽取的基本概念

屬性抽取的難點和基本方法

深度學習在屬性抽取中的應用

屬性抽取在阿里產品中的具體實現

4. 對話引擎

對話引擎的基本概念

對話的建模方法

應用場景下對話引擎面臨的問題

對話引擎問題的一些解決思路

5. 智能問答

智能問答的基本概念和應用場景介紹

智能問答系統的工作原理、系統框架和關鍵技術

如何搭建一套智能問答系統

6. 聊天引擎

聊天引擎概念和demo演示

基於檢索和基於生成的兩種聊天引擎構建方法

工業應用中涉及的數據、在線架構問題以及解決思路

7. 語言模型

語言模型的基本概念

N元文法語言模型

語言模型的評價指標

基於神經網絡的語言模型建模

8. 機器翻譯

機器翻譯的基本概念

統計機器翻譯和神經網絡機器翻譯的原理和工作機制

主要開源機器翻譯系統

工業級機器翻譯系統的主要架構、常見問題和解決方案

9. 搜尋引擎數據在NLP中的應用

搜尋引擎的基本概念。

搜尋引擎數據的分類

每種數據,我們會舉例說明在NLP相關領域中的作用

10. 句法分析

句法分析的基本概念

依存句法分析的基本原理和方法

常見的開源句法分析系統介紹

句法分析在電商場景工業級應用介紹

  講師信息(排名不分先後):

千訣
iDST資深算法專家
陳一寧
iDST高級專家
李永彬
iDST高級算法專家
郎皓
iDST算法專家
黎檳華
iDST高級算法工程師
鮑光勝
iDST算法專家
駱衛華
iDST資深技術專家
鄭昊
iDST高級算法工程師
吳勝蘭
iDST資深算法工程師

  開課安排:

時間:4月1日-2日,周六周末開課;

授課形式:線上視頻直播授課;

售價:1299元;

  報名連結:

http://m.leiphone.com/special/mooc03 

雷鋒網(公眾號:雷鋒網(公眾號:雷鋒網))相關閱讀:

深度 | 百度副總裁王海峰:百度在NLP領域都做了什麼?

清華大學朱小燕教授做客雷鋒網沙龍,分享 NLP 和人工智慧的那些事兒| AAAI 2017

罹患乳腺癌的這位MIT教授,用NLP甄別患者胸前的「定時炸彈」

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 這套1600贊的NLP課程已開放,面向實戰,視頻代碼都有丨資源
    一套面向實戰、號稱「代碼優先」的NLP課程來了,名字為A Code-First Introduction to Natural Language Processing,fast.ai出品,全程免費學習。不到半天點讚超過1600,轉發近500。
  • 想快速入門NLP?我們測評了15門最火課程,幫你找到最適合的
    大數據文摘出品來源:airev編譯:DD、Andy數年前,當小編剛踏足NLP領域時,還沒有太多相關課程,找學習資料就頗費功夫;如今,當網上充斥著各種良莠不齊公開課時,從中挑選一門適合自己的又成了另一種頗費功夫,特別對於選擇困難綜合症患者。
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    &model=en&cpu=1&cph=0 記得我曾經讀到過這樣一段話,如果你覺得有必要回答兩次同樣的問題,那就把答案發到博客上,這可能是一個好主意。根據這一原則,也為了節省回答問題的時間,我在這裡給出該問題的標準問法:「我的背景是研究**科學,我對學習NLP很有興趣。應該從哪說起呢?」
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    大數據文摘作品編譯:糖竹子、吳雙、錢天培自然語言處理(NLP)是一種藝術與科學的結合,旨在從文本數據中提取信息。從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。為什麼要寫這篇文章?
  • 「湖北名師雲課堂」第二課開講!六中上智名師帶你學初三語文
    「湖北名師雲課堂」系列公益直播第二課開講啦!11月22日(本周日)晚,湖北省優秀教師、湖北省「國培計劃」骨幹教師、武漢市語文學科帶頭人、武漢六中上智中學名師範文峻,將走進第二期「湖北名師雲課堂」直播間,帶領廣大初三學子梳理語文學科知識點,備戰元調。
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    新智元報導 來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具
  • 乾貨| 請收下這份2018學習清單:150個最好的機器學習,NLP和Python...
    本文英文出處:Robbie Allen翻譯/雷鋒網字幕組 吳楚校對/ 雷鋒網 田晉陽機器學習的發展可以追溯到1959年,有著豐富的歷史。這個領域也正在以前所未有的速度進化。在之前的一篇文章(https://unsupervisedmethods.com/why-artificial-intelligence-is-different-from-previous-technology-waves-764d7710df8b)中,我們討論過為什麼通用人工智慧領域即將要爆發。有興趣入坑ML的小夥伴不要拖延了,時不我待!
  • ...請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    本文英文出處:Robbie Allen翻譯/雷鋒網字幕組 吳楚校對/ 雷鋒網 田晉陽機器學習的發展可以追溯到1959年,有著豐富的歷史。在之前的一篇文章(https://unsupervisedmethods.com/why-artificial-intelligence-is-different-from-previous-technology-waves-764d7710df8b)中,我們討論過為什麼通用人工智慧領域即將要爆發。有興趣入坑ML的小夥伴不要拖延了,時不我待!
  • 乾貨 | 請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    本文英文出處:Robbie Allen翻譯/吳楚校對/田晉陽 機器學習的發展可以追溯到1959在之前的一篇文章(https://unsupervisedmethods.com/why-artificial-intelligence-is-different-from-previous-technology-waves-764d7710df8b)中,我們討論過為什麼通用人工智慧領域即將要爆發。有興趣入坑ML的小夥伴不要拖延了,時不我待!
  • 實踐入門NLP:基於深度學習的自然語言處理
    同時,阿里IDST、騰訊NLP、科大訊飛等也在該榜單名列前茅。可以說,自然語言的研究歷史雖然還不是很長,但近些年在谷歌、IBM、斯坦福、阿里巴巴、Facebook等NLP領域的核心企業和研究所的推動下,其取得的成績,足以顯示它在人工智慧領域乃至整個計算機科學研究的重要性和廣闊應用前景。
  • 「湖北名師雲課堂」第二課開講,六中上智名師深度剖析語文到底考什麼
    學習語文也是這樣,當我們懂得語文考什麼,就能從中獲得巨大的力量……」11月22日,「湖北名師雲課堂」系列公益直播課程第二期開講。湖北省優秀教師、湖北省「國培計劃」骨幹教師、武漢市語文學科帶頭人、武漢六中上智中學名師範文峻,從積累、思維、表達、生活四個方面講述「語文到底考什麼」及其應考策略,指導廣大初三學子備戰元調。
  • 在阿里 AI Lab 做 NLP 高級算法專家是一種什麼樣的體驗?
    在本周六,姜飛俊將在 SDCC 2017「人工智慧技術實戰線上峰會」 上帶來題為 《自然語言處理在「天貓精靈」的實踐應用》 的分享,更多峰會嘉賓和議題請查看文末。   搬好小馬扎坐好了,廢話少說,問答開始~   1. 自從來到阿里做NLP高級算法專家,睡眠時間還能保證嗎?
  • 卓立漢光「名師講堂」系列專題會第二講即將開講!
    2020年8月7日上午9:30-10:30,卓立漢光將邀請西安電子科技大學陳雪利教授,與大家在線上分享貝塞爾光束在拉曼光譜成像技術中的應用:    近期會議日程持續更新,更多神秘專家邀請中8月龍金友中國科學院精密測量科學與技術創新研究院   飛秒光電子速度影像技術:從氣相到液相體系的新應用
  • 「python opencv計算機視覺零基礎到實戰」九模糊
    一、學習目標了解什麼是卷積了解模糊的使用方法與應用目錄「python opencv 計算機視覺零基礎實戰」 第一節「python opencv視覺入門到實戰」二、格式與攝像頭「python opencv 視覺入門到實戰」 三、圖像編輯「python opencv視覺入門到實戰」 第四節色彩空間
  • Q&A|大數據培訓挑花了眼?知乎高贊答案給你靠譜指南!
    實踐出真知,也許以上名師確實留學歸來,確實任職名企,但可能只是相關領域,並沒有參加實戰項目,這對於想要學到真東西,特別是實戰經驗的學員來說無疑是不痛不癢,也許花幾萬元參加的培訓的老師,還不如你懂得多。所以看看實戰經驗很關鍵!  4 課程內容如何鑑定?  培訓大綱可以說是培訓機構宣傳的核心所在,在品嘗「前菜」之後,這才是課程的「主菜」。
  • 理論實踐出真知,名師專訪講股堂!
    在即將開堂授業之際,更有業內三大名師入駐,他們分別是——擁有十二年股票投資、研究經驗的知名操盤手劉琦,前上海混沌團隊操盤手王明波,以及退役股票操盤手楊傑。不難看出,此三位名師擁有一個共同點:實戰能力極強,均為股市「行伍」出身。
  • 覆蓋全網的阿里微服務架構有多牛:K8S+實戰+筆記+項目教程
    本書既能夠幫助入門讀者了解微服務,也能夠幫助運維人員加深對微服務體系的理解,尤其能夠為致力於網際網路技術開發和Java開發的程式設計師帶來卓有成效的實操性幫助。本書是Spring Cloud的入門書。首先,簡要概述了微服務並分析了當前網際網路架構趨勢。
  • 猿輔導攜手《開講啦》共同關注青少年茁壯健康成長
    猿輔導此次獨家冠名央視王牌節目《開講啦》可以說是強強聯合相輔相成。頂級大咖雲集 小撒帶你趣解知識開播8年來,《開講啦》作為央視王牌知識類節目,吸引了近400位國內外頂級名家大師登臺演講——敦煌研究院名譽院長樊錦詩向全國青少年分享她眼中的敦煌千年之美;四川航空機長劉傳健揭秘「川航備降」奇蹟背後的故事;北大生命科學學院教授饒毅深入淺出探討基因的奧秘,還有中國核潛艇之父黃旭華、火炸藥專家王澤山、埃及考古學家扎西·哈瓦斯、英國女建築師扎哈
  • 推薦算法系統/人臉識別/深度學習對話機器人高級實戰課
    下面我們就從人臉識別原理、人臉識別應用場景、人臉檢測與對齊、人臉識別比對、人臉年齡識別、人臉性別識別幾個方向,從理論到源碼實戰、再到伺服器操作給大家深度講解。>8、GAN生成對抗網絡9、深度強化學習DQN對話機器人實戰10、對話機器人原理與介紹11、基於TensorFlow對話機器人項目實戰【可試聽】12、