在大數據計算和深度神經網絡等技術的推動下,NLP 正在不斷趨於成熟,並在人們的生產生活中發揮著越來越重要的作用:從搜尋引擎、拼寫檢查、關鍵詞提取,到文本分類、情感分析、機器翻譯和對話機器人等,幾乎隨處都能看到 NLP,隨時都能享受 NLP 帶來的便捷。
但在誕生之初,NLP 的發展其實並不順利。
業內普遍認可的 NLP 起源大約可以追溯到 1954 年。當時,IBM 和喬治城大學(Georgetown University)聯合發起了一次著名試驗:Georgetown–IBM Experiment,科學家們想通過計算機自動將 60 個俄語文本翻譯成英語。當時一個普遍認知是:機器翻譯只是簡單的詞彙列表遍歷問題,在三到五年之內就能完美解決。於是各研發機構投入了大量的研發資源。
然而,事情的進展並不順利。在此後長達 30 多年的時間裡,NLP 的研究成果幾乎乏善可陳。唯一值得一提的可能就是 1972 年美國麻省理工學院開發的一個用自然語言指揮機器人的人機對話系統 SHRDLU,以及 1964-1966 年間開發的世界上第一個真正意義上的聊天機器人系統:ELIZA。但在當時,SHRDLU 和 ELIZA 的語言處理能力都非常簡單,例如 SHRDLU 只存儲了 200 個單詞,而 ELIZA 所做的也僅僅是用符合語法的方式將問題複述一遍,毫無「智能」可言。
這一時期的研究者們進行自然語言處理的主要思路是按照短語結構語法(Phrase Structure Grammar,PSG)的理論進行分析,他們認為語法規則的數目是有限的,但據此生成的語句的數目卻是無限的,試圖通過語言學家窮舉的方法列出所有語法規則,再根據這些語法規則展開計算機的模式化分析。
這種思路有兩大致命缺陷:
● 忽略了自然語言的歧義性。例如同樣是動詞加名詞的組合,「打擊力度」就是名詞短語,但「打擊盜版」就是動詞短語;
● 語法規則實際上是無法窮舉的。人們發現,雖然日常對話中最長使用的語法規則只有幾十條,它們出現的頻率也的確很高,但隨著語料庫規模的擴大,新的規則仍然不斷出現。
直到 1980 年代以後,開始有學者將機器學習算法引入 NLP,從此引發了一場 NLP 的革命。
人們開始認識到 PSG 分析法的缺陷,認識到依靠人類語言學家人工歸納總結所有語法規則的方法走不下去。於是逐漸出現了依靠複雜特徵集(Complex Feature Set)描述的語法約束,出現了依靠大數據和數理統計的統計學 NLP 分析模型,以及針對統計模型無法處理的歧義現象出現的「詞彙主義」(Lexicalism)。研究者們認識到在詞彙層採用顆粒度更小的語言描述單元的必要性,於是開始將自然語言描述的主體從語法規則層轉移到了詞彙層。目前,詞彙知識庫的構建已經成為了業界普遍關注的問題。美國的 WordNet、FrameNet 以及我國的各種語法知識庫和語義知識庫,都反映了這種強烈的「詞彙主義」的傾向。
隨著技術的不斷進步,NLP 通過不斷地從數學、生物神經科學以及統計語言學等交叉學科中吸收營養來豐富自己,目前已經取得了長足的進步。雖然在自然對話等一般場景中的表現還不盡如人意,但在一些特定領域,例如語音識別(微軟 / IBM 語音識別)和機器翻譯(谷歌 GNMT 機器翻譯)等細分場景中,最新的 NLP 技術已經超越了許多普通人類的表現。
在這種情況下,作為一名 AI 相關領域的研發從業者,更有必要對 NLP 技術有一個全面的認識和了解。為此,雷鋒網聯合國內頂級 AI 培訓平臺「1024 MOOC 學院」,有幸邀請到 9 位來自阿里巴巴 iDST 數據科學與技術實驗室的頂級專家,利用 4 月 8-9 日一個周末的時間,為大家奉上一期「NLP快速入門實戰特訓班」。
如果你對人工智慧了充滿熱情,如果你對 NLP 充滿了好奇心和求知慾,如果你是一個不甘心被機器超越的 AI 開發者,那麼請不要猶豫,加入我們。本課程將系統涵蓋 NLP 技術中的分詞算法、語義理解、對話系統以及機器翻譯等四大版塊,重點介紹基礎理論與實戰應用,幫助大家解決實戰過程中會遇到的技術難題。
1. 詞法分析
1、中文詞法分析的基本概念和核心問題
2、基於馬爾科夫模型的中文詞法分析
3、基於序列標註模型(CRF、LSTM)的中文詞法分析
4、詞法分析之工業界實踐
2. 意圖理解
意圖理解的基本概念
意圖理解的難點和基本方法
深度學習在意圖理解中的應用
意圖理解在阿里產品中的具體實現
3. Slot 抽取
屬性抽取的基本概念
屬性抽取的難點和基本方法
深度學習在屬性抽取中的應用
屬性抽取在阿里產品中的具體實現
4. 對話引擎
對話引擎的基本概念
對話的建模方法
應用場景下對話引擎面臨的問題
對話引擎問題的一些解決思路
5. 智能問答
智能問答的基本概念和應用場景介紹
智能問答系統的工作原理、系統框架和關鍵技術
如何搭建一套智能問答系統
6. 聊天引擎
聊天引擎概念和demo演示
基於檢索和基於生成的兩種聊天引擎構建方法
工業應用中涉及的數據、在線架構問題以及解決思路
7. 語言模型
語言模型的基本概念
N元文法語言模型
語言模型的評價指標
基於神經網絡的語言模型建模
8. 機器翻譯
機器翻譯的基本概念
統計機器翻譯和神經網絡機器翻譯的原理和工作機制
主要開源機器翻譯系統
工業級機器翻譯系統的主要架構、常見問題和解決方案
9. 搜尋引擎數據在NLP中的應用
搜尋引擎的基本概念。
搜尋引擎數據的分類
每種數據,我們會舉例說明在NLP相關領域中的作用
10. 句法分析
句法分析的基本概念
依存句法分析的基本原理和方法
常見的開源句法分析系統介紹
句法分析在電商場景工業級應用介紹
講師信息(排名不分先後):千訣
iDST資深算法專家
陳一寧
iDST高級專家
李永彬
iDST高級算法專家
郎皓
iDST算法專家
黎檳華
iDST高級算法工程師
鮑光勝
iDST算法專家
駱衛華
iDST資深技術專家
鄭昊
iDST高級算法工程師
吳勝蘭
iDST資深算法工程師
時間:4月1日-2日,周六周末開課;
授課形式:線上視頻直播授課;
售價:1299元;
報名連結:http://m.leiphone.com/special/mooc03
雷鋒網(公眾號:雷鋒網(公眾號:雷鋒網))相關閱讀:
深度 | 百度副總裁王海峰:百度在NLP領域都做了什麼?
清華大學朱小燕教授做客雷鋒網沙龍,分享 NLP 和人工智慧的那些事兒| AAAI 2017
罹患乳腺癌的這位MIT教授,用NLP甄別患者胸前的「定時炸彈」
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。