DeepNLP 科普貼:既是地下的富礦,也是「魔鬼」的居所

2020-12-05 鈦媒體APP

很長時間當中,人工智慧與計算機科學、語言學之間有一個交叉學科始終被市場熱切關注,那就是NLP(natural language processing),即自然語言處理。

這項技術的基本內涵,是指人類與計算機之間用自然語言進行有效通信的各種理論和方法。說白了就是如何讓機器聽懂人類說什麼,以及如何讓機器說人類能聽懂的話。這兩個方面也被稱為NLP的兩個核心關鍵領域:自然語言理解和自然語言生成。

回想一下,我們可能會發現NLP對於推動人工智慧產業發展有著舉足輕重的作用。因為它可以直接作用於機器翻譯、語音輸入等領域。相比於人工智慧和機器人領域那些「只聞其聲不見其人」的算法和神經網絡,翻譯和語言輸入法可是貨真價實的商業應用。

所以作為這些應用領域的主角,NLP一直在人工智慧產業化中扮演著重要角色。但有很多人認為,NLP在整個AI體系中是相對孤立的,應用範圍也相對狹窄。

但隨著學界一種新的跨界思維開始流行起來,這種情況仿佛有了改觀:將流行的深度學習技術(deep learning)與NLP相結合,打造出更深度自然語言處理(DeepNLP)成為了火爆的AI概念。

而真正令人在意的是,這個概念背後指向的應用性近乎於是無限廣泛的,甚至有人認為人類將史無前例地打開語言這個魔鬼迷宮,將人類的某些能力拉升到新的維度。

究竟有沒有這麼神當然不好說,但DeepNLP的潛在價值絕對不凡。

為了讓大家更好理解DeepNLP的涵義與應用性,我們嘗試儘可能拋棄掉所有函數和語言學公式,並且用一種比喻來理解這項技術的真實情況:挖礦。

假設DeepNLP是一座深埋在地下的富礦,那麼想要得到它首先要翻越大塊鹽鹼。而礦藏的最深處,可能就是魔鬼的居所。

從NLP到DeepNLP:人工智慧不僅可以翻譯、速記、問答

先來解釋一下NLP與DeepNLP的不同之處。

自從上世界八十年代NLP概念被提出以來,經過了長時間的演進和迭代。其技術本身的變化非常顯著。但其基本運作模式卻是相同的。一般來說,NLP體系的工作對象都是人類語言。一段語言樣本進入NLP系統之後,將經過系統的符號化處理,將人類語言改寫成運算語言;然後通過運算能力進行模塊化生成,根據不同目標進行語言處理;最終,生成的模塊輸出為結果,整個語言處理任務就完成了。

這樣的語言處理體系,按照目的來區分一般有三種應用:一是語音文本轉化為文字文本,也就是我們今天常用的語音輸入;其二是不同語言之間的轉化,也就是機器翻譯;第三種是語言文本理解後給出相應回饋,也就是siri這樣的聊天機器人。

NLP的作用,基本就是在這三種應用當中讓語言處理更加自然、合理。而隨著深度學習技術的不斷發展,NLP似乎可以迎來一場全面的革命。

NLP長久以來存在的問題,就是人類的不同語言體系確實太複雜了,經典計算網絡根本無法完全處理。尤其語義、語言情感、語言氛圍以及歧義、多義等內容,更是難以被機器理解。

而目前火爆的深度學習技術,則可以用非監督式或半監督式的特徵學習,來自主提取高效算法替代傳統算法。換言之,深度學習中的某些技術或許可以讓NLP自主理解人類語言中的具體特徵和複雜語言材料。這就給NLP的革命打開了一線遐想。

事實也確實如此,隨著卷積神經網絡、遞歸神經網絡、遷移學習等技術的成熟,NLP可以主動理解的算法越來越多。比如對關鍵詞的歸納、對句子上下文關係的理解,以及通過訓練結果去自主理解其他語料和語言情況。

總之,深度學習技術加上NLP,把人工智慧理解人類語言推向了理論上的新高度。甚至有學者提出了DeepNLP這個新概念。加入深度學習的NLP體系,可以在表達適配度,可訓練性,泛化性,模塊化、可遷移性等領域上較比原有NLP具有強烈的優勢。

而所謂DeepNLP的美夢成真,是從一些新工具投入使用開始的。

發現新礦層:詞向量等思維模塊帶來的衝擊

這一部分細說起來可能會有些枯燥生澀,但事實上這部分對於理解DeepNLP帶來的商業可能是至關重要的。所以我們還是要簡單聊一下。

話說自然語言處理的邏輯,是將人類語言轉化為運算語言。但在傳統計算模式下的語言轉化,是將不同詞彙轉化為相互間完全沒有聯繫的符號編碼。

這種方式對於機器運算本身沒什麼問題。但對於讓機器語言更好地貼近理解人類語言就會有很多障礙。比如帶來的運算量非常複雜,一旦需要對語義、句法、語言回指這樣的複雜問題進行計算,就會難以為繼。

另一方面,這種轉化模式之後,詞、句、語法間是完全沒有聯繫的。這也就難以讓機器學習人類語言間的聯繫,產生自主理解的學習訓練效果。

而有一些新技術的出現,正在改變這種現狀。比如一種叫做「詞向量」的思維模塊,這種技術把人類語言轉化為機器語言時,對每一個詞進行了有聯繫的界定。即將詞彙處理成向量,並且向量間的相對相似度和語義相似度是相關的。

比如說人,會關聯著男人、女人、老人、成年人等詞。這些詞相互有聯繫,並且可以被機器理解。這也就將人類語言體系重新展現在了機器面前,給了機器學習全新的理解方式。

詞向量只是DeepNLP技術中的一種解決方式,並且各種詞向量也在不斷進化當中。這些讓機器重新理解人類語言的技術,可以被視作全新的探測器。有了這些工具,語言應用的富礦就暴露在了人類面前。

潘神的迷宮:DeepNLP的技術鹽鹼地

當然了,就像深度學習在眾多領域的應用一樣。DeepNLP達成應用也絕非朝夕之功,在開始近乎癲狂的應用想像之前,我們還是要潑一盆冷水。

雖然幫助機器深度理解人類語言的工具和技術越來越多,但語言這個神奇的王國依然保留著大塊處女地。目前的精神網絡和深度學習算法,還有大量的語料和語言問題無法處理。這就像我們知道某處深山中有大量金礦,但勘探隊與其之間依舊隔著大片的鹽鹼地和堅硬巖石。

比如說語言歧義性問題,就是目前的詞向量、詞嵌入技術的「噩夢」。一個詞可以有很多種意思,是人類不同語言的「通病」。而人類理解這些多義詞基本依靠對語境和言語情感的理解。但機器學習對人類語言進行重新編碼的時候,卻無可避免地將同義詞進行錯誤編碼。甚至從而產生對整體語義的歧義理解。

再比如不同語種的問題。字母文字和表意文字之間的邏輯、結構和語境是完全不同的,甚至近似語言之間的語法結構也可以截然不同。深度學習體系追隨的是語法內部的邏輯體系,而追尋語言本身的通路,在跨語種時可能出現巨大的障礙。

還有一個問題,是DeepNLP究竟如何訓練。語言的複雜性,讓複雜處理後的語言結果很難被判定。一種判定結果也很難成為其他語言處理結果的指標。因此訓練樣本的缺少適配性,讓弱監督與無監督的NLP非常困難。

當然了,問題該有是有,但並不妨礙我們看到DeepNLP的宏大價值。語言這令人著迷的東西,如果真正為人工智慧所掌握,帶來的效果近乎沒有盡頭。

越過山巖之後的富礦:DeepNLP的應用甜夢

DeepNLP的應用價值可以非常複雜,如果算上與其他智能體系結合的應用場景,那近乎是個無窮數。但這裡可以基本推測幾個DeepNLP應用場景,相信大家就會明白為什麼將之稱為「富礦」。

一、複雜語言目的提煉與反向生成:通過循環神經網絡與卷積神經網絡,NLP提取複雜語言材料的核心概念將成為可能。這個能力的作用非常多,比如全面接管客戶服務。而複雜語言提煉還可以重新定義模糊搜索和電商搜索。人只需要描述自己對信息或者商品的需求,NLP就可以自主提煉並進行精準定位。

而這個能力的反向生成也十分重要,深度學習體系可以幫助NLP根據人類需求自主生成文字語言材料,就預示著根據某個需求進行文本與語音創作成為可能。通過人類語言訓練反向影響AI寫作,也是一個十分有意思的破局思路。

二、基於語言的邏輯推理與情感判斷:通過對人類語言環境中的複雜關係進行遷移學習,可以達成另外一些有意思的應用可能。比如讓機器學習到人類語言中的邏輯和情感。先不提是否賦予機器這些東西,至少這將有機會讓機器從人類的語言中預測結果,達成機器推理甚至情感判斷。

從聽懂你說話的機器人,變成能夠預測你目的、讀懂你的情緒的機器人,顯然是一場巨大的商機。

三、文本關係的提取與分類:DeepNLP的另一個主攻方向,是對文本關係的理解。從語言環境、語位素到語言使用習慣和語言情感,人類的語言其實根植於無數文本關係之中。如果不能理解這些關係,那麼AI就永遠是只能進行簡單交互的機器。

而通過深度學習技術進行自然語言處理,卻可能讓機器理解這些關係。於是複雜的文本翻譯將成為可能,整本書的瞬間翻譯似乎也不是難事。而方言、發聲問題下的人機語音交互可能達成。當然了,這都僅僅是這個技術達成所帶來應用的一小部分。

四、圖像的識別與描述:通過對語言材料的遷移學習,讓機器讀懂人類通過雙眼與自然界間的交互,也是一個充滿想像力的區域。而循環神經網絡等技術正在幫助NLP打開這種可能。通過反覆訓練AI閱讀人類對圖像的描述,機器將生成自主描述圖像、歸類解釋圖像的能力。

這讓AI擁有了可以自己看東西,並轉化為人類語言介質的能力。通過攝像頭,機器將可以隨時理解實物並進行分類匯總。這首先讓人類的公共安全警報、搜救、探測事業有了徹底改革,更深處或許將指向機器對自然萬物的自我解讀。

這些應用聽起來都非常魔幻,而這正是DeepNLP的可怕之處。一旦高強度自主學習的NLP與人類信息接入,那絕不是若干應用所能描述的技術變革。

礦石之外的石油:DeepNLP結合大數據

在開採DeepNLP這座礦山之外,我們顯然能夠發現這項技術與大數據體系結合的奇妙化反。這或許將在礦井之外再打開一座油田。

首先要知道,目前大數據資源中的很大一部分,都是以人類語言作為基本單位的。這些數據指向著多種多樣的目的和結果,但其藉助人類語言的特點卻是相同的。在這一點上,原本普通廉價的人類語言卻可以成為DeepNLP非常有效的訓練材料。

而反過來說,DeepNLP技術的成熟,也可以幫助人類重新理解和使用已有的大數據資源。比如用戶對某一產品的使用體會數據。原本的數據判別系統只能推測出滿意級別、改進點等幾個數據。因為它的邏輯是提取關鍵詞和打分。而這顯然就忽視了用戶的個體性。通過DeepNLP去處理客戶數據,或許可以判斷每一個用戶的受訪環境、受訪回答真實性,甚至根據語氣和描述推斷出用戶沒有提到的產品改進建議。

這裡有一個邏輯推演,那就是在足夠成熟的DeepNLP體系、足夠大的數據承載量以及足夠強大的運算能力(比如相對成熟的量子計算)支撐下,將有可能對人類的每一句話進行推演和預測,推斷人類生活中每一個細節的原因與結果。電影《少數派報告》中的預測犯罪機器人,或許就是以此為科學解釋。

語言迷宮,是人類長期以來自身都無法破解的牢籠。一個優秀的演講者、魅力十足的推銷員、套路詭譎的騙子,往往有無法解釋的能力達成目標。而依靠的沒有其他東西,就是語言。一旦這種能力為AI所獲得,釋放出的當然有數不勝數的機遇財富,但同時出籠的,或許還有一位名喚「語言」的恐怖魔鬼。

更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App

相關焦點

  • 2020省考申論模擬:人工智慧既是「天使」也是「魔鬼」
    從這個角度來看,人工智慧既是「天使」也是「魔鬼」。【題目】「給定資料」中提到「人工智慧既是『天使』也是『魔鬼』」,請談談你對這句話的理解。要求:分析透徹,表達準確;不超過250字。
  • 沙漠迷境,風蝕之城,魔鬼居所——新疆魔鬼城
    由於魔鬼城形狀各異,屬於獨特的風蝕地貌,故被當地蒙古人稱為「蘇魯木哈克」,維吾爾人稱為「沙依坦克爾西」,意為「魔鬼城」 。如今這裡被開發為國家4A級風景區歡迎著天南海北的遊客來領略「風城」的魅力魔鬼居所
  • 乾貨| 請收下這份2018學習清單:150個最好的機器學習,NLP和Python...
    (neuralnetworksanddeeplearning.com)http://neuralnetworksanddeeplearning.com/chap2.html沿時後向傳播算法與梯度消失(wildml.com)http://www.wildml.com/2015/10/recurrent-neural-networks-tutorial-part
  • ...請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    (neuralnetworksanddeeplearning.com)http://neuralnetworksanddeeplearning.com/chap2.html沿時後向傳播算法與梯度消失(wildml.com)http://www.wildml.com
  • 乾貨 | 請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    (neuralnetworksanddeeplearning.com)http://neuralnetworksanddeeplearning.com/chap2.html 沿時後向傳播算法與梯度消失(wildml.com)http://www.wildml.com/2015/10/recurrent-neural-networks-tutorial-part
  • 重磅發布 | 牛津大學Deep NLP深度自然語言處理課程17年最新(漢化視頻)
    課程英文資料地址:https://github.com/oxford-cs-deepnlp-2017/lectureshttp://www.xiniuedu.com/livecourse/detailinfo/public/html/detail.html?
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    自然語言工具包(NLTK)(網站,圖書)[Python; NLP實用編程介紹,主要用於教學目的]網站網址:http://www.nltk.org圖書網址: http://www.nltk.org/book/ •  斯坦福CoreNLP(網站)[由Java開發的高質量的自然語言分析工具包]網站網址: https://stanfordnlp.github.io
  • 國內自然語言處理(NLP)研究組
    中國大陸地區:微軟亞研自然語言計算組 Natural Language Computing (NLC) Grouphttps://www.microsoft.com/en-us/research/group/natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界nlp.baidu.com
  • NLP 新手必看!這是一份覆蓋全面的基於 PyTorch 和 keras 的 NLP...
    作為人工智慧領域「皇冠上的明珠」,NLP 技術在經歷了過去幾年的發展之後,證明了它落地的可行性,因此目前也是相當火爆。想必同學們也會經常在網上找一些好的學習資源。最近,小編在 github 上發現了一份基於 PyTorch 和 keras 的 NLP 學習教程。這份教程內容相當豐富,內容涵蓋神經網絡機器翻譯、問答匹配、電影評價分類、新聞分類等多個領域。
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    新智元報導 來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具
  • 美國魔鬼塔:傳說中的外星人基地
    美國的魔鬼塔其實是一個著名的旅遊景點,位於美國西部的懷俄明州,臨貝爾富什河附近的丘陵上,是一個巨大的圓柱體巖石。根據研究,魔鬼塔其實是一個火山遺留下來的產物,但是為何會有傳說將魔鬼塔稱為外星人基地呢?  為何魔鬼塔被稱為外星人基地魔鬼塔在美國當地是印第安人的聖地,也是美國第一個國家紀念地,魔鬼塔的高度有264米,塔基直徑305米,塔頂直徑84米,在1906年的時候被美國總統羅斯福成立法案將其定為美國的第一個國家紀念地
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    發布地址:http://nlp.stanford.edu/projects/nmt/參與成員:Christopher D.):vocab.1K.en:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.1K.envocab.1K.cs:http://nlp.stanford.edu/projects/nmt/data/wmt15.en-cs/vocab.1K.csvocab.10K.en:http://nlp.stanford.edu
  • 看完《魔鬼聖經》你就知道魔鬼...
    「國庫」 中國第一代封建君王秦始皇與其地下「國庫」埋葬在一起,這一消息乍一聽感覺匪夷所思。這些在地下埋藏了2200多年的老古董開始地面生活後,一直面對氧化、水侵的威脅。專家呼籲如果還不採取任何措施加以保護,到時兵馬俑坑看上去與煤田沒有什麼兩樣,不再有任何美學價值。
  • 海洋科普(922)| 鯊魚中的魔鬼—劍吻鯊
    儘管是鯊魚中的魔鬼但從這像吸塵器一樣的奇異攝食方式突然覺得劍吻鯊有點莫名的「萌」了~推薦閱讀:海洋科普(921)| 白邊真鯊海洋科普(920)| 海洋「小飛象」與「橘子皮」的故事海洋科普(919)| 用臀部呼吸?
  • 收藏 | 機器學習、NLP、Python和Math最好的150餘個教程
    (sas.com)激活和損失函數Sigmoid neurons (neuralnetworksanddeeplearning.com)What is the role of the activation function in a neural network?
  • 國家孕嬰網舉辦「託育和孕嬰居所環境安全防控規範」非自然光源...
    直播科普2020年8月14日下午,在國家孕嬰網會議廳,為了響應習近平總書記提出的「健康中國」戰略,打造健康環保舒適的託育和孕嬰人群居室環境,保護嬰幼兒用眼健康,舉辦「託育和孕嬰居所環境安全防控規範」非自然光源安全防控專家研討會。
  • 200個精選ML、NLP、Python及數學最佳教程(附連結)
    (nvidia.com)https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/1.10 優化與降維(Optimization and Dimensionality
  • 若風再次」爆炸「 毒品科普貼引用其惡搞表情
    若風再次」爆炸「 毒品科普貼引用其惡搞表情 本來是科普貼,然而越來越接地氣的公安同志加了點表情包做調料,然後畫風就成了這樣↓  哈哈哈哈哈這樣的帖子看起來才有意思嗎啊咧這個爆炸圖看起來好熟悉等等這不就是解說若風嗎?  沒錯,在這條科普白粉的微博中,調皮的公安同志用了一張若風的爆炸表情包,於是乎……若風牌表情包也成功的上位了。  再說說這張流傳甚廣的表情,為啥它能當表情包?
  • 紮根現實、挖掘「富礦」,以理論研究回答時代課題
    『富礦』」,並對從事理論和政策工作的研究者提出殷切希望。改革開放以來,中國社會科學院經濟社會領域的研究者,大大獲益於這座「富礦」,在家庭聯產承包責任制、收入分配製度改革、國有企業改革、鄉鎮企業發展、社會分層研究、勞動力市場和就業研究等重要領域,形成了一批對黨和國家決策具有參考價值、在理論上有所創新的研究成果。研究生畢業後,我一直從事學術研究。
  • 基於Bert和通用句子編碼的Spark-NLP文本分類
    文本分類問題中使用了幾個基準數據集,可以在nlpprogress.com上跟蹤最新的基準。以下是關於這些數據集的基本統計數據。簡單的文本分類應用程式通常遵循以下步驟:文本預處理和清理特徵工程(手動從文本創建特徵)特徵向量化(TfIDF、頻數、編碼)或嵌入(word2vec、doc2vec、Bert、Elmo、句子嵌入等)用ML和DL算法訓練模型。