介紹幾個基於深度神經網絡在自然語言處理上的應用-詩詞生成,語法修正,同聲傳譯

2021-02-14 混沌巡洋艦

 陳偉明利用業餘時間寫了「詩詞生成器」這個AI,不僅可以輕鬆完成李白藏頭詩,還能填詞,還能看圖寫詩,看圖猜年齡,相當厲害(如圖一、二、三)。

(陳偉明:雪梨新南威爾斯大學碩士,現為澳大利亞某創業公司的數據工程師)

圖一

圖二

圖三

這種「詩詞生成器」背後的算法,就是RNN,即循環神經網絡。這也是驚豔網絡的谷歌翻譯背後的主要技術,可以稱得上是深度學習未來最有前景的工具之一。  

「循環」兩個字,已經點出了RNN的核心特徵,即系統的輸出會保留在網絡裡,和系統下一刻的輸入一起共同決定下一刻的輸出。這就把動力學的本質體現了出來,循環正對應系統論的反饋概念,即此刻的狀態包含上一刻的歷史,又是下一刻變化的依據。RNN是可以自己學會這樣的輸入輸出規律的,而且因此具有預測能力。在這點上說,RNN是圖靈完備的。一個語言是圖靈完備的,意味著該語言的計算能力與一個通用圖靈機 (Universal Turing Machine)相當,這也是現代計算機語言所能擁有的最高能力。即RNN可以使用計算機完成任何計算機可以完成的任務,也就能夠發揮計算機的所有能力。對人類自然語言的理解處理一直是AI在不斷攀登的險峰,所以RNN才能成為AI解決人類自然語言問題的重要工具。

搜索微信公眾號:「TangPoemGen」,或掃面二維碼,即可為你寫詩!

生成詩詞,無非是可以讓你閒來無事炫技朋友圈,然而我們在日常生活中更可能遭遇這樣的場景:老闆、老師、同事、同學丟給你一段中文或英文,拍拍你的肩膀,讓你翻譯。而四六級都是磕磕絆絆才考過的你,只能拿著翻譯材料找學霸幫忙,最後拿到的成品,還得認真校對。此時你就需要一個好的語言修改校對軟體,它在你心中應該是這樣的:

1)一進去就能找到輸入窗口,就好比谷歌搜索主頁那樣;

2)免費;

3)沒有很無聊的語法分析,直接給出修正後的結果;

4)不僅僅改各種語法錯誤,而且還改表達方式,能把不地道的改得地道;

5)技術上必須是世界領先。

集智社群有個怪青年曹振峰,經常說著大家聽不懂的話,最近突然憋出了一個大招:AI-Reviser ,這就是一個符合五大優點的英文語法自動修改器。你輸入一段英文,它會自動糾正其中的語法錯誤。

(曹振峰:邁阿密大學複雜系統方向博士在讀,從事網際網路時代人類行為方面的研究)

AI-Reviser使用了NMT技術。NMT即Neural Machine Translation(神經機器翻譯)。最新版本的谷歌翻譯採用的也是類似的技術。這種技術的特點是,不需要進行語義分析,可以把一個句子直接餵給神經網絡進行訓練。

語言的奧義是什麼?地道。傳統的語法修改器,就好比一個經過充分語法培訓的中國國籍的英語老師,她會給你指出哪個地方犯了什麼語法錯誤;而基於這種技術訓練出來的語法修改器,就好比一個從未學過語法規則的外國國籍英語老師。他幫你修改文章,全憑「語感」——他給你的反饋永遠是:「額,這個地方讀著彆扭,改成這樣如何?」正因如此,這款修改器具有傳統修改器難以匹敵的將不地道的表達方式改得地道的能力。

輸出結果也秉承了「天下第一懶」的風格。對的!就兩個版本——不多也不少:第一個版本是修改後的全文,方便複製粘貼;第二個版本是逐句對比,方便分析修改結果。此外,修改了的地方還會自動用彩色標出來,方便用戶快速看出修改了哪。對比測試發現,AI-Reviser不僅僅能找出所有常規語法錯誤,而且還能將表達不地道的地方替換成更地道的表達方式。

打開連結試用此AI語法修改器軟體:

https://www.aireviser.com/?inv=5128318、

曾經開發出了「彩雲天氣」項目的集智深度學習讀書會會員袁行遠和肖達在半年前又憋出了大招:「彩雲小譯」。它是如今最好用的翻譯app,同時還加入了複讀機的重聽功能,這就解鎖了學習英語的新姿勢,從此媽媽再也不用擔心我的外語作業了!

上線不久,「彩雲小譯」就成了app store的「網紅APP」,獲得首頁第一位推薦。你只需直接說出你想翻譯的話即可,不需要按任何按鈕,極致簡單。小譯的界面也非常簡潔,左下角切換「同傳」和「交傳」模式,右下角切換識別語言(中文、英文、自動),中部切換語音和文字輸入模式。更為神奇的是,當你插入耳機之後,還能實現同聲傳譯的效果,今後再也不用花大錢請同聲傳譯啦!因為彩雲小譯是免費的!免費的!免費的!

彩雲小譯也採用了NMT技術。2016年的冬天,袁行遠團隊搜索了網際網路上存在的中英文對照的語料庫,把這些語料餵給了一個超過1億個連接的神經網絡。經過不斷訓練,神經網絡自主學會了中英文詞語和語法的對照關係。彩雲小譯使用了深度神經網絡序列到序列映射的技術,先把中文句子轉換成為一個意義空間的向量,再把這個向量投射為英文的文字。類似你給同學傳紙條,但不想老師知道內容,所以你們先編了一個謎語,同學看到就知道意思了。只是這次編謎語和解謎語的都是一個機器人。

只要掃碼關注,在對話框中吼一句「小譯開門」,然後就可以任意調戲啦。先用「彩雲小譯」翻譯老闆老師交給你的任務,再用「AI-Reviser」校對修正,是不是很完美?

並且,「彩雲小譯」還在不斷進步中。它不僅是一隻懂翻譯的AI,還在迭代中加入了複製、分享的功能,和歪果仁聊微信再也無壓力啦。而且,彩雲小譯的英語已經支持英國、美國、加拿大、澳大利亞、印度五個國家的口音,粵語、河南話和四川話的方言也可支持,不用care令人頭疼的口音問題,讓你交(liao)友(mei)的範圍更廣。在出國旅行、朋友聚會的時候,只要把手機放在桌子上,打開這個app,你就能用中文和外國人談笑風生,從詩詞歌賦談到人生哲學。

彩雲小譯未來可能不僅僅是一個翻譯AI。袁行遠之前接受Xtecher採訪的時候他也曾強調過:「我們目前在做的是人與人之間語言的翻譯,未來實際上同樣也可以作為機器與人溝通的橋梁。」

搜索微信公眾號:「彩雲小譯」或者掃碼下載APP皆可調戲小譯哦~

AI-Reviser設計中用到了基於神經網絡的機器翻譯技術,若要對神經機器翻譯、RNN、LSTM、Seq2Seq等技術有進一步了解,請觀看集智AI學園的相關課程。

李嫣然的自然語言處理與深度學習系列視頻之機器翻譯課程

http://campus.swarma.org/gcou=10062

龔力的機器翻譯原理簡介視頻課程

http://campus.swarma.org/gcou=10166

相關焦點

  • 自然語言處理深度學習的7個應用
    自然語言處理領域正在從統計方法轉變為神經網絡方法。自然語言中仍有許多具有挑戰性的問題需要解決。然而,深度學習方法在一些特定的語言問題上取得了最新的成果。這不僅僅是深度學習模型在基準問題上的表現,基準問題也是最有趣的;事實上,一個單一的模型可以學習詞義和執行語言任務,從而消除了對專業手工製作方法渠道的需要。
  • 同聲傳譯——解密搜狗同傳
    關注國際新聞的朋友可能已注意到,每次的聯合國大會上,很多外交官都會頭戴耳機認真聆聽其他國家外交官的發言,這裡應用的就是同聲傳譯技術,它讓收聽者可以快速理解不同國家的語言。以前的同聲傳譯基本上靠人來快速翻譯,而隨著智能技術的發展,智能機器翻譯開始越來越多的應用到同傳的領域中。
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • 深度學習在自然語言處理上的七大應用
    最有趣的不僅僅是深度學習模型在基準問題上的性能;事實上,一個單一的模型可以學習單詞的意思和執行語言任務,從而避免需要一套專門的和手工的方法。 在這篇文章中,你將發現 7 種有趣的自然語言處理任務,其中深度學習方法正在取得一些進展。 在此文中,我們將看看下面的 7 種自然語言處理問題。
  • 2019 自然語言處理前沿論壇成功舉辦,百度 NLP 技術全揭秘
    自然語言處理前沿論壇」上,來自百度和各大高校的嘉賓們分享了關於 NLP 技術研究的心得體會。自然語言生成的願景是,讓機器像人類一樣去表達和創作。具體來看,它包含很多類型的任務,包括數據到文本的生成、文本到文本的生成、詩歌對聯的生成、多模生成、跨語言生成、對話生成等任務。此次報告中,主要從前面四個任務,介紹自然語言生成在內容創作的技術及應用。首先是數據到文本的生成。這裡展示了具體的足球比賽快訊生成樣例。
  • 資訊 | 中譯語通推出實時機器翻譯同聲傳譯
    中譯語通(GTCOM)作為本次大會合作夥伴,在大會上推出的實時機器翻譯同聲傳譯系統,為大會增加了獨特的語言科技創新的亮麗光彩。大會現場實時機器翻譯同聲傳譯系統為大會提供了實時精準的語言服務,為各國嘉賓解決了語言不通的難題。
  • 【CCCF專題】深度學習在自然語言處理中的應用
    自然語言處理中的深度學習隨著語音和圖像處理領域的突破性進展,深度學習在自然語言處理領域也越來越受到重視,並逐漸應用於自然語言處理的各種任務中。然而自然語言處理任務有其自身的特點,與語音和圖像處理之間的不同主要體現在以下兩方面。語音和圖像在處理過程中的輸入信號可以在向量空間內表示,而自然語言處理通常在詞彙一級進行。
  • 深度學習在自然語言處理研究上的進展
    近兩年來,隨著對深度學習算法的理解逐漸加深,越來越多的研究者開始從輸入到輸出全部採用深度學習模型,並進行端到端的訓練,在很多任務上取得了比較大的突破。本文從詞嵌入、基礎模型和應用三個方面簡要地回顧和梳理近兩年深度學習在自然語言處理領域的進展。1.詞嵌入自然語言由詞構成。深度學習模型首先需要將詞表示為稠密向量,也叫詞嵌入。
  • CNCC 2019 | 劉群:基於深度學習的自然語言處理,邊界在哪裡?
    近日,在北京語言大學舉辦的第四屆語言與智能高峰論壇上,華為諾亞方舟實驗室語音語義首席科學家劉群教授高屋建瓴,細緻分析了深度學習時代NLP的已知與未知。他從自然語言處理基於規則、統計到深度學習的範式遷移出發,探討了深度學習方法解決了自然語言處理的哪些問題以及尚未解決哪些問題。
  • 基於大數據與深度學習的自然語言對話
    首先指出,自然語言對話將是人們信息訪問的主要手段,信息檢索領域的主要研究範式。之後,定義自然語言對話任務,對相關技術進行分類,列舉主要技術挑戰。接著,詳細介紹如何構建基於數據的對話系統。最後,詳細介紹最新的基於深度學習的對話技術。當中也介紹深度學習在自然語言表示學習中的最新成果。
  • 從語言學到深度學習NLP,一文概述自然語言處理
    本文從兩篇論文出發先簡要介紹了自然語言處理的基本分類和基本概念,再向讀者展示了深度學習中的 NLP。這兩篇論文都是很好的綜述性入門論文,希望詳細了解自然語言處理的讀者可以進一步閱讀這兩篇論文。本文第一部分介紹了自然語言處理的基本概念,作者將 NLP 分為自然語言理解和自然語言生成,並解釋了 NLP 過程的各個層級和應用,這一篇論文很適合讀者系統的了解 NLP 的基本概念。
  • 王海峰博士領軍的百度自然語言處理技術再獲國際認可
    王海峰博士是自然語言處理領域的國際領軍人物之一,其在自然語言處理領域的研究及工程科技成果,得到國際同行的廣泛認可。他領導下的百度自然語言處理團隊,在自然語言處理技術的發展及應用上始終保持領先,一直被視為自然語言處理研究的「第一梯隊」,培養和吸引了海內外很多學術界和產業界的人才。
  • 一個用於代碼生成的基於語法的結構化CNN解碼器
    現有的方法主要依賴於遞歸神經網絡(RNN)作為解碼器。然而,我們發現一個程序比一個自然語言句子包含更多的標識,因此RNN可能不適合捕捉這麼長的序列。在本文中,我們提出了一種基於語法的結構化卷積神經網絡(CNN)用於代碼生成。我們的模型通過預測程式語言的語法規則來生成程序;我們設計了幾個CNN模塊,包括基於樹的卷積和先序卷積,它們的信息通過專門的注意池化層進一步聚合。
  • 用飛槳做自然語言處理:神經網絡語言模型應用實例 - 量子位
    想要讓模型能落地奔跑,就需藉助深度學習框架之力,Tensorflow、PyTorch自然是主流,但在Dropout都成獨家專利之後,不儲備「B計劃」,多少讓人有些擔驚受怕這裡有一份飛槳(PaddlePaddle)語言模型應用實例,從基礎概念到代碼實現,娓娓道來,一一說明。現在,量子位分享轉載如下,宜學習,宜收藏。
  • 百度10篇論文被自然語言處理頂級會議ACL 2019錄用
    、最具活力的國際學術組織之一,自成立之日起就致力於推動計算語言學及自然語言處理相關研究的發展和國際學術交流。王海峰博士是自然語言處理領域的國際領軍人物之一,其在自然語言處理領域的研究及工程科技成果,得到國際同行的廣泛認可。他領導下的百度自然語言處理團隊,在自然語言處理技術的發展及應用上始終保持領先,一直被視為自然語言處理研究的「第一梯隊」,培養和吸引了海內外很多學術界和產業界的人才。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    並著重介紹了大數據和自然語言處理的發展,對自然語言處理在大數據中扮演的角色作了探討。「人工智慧」包含兩個關鍵點:自動化智能人工智慧的目標推理自動學習&調度機器學習自然語言處理計算機視覺機器人通用智能人工智慧三大階段階段 1——機器學習:智能系統使用一系列算法從經驗中進行學習。階段 2——機器智能:機器使用的一系列從經驗中進行學習的高級算法,例如深度神經網絡。
  • 使用近紅外光譜腦功能成像研究中英文同聲傳譯的腦網絡小世界屬性 | JIOHS
    目前在國際交流間廣泛使用的同聲傳譯涉及了很多有關雙語加工的認知任務。
  • CMU2018春季課程:神經網絡自然語言處理課程(附PPT和代碼)
    」介紹,該課程是CMU語言技術學院和計算機學院聯合開課,主要內容是教學生如何用神經網絡做自然語言處理。本文中,我們梳理了該課程的主要內容:神經網絡、詞向量、語言模型、CNNs和RNNs在NLP中的應用等等,課程涉及幾乎全部NLP問題,內容非常全面,強烈推薦給從事NLP研究的讀者。
  • 百度CTO王海峰:自然語言處理技術發展飛速 機器翻譯從理想走向現實
    作為國內人工智慧平臺建設最高水平的精英會,論壇聚集了數十位國內外院士專家及行業領袖,組成AI領域頂尖「智囊團」,聚焦AI最前沿技術動態和創新應用成果。百度首席技術官王海峰出席論壇,並發表題為《自然語言處理前沿》的主題演講,向與會嘉賓介紹了自然語言處理相關研究的發展歷史和趨勢,以及百度在自然語言處理技術和產業應用中取得的成果。
  • 語義解析:人工神經網絡之外不容忽視的自然語言處理利器
    到了2018年,隨著一系列在大規模語料上訓練的深度語言模型的出現,以閱讀理解為代表的一大批NLP任務的榜單屢被刷新,人工智慧在語言上的理解能力超過人類的言論一度甚囂塵上。但當我們回過頭來仔細思考,在真實的「自然語言理解」業務場景中,這一輪「技術革新」帶來的利好似乎乏善可陳。      那麼,對大規模語料的暴力擬合是不是真的能讓模型理解語言的語義呢?