超強大自動NLP工具!谷歌推出AutoML自然語言預訓練模型

2021-01-19 騰訊網

新智元報導

來源:venturebeat

編輯:肖琴

【新智元導讀】谷歌近日宣布面向全球用戶推出AutoML Natural Language的通用版本,支持分類、情緒分析和實體提取等任務,以及支持各種文件格式,包括掃描的pdf文件。現在戳右邊連結上新智元小程序了解更多!

今年早些時候,谷歌發布了AutoML自然語言(AutoML Natural Language),這是其Cloud AutoML機器學習平臺向自然語言處理領域的擴展。

經過數月的beta測試,谷歌近日宣布面向全球用戶推出AutoML Natural Language的通用版本,支持分類、情緒分析和實體提取等任務,以及支持各種文件格式,包括掃描的pdf文件。

AutoML自然語言利用機器學習來揭示電子郵件、聊天日誌、社交媒體帖子等文本的結構和含義。它可以從上傳或粘貼的文本、或谷歌雲存儲的文檔中提取關於人、地點和事件的信息,允許用戶訓練自己的自定義AI模型來對情緒、實體、內容和語法等進行分類、檢測和分析。此外,它還提供自定義實體提取功能,該功能可以在文檔中識別出標準語言模型未出現的特定於領域的實體。

AutoML Natural Language有超過5000個分類標籤,並允許訓練多達100萬個文檔,文檔的大小最大10MB。谷歌表示,這使得它非常適合「複雜」的用例,比如理解法律文件或為擁有大量內容的組織進行文檔分割。

自發布以來的幾個月中,它已經得到很大改進,特別是在文本和文檔實體提取方面。谷歌表示,AutoML自然語言現在可以考慮附加上下文(例如文檔的空間結構和布局信息)來訓練模型和預測,提高發票、收據、簡歷和合同等類型文本的識別能力。

此外,谷歌表示,AutoML Natural Language現在已經獲得FedRAMP的中級授權(FedRAMP 是為政府啟用安全雲計算的美國程序),使聯邦機構更容易利用AutoML的功能。

赫斯特集團(Hearst,美國出版界巨頭)已經在使用AutoML Natural Language來幫助組織其國內和國際雜誌的內容,日本出版商日經集團(Nikkei Group)也在利用AutoML Translate來發布不同語言的文章。Chicory是第三個早期採用者,利用它為Kroger、Amazon和Instacart等雜貨零售商開發定製數字購物和營銷解決方案。

AutoML Natural Language的產品經理Lewis Liu在一篇博客文章中解釋說,他們的最終目標是為需要定製機器學習模型的組織、研究人員和企業提供一種簡單、實用的訓練方法。「自然語言處理是揭示文本結構和意義的寶貴工具,」他說,「我們通過更好的微調技術和更大的模型搜索空間,與Google AI研究部門合作,不斷提高模型的質量。我們還引入了更高級的特性來幫助 AutoML自然語言更好地理解文檔。」

值得注意的是,AutoML是在AWS Textract之後推出的。AWS Textract是亞馬遜開發的針對文本和數據提取的機器學習服務,於今年5月推出。微軟在Azure Text Analytics中也提供類似的服務。

官網:

https://cloud.google.com/natural-language/#how-automl-natural-language-works

相關焦點

  • PTMs|2020最新NLP預訓練模型綜述
    該綜述系統地介紹了nlp中的預訓練模型。主要的貢獻包括:1.深入盤點了目前主流的預訓練模型,如word2vec,ELMo,BERT等。2.但是相反,nlp領域的優勢在於,存在大量的無監督數據集,如果能夠充分利用這類數據進行訓練,那麼勢必能夠提升模型的能力以及在下遊任務中的表現。nlp中的預訓練模型就是這樣一類能夠在大規模語料上進行無監督訓練,學習得到通用的語言表徵,有助於解決下遊任務的nlp模型。「那麼什麼是好的語言表徵呢」?
  • NLP領域預訓練模型的現狀及分析
    預訓練的方法最初是在圖像領域提出的,達到了良好的效果,後來被應用到自然語言處理。預訓練一般分為兩步,首先用某個較大的數據集訓練好模型(這種模型往往比較大,訓練需要大量的內存資源),使模型訓練到一個良好的狀態,然後下一步根據不同的任務,改造預訓練模型,用這個任務的數據集在預訓練模型上進行微調。
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    新智元報導 來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
    這一改進還可以擴展至多語言設置中,在所有的 101 種語言中都測到了新模型相對於 mT5-Base 版本的性能提升。最後,研究者在 Colossal Clean Crawled Corpus 上進行預訓練,將語言模型的參數量提升至上萬億,且相比 T5-XXL 模型實現了 4 倍加速。
  • NLP歷史突破!谷歌BERT模型狂破11項紀錄,全面超越人類!
    谷歌人工智慧團隊發布的新伯特模型在squad1.1(一種機器閱讀理解的頂級測試)上的表現出奇的好:它在所有兩項測試中的表現都優於人類,在11種不同的nlp測試中表現最好。毫無疑問,伯特模型已經迎來了NLP的一個新時代!記住今天伯特模型的名字。
  • 性能媲美BERT,參數量僅為1/300,谷歌最新的NLP模型
    機器之心編輯部在最新的博客文章中,谷歌公布了一個新的 NLP 模型,在文本分類任務上可以達到 BERT 級別的性能,但參數量僅為 BERT 的 1/300。在過去的十年中,深度神經網絡從根本上變革了自然語言處理(NLP)領域的發展,但移動端有限的內存和處理能力對模型提出了更高的要求。人們希望它們可以變得更小,但性能不打折扣。
  • Google宣布推出AutoML Vision,自然語言,翻譯和聯絡中心AI
    從本周開始,AutoML Vision是一種圖形拖放工具,可讓用戶利用Google的雲計算後端來訓練自學習對象識別和圖像檢測模型,該工具正在退出alpha並進入公共測試階段。谷歌透露,自1月以來,約有18,000名客戶表示對AutoML Vision感興趣。
  • AI資訊|分析現階段最有效的NLP預訓練模型!
    最新語言預訓練可以說是在自然語言處理領域帶來了很可觀的收益,其中包括最先進的模型如BERT,RoBERTa,XLNet,ALBERT和T5等。現有的預訓練方法通常分為兩類:語言模型(LM),例如GPT,從左到右處理輸入文本,在給定先前上下文的情況下預測下一個單詞,以及蒙版語言模型(MLM),例如BERT,RoBERTa和ALBERT,它們分別預測少量單詞的身份,已被屏蔽掉輸入。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    詞向量化是用一組實數構成的向量代表自然語言的叫法。這種技術非常實用,因為電腦無法處理自然語言。詞向量化可以捕捉到自然語言和實數間的本質關係。通過詞向量化,一個詞語或者一段短語可以用一個定維的向量表示,例如向量的長度可以為100。例如:「Man」這個詞語可以用一個五維向量表示。
  • 自然語言處理的最佳實踐
    雷鋒網 AI 開發者按,近年來,自然語言處理(NLP)在質量和可用性方面快速增長,這有助於推動人工智慧解決方案的實際落地。在過去的幾年裡,研究人員一直在將新的深度學習方法應用於 NLP。數據科學家開始從傳統的方法轉向最先進的(SOTA)深度神經網絡(DNN)算法,這種算法使用的語言模型經過了大文本語料庫的預訓練。
  • ImageNet 帶來的預訓練模型之風,馬上要吹進 NLP 領域了
    這些方法的出現預示著一個分水嶺時刻的到來了:這些預訓練語言模型有可能會在自然語言處理領域造成巨大而廣泛的影響,正如 ImageNet 預訓練模型在計算機視覺中所造成的影響一樣。從淺層到深度預訓練預訓練的詞向量已經統治了自然語言處理領域相當長一段時間。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    基於 Transformers 的雙向編碼表示(BERT)在多個自然語言處理任務中取得了廣泛的性能提升。在預訓練語言模型時,需要對語料進行 mask 操作,使模型在看不見 token 的情況下對 mask 的詞語進行預測。然而,基於單個 token 的 mask 方法訓練中文語料,可能忽略了中文分詞的作用。
  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    模型通常在一個和訓練時的源域不同的目標域上評估,其僅能訪問目標域的未標記樣本(無監督域適應)。評估標準是準確率和對每個域取平均的分值。語言建模語言建模是預測文本中下一個詞的任務。*表示模型使用了動態評估。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    詞向量的引入開啟了深度學習應用於自然語言處理的時代。相比於靜態詞向量,動態詞向量可以根據上下文,更好地處理一詞多義現象,大幅提高自然語言處理多個任務的準確率。車萬翔介紹了研究組基於動態詞向量開展的相關工作,包括跨語言動態詞向量[1]、few-shot learning、輕量級動態詞向量模型等。
  • 一文讀懂最強中文NLP預訓練模型ERNIE
    基於飛槳開源的持續學習的語義理解框架ERNIE 2.0,及基於此框架的ERNIE 2.0預訓練模型,在共計16個中英文任務上超越了BERT和XLNet, 取得了SOTA效果。本文帶你進一步深入了解ERNIE的技術細節。
  • 谷歌推出TFQ,一個可訓練量子模型的機器學習框架
    TFQ提供了必要的工具,將量子計算和機器學習技術結合起來,以控制並建模自然或人工的量子計算系統。該框架可構建量子數據集、混合量子模型和經典機器學習模型原型、支持量子電路模擬器,以及訓練判別和生成量子模型。隨著近些年量子計算技術的發展,量子機器學習模型的研發可能會在醫學、材料、傳感和通信領域取得突破,甚至產生深遠影響。不過迄今為止,業界缺乏發現量子機器學習模型的研究工具。該模型可以處理量子數據並在可用的量子計算機上執行。
  • 復旦邱錫鵬超全NLP預訓練模型綜述論文:兩張圖帶你梳理完整脈絡
    自從 BERT 橫空出世以後,儘管算力要求比較大,但預訓練語言模型仍層出不窮,有點類似當年 GAN 大量更新的盛況。雖然只過去了一兩年,但形形色色的預訓練語言模型確實讓我們弄不清楚整體狀況到底是什麼樣的。
  • 華為諾亞方舟開源預訓練模型「哪吒」,4項任務均達到SOTA
    BERT之後,新的預訓練語言模型XLnet、RoBERTa、ERNIE不斷推出,這次,華為諾亞方舟實驗室開源了基於BERT的中文預訓練語言模型NEZHA(哪吒),寓意模型能像哪吒那樣三頭六臂、大力出奇蹟,可以處理很多不同的自然語言任務。
  • 自然語言處理 NLP 發展簡史
    於是在 1966 年,美國國家研究委員會(NRC)和自動語言處理諮詢委員會(ALPAC)停止了對自然語言處理和機器翻譯相關項目的資金支持, AI 和 NLP 的發展因此陷入停滯。此時,許多學者認為人工智慧和自然語言處理的研究進入了死胡同。人類早期結合語言學與統計學對 AI/NLP 的初步探索以失敗告終。
  • 40種語言、9項推理任務,谷歌發布新的NLP基準測試XTREME
    近日,谷歌聯合CMU、DeepMind推出的《XTREME:評估跨語言泛化的大規模、多語言、多任務基準》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization)極大的鼓勵了多語言研究。