今日Paper|聯合抽取;流式語音識別;差異學習;Skip-Thought向量等

2020-12-20 雷鋒網

目錄

在序列標註模型中使用位置注意力進行抽取實體與重疊關係的聯合抽取

將混合CTC/Attention方法嵌入到Transformer結構中實現在線端到端的流式語音識別架構

基於人工反向修正數據的差異學習

利用一種基於多屬性鄰近度的方法從可比較的新聞語料庫中挖掘事件

Skip-Thought向量

在序列標註模型中使用位置注意力進行抽取實體與重疊關係的聯合抽取

論文名稱:Joint extraction of entities and overlapping relations using position-attentive sequence labeling

作者:Dai Dai / Xinyan Xiao / Yajuan Lyu / Shan Dou / Qiaoqiao She / Haifeng Wang

發表時間:2019/7/17

論文連結:https://paper.yanxishe.com/review/16071?from=leiphonecolumn_paperreview0416

推薦原因

本文設計了一種基於位置信息和上下文信息的注意力機制,同時將一個關係抽取任務拆成了n(n為句子的長度)個序列標註子任務,一個階段即可將實體、關係等信息抽取出來。

本文發表時在兩個數據集上達到了SOTA,並且對於跨度長的關係、重疊關係表現尤其好。

作者創造性的設計了一種標註方案(tag scheme),拆分關係抽取任務,更巧妙的是,設計了位置注意力機制,將多個序列標註任務放在同一個BLSTM模型中同時訓練,讓我對注意力機制的理解更深了一層。

將混合CTC/Attention方法嵌入到Transformer結構中實現在線端到端的流式語音識別架構

論文名稱:TRANSFORMER-BASED ONLINE CTC/ATTENTION END-TO-END SPEECH RECOGNITION ARCHITECTURE

作者:Haoran Miao /Gaofeng Cheng /Changfeng Gao /Pengyuan Zhang /Yonghong Yan

發表時間:2020/1/15

論文連結:https://paper.yanxishe.com/review/15406?from=leiphonecolumn_paperreview0416

推薦原因

為了有效地解決在線流式語音識別問題,作者先前提出了一種以BILSTM為基礎結構的流式語音識別模型,本文是對上述的模型進行改進,一方面,採用transformer結構,並對其decoder的注意力模塊進行改造,以提高識別CER分數。另一方面,對先前提出的將語音輸入分割為chunks的方法進行改進,重用了部分重合的chunks的的hidden state,以減少識別耗時。

本文最終達到了23.66%的CER分數,並且僅有320ms的延時,同時,相對於離線的基線模型,CER分數僅損失了0.19%,大大提升了識別效果。

註:代碼不是本文的實現代碼,僅僅包含了本文改進的注意力機制部分。

基於人工反向修正數據的差異學習

論文名稱:LEARNING THE DIFFERENCE THAT MAKES A DIFFERENCE WITH COUNTERFACTUALLY-AUGMENTED DATA

作者:Divyansh Kaushik /Eduard Hovy /Zachary C. Lipton

發表時間:2019/9/6

論文連結:https://paper.yanxishe.com/review/15283?from=leiphonecolumn_paperreview0416

推薦原因

1 當前很多優秀的NLP模型,對數據中的虛假模式十分敏感,比如將文本分類模型中的關鍵詞用同義詞替代會使得模型效果大幅度降低,僅使用對話系統的問題或內容,在一些模型下,得到的結果與使用全部信息差別不大,等等。

2 針對以上問題,作者以一個情感分析和句子推理的數據集為基礎,在眾包平臺上招募作者對數據集進行反向修正,在儘量不修改樣本結構的情況下,讓樣本轉變相反的標籤,並以此為基礎在一系列機器學習和深度學習的模型上進行訓練,並且驗證了作者認為反向修正的數據集能提高模型對於虛假模式的表現的想法。

3 使用高質量的人工標註樣來讓人類看起來傻乎乎的機器學習模型更加聰明,應該有不少人在做了,我沒有做過相應的實驗,但是覺得這樣的做法很務實,其中用眾包的形式來採集修正數據的想法也很有意思。值得一提的是,儘管使用了修正數據讓模型能力提高了,但是對於基於bert預訓練的模型提升效果有限,可能一方面由於bert模型從大量預料中學到了一些對抗虛假模式的知識,另一方面作者採取的實驗是相對簡單的句子級別的分類,期待作者關於對話系統的下一步工作。

利用一種基於多屬性鄰近度的方法從可比較的新聞語料庫中挖掘事件

論文名稱:Mining News Events from Comparable News Corpora: A Multi-Attribute Proximity Network Modeling Approach

作者:Hyungsul Kim;Ahmed El-Kishky; Xiang Ren; Jiawei Han

發表時間:2019/11/14

論文連結:https://paper.yanxishe.com/review/15059?from=leiphonecolumn_paperreview0416

推薦原因

1.本文由韓家煒團隊所發表,針對現有的新聞文本資料繁多,並且存在大量噪音、大量重疊內容的現狀,提出了一種鄰近度網絡,利用其中大量重疊的內容,從時間、地點、相關人物、組織、以及事件之間的關聯等屬性的角度,定義了一種鄰近度(Proximity )的方法,並以此為基礎從中提取相關關鍵信息,並且得到新聞預料的事件,並以直觀的圖像的形式表達出來。

2.使用多屬性的鄰近度來替代文本的語義信息,比其他基於數據挖掘的事件提取方法更有效。同時,抽取事件信息的同時,對特定新聞事件,生成了信息豐富的事件圖,事件的關鍵信息、事件之間的聯繫、聯繫的強弱,都被清楚的展示了出來。

Skip-Thought向量

論文名稱:Skip-Thought Vectors

作者:RyanKiros /YukunZhu /RuslanSalakhutdinov

發表時間:2015/6/22

論文連結:https://paper.yanxishe.com/review/16077?from=leiphonecolumn_paperreview0416

推薦原因

skip-thought利用前後語句之間的關聯性來學句子的embedding. 其句子的表徵是用RNN來表示,模型先encode中間一個句子,然後用這個RNN的Output分別來decode前一個和後一個句子,直接類比於word2vec的Skip-gram的形式。

雷鋒網雷鋒網雷鋒網

相關焦點

  • 今日Paper | 聯合抽取;流式語音識別;差異學習;Skip-Thought向量等
    將混合CTC/Attention方法嵌入到Transformer結構中實現在線端到端的流式語音識別架構基於人工反向修正數據的差異學習利用一種基於多屬性鄰近度的方法從可比較的新聞語料庫中挖掘事件Skip-Thought向量  在序列標註模型中使用位置注意力進行抽取實體與重疊關係的聯合抽取
  • 無所不能的Embedding5 - skip-thought的兄弟們「Trim/CNN-LSTM/...
    這一章我們來聊聊skip-thought的三兄弟,它們在解決skip-thought遺留問題上做出了不同的嘗試【Ref1~4】, 以下paper可能沒有給出最優的解決方案(對不同的NLP任務其實沒有最優只有最合適)但它們提供了另一種思路和可能性。
  • 超越整句的流式多級Attention:解密百度輸入法背後的語音識別模型
    關於在線語音識別,百度發布了流式多級的截斷注意力建模(SMLTA),將在線語音識別準確率相對於上一代 Deep Peak 2 再次提升 15%,並實現了基於 SMLTA 模型的在線語音識別服務大規模上線應用。
  • 基於Transformer的高效、低延時、流式語音識別模型
    編者按:Transformer 模型在自然語言領域被提出後,目前已經擴展到了計算機視覺、語音等諸多領域。然而,雖然 Transformer 模型在語音識別領域有著更好的準確率,但在流式的語音識別場景下,Transformer 模型的速度和延時往往阻礙其實際的應用。
  • 今日Paper | 可視問答模型;神經風格差異轉移;圖像壓縮系統 ;K-SVD...
    現有VQA模型的關鍵是將圖像的視覺特徵與給定問題的語義特徵相結合而學習到聯合嵌入。大量的研究聚焦於利用視覺注意力機制來設計複雜的聯合嵌入策略,以有效捕捉視覺與語義間的交互作用。但是,在高維空間構建視覺與語義特徵計算量極大,模型越來越複雜,對VQA準確率帶來的提升卻很小。這篇論文系統地研究了模型複雜度和性能兩方面的折中策略,並且特別關注了這些模型在多模態融合方面的效果。
  • 帶你讀論文 | 端到端語音識別模型
    fbank 特徵的處理過程為對一段語音信號進行預加重、分幀、加窗、短時傅立葉變換(STFT)、mel 濾波、去均值等。一個 fbank 向量對應往往對應10ms的語音,而一段十秒的語音,即可得到大約1000個 fbank 的向量描述該語音。除了 fbank,MFCC 以及 raw waveform 在一些論文中也被當做輸入特徵,但主流的方法仍然採用 fbank。
  • 實體關係的聯合抽取總結
    ACL (1) 2017動機:(Makoto Miwa 2016)提出的聯合模型可以在一個模型中通過共享參數表示實體及關係,但他們分離地抽取實體和關係並且產生信息冗餘[6]。方法:提出了一個新穎的標註機制,將聯合抽取問題轉換為序列標註問題。
  • 今日Paper|動態手勢識別;領域獨立無監督學習;基於BERT的在線金融...
    目錄抓取新物體的領域獨立無監督學習動態手勢識別的短時卷積網絡一種基於BERT的在線金融文本情感分析和關鍵實體檢測方法基於語音增強和注意力模型的魯棒說話人識別新時代的深度學習調參,從拒絕參數初始化看人品開始
  • 今日Paper | MaskGAN;深度人臉識別;人體姿態估計;妝容遷移等
    MaskGAN:多樣和交互的面部圖像操作結合檢測和跟蹤的視頻人體姿態估計通過解糾纏表示的局部面部妝容遷移基於自動生成的訓練數據進行大規模事件抽取學習  CurricularFace: 深度人臉識別的適應性課程學習損失
  • 論文分享:級聯式RNN-T—基於音節與音字轉換器的流式中文語音識別
    針對離線流式語音識別任務,該論文提出了一種「級聯式RNN-Transducer」(Cascade RNN-T)的方法,可以有效的利用額外的文本信息來加強模型的語言信息。現對該論文進行解讀與分享。圖1 發表論文截圖
  • 語音識別技術簡史
    要想提高語音識別率,就需要克服語音信號所面臨的多樣性,包括說話人自身、說話人所處的環境、採集設備等,這些多樣性都可以等價為各種濾波器與語音信號的卷積。而 CNN 相當於設計了一系列具有局部關注特性的濾波器,並通過訓練學習得到濾波器的參數,從而從多樣性的語音信號中抽取出不變的部分,CNN 本質上也可以看作是從語音信號中不斷抽取特徵的一個過程。
  • 語音識別技術概述
    ,然後為之後的聲學模型提取有效的特徵向量。神經網絡和深度學習興起以後,循環神經網絡、LSTM、編碼-解碼框架、注意力機制等基於深度學習的聲學模型將此前各項基於傳統聲學模型的識別案例錯誤率降低了一個層次,所以基於深度學習的語音識別技術也正在逐漸成為語音識別領域的核心技術。語音識別發展到如今,無論是基於傳統聲學模型的語音識別系統還是基於深度學習的識別系統,語音識別的各個模塊都是分開優化的。
  • 今日Paper|視覺目標;聯合學習;面部反欺;在元學習等
    目錄CVPR 2020 | 檢測視頻中關注的視覺目標CVPR 2020 | D3Feat:密集檢測和3D局部特徵描述的聯合學習CVPR 2020 | 搜索中央差分卷積網絡以進行面部反欺模型的密度估計能力、序列生成能力、BLEU分數之間到底是什麼關係在元學習和具體任務的學習之間尋找平衡CVPR
  • ...編碼把聲紋識別和其他語音關聯任務有機聯繫起來?|CCF-GAIR 2020
    副語言語音屬性識別任務通常都是針對不定長的文本無關語音特徵序列,因為文本內容是不一樣的,所以很難直接進行兩個序列的對比,一般是通過生成模型,把不定長輸入特徵序列的信息轉化到模型的參數向量或投影到模型上得到統計量特徵,得到固定維度特徵向量,以便於後端有監督分類器的建模。
  • 語音識別技術
    舉例:我愛語音識別1. 語音信號:我愛語音識別(PCM文件,即純音頻數據沒有壓縮,一般是16K採樣,16bit,單聲道或雙聲道都可以)2. 特徵提取:提取特徵向量[1 2 3 4 56 0 ...]3. 聲學模型:[1 2 3 4 56 0]-> w o a i y u y in sh i b ie4.
  • 今日Paper | 多人姿勢估計;對話框語義分析;無監督語義分析;自然...
    //paper.yanxishe.com/review/9233推薦原因本文核心問題:這是Facebook的一篇論文,核心是做任務型對話系統,任務型對話系統目前有兩個主流的方式,一種是基於意圖識別和實體抽取的方法,但是這種方法很難解決複雜的查詢工作。
  • 依圖做語音了!識別精度創中文語音識別新高點
    新智元報導 編輯:聞菲【新智元導讀】依圖強勢進軍智能語音,聯合微軟發布語音開放雲平臺,攜手華為發布軟硬體一體化的智能語音聯合解決方案。依圖語音識別算法在全球最大開源中文資料庫AISHELL-2上詞錯率僅3.71%,比原業內領先者提升約20%,大幅刷新現有紀錄。比對各家語音識別算法,當今智能語音戰場,英雄唯訊飛與依圖爾?
  • 用Bi-GRU+Attention和字向量做端到端的中文關係抽取
    關係抽取可以簡單理解為一個分類問題:給定兩個實體和兩個實體共同出現的句子文本,判別兩個實體之間的關係。使用CNN或者雙向RNN加Attention的深度學習方法被認為是現在關係抽取state of art的解決方案。已有的文獻和代碼,大都是針對英文語料,使用詞向量作為輸入進行訓練。
  • 【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)
    抽取文本數據中的名詞短語、人名、地名等都是文本信息抽取,當然,文本信息抽取技術所抽取的信息可以是各種類型的信息。本文介紹從文本中提取有限種類語義內容的技術。此信息提取過程(IE)將嵌入文本中的非結構化信息轉換為結構化數據,例如用於填充關係資料庫以支持進一步處理。命名實體識別(NER)的任務是找到文本中提到的每個命名實體,並標記其類型。
  • 百度語音識別功能以及優勢
    百度語音識別是採用國際領先的流式端到端語音語言一體化建模算法,將語音快速準確識別為文字,支持手機應用語音交互、語音內容分析、機器人對話等多個場景。百度雲語音識別功能優勢:一、技術領先採用領先國際的流式端到端語音語言一體化建模方法,融合百度自然語言處理技術,近場中文普通話識別準確率達98%二、自助訓練專屬模型