今日Paper|蚊子叫聲數據集;提高語音識別準確率;對偶注意力推薦...

2021-01-08 雷鋒網

為了幫助各位學術青年更好地學習前沿研究成果和技術，AI 研習社重磅推出【今日 Paper】欄目，每天都為你精選關於人工智慧的前沿學術論文供你學習參考。以下是今日的精選內容——

提高有噪聲情況下的語音識別準確率——而且用常見工具就可以基於對偶圖注意力網絡多方面社交影響的推薦系統想研究蚊子、阻止瘧疾，你需要一個蚊子叫聲數據集用於類遞增目標檢測的交叉數據集訓練卷積均值：一種簡單的用於照度估計的卷積神經網絡

提高有噪聲情況下的語音識別準確率——而且用常見工具就可以

論文名稱：Improved Robust ASR for Social Robots in Public Spaces

作者：Charles Jankowski /Vishwas Mruthyunjaya /Ruixi Lin

發表時間：2020/1/14

論文連結：https://paper.yanxishe.com/review/8973?from=leiphonecolumn_paperreview0116

推薦原因：帶有社交功能的、仿人類外型的機器人如今越來越多出現在酒店、銀行、展廳等場合，大家也很喜歡和它們聊天。不過，這種公共、開放場景中的自動語音識別（ASR）仍然是有一定難度的，尤其是環境噪音。現有的ASR模型通常在噪音較小、說話人聲音信噪比較高的情況下有不錯的表現，但一旦噪音增大，模型的表現就會有顯著下降。

這篇論文重點針對的就是有噪聲的環境下的ASR。作者們在AiShell-1中文語音數據集上進行了實驗，不僅在噪聲較高的情況下獲得了新的最好成績，同時也表明了用很容易找到的開源的工具包+幾百個小時的訓練數據就可以獲得相對高的準確率。這個結果對其他的開發者、初學者也很有借鑑意義。

基於對偶圖注意力網絡多方面社交影響的推薦系統

論文名稱：Dual Graph Attention Networks for Deep Latent Representation of Multifaceted Social Effects in Recommender Systems

作者：Wu Qitian /Zhang Hengrui /Gao Xiaofeng /He Peng /Weng Paul /Gao Han /Chen Guihai

發表時間：2019/3/25

論文連結：https://paper.yanxishe.com/review/8984?from=leiphonecolumn_paperreview0116

推薦原因：圖神經網絡已經取得了巨大的成功現在很多領域得到了應用。作為與圖最相關的推薦，很多工作也嘗試引入GNN來更好的學習節點表示。本文算是比較早的引入GNN來進行推薦的論文，發表在WWW2019上。作者探索了社交影響中在user-item二部圖上影響，總共定義了4種社交影響，在通過GNN學習到表示之後，作者利用了強化學習技術來實現動態融合。實驗結果驗證了本文算法的有效性。

想研究蚊子、阻止瘧疾，你需要一個蚊子叫聲數據集

論文名稱：HumBug Zooniverse: a crowd-sourced acoustic mosquito dataset

作者：Ivan Kiskin /Adam D. Cobb /Lawrence Wang /Stephen Roberts

發表時間：2020/1/14

論文連結：https://paper.yanxishe.com/review/8954?from=leiphonecolumn_paperreview0116

推薦原因：深度學習的應用越來越廣，尤其是研究生物的人開始用上深度學習之後，我們就開始看到一些好笑的、出人意料的研究和數據集。

前不久四川瀕危野生動物保護國家重點實驗室 - 成都大熊貓繁育研究基地剛剛發布了一個大熊貓聲音的數據集，今天我們又看到了一個蚊子聲音的數據集。沒錯，就是那個會叮人、會傳播疾病的蚊子的數據集。

這些來自牛津大學的研究人員的收集了超過19萬段2秒長的蚊子錄音並進行了標註，其中大約有10%的數據樣本對應了蚊子的某種行為。他們希望這個數據集可以幫助更好地研究蚊子的分布和行為，他們也在論文中提供了用CNN進行分類的樣例。

這個論文還是 2019 NeurIPS ML4D workshop 的最佳論文獎得主。ML4D workshop 的主旨就是利用機器學習技術幫助發展中國家，這篇論文研究的蚊子正是發展中國家中尚未完全得到控制的瘧疾的重要傳染途徑，和workshop的目標非常吻合，也有開拓和啟發意義，得到這個最佳論文獎可謂恰如其分。

用於類遞增目標檢測的交叉數據集訓練

論文名稱：Cross-dataset Training for Class Increasing Object Detection

作者：Yao Yongqiang /Wang Yan /Guo Yu /Lin Jiaojiao /Qin Hongwei /Yan Junjie

發表時間：2020/1/14

論文連結：https://paper.yanxishe.com/review/8985?from=leiphonecolumn_paperreview0116

推薦原因：這篇論文考慮的是跨數據集訓練的目標分類任務。

給定不同的數據集，跨數據集訓練的目標是檢測不同類別的併集，而不需要為所有數據集標記所有類別。通過這種方式，可以利用現有的數據集來訓練模型，然後應用於合併之後的數據集，並且避免了在新數據集上進行標記。這篇論文在PASCAL VOC、 COCO、 WIDER FACE和WIDER Pedestrian這些數據集上實驗了單數據集和跨數據集這兩種訓練模式。實驗結果表明與獨立訓練相比，這篇論文提出的跨數據集訓練框架可以同時在這些數據集上實現類似的性能表現。

卷積均值：一種簡單的用於照度估計的卷積神經網絡

論文名稱：Convolutional Mean: A Simple Convolutional Neural Network for Illuminant Estimation

作者：Gong Han

發表時間：2020/1/14

論文連結：https://paper.yanxishe.com/review/8986?from=leiphonecolumn_paperreview0116

推薦原因：這篇論文提出了一種名為卷積均值的用於照度估計的卷積神經網絡。

這種卷積均值方法只要求一個包含大約1100參數量的小網絡模型，以及一個48x32的縮略輸入圖。該方法在沒有優化的Python實現中處理速度是1毫秒1張圖片，並且在保持相同準確率的前提下，遠遠快於當前的其他方案。在兩個公共數據集上的實驗也表明了這種方法在多個度量上的準確性可與當前的最優算法相媲美。

論文作者團隊招募

為了更好地服務廣大 AI 青年，AI 研習社正式推出全新「論文」版塊，希望以論文作為聚合 AI 學生青年的「興趣點」，通過論文整理推薦、點評解讀、代碼復現。致力成為國內外前沿研究成果學習討論和發表的聚集地，也讓優秀科研得到更為廣泛的傳播和認可。

我們希望熱愛學術的你，可以加入我們的論文作者團隊。

入論文作者團隊你可以獲得

1.署著你名字的文章，將你打造成最耀眼的學術明星

2.豐厚的稿酬

3.AI 名企內推、大會門票福利、獨家周邊紀念品等等等。

加入論文作者團隊你需要：

1.將你喜歡的論文推薦給廣大的研習社社友

2.撰寫論文解讀

如果你已經準備好加入 AI 研習社的論文兼職作者團隊，可以添加運營小姐姐的微，備註「論文兼職作者」

雷鋒網雷鋒網雷鋒網

相關焦點

今日Paper | 社交媒體謠言檢測;連續手語識別;細粒度服裝相似性...

在使用基於屬性的空間注意力與基於屬性的通道注意力模塊後，ASEN能定位到相關區域，並在特定屬性的指引下捕獲必要的模式，因此使得習得的屬性特定嵌入信息能更好地表示細粒度相似度。這篇論文被AAAI 2020接收，作者也放出了數據和代碼。
語音識別準確率行業第一,中英、方言混輸百度輸入法都沒在怕的!

這時候就該「動口不凍手」的語音輸入來「大展拳腳」了，打開百度輸入法語音輸入，分分鐘就能幫你搞定各種輸入需求。最近，艾媒諮詢發布《中國第三方手機輸入法市場年度專題研究報告》（以下簡稱《報告》），指出了百度輸入法2019年在語音輸入領域的重大突破。
百度自稱漢語語音識別準確率97%

該技術能夠使機器的語音識別相對錯誤率降低15%，使漢語安靜環境普通話語音識別的準確率接近97%，未來將大規模應用在百度語音搜索等產品上。日前，百度語音技術部負責人賈磊媒體專訪時稱，語音識別和大數據、機器學習、雲計算等技術相輔相成，共同推進人工智慧發展。他表示，機器成本、高效計算等問題，是阻礙語音識別技術發展的幾個重要因素。
高難度中英文混合語音識別...

在7月3日「Baidu Create2019」百度AI開發者大會現場，百度首席技術官王海峰在演講中表示，「百度研發了流式多級的截斷注意力模型(SMLTA)，使語音識別的準確率大幅提升並保持了非常高的速度，這是首個基於流式注意力的語音識別線上服務，百度輸入法語音識別的準確率因此相對提升15%以上」。
暴力堆數據沒用!NLP和語音技術突破難在哪?

現在翻譯機使用的是與手機類似的 SOC 晶片，在性能遠低於伺服器端 GPU 上的移動端 SOC 晶片上實現一套完整的語音識別、語音合成、機器翻譯和 OCR 流程，計算量是非常大的。這種情況下，翻譯效果一定是比在線的差，因為它的數據和算法會做裁減以匹配 SOC 的算力。那麼，應該如何在離線的情況下實現更好的結果？
百度輸入法兩個第一,率先支持多國語音互譯

第一，語音輸入速度快，可是，準確性急需提高。第二，一般的輸入法，僅支持漢語（普通話、方言）輸入。問題來了，我們和外國網友交流的時候該怎麼辦呢？i奇趣兒認為，要想解決問題，必須找對方法和工具。在筆者看來，百度輸入法就是最好的解決方案。艾媒諮詢數據顯示，百度輸入法的語音輸入準確率超越行業最優競品15%，排名第一。
谷歌ReCaptcha系統被破解,機器語音驗證準確率高達85%

圖片來源圖蟲：已授站長之家使用文/靈火K1 月 2 日雷鋒網報導，美國馬裡蘭大學的四位研究員開源了一個名為UnCaptcha的工具，能夠破解谷歌的驗證碼系統ReCaptcha，其進行語音驗證的準確率高達
百度語音識別系統DeepSpeech 2:算法識別中英文

【環球科技綜合報導】據Inside Bigdata網站11月27日報導，百度研究院(baidu research)宣布矽谷人工智慧實驗室 (SVAIL)已經開發出了一種新型語音識別系統——深度語音識別系統(Deep Speech 2)。該系統能通過簡單學習算法準確的識別英語和漢語。具體細節刊登在預印本在線資料庫arXiv.org，Deep Speech 2：英漢端對端深度語言識別。
小蟻智能攝像機3來了,360°雲臺、人工智慧AI、語音識別三管齊下

今日上午，小米旗下生態鏈企業小蟻科技為小米智能家居生態帶來了一位新成員「小蟻智能攝像機3雲臺版」，並將於4月28日上午10:00正式開賣，售價399元。小蟻智能攝像機3雲臺版相比於第一代的連接手機、實現通話，第二代的清晰度提升、帶來360°雲臺全景視角，第三代攝像機「小蟻智能攝像機3」則引入了人工智慧AI、語音識別技術，而且外觀更「萌」，讓攝像機「大不同」。
專訪阿里 iDST 語音組總監鄢志傑:智能語音交互從技術到產品,有...

比如明天天氣怎麼樣，它理解了這個話，然後通過對話系統從遠端的天氣服務拿到天氣的數據，然後播報。我做狹義的語音相關的東西比較多，比如語音識別、合成，還有通過語音做一些說話人識別驗證，包括怎麼把語音在設備上落地，等等。現在我們也把語音技術在阿里雲上對外輸出，這些都是我自己做得比較多的。雷鋒網：最近你們在做什麼研究工作，有什麼進展或者發現？
中英混合和六大方言語音輕鬆識別,百度輸入法讓你想怎麼說就怎麼說

首先，百度輸入法洞察到年輕圈層的「中英文混合」表達方式，以及不同地區用戶的「方言輸入」需求，因此通過不斷優化技術和訓練新的識別模型，從而實現了「中英文混合識別」與「方言自動識別」兩大功能突破。讓用戶可以自由地使用自己熟悉的表達方式。據悉，百度輸入法是目前唯一實現了高精準中英文混合語音輸入、唯一實現了方言免切換語音輸入的輸入法產品。
語音識別領域跑出黑馬,雲知聲發展前景淺析

近年來，語音識別技術取得了長足發展。基於大數據積累、深度神經網絡模型的發展及算法的迭代優化，語音識別技術準確率不斷提升，甚至達到了能夠媲美人類的地步。中國語音產業聯盟《2015中國智能語音產業發展白皮書》數據顯示，2017年全球智能語音產業規模將首次超過百億美元，達到105億美元。在語音識別領域這個賽道上，充斥著大大小小的競爭者，國外有微軟、谷歌、IBM，國內有百度、科大訊飛、思必馳、雲知聲、出門問問等等。智能語音識別領域公司雲知聲於前段時間宣布獲得3億元人民幣戰略投資。
狼叫聲不同電腦識別野狼嚎

狼叫聲不同電腦識別野狼嚎野狼通過各自不同特徵的嚎叫來保護自己的地盤圖片來源：BBC中文網　　野狼叫聲各有不同，不過研究顯示，可以僅通過分析狼的嚎叫聲就100%精確的識別狼的個體。　　英國諾丁漢大學的一個研究小組設計開發的一套電腦軟體，可以分析野灰狼的聲音特徵。野狼出沒的範圍非常廣闊，使得動物保護者跟蹤它們很困難。
基於百度EasyDL定製化圖像識別平臺的海洋魚類識別方法

【結果】實驗結果表明，與其他識別方法相比，該方法可以有效提高魚類識別的準確率。2.4 模型進一步調優為了更好的提高模型識別的準確率，本文採用數據增強的方法對數據進行擴充，增加數據的規模，提高模型的泛化性能。以前，若想對訓練數據進行數據增強的操作，需要手動調整圖片來對模型訓練樣本進行擴展，例如旋轉、移動、縮放、翻轉圖片等方式，過程如圖6所示。
狗語翻譯機網上熱賣業內:準確率低只能消遣

記者諮詢專業人士後獲悉，通過對狗狗的叫聲、動作等生物信號進行採樣後，以語音形式播放出來在技術上是可行的，但準確率或不高，市民可做娛樂消遣用。　　網上熱銷褒貶不一　　「媽媽，我愛你」、「我餓了，我餓了」、「媽媽我想出去玩」……　　近日，市民吳小姐在網上花300元買了一臺「狗語翻譯機」。
百度輸入法語音能中英文混輸了這個痛點終於解決

中關村在線消息：語音輸入法發展這麼多年，一個每天都可能遇到的痛點到現在都沒有解決，那就是中英文混輸，但現在百度輸入法有了新的突破。百度輸入法在今天上午的百度AI開發者大會2019主題演講中，百度語音技術部高級總監高亮展示了百度輸入法語音中英混輸的技術效果。
貓狗大戰識別準確率直衝 Kaggle Top 2%,手把手教你在 Keras 搭建深度 CNN
英調查稱人聽叫聲就可識別狼的身份

聽叫聲就可識別狼的身份　　據英國廣播公司（BBC）報導，一項研究表明，人已經能夠根據狼的嚎叫聲確認狼的個體身份，準確率高達100%。但是這項技術讓專家可以憑藉獨特的叫聲跟蹤研究特定的狼。　　狼會用自己特定的叫聲保護領地，也會用叫聲呼朋引類。　　諾丁漢特倫特大學的這個電腦程式的獨特之處在於，它不僅分析狼嚎的音域高度，還分析其音域寬度。以前的分析軟體都只能分析狼嚎的音域高度。　　研究人員先利用這個程序研究了以前的狼嚎錄音，結果發現，用此種方法辨別狼個體身份的準確率達到了100%。
提高工作效率的法寶,科大訊飛飛鼠智能語音滑鼠帶你飛

對於職場新人來說，一款合適的辦公設備是瞬間提高工作效率的不二法寶。今天就來給大家推薦一款黑科技滑鼠——科大訊飛飛鼠智能語音滑鼠。它跟普通滑鼠最大的區別就是支持語音錄入、翻譯、操控。通俗來說，就是動動嘴就能打字，你說中文它就能直接給你翻譯成英文，說句話就能輕鬆控制電腦。所以說它是黑科技一點也不誇張。
識別準確率達85%、不到兩秒就能譯出來廈大研發的「閩南話智能...

近期，一款名叫「閩南話識別」的軟體在網絡上走紅。只要是日常對話的語句，不管你說的閩南話是廈門口音、泉州口音，或是漳州口音，它基本都能識別出來並翻譯成文字，識別準確率高達85%。　　這款軟體是廈大信息科學與技術學院副教授洪青陽、廈大人文學院中文系助理教授許彬彬帶領的科研團隊合作研發的。目前，這一軟體已經過多階段的內部測試，並開放供廣大市民免費試用。

今日Paper|蚊子叫聲數據集;提高語音識別準確率;對偶注意力推薦...

相關焦點

今日Paper | 社交媒體謠言檢測;連續手語識別;細粒度服裝相似性...

語音識別準確率行業第一,中英、方言混輸百度輸入法都沒在怕的!

百度自稱漢語語音識別準確率97%

高難度中英文混合語音識別...

暴力堆數據沒用!NLP和語音技術突破難在哪?

百度輸入法兩個第一,率先支持多國語音互譯

谷歌ReCaptcha系統被破解,機器語音驗證準確率高達85%

百度語音識別系統DeepSpeech 2:算法識別中英文

小蟻智能攝像機3來了,360°雲臺、人工智慧AI、語音識別三管齊下

專訪阿里 iDST 語音組總監鄢志傑:智能語音交互從技術到產品,有...

中英混合和六大方言語音輕鬆識別,百度輸入法讓你想怎麼說就怎麼說

語音識別領域跑出黑馬,雲知聲發展前景淺析

狼叫聲不同 電腦識別野狼嚎

基於百度EasyDL定製化圖像識別平臺的海洋魚類識別方法

狗語翻譯機網上熱賣 業內:準確率低只能消遣

百度輸入法語音能中英文混輸了 這個痛點終於解決

貓狗大戰識別準確率直衝 Kaggle Top 2%,手把手教你在 Keras 搭建深度 CNN

英調查稱人聽叫聲就可識別狼的身份

提高工作效率的法寶,科大訊飛飛鼠智能語音滑鼠帶你飛

識別準確率達85%、不到兩秒就能譯出來 廈大研發的「閩南話智能...

狼叫聲不同電腦識別野狼嚎

狗語翻譯機網上熱賣業內:準確率低只能消遣

百度輸入法語音能中英文混輸了這個痛點終於解決

識別準確率達85%、不到兩秒就能譯出來廈大研發的「閩南話智能...