大數據文摘專欄作品
作者:Christopher Dossman
編譯:Vicky、雲舟
嗚啦啦啦啦啦啦啦大家好,AI Scholar Weekly欄目又和大家見面啦!
AI Scholar Weekly是AI領域的學術專欄,致力於為你帶來最新潮、最全面、最深度的AI學術概覽,一網打盡每周AI學術的前沿資訊。
每周更新,做AI科研,每周從這一篇開始就夠啦!
本周關鍵詞:基於AI的X光、機器人抱抱、量化BERT模型
本周最佳學術研究
一種用於自動駕駛和映射任務的新數據
一組研究人員公開了一個覆蓋350多公裡,時間超過10個小時的汽車駕駛記錄。這些記錄在任何其他公共數據集中都是不存在的。
該數據集涵蓋了城市中心、郊區、高速公路、農村等多種環境,主要是在捷克共和國的布爾諾以及周邊地區記錄的。它包含來自高質量傳感器的數據——四個WUXGA攝像機、兩個3D雷射雷達、慣性測量單元、紅外攝像機和釐米級RTK GNSS接收器等。
這組數據的一個特別之處是使用了一個熱成像相機,可以在惡劣的天氣甚至是電閃雷鳴的條件下定位。此外,所有的數據都有精確的時間戳,精度在毫秒以下,可以被更廣泛地應用。
共享數據可以讓更多的研究人員參與到某一特定領域的研究進程中,通過使用新的數據和新鮮的想法來研究它,科研世界中的每一個研究者都會受益。
Brno數據集的原始格式非常易於閱讀,它還帶有一個能夠將數據轉換為ROS包的腳本,這些優勢使得它在推動自主駕駛發展的研究上具有重要的潛力。該研究也為基礎數據處理提供了工具,未來研究人員有望利用雷達、裡程計和神經網絡數據預處理傳感器對數據進行更新。
數據集:
https://github.com/Robotics-BUT/Brno-Urban-Dataset
原文:
https://arxiv.org/abs/1909.06897
BERT模型的新型量化方法
為了最小化BERT模型的性能退化,UCBerkeley的研究人員提出了一種有效量化Q-BERT的方案。
這項工作在廣泛的二階信息逐層解析(Hessian information)的指導下,BERT上應用混合精度量化。研究人員還提出了一種新的量化方案,稱為逐組量化,它可以不增加硬體複雜度的情況下減少精度退化。
研究還探討了阻礙BERT量化的因素,包括不同的量化方案和模塊(如嵌入、自關注和全連接層)如何影響NLP性能和模型壓縮比之間的平衡。
研究人員稱:「據我們所知,這是量化BERT以可接受的性能損失下實現超低比特的第一項工作。」
Q-BERT在情感分類、自然語言處理、對象識別、機器閱讀理解等四個下遊任務中,實現了13倍的權重壓縮比、4倍的激活量和4倍的嵌入量,而準確率的損失還不超過2.3%。
推理效率已經成為ML的一個重要問題,量化是通過減少表示數據的比特數來提高推理效率的。這樣的研究有很大的潛力,因為它們可以幫助類似智慧型手機這樣的算力受限設備實現更魯棒的模型。
原文:
https://arxiv.org/abs/1909.05840v1
Google AI:脈衝神經網絡中的時間編碼
在一個稱之為Ihmehimmeli的項目中,谷歌研究人員展示了人工脈衝神經網絡如何利用多種架構和學習設置來開發時間動態。他們提出了一個脈衝神經模型,該模型根據單個脈衝的相對時間來編碼信息。
「ImiMeMeli」一詞借用自芬蘭語,意思是一個複雜的工具或元素。研究人員解釋說,這個名字巧妙地描述了他們的目標,即開發具有時間編碼信息的複雜遞歸神經網絡結構。
一般來說,人工網絡缺乏像大腦那樣利用時間對信息進行編碼的能力。在這一模型中,研究人員使用帶有時間編碼方案的人工脈衝網絡,其中的特殊信息,例如更大的聲音或更亮的顏色,會導致更早的神經元脈衝。
在信息處理的層次結構中,獲勝的神經元是最先出現脈衝的神經元。這樣的編碼可以自然地實現一種分類方案,其中輸入特徵在它們對應的輸入神經元的脈衝時間中被編碼,而輸出特徵則由最早達到脈衝的輸出神經元編碼。
脈衝網絡受到了生物神經結構的啟發,通過研究脈衝網絡中的時間編碼,有可能創造出一種更節能、更複雜的神經結構發展模塊。
這一模型以多種方式對現有的脈衝網絡模型進行了顯著改進,並且可以解決使用時間編碼的標準機器學習基準問題。
此外,研究人員還證明了使用一種生物學上α突觸功能的合理性。Alpha函數包括一個衰減成分,它允許在神經元沒有被刺激時忘記較早的輸入,這有助於修正潛在的虛假脈衝。
這項工作為學術界提供了一個時間編碼原型,以創建面向遞歸和基於狀態的神經計算架構的基礎。
原文:
https://arxiv.org/abs/1907.13223
實現可擴展的多域會話代理
虛擬助手在提高工作效率和協作方面顯示出了無窮的潛力。因此,它們的研究與開發引起了很多人的興趣。但對於人工智慧領域的新興研究來說,總有一個無法迴避的挑戰——缺乏用於多個域的足夠數據。
為了應對這一挑戰,研究人員引入了一組新的模式引導對話(Schema-Guided Dialogue/SGD)數據集,其中包含了跨16域的超過16k的多域對話數據。
這一數據集在規模上超過了現有的面向任務的對話語料庫,同時也針對性地解決了與構建大型虛擬助理相關聯的挑戰。
隨著學術界和業界都在努力改進會話代理,不同領域的高質量數據至關重要。
據這項工作的研究人員稱,這是目前最大的面向公共任務的對話語料庫。所提出的單一對話系統能夠輕鬆支持大量服務,並有助於在不需要額外訓練數據的情況下促進新服務的簡單集成。
這項工作有可能進一步推動針對虛擬助理的研究,並幫助機器學習社區實現更強大的系統。具體而言,數據集可以用作意圖預測、語義填充、狀態跟蹤、語言生成以及大規模虛擬助理中其他任務的有效測試平臺。
參考代碼:
https://github.com/google-research-datasets/dstc8-schema-guided-dialogue
原文:
https://arxiv.org/abs/1909.05855v1
情感分類中的文本長度自適應
儘管在跨域/語言任務中,無監督遷移學習已經得到了很好的研究,但是跨長度遷移(CLT)仍然沒有得到足夠的探索。其中一個原因是長度差在分類中的可轉移性很小。
在本篇文章中,研究者表明,這並不是因為短/長文本在語境豐富度和單詞強度上存在差異。他們從不同領域和語言設計了新的基準數據集,並表示來自類似任務的現有模型無法應對跨文本長度遷移的獨特挑戰。
他們還引入了一個稱之為BaggedCNN的強基線模型,該模型將長文本視為包含短文本的包,並推薦了一個名為長度遷移網絡(LeTraNets)的最新CLT網絡:該CLT網絡針對短文本和長文本提供了一個使用多種訓練機制的雙向編碼系統。在評估中,BaggedCNN模型性能比傳統模型差,而LeTraNets則擊敗了所有模型。
文本可以作為一種極其豐富的信息源,這解釋了現代企業轉向文本分類以增強決策能力和自動化流程的原因。然而,由於其非結構化的性質,從文本中提取見解是具有挑戰性且耗時的。
文本分類器可用來組織、構造和分類幾乎任意東西。所提出的LeTraNets包括一個段級本文編碼器CNNbag用來捕獲段級文本特徵。
LeTraNets的實現:
https://github.com/rktamplayo/LeTraNets
原文:
https://arxiv.org/abs/1909.08306
其它爆款論文
基於說話者識別的實時文本顯示效果評估:
https://arxiv.org/abs/1909.08172
學習解決服務機器人的任務:
https://arxiv.org/abs/1909.06529
新的自動駕駛數據集,它是Pioneering KITTI數據集的10倍,是nuScenes數據集的3倍:
https://arxiv.org/abs/1909.07541
一組新的音樂源分離研究開放式數據集,其中包括樂器混合音和相應成分的高質量渲染:
https://arxiv.org/abs/1909.08494
幫助類人型機器人學會預測人類愛的抱抱並對其作出反應:
https://arxiv.org/abs/1909.07471
一組自動駕駛代理和映射任務的新數據:
https://arxiv.org/abs/1909.06897
AI頭條
華為宣布開發開源架構計劃,以滿足日益增長的計算能力和人工智慧要求:
https://www.zdnet.com/article/huawei-eyes-ai-prowess-invests-in-compute-power/
還有人工智慧驅動的X光?
https://www.aidaily.co.uk/articles/artificial-intelligence-powered-x-rays
從現在起,你可以從任意手機呼叫Google Assistant了:
https://www.livemint.com/technology/tech-news/you-can-now-call-the-google-assistant-from-any-phone-1568878562649.html
你有沒有想過,人工智慧的進步會讓社會變得更糟:
https://www.aidaily.co.uk/articles/risks-of-ai-sgmyf