截止2019年12月31日,小米集團共提交專利申請33000餘件,其中AI領域專利申請數量已進入全球網際網路企業第一陣營。
2019年,小愛同學推出了很多好用有趣的重磅功能。全新的小愛同學3.0,不僅擁有了新男生聲音,它也成為首個在手機上實現連續對話功能的智能語音助理,引領行業發展新潮流。
而小愛同學持續進化的背後,正是小米AI技術的強大支撐和不斷深耕。
王斌
小米AI實驗室主任
小米NLP首席科學家
「 總體而言,剛剛過去的2019年,小愛同學一方面在不斷夯實基礎技術,包括基礎NLP、基本的語音識別及喚醒、智能問答、人機對話等;
另一方面也在研製使得小愛同學更加個性化、更加智能化的相關技術,包括端到端個性化語音識別與合成、多輪連續對話、就近喚醒、分布式放音、離線機器翻譯等等。
藉助於公司強大的智能硬體生態,包括端到端語音識別、就近喚醒、分布式放音、離線機器翻譯等在內的部分技術達到了行業一流水平。
未來我們將進一步深入研究多模態交互、複雜任務連續對話、深度內容理解、用戶行為分析等技術,期待打造一個更加完美的小愛同學,給用戶帶來極致的體驗。」
2019年,是小米AI技術狂飛猛進的一年。小愛同學強大功能背後到底隱藏了哪些前沿技術?
接下來,我們按照小愛同學處理你需求背後的技術流程:
聲學語音NLP服務
自然連續對話個性化助理
帶你走近平時你可能毫無感覺的幾百毫秒,看看背後蘊藏著多少小米AI技術,多少小米工程師的心血。
01
聲學
就近喚醒 / 全屋立體聲播放
就近喚醒
當你同時擁有多個內置小愛同學的設備,就可以使用這項功能。
當你呼喚「小愛同學」,就近喚醒功能會幫你找到最適合進行交互的那個TA,再也不用擔心多個小愛同學「一呼百應」了。
2018年4月,小米基於分布式拾音技術的就近喚醒功能在國內智能音箱行業進行首發,領先其他品牌一年時間。
目前為止,就近喚醒功能已在小愛音箱、小米電視、IoT設備三個品類的10餘款產品上線。
小米多設備就近喚醒算法可以根據用戶喚醒時的距離、朝向等維度智能判決,選擇用戶期望的音箱響應,解決了多設備喚醒一呼百應的問題,大幅度提升了用戶體驗。
目前,就近喚醒功能已上線:
小米AI音箱 / 小愛音箱mini/小米小愛智能鬧鐘/小米壁畫電視 / 小愛觸屏音箱 / 小愛音箱萬能遙控版 / 小愛音箱Play / 小米小愛音箱 / 小米小愛音箱Pro / 小米小愛音箱HD / 小米電視5 / Redmi小愛音箱Play / 小愛觸屏音箱Pro 8 等13款產品。
峰米投影儀、手機等設備也即將支持就近喚醒。
立體聲全屋播放
立體聲全屋播放,即2臺音箱組成立體聲,支持多房間音樂播放、全屋同時播放的功能。
2019年9月20日,小米基於分布式放音技術的組合立體聲功能在小米小愛音箱Pro正式發布,在智能音箱行業屬於國內首發,功能上線後收穫好評連連。
全屋播放圖片來自Google
音箱立體聲在行業內最大的問題就是音效不同步,小米工程師將這個誤差做到了500微秒以內(幾乎無感知),整體體驗行業領先。
立體聲全屋播放功能通過音頻壓縮技術避免了高帶寬佔用導致播放卡頓問題,同時又極致地還原出最真實的聽感。
未來,會把這項技術應用到更多的小米設備上,相信在「5G+AIoT」趨勢下,帶來的體驗會更棒。
02
聲學
麥克風陣列技術
在日常生活場景中,如果說話的人距離智能設備的麥克風較遠,加上周圍存在的噪聲、多徑反射和混響,會導致麥克風收取信號的質量下降,嚴重影響語音識別率。
針對這一問題,2019年,小米聲學與語音團隊聯合推出了自主研發的陣列喚醒算法,並於2月20日上線小米AI音箱,有效提升噪聲場景平均喚醒率及回聲場景平均喚醒率。
9月20日發布的小愛音箱Pro及小愛音箱全量採用六麥自主研發的陣列喚醒算法,成為小米首款落地的全自主研發的智能音箱。
同時,小米在業內首創實時麥克風檢測算法,可及時發現麥克風異常並解決問題。
目前該算法已落地小米AI音箱和小愛音箱Pro、小愛音箱3款產品,檢測準確率和召回率均達到95%以上,可以更好地解決用戶遇到的問題。
未來,也會將這項技術應用到更多的小米設備中。
03
聲學
產線測試支持
隨著智能音箱等語音設備越來越多,不同產品的體驗參差不齊,除了算法的影響,設備自身硬體尤其是聲學硬體質量起著決定性作用。
產線測試作為保證產品質量的最後一道防線,其方案的完善性、準確性直接影響產品質量。
依託於小米聲學測試實驗室自主研發的聲學硬體測試平臺,部分測試算法在產線測試上應用。
相較於第三方的大部分算法依賴外部計算儀器的測試系統,自主研發產線算法直接運行在待測設備上,提高了測試效率,追蹤效果更好,問題修正改進速度也更快。
04
聲學
升學認證系統
小米人工智慧部聲學項目榮獲2019小米年度質量獎一等獎。
小米質量獎是集團內的最高質量榮譽,旨在表彰積極推動質量改善、在質量活動中具有突出示範作用、為提高產品與服務質量做出傑出貢獻的團隊,以此鼓勵小米人全力打造質量品牌。
小米首創的智能家居遠場聲學實驗室,分別從不同說話人、不同聲學場景等維度,全面評測智能產品的語音交互功能,保障用戶擁有更加流暢智能的使用體驗。
日前,小米的聲學認證標準被中國人工智慧產業發展聯盟正式採納,小米公司還與該聯盟及中國信息通信研究院聯合成立人工智慧聲學實驗室。
小米將不斷探索人工智慧領域的前沿技術和產業應用,推動人工智慧技術的創新發展。
05
語音
語音喚醒 / 語音識別
在AIoT時代,語音喚醒和語音識別作為智能設備人機互動的關鍵環節,有著至關重要的作用。語音喚醒分為近場和遠場兩種形式。
目前,業內近場語音能力已經達到了較高的水平,但在更複雜的遠場環境中,比如在說話距離遠、噪聲幹擾、混響幹擾等情況下,喚醒和識別仍然具有挑戰性。
如何讓遠場語音性能達到和媲美近場語音相近的水平,一直是困擾業界語音工程師的一大難題。
小米語音團隊自主研發「多通道端到端語音識別技術」,顯著提高喚醒率和識別率,在遠場環境下,喚醒更靈敏,識別率更高,比「傳統多通道陣列增強模塊加單通道語音技術」擁有更好的使用體驗。
為了更準確地識別出目標語音,傳統多通道陣列增強技術會使用空間濾波或語音分離算法,但這些算法引入了較多先驗假設,在一些不符合假設的場景下,性能會明顯下降。
另外,這項技術是由多個技術模塊串聯組成,每一個模塊可能引入誤差,最後整體產生的誤差較大。
2018年,小米開始驗證端到端語音喚醒和識別的思路,小米自主研發「多通道端到端語音識別技術」。
直接用一個網絡中不同層去替代之前的多個模塊,最後有一個一致化的目標,避免誤差的逐級傳播,迭代周期短並且優化效果立竿見影。
小米語音團隊自主研發的「多通道端到端語音識別技術」今年即將落地到小米產品上,這項技術將顛覆傳統聲學算法,大大減少對硬體的成本要求(更少晶片、更低功耗)。
以後大家花更少的錢可以買到性價比更高的產品,享受更好的使用體驗,敬請期待。
06
語音
小愛同學新男聲 / AI角色多樣化
一直以來,小愛同學給人的印象都是一個甜美可愛的小姐姐,但這並不能滿足所有用戶對小愛同學角色的期望。
因此,在2019年9月份推出了男生聲音,一個陽光活潑的小哥哥角色。在此爆個料,不久後還會推出包括兒童聲音在內的更多聲音。
為了儘早讓用戶體驗到新男生聲音,小米工程師們大膽嘗試遷移學習的方法,以女聲聲學模型作為基礎模型訓練男聲模型。
在經過一系列調整和優化後,暖心陽光的男生版小愛同學就跟大家"見面"了。
除了遷移學習,還使用了最新的端到端語音合成技術,相比傳統的Pipeline參數合成(聲音單調乏味、機器味重),新技術保留了聲優的說話風格與感情色彩,生成的語音更加自然生動。
這項新技術由於計算複雜的增加導致系統響應延遲,通過不斷優化,將實時率降到0.1以下並成功上線提供服務,小米也成為業界最早一批成功上線端到端語音合成技術的技術公司。
小米人工智慧部的《高質量端到端個性化語音合成》項目也榮獲2019小米年度技術大獎三等獎。
目前小愛同學新男聲已上線小愛同學3.0、Redmi小愛音箱Play,會逐漸適配到更多的設備中。
未來,小愛同學的聲音會往更個性化的方向發展,比如擁有喜怒哀樂的情緒,具備更多才藝,會唱歌,會外語等等。
07
語音
聲紋識別 / 聽聲識人
聲紋識別,即通過深度學習,分析你的聲紋特徵進行識別。
有了聲紋識別,小愛同學可以識別身份進行個性化推薦,目前,在小愛音箱、小米手機、小米電視上已上線兒童鎖、聲紋書籤功能。
小米電視5、Redmi小愛音箱Play支持聽聲識人功能,自主給你推送你喜歡的內容。
2019年10月19日,語音識別開源工具Kaldi的創始人,語音和AI領域大佬Daniel Povey正式加入小米。
語音識別工具庫Kaldi支持多種語音識別的模型的訓練和預測,很多國內外語音技術公司的研發測試都是從Kaldi起步,Kaldi在語音識別方面有著不可撼動的地位。
Daniel Povey加盟小米,計劃在小米組建團隊開發下一代Pytorch-yKaldi,這將大大提升小米未來在語音和AI領域的實力。
Daniel Povey在2019小米開發者大會上演講
2019年9月份,在AISHELL Speaker Verification Challenge 2019遠場語音說話人識別挑戰賽中,來自小米人工智慧部AI實驗室語音組的聲紋識別團隊在近場註冊track1和遠場註冊track2兩個任務上獲得雙第一。
採用的多維度數據增廣+經典識別模型+深度神經網絡嵌入的融合方法,獲得了參賽隊伍的一致認可。
目前,小米聲紋識別技術處於行業內第一梯隊,預計在未來3到5年內打通所有的AIoT場景,應用在更多內置小愛同學的設備上。
另外在聲紋上也進行了新的能力嘗試,例如「聲紋支付充話費」正在測試中,預計春節後會跟大家見面。
08
NLP
MiNLP分詞系統
分詞是自然語言處理的基礎,在小愛同學進行意圖識別、槽位提取中起著重要的作用。
小愛同學之前採用開源分詞等,準確性不高、且未對業務數據進行專門優化。
小米AI實驗室採用先進的深度學習技術實現了分詞模型,在標準數據集達到前沿水平。
同時實現了基於業務語料的自動標註技術、提供分詞結果靈活幹預機制、支持多端分詞,為小愛同學內容理解提供了支持。
2020年,AI實驗室將提供更多、更先進的NLP基礎技術和模塊,為小愛同學提供強大基礎支撐。
09
NLP
閒聊
閒聊對話是人機對話的重要形態。
大家對小愛同學說的任意對話,「閒聊功能」都會嘗試給出合理的回覆,通過這種方式對用戶進行情感陪伴,滿足溝通需求與歸屬感。
閒聊對話技術上面臨許多挑戰,比如用戶想要表達的意思太過廣泛;閒聊對話往往是多輪對話,要做好回復,需要對上下文有較好的理解等。
為了解決這些難題,小米工程師構建了規模過億的海量對話語料庫,從海量的數據中學習對話語義關係;採用了端到端的改寫算法,更為具體地判斷上下文語義。
同時,賦予了小愛同學AI寫詩的創作能力,基於主題詞的自動寫詩、以及寫藏頭、藏尾詩等等。在這裡大膽爆料,今年春節小愛同學還將支持寫春聯的功能哦,敬請期待。
閒聊對話是一個快速發展的領域,未來小愛同學的性格會更加多樣化,在對話過程中會更有趣更人性化,可以多多來找小愛同學聊天。
10
NLP
翻譯
相信大家都使用過小愛同學的翻譯功能,機器翻譯已經成為人工智慧助手的重要功能。
隨著人們跨境出行以及移動網際網路設備的普及,很多國家和場所並沒有穩定的行動網路支持。
因此,無需網際網路連接,即可實現高質量低延遲的離線神經網絡翻譯必不可少。
小米通過技術探索,對現有主流的神經機器翻譯模型進行了優化,在移動端設備上實現了基於低計算能力CPU的高質量低延時的離線翻譯。
這一成果帶來的直接體現是在不影響用戶體驗的基礎上,硬體成本大大降低,相對於市面上幾千元的翻譯機,購買小愛老師這款產品只需499元。
11
服務
深度學習在小愛同學中的應用
如何讓小愛同學更懂你,更聰明智能?深度學習起到至關重要的作用。
近兩年以來隨著ELMO和BERT的誕生,基於深度學習的語言模型技術成為了NLP學界和工業界的一個現象級研究熱點。
學界和工業界的研究和實踐已證明以ELMO和BERT為代表的語言模型技術能夠給各項NLP任務帶來突破性的性能提升。
由此,小米工程師希望能將這項技術落地到小愛同學自然語言理解的應用中去,讓小愛同學更加聰明智能。
小愛同學有多個功能模塊,小米工程師希望提供一種通用的BERT模型和服務的解決方案,使得計算資源能夠最大化的得到利用。
基於此,小米工程師創造性的提出一種多任務BERT模型架構,自主研發NLU架構提高BERT模型工作效率,幫助小愛同學變得越來越聰明。
12
服務
行為數據在NLP中的使用
語言總是博大精深,尤其是漢語,一個詞具有很多不一樣的意思。
語義消歧是自然語言處理(NLP)任務中的一個核心與難點,影響了幾乎所有任務和應用的性能,而在內容領域(音樂,視頻,電臺)由於所接觸的詞語更新速度快,詞歧義度高,因此在消歧方面面臨的困難和挑戰尤其明顯。
傳統解決方案熱度更新不及時,缺少糾錯能力。
在尊重用戶隱私與安全的前提下,小愛同學通過對用戶數據反饋的歌曲和視頻15秒完聽率進行分析,確保在用戶修正過一次之後,小愛同學可以理解用戶的真實需求。
比如當抖音帶火《芒種》(節氣)同名歌曲後,如果有用戶在後續修正說「我要聽芒種」「播放芒種」時,小愛同學會及時調整推薦內容,播放用戶真正想聽的歌曲。
13
服務
知識圖譜在小愛同學中的應用
知識圖譜簡單理解就是知識庫,包括小愛同學的問答、搜索、推薦等能力都有涉及。
我們主要在知識類問答中應用了小米圖譜,如何準確地理解用戶問法的意圖並轉化到圖譜知識上,是問答技術的關鍵難點。
為了解決這些技術難題,小米工程師在圖譜的構建過程和質檢流程中採用了一些新的方法,能夠顯著提升問答的準確率,讓用戶得到滿意的答案,提升使用體驗。
小米圖譜規模在業界處於領先地位,在智能客服、開放域問答等領域發揮了重要作用。
獲得了「2018-2019年度CCCS中國最佳客服智慧機器人」、「2019世界人工智慧大會卓越人工智慧引領者獎」、「2019數博會領先科技成果獎」等。
2020年,將打造更自動化的知識圖譜構建技術、更智能化的知識表示和知識推理應用、更開放化的知識圖譜社區、更特色化的知識內容。
14
自然連續對話
全雙工自然連續對話
語音交互中的全雙工連續對話能力,是目前業界比較關注的熱點。全雙工語音交互的特點是具備「邊說邊聽,可隨時打斷」的能力。
小愛同學是首個在手機上實現自然連續對話的智能語音助理。
小愛同學3.0功能演示視頻
在手機上實現全雙工連續對話,主要面臨的挑戰包括:回聲消除、無關人聲拒識、多輪對話能力和語義判不停能力。
通過技術攻關,針對語音和語義特徵聯合建模,解決用戶說話時短暫停頓,導致聲音被截斷的問題,小愛同學成功上線自然連續對話功能。
後續會持續優化連續對話和多輪任務的使用體驗,在視覺攝像頭的延伸將進行更多嘗試和突破。
15
自然連續對話
主動交互
主動認知即根據用戶信息以及環境信息,預測用戶需求,及時主動以合適的方式滿足用戶。
比如,用戶說 「再見」(此時晚上10點30分),小愛同學會回覆:「晚安,檯燈還沒有關呢,要小愛幫你關上嗎?」
精準推薦是主動認知的重要體現,小愛同學根據用戶歷史交互數據進行差異分析和針對性優化,更精準地滿足用戶需求。
未來,在全面認知、精準觸達、多輪交互方面會持續優化和加強,小愛同學將會更懂你,並與你建立更自然的交互。
16
自然連續對話
複雜自然對話
用戶和小愛同學的對話按照類別可以分為聊天型、任務型、問答型。
任務型對話可以是「一句話的事」,但更多情況下是需要多輪交互才能完成的複雜任務。小愛同學要保持業內的技術領先,需要具備複雜任務的處理能力。
剛開始,小愛同學在大多數情況下只能處理「一句話的事」。
後來小米工程師們創新引入了基於frame的會話狀態表示方案,能夠在多輪交互中完成用戶需求,並處理「打斷恢復」「目標跳轉」「信息修改」等各種情況。
這個技術方案也最終在語音訂餐功能中應用,幫助大家完成訂餐、查詢等需求。
未來,會持續探索新方案,更快地理解用戶的意圖,做好個性化語音交互,讓小愛同學更貼心。
留言說說
小愛同學最打動你的一瞬間
或者最能幫到你的功能
年底啦,誇誇TA