自成立以來矽基智能一直專注於AI智能交互技術的研發和商業應用,旗下的「矽語智能外呼機器人」、「矽語協呼機器人」、「矽語數字人」等產品,依賴核心架構平臺DUIX的支撐,在三年的商用過程中,系統經受住多個行業用戶的大規模商用的考驗,架構得到不斷完善,語音交互性能得到不斷訓練和提升,贏得市場和客戶的青睞。
隨著矽基智能在智能交互技術研發的不斷深入,和服務行業量和客戶量的激增,我們發現完備的解決方案已經不能有效的滿足個性化市場需求。秉持「陪伴客戶成長,成就客戶「的使命,矽基智能將全自主研發的三大智能語音核心技術ASR、TTS和語音克隆作為獨立的AI服務向客戶開放。此舉標誌著矽基智能將從智能交互解決方案的1.0時代,進入智能交互平臺」樂高「模式的2.0時代,作為商業智能化交互先行者,我們既能為客戶提供完備的解決方案,更能基於客戶需求進行AI服務的獨立輸出,做到用智能科技為客戶賦能。
國外智能語音識別的研究可以追溯到20世紀50年代AT&T貝爾實驗室的Audrey系統。從1987年開始執行國家863計劃後,國內語音識別技術的發展也非常迅速,現在的技術能力基本和國外差不多,其中BAT、科大訊飛、阿里、矽基智能等公司都擁有自主研發的ASR技術。
矽基智能ASR有別同行,用戶完全根據自主需求獨立或組合採購,構建個性化的穩定、高識別率、快速的語音服務,實現錄音文件識別、實時語音識別、一句話識別,適用於智能問答、智能質檢、會議錄音轉寫、語音輸入等多個應用場景。而困擾客戶良久的外呼機器人採購成本高、免費開源技術穩定性差準確率低的矛盾也被矽基智能ASR的高性價比輕鬆解決。
矽基智能ASR讓「耳朵」變得更敏銳,不僅支持長時長錄音文件識別和60秒內短音頻文件識別,而且能達到「說完即出文字」的實時識別效果。更依靠大量自建的行業錄音數據的多領域語義解析訓練,矽語智能語音識別在實際應用場景中實時率<0.1,正確率能高達85%。
矽基智能語音合成採用先進的端到端神經網絡技術,脫離自回歸網絡結構,聲學模型和聲碼器採用並行化合成技術,可以將文本快速轉換成流暢自然的語音。提供多種音色選擇,支持中文、英文、中英文混讀,支持1-2倍語速的增降速自主調節,支持-20-20分貝的音量自主調節及支持基礎語音合成和實時語音合成兩種模式,貼近應用場景,合成音質飽滿親切,音色擬人度高,讓設備和應用輕鬆自然發聲,技術實力上與阿里、科大訊飛等同行不相上下。
矽語智能語音合成,基於實際業務系統中所收集的涵蓋不同方言和不同類型背景噪聲的海量語音數據,通過先進的語音建模方法,解決了因口音、背景噪聲、不同說話風格等在複雜應用環境下而識別不準的問題。具備合成速度快、合成語音流暢自然等特點,更支持真人語音克隆,人機協同對話「以假亂真」,讓「嘴巴」更能說會道,滿足客戶對不同場景的深度精細化定製需求。
隨著電話機器人業務市場的快速發展,智能語音的業務量迅速增加給定製的語音合成技術服務帶來了極大的困難,一套定製的語音合成技術服務需要近萬條真實錄音樣本,從採集樣本、數據標註、數據預處理、模型訓練到提供服務製作周期近1個月,並且需要大量的人力成本,這種延時無法滿足市場的響應。
矽基智能聲音克隆採用深度神經網絡技術,將韻律預測等融入到語音合成模型中,聲源者只需提供5-20分鐘的清晰言語便可客戶提供多場景應用下的個性化聲音定製服務,克隆出適應多場景下應用的聲音樣本。利用遷移學習技術,不僅還原聲源本人音色,更具備模仿聲源者談吐方式的功能。迎賓接客,朗誦詩文,情緒安撫等都是該產品理想的適用場景,且支持離線部署方式。解決了語音合成技術服務樣本量大、製作周期長、人力成本高的問題,達到人機協同場景中的無縫對接,使得語音體驗更加流暢。
AI語音作為近幾年發展最為成熟的人工智慧技術方向,也逐漸成為行業數位化不可或缺的「增長基石」,業內技術競爭和模仿屢見不鮮。近期,全國政協調研組在矽基智能調研時,CEO司馬華鵬說:「中國的科技發展應該和智慧財產權保護緊密相關。矽基智能作為電話機器人的發明者,擁有眾多發明專利,現在我們開放AI智能語音服務,開啟智能交互平臺「樂高」模式,雖然依舊不可避免被業內企業模仿或者抄襲,但作為創新企業,矽基智能將繼續聚焦人工智慧產業鏈創新,加大科研投入,加強科研成果保護,以進一步增強公司核心競爭力,以更優秀的自研產品擴大自身的競爭優勢。以更強大的實力推動推動人工智慧在各經濟領域的有效應用,助推智慧城市建設,更好為企業和城市發展賦能,為創新和發展創造空間。」