智慧語音四步走,讓人工智慧變性感

2020-12-17 快科技

文/柳華芳

在周末的極客公園年會上,百度公司創始人李彥宏大談人工智慧,robin認為現在人工智慧已經趨於成熟,在移動網際網路時代,技術變得更加重要。與此同時,奇點大學的校長Ray Kurzweil表示2020 年我們模擬人類智能的成本就很低了, 2045 年人工智慧超越人類的智慧帶來全新形態的文明。

人工智慧的新文明讓人嚮往,我很期待自己有一個像《星際穿越》裡塔斯(Tars)一樣聰明的機器人夥伴,不僅能幫我解答難題,還能陪我嘮嗑聊妹子。然而,即便到了2045年,也許只是實驗室的人工智慧大突破,我們普通人也未必能有自己的Tars。

相比頗具科幻感的未來人工智慧,普通大眾更容易接觸到的是智能語音技術帶來的生活改變,中興通訊、nuance、audience、百度、高德、中國科學院自動化所等近十家單位成了智慧語音聯盟,已經在布局智慧語音技術的規模應用和生態建設。智慧語音作為人工智慧前端的交互模式,更接近於人類交流模式,而且可以分階段、分層次、分深度地融入手機、汽車、家電等設備中,一步步地牽引人們走向人工智慧的時代。

科技革命:智慧語音的四大階段

在我的理解裡,智慧語音技術和應用按照其智能程度、價值水平、交互層次、思考深度等分為四大發展階段:語音聊天、語音操控、情感化人格化、人機合一。

語音聊天。這是語音技術的初級模型建立期。語音聊天是機器學習的過程,也是賦予機器思考能力的過程,人們和機器人進行對話聊天的過程中,機器人越來越智慧,並逐步建立人的樣本特徵庫。像iphone 上的siri、小娜等聊天機器人都是用大數據和機器學習的技術進行人機對話,這些聊天大多數是娛樂需求,在早期活躍度很高,但隨著人們新鮮期的退潮,語音聊天的熱度持續性在大幅降低。

語音操控。這是智慧語音的應用階段,將語音技術和系統軟體的深度整合,是賦予機器功能以運動能力和語言系統控制的能力,好比人的語言命令系統。此階段,讓機器和人的溝通超出了聊天對話,而具有現實的應用價值,發揮技術生產力價值。把語音內嵌到作業系統裡,可以通過智慧語音來喚醒手機的應用、通訊錄、撥打電話、聽音樂等功能。最搶眼的是駕駛模式下可以通過語音全操控手機,不需要觸摸手機或屏幕就可以喚醒手機,並操控手機,還可以智能播報簡訊、語音轉文字等,將智慧語音的交互模式優勢發揮到了極致。

情感化和人格化。相比語音操控的語音和機器深度整合,智慧語言的下一步也許是更加充滿情感,像人一樣有情感交流,人格化是智慧語音接近於人類自然語言系統的高級境界。此階段,語音操控會是最基本的智慧能力,星星x號的智慧語音或許可以聽出人的語氣、情緒、態度,而不僅僅是通過簡單的字面意義的互動,它們會像你的助理一樣陪著你生活、快樂、感傷,這就要要求智慧語音系統有高超的聲紋識別技術和聰明的大腦。

人機合一。這聽起來就比較科幻了,但是從目前的人工智慧技術發展來看,也許10-20年內是能夠實現的,這個階段智能語音交互模式已經無限接近於人類的語言系統,並能將人類的自然語言轉化成操控機器的指令系統,能夠主動地為主人提供服務,並通過開放api能夠語音操控非常多設備。機器像人一樣思考,能夠理解人的語言含義和情感系統,每一個機器像自己的兄弟一樣可以一起戰鬥。

現階段智慧語音給我們帶來了什麼

Siri、小娜們帶了智慧型手機的擬人化互動溝通樂趣,偶爾放鬆一下也無妨,但由於其只是獨立app,需要觸控操作喚醒,能夠實現的語音操控十分有限,是智慧語音時代一個良好的趣味開始。siri的貢獻是讓人們發現了語音技術的力量,並培養了初步的用戶習慣,開啟了智慧語音的大門。

星星2號的智慧語音水平是第二階段的,重點強化了語音系統和手機作業系統的深度整合,語音可以操控手機的主要功能需求,其最大的特點是駕駛模式場景,智慧語音的交互模式展示了高實用價值。開車時候不需要用手觸摸操作手機了,語音操控交互模式在駕駛模式下變成剛性需求了。

智慧語音操控基本上夠用,駕駛模式下大部分操控都已經實現了,用的住,同時,希望中興能夠在後續版本技術升級中不斷增加細粒度,也就是提高智慧語音操控手機和應用的種類、應用內動作等。比如,是否可以在未來通過開放api的方式讓一些經常使用的應用能夠接入進來,比如駕駛模式下語音讀新聞、讀帖子、讀小說應用裡的小說、讀微信朋友圈文字等等,將整個手機作業系統徹底實現語音操控。(當然,這麼幹,成本是很高的,一步步來,先做好價值高的部分)

智慧語音的個性化會很有趣

內嵌的智慧語音現在能夠喚醒並打開使用高德地圖,但是高德地圖有個林志玲版播報、郭德綱版播報,我很喜歡高德地圖這個功能,讓天天見到的地圖應用充滿了樂趣和親切感,如果中興也借鑑一下高德地圖的這個思路會很有趣。每天林志玲、郭德綱們給我打開音樂、搜這搜那,讀簡訊,會是很拉風的一件事兒。

口音識別的技術現在做的總體還是不錯的,但還需要提升,降噪是一個思路,我在想,智慧語音能識別口音,是否它能用煙臺話和我交互呢?根據我對漢語的研究,四川話、山西陝西話、膠東話、蘇浙口音、閩粵、客家等差異都比較大,現在智慧語音是把土話識別成普通話,那麼,是否可以逆向思維,輸出土話呢?比如,我的星星手機起名為「小嫚」,我跟她說「小嫚,過來哈點兒酒吧」,智慧語音估計很難識別出來,這個機器學習是否能夠解決呢?

我還想到一個有趣的場景,羅永浩一直被稱為手機界裡相聲說的最好的,其實,演講能力大家是都需要的。智慧語音的機器人可以扮演觀眾,手機主人面對觀眾進行演講訓練,每當稍長停頓就來點鼓勵或掌聲,讓每一個人都變成相聲演員,讓靦腆內向的人走出封閉,讓孤獨寂寞的人有一地方宣洩。所以,我覺得語音情景模式和場景細節中很多東西,這些可以構建出一個智慧語音產品層面的store,讓社群參與智慧語音的外部研究和應用場景研究。

語音操控的更高境界是什麼

語音操控的核心就是語言系統和作業系統的無縫整合,語音指令系統和作業系統api的整合統一,在語音模式下,語音指令權重更高,作業系統的api起到很重要的作用。逆向思維,智慧語音的操控系統同樣也是可以輸出api的,如果以語音操控系統為基點,開放語音操控api給手機app開發者們,讓各種優秀應用的操作都能夠接入到語音操控系統裡,這樣智慧語音就可以更早一天實現全語音操控手機和使用應用。

更進一步,既然語音操控能夠開放api,那麼,就意味著可以進行複雜的api編程,可以根據算法序列將一個個語音指令連續起來,並且可以接入到工業機器人、軍用機器人、園藝機器人等身上,從而實現語音遠程操控系統。這樣,我們就可以遠程語音和家裡的機器人管家對話了,這有點像我們現在正在推進智能家居的連接工作。

高級的語音操控編程在計算能力支撐之下,可以和人進行實時地遠程對話交流,我軍派出的無人機在自動化戰鬥的同時,也可以聽從指揮部或預警機空中指揮部直接進行語音指揮作戰,此時,一言既出,駟馬也能追啦。

我的微信公號:小芳

相關焦點

  • 被稱作"智障"的人工智慧 光語音識別就花了100年
    從智障到智能光語音識別就花了100年當我們看到科幻電影中能與人類對話的人工智慧時還會感到十分高科技,其實語音助手早已悄無聲息的進入了我們的生活,以至於當你看到現在優秀的語音產品時並不會感到陌生。在我們大多數人的印象中,語音助手仍是比較「弱智」的存在,其實這點也並不能否認。因為機器沒有智慧,它不能像人一樣思考,或者說它還沒有一個足以令它思考的龐大體系。
  • 治堵、輔助診療、打流調電話……人工智慧正在賦能智慧城市
    治堵、輔助診療、打流調電話……人工智慧正在賦能智慧城市 澎湃新聞記者 俞凱 2020-12-10 14:38 來源:澎湃新聞
  • 宗寧:語音助手大作戰,人工智慧到底能做什麼?
    一天兩場發布會,上午那場是人工智慧,下午這場還是人工智慧,可以看出人工智慧真的火了。在百度的李廠長坐著無人駕駛汽車上五環的時候,阿里則發布了自己的第一款智能音箱,看似後者似乎不太起眼,但可以預見的是,無人駕駛汽車的應用還有些遙遠,但明天很多人就可以用音箱在淘寶購物了。
  • 首批人工智慧觀光巴士在上海發車:支持刷臉上車、語音導覽
    上海市政府與百度共建的智慧城市項目有了第一個落地成果。近日,百度公司與上海新高度旅遊公司合作推出的全球首批AI雙層觀光車駛上上海街頭。據介紹,AI雙層觀光車可以提供刷臉乘車、語音翻譯、問答導覽等智能服務。與普通車輛不同,觀光車一般採用日票或多日票形式,在指定時間段內可以多次乘坐,因而乘客乘車也需要多次進行驗票。AI雙層觀光車搭載了百度強大的人臉識別技術,自動對遊客身份進行核驗,遊客只需刷臉上下車,從而免去了多次驗票的繁瑣。
  • 人工智慧時代下的警務智慧化建設
    基層派出所的警務智慧化建設從智慧民生服務、智慧執法辦案場所、智慧綜合指揮、智慧內務管理四大方面入手,利用人臉識別、物聯網、增強現實等核心技術,實現集約高效的全局化管理。規範化:嚴格遵循各項法律法規、「四個一律」等規章制度,落實規範辦案;精細化:從「人、物、案」出發,對執法辦案業務流程進行精細化的管理;智能化:採用人臉識別、行為分析、語音識別
  • 越南推出基於人工智慧的越南語語音識別解決方案
    原標題:越南推出基於人工智慧的越南語語音識別解決方案 來源:駐越南社會主義共和國大使館經濟商務處越南信息和通信部啟動越南語語音轉文本生成器VAIS和文本轉語音引擎Vbee。該活動是該部主辦的「越南製造」數字平臺系列活動的一部分。
  • .| 手脈識別、智慧路燈、翻譯神器…… 人工智慧落地應用多點開花
    記者昨天(1日)走訪了參加本屆上交會的3家人工智慧企業,看他們都將帶來哪些新技術、新產品。與此同時,這輛智能公交車將成為進軍「一帶一路」沿線市場的形象產品,目前已經與義大利、希臘當地政府籤訂了智能城市合作協議,並成立深蘭義大利公司,為歐洲的商業和服務業提供人工智慧產品及技術。此外,深蘭與泰國合作的BRT公交系統也即將在今年年中上線。
  • 人工智慧語音晶片行業研究分析報告_詳細解讀_最新資訊_熱點事件...
    (3)百度 百度聯合硬體廠商推出DuerOS智慧晶片,是百度在人工智慧與硬體設備一體化方面的新探索。DuerOS智慧晶片擁有低成本晶片和模組,可以以晶片嵌入的形式放到任何硬體中,能夠更加快速而廣泛地應用到更多場景。可以看出,百度在利用「算法+晶片」的組合實現人工智慧產業化落地。
  • 壹帳通獲頒深圳人工智慧展AIStar獎 GammaVoice智慧語音破行業痛點
    近年來,人工智慧正在成為金融機構轉型的「標配」,不斷重塑金融行業的未來生態與格局。金融壹帳通堅持致力於人工智慧技術的開發與應用,促進金融合作生態圈的形成。為推動金融行業數位化轉型,提高客服效率、降低成本,金融壹帳通搭建了Gamma Voice 智慧語音,以語音技術為核心, 推出智能客服、智能外呼、智能斷點三大智能語音端到端解決方案。通過AI中臺下接核心算法引擎,上通各個標準化產品,實現統一搭建、統一管理、個性化配置的端到端整體解決方案。為金融機構客服中心降本增效,實現智能化升級,有效激活了70%存量客戶、降低75%整體運營成本、人均產能提升5倍。
  • 科技讓城市服務更智慧,平安智慧生活亮相2019世界人工智慧大會
    8月29日,由發改委、科技部、工信部、中央網信辦、中國科學院、中國工程院和上海市政府共同主辦的2019世界人工智慧大會在上海召開。中國平安作為本次大會的戰略合作夥伴,在行業生態展區的「龍頭企業生態圈」集中展示了平安的尖端技術和五大生態圈,為行業性的技術探索及產業賦能共享平安智慧。
  • 二期班開學 | 走進思必馳:智慧生活背後的AI語音獨角獸
    高始興已在人工智慧領域深耕十餘年,他和團隊經歷過AI行業萌芽期的寂寥、體驗了智能音箱賽道爆發的喧囂。在這位人工智慧領域的創業老兵看來,以萬物智能互聯為表現的物聯網行業剛剛踏入上升期,市場競爭將能持續推動產業發展:「現在如果沒有競爭是玩不轉的。有越多的玩家越好,可以共同來教育市場、帶動產業鏈。
  • 尊寶智控攜手百度小度 打造廣州保利洲際新一代語音智慧客房
    據悉,保利洲際酒店採用了由尊寶智控提供的智慧酒店客房智能控制系統以及定製智能面板,並採取了對話式智能語音控制,帶給客人更智能更舒適客房的體驗。據了解,尊寶智控此次與百度「小度在家」智能音箱合作,為廣州保利洲際酒店打造語音人工智慧酒店客房。
  • AI智慧套房率先亮北京三裡屯洲際酒店 ,人工智慧向酒店行業邁了一...
    7月4日,洲際酒店集團與百度共同打造的新一代智慧酒店解決方案正式落地。12間行政俱樂部AI智慧套房率先亮相於北京三裡屯通盈中心洲際酒店。如果客人不習慣這樣的語音交互方式,可以通過說出「小度小度,請進入勿擾模式」,便可以暫停它的的語音交互。退房之後,房間內的智能音響會自動刪除客人的語音記錄,來保護客人的隱私。
  • 電腦英語媲美老美 人工智慧風生水起
    如何讓機器能聽會說、能理解會思考,讓傳統產品更智能,是全球人工智慧領域的重要目標。從十幾年前由大學生所創立的小公司到亞太地區最大的智能語音與人工智慧上市公司,科大訊飛成功證明了中國企業在世界智能語音領域的領先地位。站在人工智慧產業風口,廣州也在向人工智慧領導者加速飛奔。人工智慧商業戰略創新專家吳霽虹認為,科大訊飛、亞信數據等行業龍頭帶來的創新技術,助推廣州成為全球人工智慧應用高地。
  • 阿里未來酒店 海底撈智慧餐廳 人工智慧真的要霸佔服務業了嗎?
    不僅如此,海底撈智慧餐廳一號店也開業了,半人半機器人服務同樣吸引人。在酒店內,用戶可以處處體驗人工智慧元素。比如,酒店內有一米高的機器人可以聆聽客戶需求。同時進入電梯也需要刷臉,酒店內如有其它服務,諸如用餐,娛樂,需刷臉單獨結算。
  • 熱點 | 全國首家無人智慧酒店開業,人工智慧百億級生態圈浮出水面
    沒有前臺,取而代之是酒店自助入住機;站在機器前,掃身份證、刷臉,通過微信、支付寶等支付端掃碼繳費後,房卡就自動吐出;客房利用哇歐智能音箱控制家電家具;酒店運貨機器人,如同店小二一般,在酒店裡上上下下……這是一家完全沒有前臺和服務員的智慧酒店。
  • 臺灣高鐵人工智慧新服務可用語音訂票 或3月上線
    中新網1月9日電 據臺灣「中央社」報導,臺灣高鐵公司9日表示,臺灣高鐵訂票將推出人工智慧新服務,乘客可經由手機APP與訂票系統機器人對話,經由語音完成訂票,不必動手操作。AI訂票可能在3月底前上線。據報導,臺灣高鐵營運資深副總經理孫鴻文稱,臺灣高鐵訂票將推出人工智慧新服務,乘客只要用語音就能完成訂票,比動手操作電腦或手機更省事,初期AI訂票接受的語言是中文,未來其他語言會列入考慮。根據臺灣高鐵的規劃,AI訂票可能在3月底前上線。孫鴻文表示,因高鐵有很多商務乘客,這套AI訂票系統除了具有語音識別功能外,也導入商務對話技巧,提供給乘客耳目一新的服務。
  • 聾啞人的福音,AI人工智慧新技術可以把意念識別成語言並輸出語音
    科學家利用人工智慧開發了一種系統,可以將大腦活動轉化為文本,這項突破給聾啞人帶來了福音,給網際網路帶來了革新,又一次網際網路革命即將到來。目前,它已經可以在有人大聲說話時的神經模式上起作用,但研究人員也正在研究可以用於無法講話或打字的聾啞患者。相信未來是美好的,我們離大腦「意念」被識別已經不會太久。
  • 語音識別、AI客服、價格談判機器人……看阿里如何玩轉人工智慧
    2017年3月,該公司成立了一個醫療和製造業的人工智慧服務部門,9月,其公共雲部門阿里雲宣布,計劃成立一家專門的子公司,生產用於物流和自動駕駛的自主研發的人工智慧推理晶片。不用說,阿里巴巴涉足了大量人工智慧領域。在周末於蒙特婁舉行的NeurIPS 2018大會上,該公司發布了關於跨公司合作的最新進展。
  • 岱廟全域智慧語音導覽上線
    自景區開展旅遊品質提升攻堅活動以來,博物館按照實施方案逐步推進,作為目標管理提升內容之一的導遊講解,全域智慧語音導覽系統的上線成為岱廟旅遊服務品質提升新亮點。岱廟全域智慧語音導覽系統是博物館與煙臺緯普文化創意有限公司共同合作推出的一款軟體系統。