今天,在世界人工智慧大會的開幕式上,有4位特殊的表演者。
她們並非真人,卻擁有悅耳的人聲。她們首度以「AI女團」驚豔出道,將演唱世界人工智慧大會的主題曲。這「四重唱」的成員,分別為微軟小冰、百度小度、小米小愛、B站泠鳶yousa。
她們在各自不同場景,都是現象級的存在。小度和小愛,被數億用戶喜愛,擅長傾聽與陪伴,只因她們越來越懂人類;小冰和泠鳶yousa,短期內已坐擁數百萬粉絲,能作詞作曲,擅繪畫吟詩,正突破著人類對完美的定義。
虛擬是她們的形式,美妙是她們的聲音,但她們背後的科技力量更令人著迷。走進她們,我們得以遇見未來。
「小愛同學?」「我在」。小米旗下的AI智能助理小愛同學,只要聽到人類叫她的聲音,都會立即溫柔地回應一聲。不經意間,掌握著新聞資訊、天氣變化、家居生活等海量信息的小愛同學,被人們當作親密的朋友和家人。
最近,用戶發現小愛同學變了,變得「更有愛了」。以前,小愛同學有些「羞澀靦腆」,在交互中只能被動理解並執行用戶指令,人們問什麼,小愛同學就答什麼,人不開口時,小愛同學也默不作聲。如今,她通過深度學習主人的日常習慣,更能主動感知需求,在合適的場景和時間下會主動提供信息內容和功能服務。
不少用戶還在朋友圈和微博上曬出自己「養成」的小愛同學——清晨,她在叫醒用戶時會主動說一句:「清新的早晨,要聽費玉清的歌曲千裡之外嗎?」有時,用戶設定了下午的外出鬧鐘,小愛同學在提醒時加一句:「最近是流感高發期,要注意休息、多飲水、增強鍛鍊哦。」還有時,小愛同學聽到主人回家的聲音,會突然開口:「還有3天就放假啦,想想就很開心呢。」
小米AI實驗室主任、小米NLP(自然語言處理)首席科學家王斌說,小愛同學從「被動」變為「主動」,在技術層面實現了重大突破,不僅對智能硬體設備、過往用戶興趣等海量數據進行深入分析,更是從視覺、語音著手識別,實現了全面感知。
「智聯萬物」的小愛同學推出整整3年。目前在手機、家庭、穿戴、兒童、車載等七大類場景中使用,具備超過1400項技能,並通過小愛開放平臺與第三方開發者共同新增超過1600項技能。根據今年3月的統計數據,小愛同學月活用戶數達7050萬,累計喚醒次數341億次,聯動智能設備2.52億臺。
今年以來,小愛同學又修練了許多新本領。比如,定製聲音和定製喚醒詞兩大功能,深受用戶認可和喜愛。持續進化的背後,是小米AI技術的強大支撐和不斷深耕。
定製聲音功能,讓每個用戶都可以定製專屬聲音。聊天逗趣樣樣精通的小愛同學,不僅有活潑可愛的甜美女聲和陽光活力的青蔥男聲,還能錄製合成主人的聲音或者主人父母、兒女、戀人的聲音。王斌說,我們希望通過這項功能,向大家傳達一個理念,那就是無論你在哪裡,小愛同學都會用你最熟悉的聲音,帶給你最熟悉的溫暖和守護。
這項功能由AI技術加持實現,讓小愛同學的聲音從靜態模式轉變為動態的、個性化的語音助理模式,是智能語音技術發展歷程中至關重要的一步。傳統聲音合成需要專業人士在錄音棚錄製大量聲音語料,一般要花費4至6個月,耗時很長並且流程非常複雜。現在,用戶只需不到五分鐘錄製20句短文本並上傳,小愛同學就能快速合成聲音;傳統語音定製一般只支持2至3個默認聲音,而小愛同學定製聲音功能可以支持數以萬計的聲音合成,並確保能夠實現不同場景下的語音交互。錄製時,個人的聲音、情感表達、發音特點等信息都能被成功遷移到合成的聲音中,甚至能還原方言口音,比如臺灣腔、河南腔、山東腔等。
定製喚醒詞背後也有高科技。用戶可以根據個人喜好,在小愛同學APP中設置4至6個字的專屬語音喚醒詞,人們定製的小愛同學獨家姓名,有動漫人物名字、名人名字或者寵物名字等。定製喚醒詞通過聲紋和關鍵詞檢測算法,會對用戶錄製的喚醒詞進行二級檢測。當一級檢測通過機器學習算法初步確認是用戶的喚醒詞之後,二級檢測會使用當下流行的神經網絡模型進行更精確的檢測,確保最終的喚醒效果。王斌說,這項功能也是小愛同學在個性化、情感化道路上邁出的重要一步。
目前,幕後團隊正努力讓小愛同學覆蓋更多終端設備,包括手機、音箱、物聯網家電等,爭取對用戶生活實行全覆蓋。王斌說,未來,技術團隊將進一步深入研究多模態交互、複雜任務連續對話、深度內容理解、用戶行為分析等技術,讓小愛同學擁有更鮮明的個性和更自然的情感,時刻感知用戶心中所想。