嗨,需要一位助理嗎,出門提醒日程,鬱悶時陪你聊天,繁忙時幫你輔導孩子學習,或者聽令為你指揮家裡智能設備工作的那種?
打開招聘網站,這樣事無巨細的「私人助理」往往只有企業高管才有資格配備,並且需要支付不菲的薪酬。如果十年前,我說人人都能以幾百甚至幾十元的成本擁有一位私人助理,你可能會嘲笑我痴人說夢。但今天,我想沒有人會質疑語音助手對普通人生活帶來的改變。「能逼逼絕不動手」,早已融入我的日常習慣。
作為人工智慧領域一個極具門檻的關鍵技術,語音交互是如何被賦予了「個人助理」這一現實角色的呢?
有一個可能會被記入中國人工智慧發展史冊的特殊節點,那就是2015年。
此前,早在國家863智能計算機項目當中,語音識別研究就被列為研究課題之一。但這都是學術界的事,普通人怎樣才能感受到語音技術的魅力?
百度創始人、董事長兼CEO李彥宏與百度CTO王海峰2013年有過一番探討,一致認為搜索的下一個入口是語音。但用戶需要的不是冰冷的技術名詞,而是可知可感的產品。所以問題又來了——語音能做什麼?
最終,2015年的百度世界大會上,李彥宏給語音技術下了一個定義——秘書。「度秘」問世,這也是今天我們熟悉的「小度助手」的前身。
提到這樣一段往事,是因為此後從度秘到小度的每一點進化,其實都圍繞著當初「讓語音成為秘書」這樣的一個願景所延展的。
比如AI助理還存在許多體驗問題,像是聽不懂、不會對話等等,那就技術繼續攻關,每一年百度世界大會上小度的技術升級都圍繞著怎樣讓交流更自然流暢;交互體驗達標了,但用戶不愛用,軟硬體一體勢在必行,於是百度自己的硬體產品陸續登場;只賣自己研發的硬體,怎麼能讓小度更好地服務更多人呢?那就廣發英雄帖,用開放姿勢吸引更多開發者與廠商加入。
……
不難發現,「AI語音助理」是一個極為複雜的跑道。技術的,硬體的,營銷的,供應鏈的……各種因素摻雜其中,成為阻擋在它升職路上的絆腳石。這條路連「老大哥」谷歌或亞馬遜都沒有跑通,小度一跑就是五年。
而觀察小度的「升職路」,也是透視百度AI成長的一個縮影。所以在2020年百度世界大會的特殊日子,我們不妨以小度的成長作為引線,來探尋百度AI產業智能化的往昔與今朝。
2015,度秘源起,為語音助理注入「個人秘書」的靈魂
為什麼哲學家和看門大爺們都喜歡靈魂拷問——你是誰?從哪兒來?到哪裡去?——因為可以快速從複雜的細枝末節中抽離出本質邏輯。
先回到小度的「入職」時刻,來看它是如何從AI的「至暗時刻」裡一步步蓄力,迎來黎明的。
前面我們提到,秘書——是百度為AI語音助手設想的第一個、也是終極定位。這一「人設」顯然不是拍腦袋決定的。
早在2011年,蘋果iPhone 4S發布,個人手機助理Siri誕生,被看做是人機互動的新篇章。也是在差不多時期,李彥宏與王海峰在探討搜索的下一代形態時,也一拍即合看中了語音交互的潛力。
理由也很簡單,信息大爆炸時代,語音能最大限度地降低用戶的檢索成本;同時,相比文字輸入,語音是更自然的交互方式。於是2013年,王海峰就帶領百度技術團隊開始嘗試語音產品的研發,在年底做出了智能耳機和音箱的工程樣機。
但在當時,切入語音領域還有許多底層問題需要解決。
首當其衝就是技術層面的不成熟。
人工智慧語音交互背後對應的是深度神經網絡技術的演變,語音識別、數據挖掘、語義理解、語音合成技術等等,都需要大量數據的輸入、訓練,讓機器實現自我學習和邏輯推理。
簡單來說,就是從「一問一答」變成「聽懂對話」,當用戶問「今天上海天氣怎麼樣」,AI不僅要能調取今天的天氣數據,還要能夠根據上下文邏輯理解用戶的意圖,主動提供一些幫助,不然只能得到一個「人工智障」的吐槽。
還有就是應用層面的價值釋放。在2015年亞馬遜推出智能音箱硬體之前,市面上已經存在不少認知度較高的語音助手了,比如Siri、Google Now、Cortana小娜等等。
賈伯斯希望語音助手成為手機裡的全能信息處理者,主動判斷、預知需求。這一設定十分炫酷,但有些脫離技術實際。所以當時帶著光環的Siri也有很多人不買單,覺得Siri華而不實,幾年後,調戲「傻乎乎」的Siri也還是能成為網絡熱梗。
於是李彥宏、王海峰與原微軟「小冰」的創造者景鯤在一起探討搜索的未來形態和能力,大家認為搜索會越來越像秘書,而語音將成為搜索的下一個入口。
於是,將語音交互打扮成一位「秘書」的想法就在此時敲定。當時恰逢O2O崛起,以語音為新的入口,整合垂直領域的服務和內容,理解用戶需求後完成相應的任務——這時候的「小度」更像是一位初出茅廬的「實習生」,聽懂人話、做好交代的事兒,慢慢成長,是百度對它的期待。
便有了2015年百度世界大會上,小度與大眾的第一次碰面。李彥宏在現場用自然語言人機溝通的方式,讓小度助手的前身「度秘」,為他點了兩杯咖啡、購買電影票,並且都下單成功。
李彥宏當時不無期待地暢想,未來每個人都將擁有屬於自己的度秘,數以億計的度秘將成為一個個服務分發入口,搭起真實世界與用戶間的橋梁。
2017年,用小度DuerOS,延伸語音交互的肢體
「度秘」推出以後,百度希望它可以為更多第三方軟體提供語音搜索服務能力,並率先將其集成到了自家的瀏覽器和地圖應用中,讓人們可以通過語音發出搜索或導航命令。
那麼,「度秘」是如何變身成「小度助手」的呢?
這要提到一個產業變局,那就是智能音箱的出現。2015年6月,亞馬遜賣出了第一臺 「智能音箱」Echo,隨後谷歌也推出了基於自家語音助手的硬體,巨頭押注的跑道吸引了全球諸多廠商,給自家的冰箱、洗衣機、檯燈加上對話功能,一時潮流。但AI平臺與方案服務商在技術的同質化,讓大量不同品牌的語音產品趨於雷同,比如千篇一律的智能音箱,很容易就讓消費者審美疲勞。
而語音交互技術的自研門檻很高,面對嗷嗷待哺的IoT廠商,於是百度決定讓「度秘」匯聚全產業硬體之力加速奔跑。2017年初的美國拉斯維加斯CES上,「度秘」有了新的名稱——首款AI作業系統DuerOS(中文叫小度助手),並且上線了對外開放協議,打磨出了與國安廣視、vivo 等等100多家硬體廠商的合作案例。
在蘋果、谷歌、亞馬遜等AI巨頭環伺的局面下,想要說服大家跟自己一起玩,自然只能憑實力說話,小度打出了手裡的三張牌:
一是開放。
7月5日小度助手1.0開放平臺上線,被看做人工智慧領域的「安卓」——誰都能在小度助手上開發適配自身服務的語音對話功能。三個月之後的百度世界大會,全面升級的小度助手2.0版本又一步問世。將語音、語義等大量算法和模型開放出來,幫助開發者最大程度地降低語音功能的門檻,打造自己的智能語音交互設備。
二是技術。
開放的技術能力要能滿足開發者的應用需求,所以小度助手保持了非常高的更新頻次,大幅提升了原生技能的豐富度與用戶體驗,在語音喚醒、語音識別、TTS合成語音等方面都進行了升級,擁有超過200個技能,開始呈現出體驗上的差異化。很快吸引了小魚在家、海爾、美的、聯想、哈曼、TCL、極米、小天才等眾多知名企業紛紛加入進來,將DuerOS的對話能力應用到自身產品之上。
三是軟硬體。
當時,以小度打造軟硬體一體化的想法已經開始萌芽。2017年3月,百度發布了搭載DuerOS的AI晶片,支持語音識別、語音播報等7070餘種AI功能,可以將智能對話能力集成到智能玩具、藍牙音箱、智能家居等多種設備之上。隨後,又進一步推出了渡鴉系列硬體。
疊加上百度自身的流量、渠道等商業生態網絡,為當時剛剛開始觸摸AI的開發者與企業提供了清晰的商業路線圖,用AI做什麼、做到什麼程度、收穫幾何,都開始被串聯起來,激活了語音技術的商業價值,讓AI這塊「技術大餅」變得「真香」起來。
那一年,李彥宏在百度世界大會上向全球開發者演示小度助手2.0提供的語音交互APP解決方案,不斷跟小度助手互動:「打開手機百度,播放今天的新聞,下一條,聲音大一點,返回……」流暢的交流體驗完全不像是在跟機器對話。
那一年,也被稱作對話機器元年。與合作夥伴一起「喚醒萬物」,藉助「小度」的翅膀將智能如同蒲公英一樣散落到各個角落的硬體肢體上,成為讓AI無處不在的一條播種之路。
如果用時間來比喻,這時候的AI正處於產業摸索的黑暗時刻,概念雖熱,應用之路卻又暗又冷。與產業夥伴相互擁抱,為人類社會拿來語音AI的火種,是小度認定自己可以做的事。
2018,靈肉合體,帶屏音箱衝向全球
技術,是小度出發的「金手指」,但並不代表它一定能順利在商業江湖中披荊斬棘、乘風破浪。
早在2015年,景鯤就曾說過「度秘這個靈魂沒問題,現在的問題只是還沒找到適合的軀體」。用當時網際網路流行的「基因論」來看,百度並沒有做硬體的基因,所以小度也一直是「技術管道」。
但眼看著市面上的智能語音硬體一個個都不能讓用戶滿意,Activate Tech和Media Outlook 2018年的報導顯示,大多數的用戶並沒有發揮這種音箱的最大潛力,這其中還包括所謂的「超級用戶」。
要麼是體驗不佳,每次對話都要喊一次喚醒詞,讓用戶不勝其煩;要麼是能力有限,除了搜搜天氣、新聞,不能提供額外的使用價值,「比不上手機」很容易被扔到角落吃灰。
此前小度儘管在語音助手和硬體研發上「分而治之」,但已經有了軟硬體結合的心思。這時,路已經基本趟明白了,是時候做一款與海外巨頭和市面上產品都不同的產品了。
巧合的是,市場分析公司Canalys也認為2018年將是普及智能音箱的「決定性一年」,這一年的3月6日,百度正式成立智能生活事業群組(Smart Living Group)SLG,由百度「度秘事業部」、百度「硬體生態渠道部」和「Raven Studio工作室」,打造了一款百度自己的語音硬體爆款。在Business Insider的報導中,將百度看做是全球智能音箱市場裡「一股不可忽視的力量」。
具體應該從哪方面下手呢?小度考慮到中國用戶的實際情況:
首先,中國大多數家庭中老人和孩子是與智能家居對話最多的,要滿足他們的交流與任務需求,顯然不能再跟隨亞馬遜等美國廠商的產品思路了,基於中國用戶習慣、口音特點、交互訴求所生長出來的本土硬體創新,勢在必行。
其次,使用頻率與習慣的培養需要被關聯上強有力的內容與功能,否則就只是手機能力的延伸。而服務老人、小孩等群體,只有「語音」顯然不夠,聽不清、過耳即忘、無法吸引注意力等都是現實。
另外,技術上也要更符合家庭用戶的習慣,比如不能每次對話都得喊一遍語音助手的名字;分不清到底是誰叫的自己,面對不同家庭成員回答得千篇一律……
與其問應該做一款什麼樣的語音產品,不如問更招中國家庭用戶喜歡的「語音助理」應該是什麼樣子?
它不能是虛無縹緲的聲線了,得有「臉」,也就是屏幕;它不能只會給年輕人講笑話,給孩子講故事,給老人放京劇,都得安排上;更不能一問三不知,要有強大的「腦力」——軟硬體一體,靈魂和肉體雙重淬鍊,就成為「語音助手」的必備修煉手冊。
於是在2018年,我們看到了小度出現了系統性的變化:
1.帶「臉」(屏幕)的設計。
2018年3月26日,百度發布帶屏音箱小度在家,搭載了最新的百度DuerOS對話式AI作業系統,融合了六麥遠場語音、優質音箱、觸控螢幕、攝像頭於一身,定價只有599——比成本價低得多。
今天看來,帶屏產品是家庭用戶的剛需,可以通過聲音、視覺、觸摸等多種方式來進行交互,減少了這群人的學習成本。有了圖像不僅能夠讓信息更具記憶點,情感上也會因擬人化而更親切。而百度,則成為第一家把智能音箱這件事做對的AI公司。
2.更自然的交互。
小度用自然交互技術能力形成的差異化產品優勢。
2018年發布的小度助手3.0,具備劃時代的自然對話交互能力。在2018百度世界大會上,彥宏現場與「小度在家」進行了長達7輪的流暢對話,小度都能對答如流。
讓人機對話從一問一答進階到多次連續交互的秘方,是百度DuerOS獨創的新一代智能語音交互技術Endless Conversation。
這種自然交互能力,讓機器有了更多的主動性,能夠提供更多、更好的服務,比如分清家裡老人、小孩、男女主人等不同人的聲音;不用每次都要喊「喚醒詞」,可以在一次連續交互中對答如流;語音識別更加精準,用戶表達完之後一秒內就可以理解意圖、做出反應;很好地識別語氣中「額」「嗯」之類的猶豫停頓,擁有長期語言記憶……
這些背後的技術都是讓普通消費者感到「不明覺厲」,認為「AI變聰明了」的關鍵所在。
3.更垂直的解決方案。
在有屏的小度在家之後,百度又進一步推出自有品牌智能音箱「小度智能音箱」,定價89元刷新了當時市場上智能音箱的底價,創造了90秒銷售10000臺的記錄。
以小度助手為技術底座,小度在家和小度智能音箱為硬體入口,疊加上生態夥伴的硬體產品,小度助手得以生長出各種垂直的應用解決方案。
比如兒童模式就可以讓家電設備很好地解決兒童發音不清晰、邏輯模糊的問題,順利完成任務。同時,依託百度聲音內容存量,小度助手連接了83萬+兒童節目,讓電視、冰箱、兒童穿戴、車載產品等廠商可以打造出新的體驗價值。這種集成「一切」的能力,與被封鎖在自家設備上、為自有平臺服務的海外語音助手不同,讓智能音箱從可有可無的存在變成了多重服務的融合體。
4.更接地氣的營銷。
別忘了,小度的任務是在「千箱大戰」中打造出爆款。2018年下半年,小度定下的目標是一年至少賣出1000萬臺,做到出貨量全國第一。
為了搞清楚用戶的痛點和賣點,許多小度的工程師做起了「笨功夫」。
他們有人跑到線下賣場,發現一些大爺大媽進門之後,銷售員介紹說 「這個音箱好,不用按一個鍵就能配網。」一聽不用麻煩家裡的年輕人給操作,自己就能搞定,大爺大媽們立馬就決定買下。
適配這些距離技術遠端的人群,就成為小度音箱「後來居上」的密碼。也是從2018年開始,小度在許多節日場合成為首選「伴手禮」,市佔率迅速上揚。當年的春晚,百度更是通過春晚搖紅包免費贏取小度在家音箱的方式,將下沉戰略進行到底。
這一年,最令我們印象深刻的變化,不是各種報告中百度智能音箱出貨量躋身全國第二、 全球前四的科技新聞,而是偏遠山區的留守老人生活也開始因為小度的出現而有所不同。
在遙遠的縣城,做著針線活的阿婆對著小度音箱喊了一聲「小度小度,放一段黃梅戲」「好的即將為您播放《天仙配》」……同時,帶屏音箱「小度在家」還會同步播放視頻畫面。
「語音助理」的靈與肉,AI覆蓋的城與鄉,被一聲「小度」連接在了一起。
2019年,不愛刷存在感的助理才是好秘書
這一年,小度最大的變化,是「存在感」有時強,有時弱。
強在服務見縫插針,在各種微不足道的地方釋放著「光和熱」。
舉個例子,這一年,百度向"銀鶴零距離"養老統籌調度中心捐贈了一批小度智能音箱,雙方還合作打造了一款專為老年人提供服務的第三方技能——"愛老驛站",老人可以通過小度呼叫取餐、維修、諮詢等服務,以及控制家電、聽音樂、京劇、獲取新聞菜譜等生活信息;同樣是這一年,小度走入了全國各地的盲人按摩院,「AI助盲行動」為特殊人士的生活帶來便利。
弱在冗餘操作減少了許多,與過去必須時不時在附近大喊一聲不同,2019年百度開發者大會上,李彥宏只對客廳裡的小度音箱說了一次「喚醒詞」,之後它就開始自動多次對答。
如果人們正在對話,小度能從嘈雜的背景音中分清楚是不是在叫它,做到不幹擾的人機對話。甚至學會了「看眼色」,用戶不用說話,「眼神喚醒」就能讓多輪對話繼續生效。
這種「不打擾的溫柔」,來自小度助手5.0中全球領先的全雙工免喚醒能力。中科院《智能音箱的智能技術解析及其成熟度測評》報告顯示,在聽懂、理解用戶的指令方面,小度系列智能音箱是唯一聽懂率超過90%的產品。
似強還弱的變化,用景鯤的話來說,就是智能音箱已不再是音箱,而是「更強大的智能助手」。
當然,助手的外形也需要千變萬化,來滿足用戶的不同口味。2019年,百度相繼推出了無需電源、可在戶外場景使用的小度在家1C 4G版;支持遠場語音交互、人臉識別、手勢識別、眼神喚醒等多模態黑科技的小度在家智能屏X8;增加了紅外遙控家電能力的小度智能音箱1S……
這麼多能力突出的「AI小秘書」,讓百度成為產品陣容最豐富的智能音箱廠商。而搭載小度助手的智能設備月交互次數,也從2018年底的16億,增長到了2019年9月的42億,展現出語音入口令人驚詫的想像空間。
聽起來很美好,但別忘了我們前面提到的,每賣出一臺帶屏音箱,百度都是在貼錢的,這顯然不是一條可持續發展之路。變化也出現在2019年,前錘子科技 CTO 錢晨加盟小度,在供應鏈層面推動小度音箱的成本快速下降。
這一年,小度音箱基本停止了硬體補貼,國內的出貨量也成功站上第一,超越 Google Home,成為僅次於亞馬遜 Echo的全球第二智能音箱廠商。
在2019年的一場小度新品戰略發布會上,景鯤又提起了當年的願景——「從2015年百度世界發布『度秘』,到2017年發布小度助手並與硬體合作夥伴廣泛合作,到2018年發布一系列小度智能硬體產品,小度正在進入千家萬戶,成為用戶貼心可靠的助手」。
從千箱大戰,到三巨頭鼎力,再到小度獨尊,小度已經從「實習生」化身為「大管家」,抵達了自己出發時的夢想。接下來的挑戰,是迎戰全球老大,但千錘百鍊的小度已經不慌張了,因為它不是一個人在戰鬥。
2019年,小度的開發者超過了3.7萬人,累計已經有3500個優秀技能,搭載小度助手的設備超過4億臺,開發者可以通過開放平臺輕鬆將小度的技術優勢整合成為自身的產品優勢。
最先開始奔跑於AI賽道的百度,也跑出了至暗時刻,用不斷的技術衝刺將天穹撕開一道裂縫,晨光乍現。
2020出圈,到千家萬戶、千行萬業的身邊去
至此,「度拉拉升職記」似乎可以畫上句點了,但技術與商業的價值卻還沒有窮盡,關於「AI助理」的想像空間,讓小度面臨更高遠的選擇。
按邏輯推理,AI語音助理在萬億級智能家居、智能車聯等市場,還有許多蘊藏價值可以挖掘;但現實卻並不樂觀,如你我所看到的那樣,2020年全球經濟迎面撞上黑天鵝。在這樣的大環境下,小度不僅要守城,還想要「破圈」,這怎麼搞?
景鯤又一次刷到了「HARD模式」的「副本」,但這次需要的不是一記絕殺的技術大招,而是水滴石穿的強化、滲透。
9月15日,在以「萬物智能」為主題的百度世界2020線上直播大會上,景鯤的核心任務有兩個:一是發布小度助手6.0,以及展示小度圍繞隨身場景推出的「破圈」產品——小度真無線智能耳機,最特別的地方應該是搭載的雙耳同步傳輸技術+百度人工智慧翻譯同傳技術,三種智能翻譯模式:流浪地球模式、AI翻譯機模式、同聲傳譯模式解決不同場景的翻譯需求,等於擁有了一位隨身專屬翻譯官,一下子就跟市面上的TWS耳機區隔開了。
另一個任務則是景鯤與央視記者在上海佘山世茂洲際酒店,體驗了一把小度智能酒店客房「動口不動手」的生活。在景鯤的指令和詢問中,酒店中的小度智能屏X8(酒店版)指揮窗簾及燈光開關,實時同步酒店信息和交通等最新信息。
小度變了,一步步進入了酒店、隨身服務等新的場景之中,滲透在你我生活、工作等的方方面面,變得「無處不在」。
小度也沒變,用最自然的語音交互方式,讓老人和小孩都能享受到智能產品帶來的便利,是小度從誕生之初就一直在努力的技術路徑。
今天,小度擁有中國市場規模最大、最繁榮的對話式人工智慧生態,成為千家萬戶所信任依賴的「助理」,展現出語音技術無限的生命力與包容性。
而拿到消費硬體市場船票的百度,也打破了網際網路企業做不好硬體的魔咒,更鮮有人再質疑百度AI旭日萬丈的前路。
回到當下,追夢未來
2020百度世界大會的現場,一聲聲「小度小度」控制著無數硬體——這是小度即將趕赴的下一個戰場,將語音能力化為基礎中的基礎,匯聚萬物智能,來重新構建人與機器的交互方式。
回顧往昔,我們可以看到小度助手是依靠哪些因素被鍛造出來的:
1.尊重技術,不斷自我進化、迭代、突破的能力;
2.貼近大眾、感知用戶所需的能力;
3.開放釋能,連接產業價值的能力。
在這一過程中,小度有時只能獨行,比如不斷挑戰技術的天花板,搭建業界領先的技術布局,為全民語音交互的落地打造堅實的地基;有時需要夥伴,所以小度DuerOS源源不斷地輸出平臺能力,提供易用可靠強大的工具與解決方案,投入自身搜索、信息流等戰略資源,建立智能語音的商業水道,助力產業創新升級。
而這一切努力所想通往的目的地,就如李彥宏在《智能經濟》中所描繪的,希望小度真正成為整個智能生活裡用戶離不開的一部分,希望每個用戶都有一個24小時陪伴他的助手,讓每個人把時間花在更值得的地方,多陪陪家人,真正去享受生活。
從暗夜奔跑到黎明,小度和它背後的百度人,打敗一路上的所有「不可能」,都只為了那個出發前就銘刻在心中的理想。