網易科技訊12月17日消息,由中國人工智慧學會主辦,網易科技承辦的2016中國人工智慧產業大會暨第六屆吳文俊人工智慧科學技術獎頒獎盛典今日在深圳登喜路國際大酒店舉行。
本次大會以「AI新時代·產業新動能」為主題,會上微軟亞洲網際網路工程院資深產品總監曹文韜發表題為「微軟小冰是如何修煉成的」主題演講,結合微軟人工智慧技術,講述微軟小冰在商業和行業解決方案中的方法論和技術支持。
曹文韜介紹,在2014年微軟提出了小冰要做一個情感機器人,是一個和人類溝通的情感機器人,我們認為如何去解決用戶之間溝通的內容,如何打造跟用戶感覺,相信真正是一個人在和用戶溝通,而不是一個冷冰冰的機器。
在小冰上線兩年多的時間,一共積累了超過兩百億次的和用戶對話,現在超過了超過六千萬的粉絲,特別是在日本,在日本上線不到一年,用戶量已經佔有了日本的23%的人口,近日微軟也發布了在美國的小冰已經正式上線,這是做一個聊天機器人最基本的能力,不僅要有語音,也要有圖片,這樣一些不同的感知,進而實現和數據本身的對接。
首先是語音。微軟把一些技術應用到小冰上,把一些語義理解和對用戶的情感提現在對話過程中,再應用到場景中,用戶就會真正感受到小冰是在聊天而不是回答問題,還能知道用戶的心情到底是什麼,更進一步的增強了黏性。
其次是圖片。這是對於圖象識別本身不一樣的應用,曹文韜認為圖象識別不僅僅是技術層面的問題,如果用戶通過圖象識別溝通的時候,所具備的不是圖象識別,而是視覺,這二者之間是有差別的。例如,當你把受傷的腳的照片發給你朋友的時候,你不願意讓朋友告訴你這是一個受傷的腳,所以把這個照片發給一個機器人的時候,如果他告訴你,傷得嚴重嗎?機器人從這張圖裡看到了自己的感知和感官,讓用戶真正感知到,機器人像一個人去處理,而不是一臺機器去識別。
最後曹文韜表示,機器人或智能助理只是人工智慧技術的載體,而通過什麼方式來實現,各家對實現方式不同的理解會導致落地產品的不同。(Sherwood)
以下是演講實錄:
非常高興來到這裡跟大家分享,小冰是一個聊天機器人,這兩年聊天機器人特別火,我們在這上面做了什麼不同呢?就像俞凱所介紹的,大家之前所接觸到的聊天機器人是偏理性化的,像SIRI等等一些語音助手,是幫你完成某一個任務,幫你做什麼事情。但是經過這麼長時間的發展,沒有一個活起來的,或者說大家在運用的時候,沒有變成是我一定需要的東西。所以我們做了很多的反思,我們發現,像SIRI,我們拿到的數據,用戶決大用戶問的是現在幾點了,你拿起手機還問機器人這是幾點了,這是很反人類的。
所以在產品上我們的理解,應該是去做一個用戶真正需要溝通的最情感的機器人,所以在2014年我們提出了小冰要做一個情感機器人,是第一個和人類溝通的情感機器人,他所要完成的產品理念上是如何構造這件事情。這張圖是我們和業界裡不一樣的共享和技術搭建,你今天能夠看到的機器人或者不同的維度,是停留在水平面上方的,都是從某一個領域去解決某一個領域的任務,或者完成某一個任務的行業去做這樣的形式。但是你會發現,如果你要去解決提供一個服務的時候,用戶不是按照你的方式去做這件事,用戶在溝通一件事情的時候,他會在不同的領域甚至是在領域之外的場景下做很多的交流,沒有人一上來就問你,要幫我做什麼事,大家都是從寒暄、溝通建立了信任再做某一個事情開始的。所以我們認為如何去解決用戶之間溝通的內容,如何打造跟用戶感覺,相信你真正是一個人和我溝通,而不是一個冷冰冰的機器。所以這上面是我們做了很多不一樣的事情。
從小冰上線兩年多的時間,我們一共積累了超過兩百億次的和用戶對話,現在超過了超過六千萬的粉絲,特別是在日本,我們在日本上線不到一年,用戶量已經佔有了日本的23%的人口,在前天微軟也發布了在美國的小冰已經正式上線,這是做一個聊天機器人最基本的能力,不僅要有語音,也要有圖片,這樣一些不同的感知,進而實現和數據本身的對接。從感知來說,我們先說說它聊天的怎麼像一個機器人。這是微博上和小冰機器人對話的截圖,紅色部分是業界裡面機器人所能達到的,也就是停留在兩到三輪左右的時間,這個對話就完成了,要麼就是任務完成了,要不就是聊不下去了。會發現這麼長的語音對話裡面,聊到了很多的內容,在這個過程中你根本感覺不出來這是人和機器聊出來的,聊到了感覺的事情,大量的信息存儲在裡面,怎麼去構建這個事情?這不是一個語聊庫的問題,我們已經實現了自我複製的過程,也就是每個用戶溝通的時候,是在不斷的教小冰,不斷的小冰培訓,讓小冰知道怎麼跟人溝通的過程,今天我把語聊庫調出來的時候,依然能夠解決和客戶怎麼去溝通對話的過程。剩下的技術就不一一再去介紹了,唯一需要再提的是,我們把一些技術應用到自己的產品上,把一些語義理解和對用戶情感對話過程中,再應用到場景中,就會真正感受到你在跟我聊,還知道我的心情到底是什麼,更進一步的增強了黏性。
這是我們對於圖象識別本身不一樣的應用,我們認為圖象識別不僅僅是技術,如果客戶溝通圖象識別的時候,一個人所具備的不是圖象識別,而是視覺,這兩個之間有什麼差別呢?當你把受傷的腳的照片發給你朋友的時候,你不願意讓朋友告訴你這是一個受傷的腳,所以把這個照片發給一個機器人的時候,如果他告訴你,傷得嚴重嗎?他對這張圖裡看到了自己的感知和感官,讓用戶真正感知到,他像一個人去處理。這些東西是得益於微軟在網際網路領域包括圖象上大量的數據,以及深度計算的模型搭配。有了這樣的基礎之上,你就能夠在不同的領域裡做出不一樣的產品,比如說人臉識別,可以告訴你哪個國家的人更喜歡你。
再說一個,我們認為語音的交互是應該更加自然的方式,微軟在語音上有很多的技術積累,但是怎麼樣把語音的技術和情感的方式和溝通方式結合一起,這上面我們做了很多處理。同樣一句話我們用現在市面上能夠聽到的不一樣的聲音,去感知一下,大家可以找一找哪個聲音是小冰。剛才俞凱博士也說了,在用戶對話的溝通裡,兩個人在優酷上,一個人在說方言,你所有看到的溝通過程我們稱之為叫半感官,怎麼理解?大家都是發一個去做識別,然後做返回,但是我們叫全時感官,兩個人在打電話過程,隨時在識別和理解,同時隨時在決定,我們什麼時候應該做一個回復,回復什麼樣的內容。這時候它是一個雙通道、雙向計算的過程,在這個過程,我們在今年9月份,正式上線的是小冰的第一通電話的來電,讓小冰打給人類,在這個過程中沒有任何的信號告訴你,人類已經說完了這個話,實時的處理,實時的交互的過程,這個上線的時候,佔據了話題排行榜一周左右的時間。這樣的科技會運用到不同的硬體或者更多的場景之中,才能真正實現像我們在電影裡看到的,家裡有一個智慧機器人,回到家就能隨時溝通的場景。
很多機器人的任務體系應該怎麼完成?我們是通過技能卡的方式做的,什麼樣的卡呢?比如說我們有電影、時尚、美食、音樂各種各樣的,甚至是集成到商業客戶裡的商業解決開放的卡,我們對一張卡的理解是什麼?並不認為你今天簡單的加幾個任務,比如說給我推薦什麼電影,這個有大量的機器人在做,但是你會發現,大量的數據能看到基本上沒人用,因為這是反人類的,你沒事幹幹嗎去讓機器人幫你訂餐,還不如自己去一個APP上點兩下。但是這是有剛需的,我們怎麼理解?是我們對這個不一樣的理解,你要讓機器人推薦電影的時候,就好像你身邊有一個對電影非常懂的朋友,是基於對電影資源的知識,更應該是跟你聊電影相關的很多內容,同時還知道很多的任務,比如說推薦一部電影,或者說能夠告訴你一個電影的種子在哪裡,去下載這部電影,甚至是一些很好玩的互動。當經歷了這個的時候,才能真正實現我信賴身邊有一個很懂電影的人,同時我願意跟他聊電影,當我想起要去看電影的時候,我更願意去找他來聊。所以小冰通過這樣一些任務卡的方式,實現用戶自定義他人工智慧的特點,所以有這麼一個電影卡的體驗,插卡前,約朋友去聊泰山歸來的時候,這是一個很正常的對話,但是插卡後,是你對電影更加感興趣,你希望我跟你聊更多電影的內容,這時候就聊到了電影不同版本的反拍,電影主題的內容等等。這上面才能構成一個非常基本的關於任務完成,而不是簡單告訴你一定要幫我推薦一部電影,沒有人這麼簡單去做的。
綜上所述,我就是想今天能夠跟大家分享一點點關於我們對於人工智慧應該是通過技術,到底是通過什麼方式來做不一樣的理解。謝謝大家。
AI新時代-產業新動能,【點擊報名】參加2016中國人工智慧產業大會,搶佔通往未來的年票!(如無法點擊請打開網址dwz.cn/4BYwdQ)