今年6月,京東一年一度的618店慶拉開帷幕。許多京東用戶發現,在今年的618中,京東上線了全新的AI導購機器人JOY,它沿用了京東經典的機器狗形象,可以為用戶解答618店慶相關問題。
面對京東用戶們提出的各種各樣的問題,JOY大多能給出令人滿意的回答,甚至可以和用戶閒聊扯家常。此外,JOY也強化了自己的多輪對話能力,以便應對用戶的反覆追問。
在京東JOY強大的對話能力中,基於開放域目標驅動的生成式對話服務來自於人工智慧企業「深思考人工智慧」(iDeepWise.ai)。其在多模態深度語義理解、人機對話等核心AI技術上已不斷突破創新。這些新技術的不斷迭代,也在一步步推動AI實現商業化落地。
AI對話機器人背後的黑科技究竟是什麼?
AI人機對話在商業化落地中有很多場景,如智能客服、服務機器人、智能外呼、智能終端的交互、智能家居的交互、電視機語音交互遙控器等等。而這些人機互動場景背後的基礎技術,就是人機對話技術,其中最核心,則是語義理解技術。
智能客服,可能是眼下最常見的人機對話場景。許多人對於AI對話能力的體驗,也是從智能客服開始的。然而,如果智能客服欠缺語義理解技術,或者語義理解技術不夠好,就會出現如下現象:
某平臺的「智能客服」,無法理解用戶的自然語言
以往,人機對話產品的回答策略大多基於「規則」,即在系統內提前錄入指定關鍵詞,一旦用戶觸發指定關鍵詞,智能客服便會給出對應回復。
例如,在智能客服領域,當系統監測到用戶的提問涉及「查快遞」一詞,就會自動給出物流信息。但面對「幫我看看我的快遞到哪了」一類的複雜提問方式,智能客服便無能為力。
甚至,當用戶詢問「需要檢查快遞員身份嗎」等問題時,同樣會觸發「查快遞」一詞。這時,系統甚至會給出南轅北轍的回答。
相比較上述人機對話的糟糕表現和體驗,使用深思考深度語義理解與人機對話技術的產品,則體驗和表現就相當優異,如下截圖:
深思考機器人:可以了解用戶的喜好個性化對話
深思考智慧營銷機器人:根據歷史上文信息,給出推薦
深思考AI問好醫:AI學習醫生知識後自動對健康諮詢上下文回復
深思考iDeepwise將數據和AI模型驅動的深度語義理解及MRC技術作為人機對話產品的核心。其自研的多模態深度語義理解引擎依賴在NLG(自然語言生成)、MRC(機器閱讀理解)以及DM(對話管理)等任務上的原理性創新,讓AI能夠讀懂用戶自然語言,並給出針對性的回覆。
在精準理解用戶意圖的同時,深思考的多模態深度語義理解引擎還可以在對話中不斷了解用戶,了解用戶的畫像及個性化需求及興趣,並基於用戶畫像與客戶展開個性化的對話與推薦。
此外,它還可以根據場景,給予對話機器人不同的性格「人設」,讓用戶感覺到AI對話機器人服務獨有的情感體驗。這項黑科技可以賦予IP形象以「生命「,使IP形象成為虛擬世界裡擁有不同「鮮活性格」的「AI虛擬人」,並體貼、關懷用戶。
深度的多模態語義理解技術,也讓深思考在AI人機對話領域形成了領先優勢。據了解,2020年6月在中國中文信息學會(CIPS)和中國計算機學會(CCF)主辦的中文語言理解的全球權威賽事「2020語言與智能技術競賽」上,深思考在全球1000多家參與單位中脫穎而出,在機器評測指標和人工評估指標中均登頂榜首,獲得全球冠軍。
據了解,取得這一成績,是因為深思考團隊提出的「多源整合的解碼器」的深度神經網絡模型技術。該技術在AI人機對話上能流暢地引導用戶交流,主動溝通,並和MRC機器閱讀理解、用戶畫像、目標規劃深度結合,適配多場景應用,可以迅速遷移多個場景。
深思考創始人楊志明博士表示,「腹有詩書氣自華」,讓系統不停地博覽群書、閱讀理解大量信息,才能使機器對內容「能理解會思考」,並實現自然流暢的人機互動。深思考多模態深度語義理解引擎iDeepwise.ai 5.0目前也正式發布應用,5.0版本引擎能夠閱讀理解非結構化語音、視頻、文本,試想讓機器時刻不停地閱讀理解網際網路上的語音、視頻和文本後,機器就會變得更「聰明博學」,相信機器更理解人類的日子已經不遠了。
深思考多模態深度語義理解與人機對話引擎iDeepwise.ai 5.0可以應用於諸多落地場景:比如電商、銀行、保險、智能終端(音箱、手機、車機、智慧屏)、遊戲、虛擬偶像中。
AI——從感知走向認知
「現在,感知階段的人工智慧走向認知人工智慧是人工智慧發展的必然階段,多模態的深度語義理解是認知人工智慧階段中的關鍵核心。」深思考人工智慧創始人楊志明博士對36氪表示。
何為多模態語義理解?簡而言之,通俗化來講就是讓機器可以「看懂、聽懂、讀懂」。而深思考的人工智慧多模態深度語義理解,就是讓機器可以看懂視頻圖像,可以聽懂語音,讀懂文本等多模態非結構化信息背後的含義。
如何讓機器能夠閱讀理解?這就依賴機器閱讀理解技術(MRC),在MRC領域,深思考同樣成果斐然。在2019年的中文機器閱讀理解競賽中,深思考憑藉著自研的BMANet2.0模型,在2502家知名學術科研機構和企業團隊中脫穎而出,刷新了SOTA記錄,並在兩項評測指標中均登頂榜首,獲得全球冠軍。
例如,在電商場景,傳統的電商智能客服,需要系統開發商人工整理大量問答對、知識圖譜、知識庫或規則,並通過問答對匹配、規則匹配,實現人機對話。使用MRC技術後,系統就可以直接閱讀理解商品的說明書,極大地提高了效率,減少了人力成本,並大大提高了智能客服的「智商」。
AI商業化新基建——多模態語義理解
目前,產業界普遍認為,多模態語義理解將會成為AI在各行各業實現大規模商業落地的重要基礎設施。這一邏輯背後的原因非常簡單——現實世界本身就是多模態的。「就像你去醫院看病,醫生要望聞問切,對患者各種模態的狀況進行檢查(比如血、尿,體溫,MR,詳細諮詢病情等),不能只憑線上聊天的幾行文字就做出診斷。」
多模態語義理解具備了同時多種模態信息進行深度理解的能力,所以適配的應用場景就更廣泛,因為現實中的場景都是多模態的。例如,在醫療場景,醫生會對就診病人「望聞問切」;電商場景,用戶會在諮詢時發來語音或圖片或文本;在線教育場景,學生總是期待老師能夠通過視頻、音頻和解說文字來教學,通過圖文並茂實現更好的教學效果。就連人類的社交場景也是多模態的,人們總是期望能見面詳談,能面對面看到對方的樣子、姿態、表情、聲音,並通過對話、聲音、視覺等多種模態信息,理解對方的意圖。
人工智慧多模態語義理解存在著廣闊的商業前景,並有望成為AI行業的新基建。
憑藉著在人機對話、機器閱讀理解、多模態語義理解領域的技術積累,深思考已在智慧醫療、智慧生活、智慧商業三大AI場景成熟應用落地,並基於其iDeepWise5.0 多模態深度語義理解引擎的技術優勢,不斷快速適配更多應用場景,在虛擬偶像、二次元平臺、遊戲等領域不斷開疆拓土。讓機器更理解人類,未來可期,也是深思考的未來不斷探尋之路。