允中 李根 發自 凹非寺量子位 出品 | 公眾號 QbitAI
百度世界大會,百度一年一度的技術和產品展示。
在今年的百度大會上,Apollo、DuerOS、信息流&手百等都產品均發布了自己與AI結合的最新進展。
作為百度最廣為人知的核心業務,百度搜索也在AI技術的不斷加持與變革中,進展飛快。
如今「百度一下」,有了嶄新面貌。
AI變革,百度一下
在百度世界大會現場,搜索工程師們透露了最新進展。
他們認為,雖然搜索系統從被創造的第一天起就是一個人工智慧系統,但是隨著近年來深度學習技術的快速發展,在AI時代的搜索更加的智能化。
其中集成了人工智慧領域在自然語言處理、機器學習、圖像識別、視頻理解、語音識別等方向的前沿算法以及高性能架構,變得更加的智能化。
也可以說:搜索是當前人工智慧技術的集大成者。
具體則體現在三大方面:
對語義的理解更加精準,排序效果顯著提升Smart Answer的能力從文本搜索向語音、視覺、視頻等多模態搜索演進而且,這些技術表現,也並非完全神龍見首不見尾,每一項技術之於產品的提升,其實並不是無跡可尋。
不妨一項項拆分理解。
AI變革-語義理解
這項可能要從搜索技術原理說起。
在深度學習加持之前,百度搜索更多的策略來自經驗匹配規則和大數據挖掘和統計信號。
如:QUERY = ABC,工程師就會去找和ABC完全匹配的內容和結果。
算法上則是傳統的BM25、proximity等人工算法,而更多Query語義理解和內容語義理解的問題,選擇採用多層優化同義詞挖掘、相關詞挖掘、緊密度、重要性計算等等方法來解決。
但是,這種做法的較大不足在於錯誤傳播,並且挖掘的方法的泛化效果較差,導致了很多語義相關的結果無法召回,同時系統對結果好壞上沒有連續過渡的判斷。
而如果運用深度學習,一切則變得不同。
通過深度學習技術,讓多層神經網絡可以自動從百度搜索海量的數據中去學習目標,抑制錯誤傳播的問題,讓更多語義相關的結果被召回和排序到合理的位置,更好的滿足用戶的搜索需求。
比如在用戶搜索中,查詢詞 「用高溫開水將勺子湯鍋後,勺子上有一層灰」 ,得到結果的過程中,就涉及語義理解。
搜索工程師透露,百度早在13年上線了深度語義理解模型,較好地解決了這類問題,深度模型能從海量的數據中自動學習到了「高溫」和「開水」、「燙」之間的關聯關係,同時也學到了「有一層灰」和「表面汙垢」的相關性。
而如果採用傳統匹配算法,在近義相關結果上,就很難將相關性算好。
正是得益於深度學習算法,最終幫助實現了排序算法提升,可以將優質的結果排上來,提升用戶體驗。
此外,早期語義計算還存在一些明顯的不足和問題,全文內容信息未引入建模過程,導致建模並不充分。
進而會有兩方面挑戰:
一方面,已成功應用的模型多針對短文本進行建模,在長文本方面直接應用效果並不理想。
另一方面,對長文本進行在線計算、增加更多的匹配細節信息會導致模型運算量急劇提升,這對系統架構和運算能力是一個非常嚴峻的考驗。
所以在模型和架構上,也必須要有相應對策。
百度搜索團隊探索後給出2大針對性方案。
深度學習模型上,研發了Content-Matching-Matrix內容理解模型,首次成功刻畫了索引對象內容的語義相關性,提供了語義匹配細節信息。
△ Content-Matching-Matrix內容理解模型結構示例
基礎架構上,研發了Ranking-Service搜索智能化架構,首次將GPU引入大規模搜尋引擎在線語義相關性計算中,實現了百度搜索上複雜語義模型的毫秒級運算。
△ Ranking-Service搜索智能化架構示例
此外,為了解決千億級規模數據的深度學習訓練挑戰,以及內容語義理解模型的在線計算性能問題,百度搜索方面還專門設計了離在線混合架構,並部署了超大規模的GPU集群,使得複雜算子的實時在線計算延時減小了一個數量級,使其這些算法在線應用成為可能。
當然,投入成本之高也不難想見,只能說百度為提升搜索體驗,在所不惜。
AI變革-Smart Answer
AI變革搜索的第二項表現是Smart Answer.
相比於傳統URL Ranking,給予用戶多條相關的搜索結果及摘要,讓用戶點擊到落地頁去尋找答案,直接給予用戶答案滿足的能力,是未來搜索產品智能化演進的一個重要方向,因此Smart Answer應運而生。
Smart Answer技術通過更強的用戶需求理解和內容理解能力,通過對搜索結果及上下文進行分析,從搜索結果和知識庫中提取滿足用戶問題的精準答案。
這種方式能夠更好、更高效的滿足用戶搜索需求。
Smart Answer在百度有很多的場景,不僅僅是在搜索結果中。在用戶瀏覽圖文、視頻內容的時候,可以為用戶對內容中的信息的延伸滿足。
更重要的是在AI時代,會有越來越多的遠場語音交互的場景及視覺交互場景,在這些全新的智能硬體設備上,用戶篩選、瀏覽的交互成本變大,而通過單條結果或交互問答的方式精準滿足用戶需求是能夠更適合新場景的搜索結果形態。
而這樣Top1直接滿足的能力,從百度最新財報中披露,比例已超過40%。
並且不止於搜索和百度App中,包括在小度在家等產品中,應對一系列日常提問,也能看到不少Smart Answer的覆蓋。
△ 搜索能力在端上以及DUEROS上的輸出
AI變革-多模態搜索
最後,可能也是最直觀的一項:多模態搜索。
即搜索方式到結果,從文本搜索向語音、視覺、視頻等多模態搜索演進。
隨著硬體、帶寬以及智能設備的普及,越來越多的富媒體內容出現在了用戶生活中,如圖片、語音、視頻等。
為了解決這部分需求,百度在2015年就開始提出了多模搜索的理念,包括輸入和輸出的多模態兩個方面。
在輸入方面,百度搜索認為語音和視覺是未來人們和搜索系統交互最重要的方式,除了傳統打字以外,隨著各類傳感技術的發展,說話、拍照、動作、人臉等都是用戶表達搜索需求的方式。
在輸出方面,除了傳統的圖文網頁結果,視頻、全景圖、3D模型、VR/AR等內容都是承載信息且讓用戶更直觀、更易懂的需求滿足形態。
基於對未來發展趨勢的判斷,百度搜索也加速語音搜索、視覺搜索、異構內容索引及理解等技術的演進。
而且最重要的是,多模態搜索,也會讓用戶更直直觀感受AI帶來的不同。
比如現在均已能在百度App中體驗的語音搜索、拍照搜索、實時翻譯、植物識別、視頻搜索及AR等技術,均是百度多模思路下的AI研究和產品成果。
在語音搜索上,百度搜索集成了語音識別、語音合成、語義解等多項AI技術,讓搜尋引擎能「聽」會「說」,不僅能夠聽清、聽懂,還能深入理解語義,給出繪「聲」繪色的最佳搜索答案,讓搜尋引擎與用戶之間的交互方式變得更加自然、流暢、便捷。
在視覺搜索上,百度搜索綜合了百度大腦在圖像識別、人臉識別、OCR、物體檢測、實體匹配等多項視覺技術,並依託於搜索系統對全網圖像、視頻內容的索引以及用戶行為,得以細粒度的識別用戶實時錄製視頻流、拍照及上傳圖片中的實體和文字,進而圍繞實體在用戶視覺場景下的需求,連結並組織相關內容及服務提供給用戶,實現諸如拍題搜索、商品搜索、實時翻譯、植物識別等智能視覺搜索能力。
在實時翻譯上,百度識圖實現了一整套實時文字計算的移動端算法套件,包括文字發現、關鍵幀篩選、SLAM、OCR、NMT、MR等技術。
同時依託移動端深度學習計算框架,完成移動端部署。在這些技術的支持下,用戶打開相機即可在畫面內原文字位置直接看到翻譯後的文字結果,讓用戶在實景文本翻譯場景中,得到類人眼體驗,更便捷高效實現」所見即所得」。
除了更全面的響應用戶不同形態的輸入,百度搜索也在全面對內容輸出進行「升維」。
在過去,搜尋引擎主要滿足用戶的內容,是提供包含相關圖文的網頁結果。
而隨著當前內容生態的視頻化爆發趨勢,百度搜索認為視頻作為一種新的通用信息載體,是更直觀、易懂的內容形態,相比於圖文有更大的信息容量,視頻化的搜索能夠讓搜索更生動、更真實,同時具備與圖文同樣寬廣的需求滿足能力。
同時全景圖、AR、VR等未來能進一步豐富人們獲取信息方式的新內容形態,也是百度當前積極布局的新領域。
比如在需要更加沉浸化、空間感的場景,百度引入全景圖資源,幫助用戶更好的感知場景的真實信息,結合VR模式,可以達到身臨其境的效果。
在需要更形象表達的場景,百度通過AR、3D展現的方式,幫助用戶全方位了解事物的信息,幫助兒童更好的認知和學習。
通過百度搜索團隊的介紹,可以看到,百度搜索在AI的加持下,在語義理解、smart answer、多模態搜索等領域上取得了重大的突破與卓越的成果。
憑藉對用戶需求深入骨髓的理解與專業精深的技術能力,百度搜索團隊不懈努力,將過去只存在在科幻電影中的場景,一個個轉化為了用戶真正可以便捷使用的智能產品。
AI加持下的「百度一下」,正在變得更準確、更便捷,更全能。
— 完 —