搜尋引擎技術論壇實錄(全文)

2020-12-15 網易科技

網易科技訊 8月18日下午,2009百度技術創新大會「搜尋引擎技術」論壇舉行。百度CTO李一男、百度首席產品設計師孫雲峰、百度主任架構師廖若雪,以及北京大學教授俞士汶、微軟亞洲搜索技術中心工程總監劉激揚等分別進行了主題演講,就搜尋引擎技術的發展趨勢做了深入探討。

在搜索技術趨勢論壇上,作為「框計算」技術的重要組成部分,被喻為下一代搜尋引擎標誌性技術的「阿拉丁」計劃正式亮相。

「『阿拉丁』是『框計算』技術理念的第一次大規模應用,將推動搜尋引擎體驗的革命。」李一男在會上表示,對存在於網際網路上的「暗網」信息的充分挖掘,以及滿足網民越來越多元化、精準化的搜索需求,是百度啟動「阿拉丁」的根本目的。

以下是本次「搜尋引擎技術」論壇的文字實錄:

主持人:尊敬的各位來賓,女士們、先生們,大家下午好!歡迎大家來到分會場的現場,我是來自百度技術部的主持人張博。本場主題是:搜索技術趨勢,我們將會聽到最新的研究理論,相信這是一場搜尋引擎愛好者期待已久的視聽盛宴,首先,讓我們歡迎百度公司的CT0李一男先生為論壇致辭!

李一男:各位來賓下午好,非常高興大家來參加搜尋引擎技術的討論會。今天上午的演講裡面,大家已經看到了關於搜尋引擎未來發展的趨勢,以及百度在「框計算」上面所做的創新和成績。今天下午我相信各位與會者將會更深入的了解在網頁搜索以及搜尋引擎的進一步的發展。作為百度公司,我們最核心的業務就是在搜尋引擎和網絡搜索方面所做的工作。可以看到,在過去的10年內,雖然搜索框本身的頁面形式沒有發生變化,但是實質的內容已經發生了變化。我要查找的內容,用戶的搜尋引擎,以及搜尋引擎實質的內容已經發生了變化。今天,當用戶輸入超過10個字以上的詞語搜索比例已經佔到了17%,甚至更高的比例。所以用戶已經相信搜尋引擎越來越好,同時為搜尋引擎提供越來越高的要求。

那麼作為百度,我們不僅僅提供簡單的網頁搜索,今天上午大家也看到了,還有各種各樣新的展現形式,包括更多的自然語言的處理,包括更加開放的接口,和第三方應用的調用,以及百度各種成熟的社區產品,包括地圖、貼吧,還有其他論壇類的,像百科和知道等內容。今天上午大家已經知道了百度的阿拉丁開放平臺,這樣一個開放平臺也是我們和廣大網民企業以及各種共同努力,一起發掘「暗網」,提供更多的更高質量的信息的重要來源之一,預祝今天下午能夠取得圓滿的會議,謝謝。

主持人:感謝一男的精彩支持,今天上午第一場的演講題目是:搜尋引擎的現實問題和發展新視點。為我們演講的是百度首席產品設計師孫雲豐。孫雲豐先生04年進入百度後,一直從事搜尋引擎相關的用戶需求分析和產品設計工作,下面我們掌聲請出雲豐。

孫雲豐:大家下午好,我是孫雲豐。我今天下午演講的內容主要是從用戶需求的角度,來介紹一下搜尋引擎目前面臨的一些主要問題,以及我們對於解決這些問題目前的一些新視點,現在秀幾個數據。

這張圖是過去十年,中文網際網路,中文用戶的增長情況。大家可以看到,從2000年1月份,到2009年7月份,這個中文網際網路用戶大概增長了38倍。而這個數據是中國網際網路過去十年的網站數量的增長情況,我們大家可以看到,這個數量大概是增長了20倍。那麼這兩個圖的趨勢是非常相似的,大家可以看一下。再看一下第三張圖,這個圖是SE做的統計,04年第四季度,到09年第一季度,中文網頁搜索次數增長了一個需求。根據百度的統計,從04年到09年,中文網頁搜索請求的次數增長了20倍,大家留意,是過去五年增長的20倍。

在這個搜尋引擎市場飛速發展的過程當中,我們說這裡面面臨著什麼樣子的問題呢?接下來我來做一個解釋。我小結了一下,主要是四個問題。

一:搜索需求的數量激素膨脹;

二:用戶搜索需求滿足方式的複雜化;

三:用戶搜索行為越來越趨於「傻瓜化」;

四:網際網路上的有價值資源獲取難度越來越高。

現在來看一下搜索需求的越來越趨於多樣化,根據我們的統計,從04年到09年過去的五年,中文網民搜索的數量大概增長了10倍左右,這個是三個問題,代表的是過去的若干年中,有趣的用戶形態。第一個問題代表的是06年開始發展的在線視頻的搜索需求,這是一種新的信息載體。第二個就是看上去非常的長,這裡邊體現了用戶對於搜尋引擎非常高的期望值,他希望搜尋引擎解決的是非常複雜的問題,而這種問題用三兩個關鍵詞可能是解決不了的。第三個問題大家可以看到的是非常奇怪的,這樣的搜索結果是非常多的,他體現了用戶對於搜尋引擎的一種新希望,這種希望是什麼呢?我希望搜尋引擎給出一種智能類的決策,而不是簡單的給我返回幾個關鍵詞匹配的結果。那麼這樣子的需求實際上已經超出了傳統的搜尋引擎所解決的問題的範疇。

接下來看這三個問題,這三個問題用戶所要找的就是同一個問題,就是日全食發生的時間。第一個問題的需求表現的是不完整的,他沒有時間的關鍵詞。那麼第二個問題實際上是一個景點的表述。第三個問題就是自然語言類的表述,他直接把搜尋引擎當作了一個自然人,向搜尋引擎做出了提問,這是更多的需求。

第三方面就是搜尋引擎現在大家知道,是平臺多樣化的問題,從2009年以來,3G現在已經成為一個熱點了。這樣的情況下面,不同的平臺上面,用戶的搜索需求是不一樣的,今天下午是一個專門的論壇,這邊就不仔細的展開了。

那麼面臨的第二個大的問題是什麼呢?我們稱之為用戶搜索需求滿足方式的極度的複雜化。我們看一下過去是什麼樣子的,過去用戶的搜索需求滿足的方式實際上是非常的簡單的,那麼這裡邊我列了兩個例子,第一種是網址類查詢,在過去的五年當中,這個比例下跌了大概是一半,從30%下跌到15%左右。

第二個例子是什麼呢?過去用戶的搜索需求並不高,經常是一些景點的匹配就可以滿足用戶的需求了。舉個例子,降龍十八掌第一掌是什麼?我們給出一個結果就可以了。到現在面臨著什麼問題?現在的趨勢很複雜。搜索只是用戶需求滿足過程當中一個必要的環節,而不是最關鍵和唯一的環節,以購物需求為例,用戶是要買到這個商品,消費這個商品,這個時候他才得到了他想要的東西,而搜索在這個過程當中,我不管是尋找這個商品還是了解相關的價格,還是了解相關的商家,這個過程當中,他只是在需求滿足過程當中的前奏環節。那麼後邊的話可能有支付,可能後面還有物流,還有售後。如果這些問題都產生的問題的話,他都會導致用戶的需求最終沒有得到滿足,在目前我們的搜索需求當中,這樣的比例越來越高。

第二個,我們留意到從過去用戶對於整個搜索結果的時效性的要求越來越高。那麼在過去,大家把一個網際網路當作了一個靜態的資料庫,所以對時間的要求並不是很高,但是隨著這個搜尋引擎越來越為大家生活當中的一部分的話,他們對這個期望值越來越高,就是現在發生的事情,我馬上就要通過網際網路了解到這個事情是怎麼回事。

舉個例子,前陣子湖南衛視做的快女節目,其中一個選手叫曾軻可,她被PK下去的時候,她說她想罵人。電視節目發生的時候是零點45分,在零點46分的時候,網上就有網友問她想罵誰,只有一分鐘而已。

第三個典型的問題是 什麼?對於搜索結果需求滿足的要素,他需要一個全方位的要求,而不是單獨的一個方面。全方位構成了整體需求的滿足。舉個例子,比如說招聘需求,就是用戶在搜尋引擎當中尋找一個職位,比如說Java程序類,那麼僅僅把職位信息提供給用戶是不夠的,那麼這個用戶的潛臺詞是什麼呢?他的潛臺詞需要知道我這個職位的時間是不是最新的,他是去年的招聘職位還是前年的招聘職位,還是上一個月的招聘職位。他還想了解到我想找的這個職位地點是在北京還是在上海,他實際上是有一個潛意識的,那麼你給出來的東西是不是符合他的要求。

第三個問題,比如說他對於這個薪水實際上是有潛意識的認知的,比如我現在就要求5千塊錢的月薪,那麼你給的這個機會到底是多少月薪呢?他這些東西都不會體現在問題當中的,那麼我們如何對這個用戶進行全方位的滿足,這是我們面臨的一個問題。

第四個我提到的一個問題是什麼呢?就是多元的信息的表現元素。這個談到了什麼問題呢?我們知道搜尋引擎在過去的問題是,不管是文字的問題還是文字的摘要,為用戶提供信息的指引。但是現在用戶的需求是不局限於此的,不管是圖片、視頻、Flash還是人際交互的元素,越來越體現在搜尋引擎,他們都對搜尋引擎起到了非常關鍵的影響。

那麼第三個問題是我叫他叫做搜索行為的傻瓜化。說道這個問題,我想說在很久以前,大概五六年以前,我剛剛加入百度的時候我希望現在的搜尋引擎很強大,我們是不是能夠藉助於教育用戶,使得用戶能掌握精神的搜索技巧,使得他們的搜索體驗能夠得到更高的滿足呢?當然我們努力了一陣子後來我們放棄了,我們發現這個東西是逆勢潮流。我們現在發現的潮流是用戶越來越傾向於用他們自己直接想到的詞搜索,他們不會多加思考。我們所想像的那種說是非常精妙的關鍵詞構造,一擊命中的行為在用戶當中非常的少見。

舉幾個例子,這個例子的話,我稱它為「能減則減」「123」,用戶123他們到底想做什麼,實際上要找的是網址導航網站「hao123」,他把「hao」給省略掉了,只打「123」。第二個意思非常有意思,文科女為什麼要瞧不起工科男,很有意思,他把搜尋引擎當做一個自然人,直接向搜尋引擎發出提問,這樣的比例越來越高。第三個問題越來越長,不管是什麼原因導致的,總的來說用戶搜索的形式越來越多,越來越複雜,這裡面一共是25個漢字,這樣的形式在我們的比例裡面比比皆是。

接下來分享一個數字,這個是我們對網頁搜索的長度進行了一下簡單的分類,左邊的兩個數據是從搜索次數來講,右邊的兩個數據是從問題來講,大家可以看到,在整個的數據查詢當中,他們佔到了大概50%,而搜索次數角度大概佔到了將近30%,可想而知,我們現在所面臨的需求處理的複雜化是非常複雜的。

接下來是第四個問題,有價值的資源,他的獲取難度越來越高。那麼在過去的話,整個的網際網路這種網站結構是扁平的,互相之間連結,靜態頁面連結,非常簡單。我這個只要用經典的方式爬,總能夠爬回來,但是現在非常的複雜。他使得網站的結構非常的縱深,並且那些連結的構成,既有功能連結,還有很多由於系統程序的原因導致的垃圾連結,這樣的情況下,一個需求如果陷進去的話,基本上有的時候有走投無路的感覺。那麼第二個問題是現在很多平臺型的網站,這些網站很多的數據都是相對的孤立的,我們找不到一條線給串起來。比如PSP平臺的Blog,或者是類似校內網,這些頁面之間實際上是沒有關聯的,相對獨立的。

第二部分就是面臨的獲取難度,就是我們一般所談的「暗網」,我把「暗網」分成了四個部分,第一個部分是網上存在,但是沒辦法獲取。就像寫反的查詢,這個數據的話,我們是沒辦法獲取,因為要收費。第二個問題是網上公開,但是非常難以獲取的,這個是我們常說的一種經典的,像北大的圖書館的數據,他是公開的,你也可以查的,但是搜尋引擎是非常難以獲取的。那麼第三個問題,我們經常說的現實中存在,但是沒有上網,如果有一個數字圖書館的計劃,按照我的理解,他們現在做的就是這一塊,如何把現實當中存在的信息給數位化。

第四個問題更為龐大,人腦中存在的問題,仍然沒有記錄下來。我們可以想像一下,整個網際網路我們現在可以看到的信息,和我們每一個人裡面如果所有的信息加起來,這裡面的參考因素,我們如何把用戶大腦當中的信息給挖掘出來,把他給顯性化,並且呈現給其他人,這是我們面臨的很困難的問題。

剛才前面的話簡單的就是列了四方面的問題,需求的膨脹,需求滿足的方式複雜化,用戶搜索行為的傻瓜化,自由獲取的難度。這裡面我簡單的列了一下,就是搜尋引擎,就是針對這些問題我們所能想到的一些新的視點,這些新的視點有一些可能也是老生常談,比如自然語言的處理。但是到了搜尋引擎發展到這個階段之後,這些經典的問題,他們又重新煥發了青春。

第一個問題是我們認為搜尋引擎接下來所要做的是什麼呢?是精準的需求識別。我們知道,過去的搜尋引擎做的只是一個文本的匹配,我們越來越覺得如何理解用戶的需求背後真實的需求,這是我們面臨的非常大的難題和挑戰。

這裡面列了兩個需求,第一個是太平洋,第二個是很長的需求,第一個太平洋不是找地理上的太平洋,而是找太平洋網,第二個非常複雜。

第二個問題是關於自然語言處理的問題,因為我們現在看到,當搜尋引擎有一個象牙塔裡面的高級的系統,變成了普通用戶的日常工具之後,他整個的表述都是非常的口語化的,接近自然語言狀態的。那麼這個變成了用戶檢索當中的常態,這個時候我們應該對用戶的語言做怎樣的識別和處理,對我們是一個挑戰,而且我們認為這個問題接下來會越來越重要。下面是兩個例子,大家可以看到,像這樣的形式在我們整個搜尋引擎面臨的形式當中是比比皆是的,並且這樣的比例是越來越高的。

第三個是豐富多彩的結果的呈現形式,我們認為為了滿足用戶的需求,在很多的時候,文字已經不足以能夠對用戶的需求產生合理的描述。經常我們說一張圖片可以代表千言萬語,所以大家可以看到,現在搜尋引擎當中,不管是圖片的元素,還是視頻的元素,還是用戶互動的元素現在已經出現的越來越多了。這種元素的出現目的不是為了豐富多彩,目的實際上是為了使得用戶的需求能夠得到更好的滿足。

這裡邊有兩個例子,第一個例子是把圖片直接插入到結果當中,第二個是搜尋引擎把人機互動的界面整合到的結果當中。

接下來一個問題是什麼呢?當我們面臨越來越複雜的網際網路的時候,我們對於資源獲取的方式是不是需要有一種新的調整思路?我們過去的話是從網際網路上把所有的東西抓進來,那麼當我們不管是面臨著越來越複雜的網際網路結構,還是面臨著一些我們原有的方式,無法解決的「暗網」問題,那麼我們現在方式應該是什麼樣子的呢?我們認為過去是把這樣的資源拉進來,那麼現在我們是不是有一種新的方式,我們通過和資源方有更多的合作,以及發布數據規範,把格式化的數據能夠「推」到搜尋引擎這邊來,實現數據的實時化,以及格式化的處理,實現更強大的搜索效果。

接下來一個問題,談一下搜索社區。那麼我知道,在很早以前,當一個搜尋引擎談到要做搜索社區的時候,在做一些經典的搜索技術的人員看來,這多少有一點「不務正業」,那麼在我們看來,搜索社區是什麼樣子的東西呢?我們認為,搜索社區實際上是搜尋引擎認識到我們現在在網際網路上的很多資源是稀缺的,我們在網際網路上獲取不到,但是用戶有迫切的需要這些資源,這個時候怎麼辦?要不然等,要不然自己創造。所以我們希望通過搜索社區構建這樣的平臺和機制,讓用戶幫我們把這樣子的稀缺資源建設出來。這個時候,他產生的是兩種效應,第一種效應是這樣的平臺直接可以為用戶的需求產生滿足,比如現在的百度「知道」平臺,用戶可以在「知道」當中問,有人回答,你的需求可以達到滿足。還有一種情況,是你在「知道」當中可以檢索,你的需求可以得到滿足。但是更大的價值在於什麼呢?在於「知道」把它沉澱下來的知識,反撲給網頁搜尋引擎,從而使得搜尋引擎的搜索效應得到更高的提升。那麼百度其他的社區類搜索,不管是貼吧還是百科,思路都是一脈相承的。

第六個觀點,其實今天上午的羅米克已經提到了,他提到的是「框計算」的概念,我們認為搜索框的後面可以捆綁更多的東西,它能夠實現更多的價值。下面那個圖就是簡單的把羅米克上午說的邏輯框架重複了一遍。相當於未來我們期望這個搜索框不僅僅是一個搜尋引擎的入口,它同時是其他的應用的入口。然後在這裡邊,它能解決的問題是把用戶的需求能夠有一種智能的識別,並且分發給能夠解決這個問題的最佳的應用方,然後使得用戶的需求得到一個最好的滿足。我們現在知道,現在的話你填進去一個關鍵詞,給出來的是700、800個結果,甚至是幾十萬個結果,真的需要這麼多結果嗎?不一定。所以這個也是我們另外的一種思路。

我今天的演講完了,那麼接下來的幾位同事,我剛才的話只是拋磚引玉,把我們現在搜尋引擎所面臨的一些問題勾勒了一下,接下來幾位技術專家,他們可能會就其中的一些問題做出一些精湛的闡述,謝謝。


主持人:感謝雲豐對搜尋引擎發展的深刻闡述。搜尋引擎架起了人類通向知識的橋梁,下面,將要為大家演講的是北京大學的俞士汶教授。俞老現在在北京大學信息科學技術學院教授,計算語言學研究所學術指導委員會主席,組織參加了多個國家重點項目,發表論文140多篇,著作八本,得到了政府部門和北京大學的多項獎勵和表彰,培養了近百名計算語言學領域的博士生和碩士生。他今天演講的題目是語義與詞義的計算研究,及其在搜尋引擎中的潛在應用,有請俞教授。

俞士汶:各位來賓,大家下午好!我今天發言的題目是隱喻與詞義的計算研究,及其在搜尋引擎當中的潛在應用。內容有這麼幾點,首先看一下搜尋引擎的現在情況,這個今天上午和剛才的報告都講了,講了搜尋引擎跟自然語言的處理的關係。下面隱喻計算研究,詞義自動消歧,和詞義研究是主題部分,然後提一下自然語言處理的關係,最後發表一點感想。

現在大家都有一個習慣,有事情就百度一下。我自己也有收穫,大夫給我注射燈盞花注射液,我不知道燈盞花注射液是什麼,百度了一下,收到了立竿見影的效果。但是現在的搜尋引擎也還不能盡如人意,譬如說有人問「雞肋」是什麼?給出了這樣的答案,這樣的老公不是雞肋是什麼。這樣的回答似是而非,似非而是,叫人哭不得笑不得。

那麼我們現在的搜索對象就是網頁上的文字,網頁的文字都是書面語言,書面語言是承載信息、知識和文化的,我們要搜索的實際上是它的內容,並不是這個文字的本身。現在搜尋引擎的關鍵技術就是把網頁用索引表達出來,然後查詢的時候就把查詢的關鍵詞組合起來,看家本領就是字符串匹配。當然,我們自然語言處理技術跟基礎技術,譬如說漢語的切分,另外在一起出現的詞的貢獻,這樣的也用到,但是主要的都是字符串的匹配。

發展方向,今天上午的董事長跟剛才的幾位技術主管都講到了,就是要理解,要語義的理解,要行為理解,這樣的話他就需要把內容進行索引,用戶的意圖進行理解。在這種情況下,我以為自然語言處理技術,特別是自然語言理解技術就有了用武之地。在這之前,當然也有不同的見解,比如有人認為自然語言技術在檢索當中起不了多大的作用,投入很多,收效並不大。但是今天上午聽了百度的幾位先生的報告之後,倒增強了這方面的信心,感覺到處都看到他們對自然語言處理、理解這方面的技術加入和認識這個需求的增長。

我給出一個需求,查找「唐代描寫戰亂中牽掛親人的詩作」,比如我打這樣的需求進去,我試了一下,沒有給出答案,可是我自己腦子裡很容易想到這樣的一些詩句:「打起黃鶯倪,莫叫枝上啼」等,我想大家都能想得起來,但是網際網路還實現不了。

要實現這些內容的索引,以及實現對用戶意圖的理解,需要計算機俱備理解自然語言的能力,這是非常困難的。主要的原因是自然語言表達的意義、內容跟自然語言表達的形式之間存在及其複雜的多對多的關係。譬如說「妻子」,可以說「妻子」,也可以說「夫人」,那詩裡面啼時驚妾夢,妻也可以叫妾。這樣的話,當我們應用的時候,在特定的環境下面,把複雜的多對多的關係,給確定下來,所以我們就要下很大的立起來消減自然語言的歧義。

自然語言分析要做的工作很多,比如「這樣的老公不是雞肋是什麼」。表示的是這樣的老公是雞肋,但是「這樣的老公怎麼能說是雞肋呢?」這句話的表示實際上表示的是這樣的老公不是雞肋。比如蛐蛐不是蟈蟈,那麼丁是丁卯是卯,又不對了,這都是自然語言要理解的東西,但是這些東西太複雜,但是目前我們要的是詞義消歧,可能最有用。「老公是雞肋」,跟「老公不是雞肋」都是隱喻的表達方法,如果計算機有隱喻的能力的話,那麼對搜索還是很有價值的,我們下面集中講一下隱喻的計算研究。

什麼是隱喻?隱喻計算研究有哪些任務?用什麼方法進行研究?舉一個具體的實例,還有在搜索當中潛在的應用,以及這樣做能不能做得到。

隱喻在我們語言的各個層次上面都有,比如說「老公是雞肋」就是隱喻。甚至我們講的搜尋引擎這個本來就是一個隱喻。因為引擎是發動機,汽車裡面、飛機上面有,我們網絡搜索怎麼有引擎呢?這實際上是一個隱喻。隱喻在人類語言表達當中離不開,那麼我們的搜索當中當然也離不開。搜索計算研究的任務主要是三個,一個是識別,一個是理解,一個是生成,生成我們暫時可能是Web2、Web3將來的工作。那麼我們現在主要是搜索的話,那就是識別跟理解。因為知識的海洋,我們要知道他的隱喻,「老公是雞肋」,要知道他是隱喻,這樣對搜索就很有價值。

那麼方法無法是兩種方法,因為自然語言處理只有兩個「拳頭」,一個是基於微機的方法,一個是統計的方法。微機的方法很好理解,比如「這個人是一個獅子」,我們不知道是什麼意思,「這個人是一個狐狸」,也不知道是什麼意思,「那是老公」,也不知道是什麼意思。但是我們說「那個人像獅子一樣勇猛」「狐狸真狡猾」,這種我們就知道了,說這個人是獅子說明他勇猛,說他是狐狸說他是狡猾,那麼這樣的話,通過大量的喻體,來隱喻了。

另外統計的方法,提供大量的正面的例子,反面的例子,學習一個分類器,通過這個分類器來把這個區別開來。

我們的博士生2006年完成了一個博士生論文,叫漢語隱喻短語的識別研究。主要是像把知識的海洋,文獻的海洋,這種隱喻的表達,跟國家的海洋資源,海洋生物的考察,這種能夠分開。

下面我們講一些計算的方法,這個今天就不講了,題目大家可以參考。

那麼隱喻在搜索裡有沒有應用呢?用途就是提高查準率,提高查全率,我做了一個實驗,現在講「金融風暴」,「金融海嘯」,這個就是隱喻了,「風暴」並不是颱風,「海嘯」也不是真的海嘯,指的都是「金融危機」。那麼你說「金融危機」的話,回答只有「金融危機」,或者金融跟危機是分開的,沒有「金融風暴」跟「金融海嘯」。相反的,你如果查「金融海嘯」,或者是查「金融風暴」的話,給你反饋的網頁也沒有「金融危機」,這樣就是說隱喻的跟非隱喻的,實際上是獨立進行的,對查準率和查全率有影響,不能給用戶提供完整的知識。像「炒魷魚」百度了一下,65%是隱喻研究,是解僱,35%是本意的用法,是菜的名字,這樣35%對65%的話,查準率和查全率都有影響。

那麼這樣的工作可不可做,另外翻譯也是有問題的,因為翻譯也是個發展方向,你必須能夠正確的翻譯,你如果把「雞肋」就翻成「A chicken is rib」的話,外國人是不懂的話,所以翻譯工具是機器跨語言檢索的工具,又是實現正確翻譯的前提,所以跨語言檢索對隱喻深入的研究和理解都是很有意義的。

那麼有沒有可能做呢?真正用隱喻的名詞的話,大概也就有700多個,另外用戶查詢的話,隱喻區別不開,可以用交互式的方式。那麼下面講一下詞義自動消歧研究,這個由來以久了,有機械翻譯就有研究工作,道路很漫長,很曲折,這句話我講的又是有隱喻。詞義研究道路漫長、曲折,實際上並不是在走路。辭典中的有一些詞,已經加了比喻用法的意思了,這種方法下,隱喻也可以轉化為詞義消歧的問題。目前搜尋引擎也是採用了簡單的辦法區分歧義,最簡單的一個是採用共性的詞語,比如「她的儀表很端莊」,返回的網頁是很精準的,如果是「端莊」就是指的人的行為,在公司裡面、職場裡面表現的網頁,還挺不錯的。但是你如果用「抄襲」這詞去查一查的話,抄襲行為很嚴重是很悲慘的事情,但是這次查「抄襲」,「抄襲後路」,「抄襲戰術實例」實際上都是戰術上的抄襲,結果返回來的網頁都是抄襲行為的,最常用的他就給你提出來,新的最熱門的最熱的是抄襲行為的,所以你想查「抄襲戰術實例」就查不到了。

那麼這就是剛才講的詞義自動消歧如果做的好的話,對網頁是有幫助的,不過是有困難的。當然了,再難也要研究,所以今年我的一個博士生畢業,他做的題目就是詞義消歧關鍵技術研究,今年拿了博士學位。這篇論文主要的貢獻是兩點,第一個是環節數據稀疏,數據稀疏是非常嚴重的,第二個是統計語言學和統計模型結合起來。

下面我們講一下詞義消歧研究。詞義消歧指的是辭典裡面已經有幾個詞了,然後你在文本中決定它是哪一個詞。但是現在的詞義發展很快,辭典來不及反應現在一個詞多義的情況,比如說「蘋果」,要麼是果實,要麼是網站,但是現在有電腦了。自動區分這個研究主要是不以來辭典,就根據詞語進行上下文的搭配,句法、語義的特徵,採用無指導的機器的方法,區分意思,就可以把有關的網頁區分成是植物的蘋果,還是電腦的蘋果,還是媒體的蘋果,這樣給搜索就會提供有用的價值。同樣我的博士生做了一個論文,叫做《漢語的自動詞義區別研究》,直接面向用義的基礎研究。

自然語言處理的話,必須有語言知識庫的支持,語言知識庫就是自然語言處理系統不可缺少的組成部分,語言知識庫的規模和質量在很大程度上決定了自然語言系統的成敗。北大開發的綜合性的語言知識庫,其中中英文概念辭典可能對搜索最有用,主要是像中文英文病毒-「virus」,有兩個意思,我們組成一個字典裡面,並且能夠反應同一個詞的結合,反義的結合,這個對破戒都有很大的幫助。

由於時間的關係,我只能快速的講一下。應用研究是基礎研究的源泉,基礎研究要面向搜索的應用提出來的各種各樣的問題,像今天談到的幾個問題都是自然語言需要處理和分析的問題。但是現在自然語言處理做的還是不夠的,做到完全理解還是相當困難的。但是有一些技術是用上的,比如原有的認為自然語言處理沒用,切分在早期的時候做全文檢索的時候,就認為兩個字階段,所以是最快最好的。但是後來現在的網上的話,大概都有區分了,沒有再用兩個字直接做索引了。

當然有一些技巧還是很有關係的,比如問電腦的價格如何,如果你上海龍大廈問這個問題的話,那一定是電腦。而現在的網頁搜尋引擎就知道你這個IP準確的位置,這個我也理解,你自然理解要有語境,要有上下文環境,這個環境不僅僅是文字的上下文,是你生活的環境,你所在的空間、時間都有關係。所以我覺得今天有機會跟大家交流,感謝百度公司給我提供這樣的機會,十分榮幸,另外感謝在座的各位耐心聽講,歡迎大家到北京大學有關研究的小組,研究所,重點實驗室去訪問,謝謝大家。


主持人:非常感謝俞士汶教授,俞士汶教授從自然語言理解在語義方面最新的進展,為我們介紹了一些,相信對大家肯定是大有益處的。

下面為我們演講的是微軟亞洲搜索技術中心工程總監劉激揚先生。劉先生於2005年10月作為創始人之一加入了微軟亞洲搜索中心,他曾參與Windows2000等微軟重量級產品的研發工作,他演講的題目是從搜尋引擎到決策引擎,有請。

劉激揚:謝謝,首先我要感謝一下百度公司給我這樣一個機會,到這裡跟大家一起交流一下微軟公司對於搜索技術,搜尋引擎以後發展的一些想法。今天我要跟大家談的是我們微軟公司在最近推出的Bing搜索後面的想法,和一些嘗試。

現在我們處在一個在線信息爆炸的時代,大家可以在屏幕上看到,從搜尋引擎早期發展到現在的10多年時間裡面,不管是從網站的個數,從連結的個數,還是從網頁的大小,都有飛速的發展,現在可以說海量計算、雲計算。那麼搜尋引擎在這個時候我們可以看到,他扮演著一個越來越重要的角色。大家可以看一看,我們每天每一個人在我們的日常生活當中,離不開上網,離不開用電腦,大家也知道,微軟在這個過程當中發揮了很大的作用。

那麼在我們上網的過程當中大家可以看到的,大家使用搜索,我們在上網做的事務當中佔有68%這樣的頻率,而且用戶的增長率也越來越高。大家知道,中國的網民已經到了3億多,那麼每天早上如果大家聽到百度公司介紹的話,每天光是百度搜尋引擎處理的需求次數,大概就有1億多的次數。所以在這個時候,我們看我們的搜尋引擎,尤其是我們微軟從最近幾年,最近一段時間我們做Bing,分析用戶的體驗,我們得到了一些啟發。

總得來講,現在我們覺得搜索,我這裡主要講的是微軟的搜索不是十分的奏效,有35%的用戶對搜索是不很滿意的。差不多有40%的時候,我們發現用戶在發出一個需求的時候,很快修改這個詞,做第二次搜索。用戶有一半的時間要重複的查找,重新的搜索,這個搜尋引擎上找一找,再到別的搜尋引擎上找一找,所以整個的過程是非常的令人失望的。

那麼當我們看到用戶對搜尋引擎的結果感到不十分奏效,有很多失望的時候,我們同時也看到了有很多的機會。所以從這些失望和挑戰當中,我們可以看到有幾點機會,第一個我要講的是從用戶的失望,用戶找不到結果,在很多的時候會有很多很多沒有用的點擊。在搜索的時候,有很多很多大量的重複,這個時候告訴我們呢,剛才百度的孫先生也講到了,精準的搜索結果在這裡面就非常非常的重要,我們知道傳統的搜索可以給用戶提供的,實際上就是十個連結,那麼如果這十個連結當中第一個、第二個、第三個不是很精確的話,用戶就已經感到非常的失望了。

同時因為搜尋引擎的結果不是特別精準,所以在這個時候,我們感覺到用戶在搜索的過程當中也需要更多的幫助,搜索實際上是一個交互式的過程,不是一次性的交易。因為從我們日誌裡面可以看到,有很少的用戶可以從一個關鍵詞就可以找到結果,基本上是一半左右的用戶,他是要重複的去搜索,不斷的去修改自己的詞語,不斷的讓搜尋引擎能夠理解自己,用戶要花很大很大的功夫去讓搜尋引擎理解自己。這個也給我們提供一個啟示,就是我們應該給用戶提供一個有機的體驗。

那麼第三點我們看到的機會,就是說用戶來用搜尋引擎,那麼他一般都是希望來達到一個什麼樣的目的,完成一個什麼樣的任務,或者做一個什麼樣的決定。比如說我用搜尋引擎來找一個人,找一個歌星,我需要了解他的背景,他現在有什麼新聞。我用搜尋引擎找飛機票、火車票,我希望找到最便宜的飛機票,或者到某一個地方去,找到最便宜,最清潔的酒店。或者我們到搜尋引擎去搜索一個產品,一個手機,這個時候我們就要比較一下它的價錢,看看到哪採購更合適。甚至可以通過搜尋引擎直接提供採購的渠道,比如第一我們在前一段時間推出的技術,用戶可以通過微軟的這個搜尋引擎找到這個商家,購買這個產品,同時還可以從這個過程當中得到回扣,既能找到產品,又能有經濟效益。

所以我們認為搜尋引擎將來的發展方向是應該遠遠超出一個詞語到這個連結,而是能夠給用戶提供一個做出決策的輔助工具,所以我們管他叫決策引擎,同時我們希望我們的搜尋引擎能夠更好的,更快的幫助用戶來完成他要完成的任務,不管是買東西也好,還是查找信息也好,還是要找新聞也好。

所以要做這個決策引擎我們可以看看,傳統的搜尋引擎和我們微軟認為的決策引擎之間大概的一些區別。傳統的搜尋引擎目標是給用戶提供相關的信息,那麼他的交互模式非常的簡單,就是關健詞到搜索結果,然後用戶點擊搜索結果,跳到相應的網站,從那裡得到更多的信息。所以這個時候做傳統搜尋引擎的難題,實際上就是怎麼樣能夠把搜索的關健詞,跟你的結果能夠很好的匹配起來,找到最相關的網站,一個頁一個頁的呈現出來。

那麼在做決策引擎的時候,我們感覺到我們的目標是不一樣的,不光是把關健詞和相關的信息聯絡起來,而是要幫助用戶在最短的時間裡面完成他的任務,找到他相關的結果,同時做出他滿意的決定。所以我們覺得在決策引擎裡面,用戶和引擎的交互模式,應該是既有點擊又有瀏覽,所以說不光是點擊連結,而且還有很多輔助的內容,輔助的方式來幫助用戶表達他的意圖。

當然在這個背後我們也會開發我們的搜索技術,讓搜尋引擎本身能夠更好的善解人意,像剛才很多同仁講過的,怎麼樣去理解用戶的意願,用戶的意圖,這樣的話搜索結果會更加的相關。所以這個時候就是在做決策引擎的時候,我們覺得他的難題在於怎麼樣找到跟用戶意圖相匹配的信息,這個信息可能是多元化的,可能是多個模式的,也可能是來自各種各樣的來源,也可能是文本的,也可能是圖片的,也可能是視頻,把他們能夠整合在結果的頁面裡面,讓用戶有一個完整的了解。

所以傳統的搜尋引擎和決策引擎在技術上的要求是不一樣的,在交互的模式上也會有創新的機會。同時我們認為一個很好的決策引擎真的能夠通過善解人意,提供更多更好更相關的信息,能夠幫助用戶很快的完成結果,和幫助他做出決定。

我本來想做一些Demo,今天沒有一些機會,所以我這裡鼓勵大家回去可以嘗試一下,比如微軟在全球推出的決策引擎。在這裡我可以簡單的講講交互的一些創新的嘗試,去看看Bing,大家可以看到有一些不同,第一個我們可以看到的是搜索結果頁面,左邊我們有一個欄目,左邊這個框,這個框裡面有一些內容,這些內容是傳統的搜尋引擎裡面沒有的,這裡面有一個目錄,是分門別類的,我們根據用戶的關鍵詞提供了一些我們認為跟用戶關健詞或者是需求相關的一些概念,比如你要找一個城市,倫敦等等城市去旅遊,或者到奧運會,我們可以在目錄板裡面體現出來。我們可以從目錄裡面抽取出來這些概念,來驗證用戶的意願,因為我們覺得做決策引擎跟搜尋引擎我覺得更難的一點是你要真正的了解用戶的意圖,所以這一部分可以幫助我們來驗證用戶的意圖。

還有我們做相關的搜索,比如你要找一個名人,名人的照片、電影,比如劉德華的歌曲、唱片和電影等等,通過這些我們可以來提供用戶的需求,通過驗證來幫助用戶的搜索。同時我們還有一個新的功能,在Bing裡面,我們可以給用戶提供他搜索歷史的一些記錄,因為我剛才講到了,現在的搜索用戶他在做搜索的時候,經常是幾分鐘甚至是幾十分鐘來用搜尋引擎找一些東西,或者是完成一些任務,所以這個時候他會翻來復去的做不同的搜索,那麼這個時候在我們的Bing裡面會給你提供一個搜索的結果記錄,這樣的話,你可以做一些參照,你可能幾十分鐘已經忘了剛才做過什麼樣的搜索。

那麼在搜索結果裡面我們也做了一些優化,因為剛才我們講我們做決策引擎的話是要幫助用戶,從你的需求,到完成任務,到做決策,我們會儘量的幫用戶縮短這個過程,而且提高他的效率,所以我們在比如我們用戶提出一個需求,這個需求如果是「百度」的話,用戶可能是需要到百度的網站去做進一步的搜索。所以這個時候我們不光是把百度的主頁連結提供給用戶,而且會提供一些更加深入的一些連結,幫助你到百度去找音樂,找百度的地圖等等等等,你可以一次就進去了。

另外我們還有一個新的嘗試,叫做「快速預覽」,就是說如果你在用Bing的時候,你把你的滑鼠挪到搜索結果的右端,這個時候我們會有一個結果出來,可以展示一些網頁裡面,就是你不用點擊,但是你可以看到這個網頁裡面更加詳細的內容,這樣簡化用戶的搜索過程。

另外一個嘗試就是我們還是通過對用戶搜索的意圖理解,提供一些更加直接的方式,來幫助用戶完成他的任務,我這裡舉的例子,比如說你進去UPS,進了一個包裹,這個時候你想知道包裹的進程怎麼樣,傳輸的進程,所以很多人到我們的Bing也好,到百度也好,這個時候傳統的做法是點擊一下UPS,在他們的網站上來做他們包裹的追蹤。那麼如果你用Bing的話,你可以輸入UPS作為一個關健詞,在結果頁面當中你就可以看到已經有UPS跟蹤的框子,你可以在裡面直接打進去追蹤的序號,這樣就可以很快的看到你的結果。

剛才我用這個機會簡單的給大家介紹了一下我們微軟在做Bing過程當中的一些想法,和一些新的嘗試,我們希望可以看到通過我們的努力,使得搜尋引擎最終成為一個決策引擎,幫助用戶縮短從需求到結果的時間,能夠給用戶提供最相關、最全面的信息,同時能夠幫助用戶,成為用戶的一個好參謀,能夠在用戶的日常生活、工作、學習當中,成為做決策最好的夥伴。所以,我希望大家有空的時候回去可以嘗試一下Bing給我們提供反饋,同時再次感謝百度公司給我們今天這樣的機會,跟大家一起交流我們在做微軟的搜尋引擎方面的心得和體會,以及後面的一些想法,謝謝大家。


主持人:感謝劉激揚先生的精彩演講。阿拉丁是百度公司今年推出的重量級產品,其誕生和初衷來自於百度希望為用戶提供更精準、更全面信息的理想。在百度看來,用戶使用傳統搜尋引擎能夠找到的信息,只佔信息非常少的一部分,更多的信息其實存在於「暗網」之中,而通過傳統的搜索技術挖掘出的信息海量而波長,大量影響了網民的需求。阿拉丁的出現,使得百度與各個網站的關聯合作有了密切的提升,那麼什麼是阿拉丁,阿拉丁項目的研發過程當中遇到了哪些問題,這些問題是如何解決的,相信很多朋友都有這樣的疑問。下面,有請百度的主任架構師寥若雪先生為我們答疑解惑,揭開阿拉丁的神秘棉紗,有請!

寥若雪:各位來賓大家好!剛才幾位嘉賓從各自的角度對搜尋引擎的將來做了表述,百度同樣認為,搜尋引擎的將來會朝著更加滿足用戶需求,更加智能,更加開放的方向發展,所以我們也辦了這樣的論壇。我希望跟大家分享一下我們是如何利用技術,包括雲技術,包括開放平臺如何滿足客戶的需求,以及我們現在面臨的挑戰。

我今天的演講大概分為以下幾個部分,首先是阿拉丁的起源,接下來我們一起看一下阿拉丁有什麼樣的特點,這個特點會帶給我們什麼樣的技術問題,我們對這個問題的解決方法,最後跟大家一起看一下阿拉丁會帶給我們一個怎樣的未來。

說到阿拉丁的起源,其實源於我們對於搜尋引擎的用戶,在搜尋引擎需求滿足度的一個研究。我們發現,只有75%的用戶的需求最終得到了滿足,經過對這些不滿足用戶的需求進行分析我們發現,很大一部分是由於能夠滿足這部分用戶需求的資源,目前的搜尋引擎還無法覆蓋到。ACS的一個數據可以做一個旁證,37%,不到一半的網頁資源和現有的網際網路搜尋引擎技術覆蓋,有絕大部分沒有覆蓋到的。所以說,我們必須通過挖掘「暗網」才能更好的滿足用戶的需求。另一個發現的問題是我們現在對於用戶表現的需求無法做到精確的分析,綜合這兩個問題,我們必須要挖掘「暗網」,必須更好的分析用戶需求,才能更好的滿足用戶需求。

這裡說到「暗網」,其實「暗網」每個人對它的定義都不太一樣,在阿拉丁中,我們認為「暗網」就是目前搜尋引擎所不能覆蓋到的,但是可以滿足用戶需求的所有資源。包括分歧信息,包括資料庫,包括Flash,甚至包括你我大腦中存在的信息。

因為這個原因,所以說我們會考慮,我們是不是可以採用用戶行為分析,採用自然語言處理這個技術來更好的分析用戶需求,結合「暗網」挖掘出來的資源來更好的滿足用戶需求,這就是阿拉丁平臺的誕生。

接下來我們看一下阿拉丁有什麼樣的特點,阿拉丁的第一個特點跟剛才的「暗網」密切相關,我們需要能夠容納網際網路上的各種數據,就像剛才所說的結構化的、非結構化的信息,能夠把這些數據統一的按照用戶的需求容納到一個系統。第二個阿拉丁的特點是阿拉丁是一個以用戶需求為基礎的平臺,他會分析用戶的需求是什麼,根據用戶的需求去找到需求呼應的資源,最後給用戶一個能夠滿足他需求最適合的展示方式,這就是阿拉丁的一個特點。

舉個例子,用戶的輸入「現在幾點了」,或者是「現在的時間」這樣的問題,那麼這樣的問題是怎麼處理呢?首先我們會分析「現在幾點了」這樣的問題,用戶的需求實際上是想找現有的時間,其次,現有的時間這樣的資源,在阿拉丁平臺中對應的資源,我們會用標準的時間伺服器來獲取標準的時間,最後我們知道用戶只是想獲取時間,我們給他時間就足夠了,不需要他再次點擊,所以用戶會得到一個當前時間的展示。

根據阿拉丁的特點來看的話,我們得到了阿拉丁的一些跟現有的搜尋引擎不一樣的地方。現有的搜尋引擎主要的工作方式其實是這樣的,比如他會進行內容的分析,對網頁進行分析,得到網頁和需求之間的相關性,對網頁的一些操作進行分析,得到他的權威性,再結合網頁的一些因子綜合進行的一個排序。阿拉丁的資源,首先,阿拉丁的資源沒有這些網頁信息,也沒有一些插入信息,所以他很難進行排序。另外,阿拉丁的數據一般都是職業化數據,這樣對我們的數據分析其實是比較好的,另外他還有一個好處,是他一般是用推送的方式來獲取信息,這樣的話,他會解決問題的主要方面。

歸納一下,技術挑戰是兩個方面,一個方面是需求如何識別,另外一個方面是如何進行排序。需求識別是一個很大的問題在裡面,為什麼?這裡說兩個方面,第一個方面是用戶的需求,他的表達方式越來越口語化,越來越傾向於自然語言處理方式,之前俞先生也提過,用戶會說某某字,去掉某某偏旁,再加上某某偏旁是什麼,這樣解決不好。第二個,即便是用戶的需求非常的明確,比如今天上午提到的「日全食」,在日全食發生之間,發生之後用戶的需求實際上是發生的變化的。在日全食發生之前,用戶是找發生的地點,日全食發生之中,用戶找的是視頻的直播,日全食發生之後,用戶要找的是評論。所以排序和識別是兩個核心的問題。

先來看一下排序問題我們是怎麼解決,排序的問題解決方法我們主要是採用自然語言的處理方式,用戶的行為實際上是告訴我們他背後真正的需求是什麼,舉個例子,在用戶輸入日全食的時候,還有很多是跟之前相關的,比如有一些用戶會很精確的表達自己的需求,比如日全食發生的時間,圍繞著日全食的需求,可以告訴我們日全食到底是什麼,再結合用戶點擊數據等用戶行為數據,我們通過一些統計分析,數據挖掘的方法,最後能夠協助我們去了解用戶的需求。用戶需求識別裡面的另外兩個問題是,第一,用戶的表達方式多樣化,他會加很多不必要的或者必要的修飾語,我們會通過分析的方式解決這個問題。通過自然語言處理裡面的方法,對用戶的修飾詞去掉,然後對應用戶的需求。

還有另外一個是用戶的表達方式多種多樣,但是有時候他是一次一次的,比如說「百度大廈到中國大飯店有多遠」,「百度大廈到中國大飯店的距離是多少」,這樣的用戶需求形式上不一致,但是語義上是一致的,所以我們用規劃的方式,將他規劃到一個語義上。

第二個問題是排序,其實這個問題本身來說,幾個問題來源於對用戶需求的滿足,我們認為,就應該通過用戶需求的方式解決排序的問題。簡單的說是我們可以滿足用戶需求的資源,我們就排在前面,這樣是非常的簡單,但是這裡面可能考慮一些比較複雜的問題,第一是需求即便是在同樣的時間,同一個關健詞,背後的需求可能都是千差萬別的,在日全食發生之後,有的用戶可能想找圖片,有的用戶想找視頻,有的用戶想找評論,那麼如何對這些滿足不同需求的資源進行排序?第二個是即便是一個資源能夠滿足用戶需求,但是不是百分之百滿足?這個不一定。就拿日全食的例子來說,日全食發生之後,用戶想找評論信息,那我是不是給他一個論壇,上面有日全食評論就夠了?應該不是這樣的,因為還有其他的論壇有評論信息,這個信息並不能百分之百的滿足用戶的需求。

針對這樣的問題,我們引入了兩個因子來解決,一個稱之為「需求滿足度」,一個稱之為「需求響應程度」,他們分別解決對於一個關健詞來說,某一個需求的強烈程度,和一個資源對於某一個需求滿足的程度。結合這兩種因子來說,最終我們可以對最終的結果排序做出一個比較好的解決。

當然,需求其實並不是意味著特徵,需求裡面可能還有一些比較複雜的情況,比如有的用戶的需求並不是簡單的,他會包含多種多樣的需求在裡面。例子比如說像搜索劉德華這樣的影視明星,那麼這個用戶可能他會同時想知道劉德華的近況、圖片、新聞、視頻,那麼我們會通過稱之為「泛需求」的方式來解決這個問題。還有一個需求細分類,比如視頻需求,具體到電影,具體到網上的視頻,具體到連續劇,那麼對用戶的需求來說並不是完全一致的,在排序和展示上我們會做相應的處理。

用戶的需求還有一個方面,用戶需求並不一定只來源於用戶的輸入,也可能來源於用戶隱含的一些個性化的信息,比如用戶所在的地域,地位的識別實際上來說這是一個很成熟的技術,已經不是什麼技術難題,但是在阿拉丁中我們遇到的問題是,如何確定某一個需求需要引入地域這個特徵。

我們來看一下阿拉丁其他技術方面的問題。

第一個是結構化數據,前面說了,結構化數據的好處是易於分析,並且有很多的邏輯關係可以拿出來用。結構化數據中的邏輯我們可以滿足更加豐富的用戶需求。舉一個例子,我從北京到拉薩怎麼走,這是很常見的用戶需求,現在這個需求在網頁上應該能得到滿足,但是想說我從北京到拉薩中間通過成都怎麼走,或者是經過成都再經過西安怎麼走,這個時候網際網路上沒有直接的信息能夠滿足用戶的需求。但是因為我們結構化的數據,我有結構化的火車信息、飛機信息、地圖等,通過組合方式能夠比較容易的,來滿足用戶的需求。

另一個值得一提的是按需求來進行展示,就是說前面也提到過,用戶的需求並不是一個簡單的文字就可以滿足的,我們會通過圖片,通過視頻、Flash這樣的多媒體形式,用戶的需求確實是需要多媒體的方式來滿足。另一個是說如果用戶需要更精確的數據,或者是需要更多的交互,那麼我們可以通過表格,表格的數據就非常的精確,非常的明白,然後對於比如用戶輸入「火車時刻表」這樣的例子,那麼我們就會告訴用戶,你是不是需要更多的輸入說你的起點,終點,這是更豐富的形式。對於剛才舉的劉德華的例子,用戶需要的是各種需求,我們就用整合的方式提供給用戶。

這裡有一個小細節,我們的結果中有這麼多的多媒體信息,那麼我們怎麼保證用戶訪問數,傳統的搜尋引擎很簡單,因為傳統的搜尋引擎基本上是文字信息,文字信息的量很小,用戶的速度是可以保證的。但是大量的多媒體信息加入之後,一方面是提升用戶的感受,另外一方面對於用戶的保證速度是一個挑戰。那麼我們在這裡面主要是通過了我們會分析瀏覽器中的渲染行為,他的網絡行為,我們還會分析伺服器和客戶端的一些工作方式,分析中國現在網際網路上的一些信息,優化結果頁,優化我們的服務站,優化我們的DNH,優化我們的網際網路布局,優化我們的路由,通過這個方式我們能夠保證用戶的訪問速度。

阿拉丁是一個平臺,那麼這樣一個平臺上容納了成千上萬的用戶信息,這些信息如果是通過人工的方式去一一處理是不可能的,所以我們需要一個很智能化的、很自動化的平臺。那麼他要實現什麼呢?他要實現的就是資源自動整合,我們能夠自動的知道這個資源的有效性,資源可靠性,我們不會讓一些錯誤的資源、錯誤的信息上去誤導用戶。我們還可以自動的分析這個資源後面所能夠滿足用戶的需求到底是什麼,最終對於能夠滿足用戶需求,並且可靠性和能效性都足夠的資源,我們會自動的更新到我們的線上,去滿足用戶需求。

在這裡,我們主要是通過了機器學習,用戶行為反饋這樣的技術來解決這些的問題。我們最終的平臺下面還有一套智能的用戶系統,來支撐整個平臺。

阿拉丁的技術實際上是屬於不停的發展之中的,我們認為將來的阿拉丁會朝著更加智能化,更加技術化的方向發展。舉一個例子,是這樣的,明天我休假,想出去玩兒,再現有的搜尋引擎當中,你拿到的東西幾乎沒辦法看,但是阿拉丁怎麼解決這個問題的?首先我們通過自己語言處理,挖掘出來他想幹什麼,休假、遊玩,兩天之中的需求,那麼隱含的需求,他所在的城市,甚至他的遊玩習慣,這樣隱含的需求,結合我們的一些阿拉丁的數據源,包括什麼,包括機票、火車票、住宿這樣的信息,還有籤證、天氣這樣的信息,最終我們希望是通過整合這樣的信息,結合用戶的需求,最終給出一個完整的展示。

我們可以看到,阿拉丁其實實現的一個目標是什麼?他利用一個簡單的搜索框,就能夠滿足用戶的全部需求。那麼實際上這就是今天上午的同志提到的「框計算」的雛形。我今天演講就到這裡,謝謝大家。


主持人:感謝寥若雪的精彩演講,下面我們將要進入的是互動環節,與會者可以向嘉賓提問,我們僅限三個問題。

提問:您好,我想了解一下現在阿拉丁計劃在用戶資源信息和用戶行為的資源獲取方面,現在大概是進展到一個什麼樣的情況?

主持人:這個問題請孫雲豐回答一下。

孫雲豐:我們現在大概的情況是這樣的,現在平臺已經上線了,大概資源的話現在也不少,整個的影響面,搜索量大概是數千萬的級別。現在我們整個目前的階段,是整個阿拉丁開放平臺的框架屬於完善期,到現在,我們基本上前期告一段落。前期是基本上打基礎的階段,下一個階段到了今年的這個季度和第四季度,我們接下來重點是整個的它的影響面和推廣,這裡面可能會有一系列的市場運營活動,我們這裡面做了很多事情。我們相信從現在到明年上半年,它的影響力我覺得應該是可以大幅度的出現的。

主持人:第二個問題。

提問:大家好,剛才聽了一下俞教授的演講,突然有一個感覺,覺得好像把語文和數學通過搜尋引擎完美的結合在一起了,好像回到童年的感覺。但我有一個問題,因為前一段時候我哥哥給我發了一個簡訊,因為我的侄子正在上小學,他問一首唐詩的出處在什麼地方,他不好上網,我馬上上網,搜索到了答案給了他,是「百度知道」裡面的。我突然反思一個問題,包括今天上午的演講,以及俞教授提到的,搜尋引擎的智能化,我覺得這對成人來說是很好的事情,但是對於兒童來說有一個問題,如果我們把智能化這個做的特別好,可能會有一個結果,孩子可能會喪失一次主動學習的機會,我不知道有沒有一種可能,就是在針對兒童或者是孩子利用搜尋引擎方面,有沒有更好的處理手段,比如有沒有促進他學習的搜尋引擎?

主持人:請俞老師說一下。

俞士汶:我回答不了這個問題,這個問題不僅僅存在於網際網路中,甚至於連計算器也有這樣的問題,文曲星字典也有這樣的問題,這個是技術進步。甚至於這麼說,例如汽車、例如飛機和人的走路,這些問題都存在的,這是一個普遍的問題,不是一個單純的網際網路技術問題,所以我回答不了。

孫雲豐:我來回答一下,我們以前談到搜尋引擎出現的對這個社會的價值,我們經常談到一點,是使得每一個人獲得知識和信息的成本大幅度的降低,這個我覺得是大家公認的。也就是說你在有限的時間內,可以獲得更加精準的信息。以前你可能了解一個事物,你先要去圖書館,才能夠才高八鬥,學富五車,現在你想得到一個答案的話,你輸入一個關健詞就可以得到答案。這些答案你帶著需求搜索並且獲得了之後,實際上並不會很快的消失掉,實際上也是變成一個知識映照在人的腦海裡面了。所以一個小孩子,牧童和童子這個東西出處在哪裡,搜索之後我相信他在腦子裡面會留下一個印象,哪怕不是非常的清晰,但是因為他付出的成本是如此的低,但是我認為這個過程實際上還是非常的行大的。

劉激揚:我覺得搜尋引擎和現在的技術,給我們所有人提供了一個更快更好的獲取知識的渠道,大家知道,知識就是力量,不是之前知識越多越反動,所以知識越多之後,我們人可以把更多的時間,更多的精力放在我們可以利用這些知識,創造更多的財富,創造更多的價值的工作上面去。

主持人:感謝各位的回答,最後一個問題。

提問:我們今天上午聽到的百度最新推出的「框計算」,及剛才各位給我們講的「框計算」的雛形阿拉丁,我們想知道「框計算」和阿拉丁最終會對搜尋引擎產生什麼樣的影響,而且從形式上來說,是不是會成為一個客戶端的軟體的樣子?

孫雲豐:上午的演講也有了一個解釋,大概是這樣的,在我們看來,搜索框的價值應該得到一個擴展。那麼我們現在在框的背後就是一個搜尋引擎,但是我們發現搜尋引擎現在帶給用戶的價值是他可以通過這個簡單的框,就可以獲得各種各樣的信息,也就是框的背後有一個龐大的世界。但是這是以前的狀態,我們相信搜索框背後是信息,是經過排列和計算過的信息。那麼現在的話,實際上有很多的用戶,他們在搜索的時候並不是要獲得信息,而是要獲得一種服務。舉個例子說,這個用戶可能搜一個叫做「在線殺毒」,並不是說他要獲得一個網頁,上面有一個服務叫做「在線殺毒」,他想直接獲得服務。我們「框計算」的概念,就是把這個服務放在了框的背後,他和搜尋引擎提供的服務是並列的狀態。因為我們希望他能夠帶來什麼樣的好處呢?把更多的提供這樣子應用服務的,他可以利用百度這樣的搜索框,快速的到達他的目標用戶群。那麼對於目標用戶來說,他的價值在於什麼地方呢?我不需要非常複雜的去記憶每一種應用,他到底是誰,到底是哪裡,他們到底怎麼樣,就是說假如有一個非常強大的框在後面幫你計算的話,他可以把這個最合適的應用直接給推給用戶,所以這個是從企業進入用戶兩方面帶來的展示,謝謝。

本文來源:網易科技報導 責任編輯:王曉易_NE0011

相關焦點

  • 搜狗搜索公開課 詳解搜尋引擎技術應用及趨勢
    作為國內搜尋引擎巨頭,搜狗搜索一直以技術創新而著稱,自成立以來的11年中,搜狗搜索利用自身在技術方面的優勢,相繼推出眾多優秀產品。尤其是與騰訊的深度合作,更是讓搜狗搜索強大的信息處理能力得到業內認可,不少人對於搜狗搜索的「技術秘籍」充滿了好奇。  7月14日,搜狗搜索舉辦了主題為「搜索算法解密」的技術公開課,與超過80位搜索行業的技術精英、搜索愛好者以及合作夥伴來共同探討搜尋引擎的技術應用。搜狗CEO王小川、副總裁茹立雲、通用搜索部高級總監張闊也在公開課現場現身,與到場參與者分享了搜狗舉辦此次公開課的初衷。
  • 海上影:2010—2016海上紀錄片論壇實錄
    《海上影:2010~2016海上紀錄片論壇實錄》一書是黎小鋒根據2010-2016年海上影展暨論壇整理出來的紀錄片論壇實錄。2016年聚焦「網絡時代的數字紀錄片」,分為「紀錄片作者與作者紀錄片」「數字紀錄片的未來趨勢與可能」兩個單元,並將結合論壇主題舉辦相關紀錄片學術展映。
  • 第一場論壇「十年輪迴」文字實錄
    接下來我們第一場論壇就是十年輪迴,跟我們整個主題是一樣的,算是主題同名論壇,我是搜狐副總編輯方剛,我擔任本場的主持人,請出本場論壇的對話嘉賓,他們是搜狐公司董事局主席兼CEO張朝陽先生,有請張總;中國網際網路協會秘書長黃澄清先生,有請黃秘書長;點擊科技總裁王志東,有請王總;eLong網CEO唐越;和訊網CEO謝文。下面我們就開始論壇。
  • 谷歌升級搜尋引擎技術:更好地理解自然語言,而不僅是關鍵詞
    站長之家(ChinaZ.com) 10月25日 消息:目前,谷歌已經對搜尋引擎背後的技術進行升級據cnet報導,谷歌今天稱,公司正更新搜尋引擎工具以改善對自然語言的分析,這將讓有助於用戶用自己語言進行搜索查詢。也就是,用戶可以按照自己現實生活中的說話方式進行查詢,而不需要輸入他們認為軟體更容易理解的關鍵詞/字符串進行搜索。對此,谷歌副總裁Pandu Nayak表示,網絡搜索在最近五年得到了質的飛躍,也是搜索歷史上變化最大的幾年。
  • 大數據技術論壇(上):Spark、Hadoop技術成主角
    2014中國大數據技術大會第二日上午大數據技術論壇上,百度大數據部副總監薛正華和中國移動集團公司業務支撐系統部項目經理何鴻凌共同主持了上午的論壇。大數據技術論壇主持人:百度大數據部副總監 薛正華大數據技術論壇主持人:中國移動集團公司業務支撐系統部項目經理 何鴻凌胡煒:網易資料庫壓縮技術12月14日,在大數據技術論壇上午的演講中
  • 還以為百度只是搜尋引擎?AI技術已經滲透,輸入法是最好體現
    在中國的網際網路市場,老牌網際網路企業都有自己鮮明的屬性標籤,這些屬性標籤的來源就是它的主營業務,而這種屬性標籤一旦形成就很難再讓人們改變對它的認知,例如全球最大的中文搜尋引擎——百度,起步業務就是搜尋引擎,直到現在雖然有了貼吧、地圖等多種產品業務,但人們提到「百度」的第一印象,還是會認為它是一家搜尋引擎公司
  • 中國(國際)建築電氣節能技術論壇在深圳召開
    、深圳市土木建築學會電氣&智能建築學術委員會等協辦,中國建築電氣網、北京通泰國際會展有限責任公司承辦的「』2013第七屆中國(國際)建築電氣節能技術論壇」在深圳隆重召開。「』2013第七屆中國(國際)建築電氣節能技術論壇」在深圳隆重召開。
  • 你其實並不了解的搜尋引擎蜘蛛分類
    本章主要介紹一下搜尋引擎蜘蛛都有哪些類型。了解類型之前要先知道什麼是搜尋引擎蜘蛛。百度百科上有相關解釋,天鴻用一個形象的表述重新說一下。一般可以稱為搜尋引擎的網站或程序,使用的都是增量型Spider,但是站內搜尋引擎除外,自有站內搜尋引擎一般是不需要Spider的。增量型Spider和批量型Spider不同,沒有固定目標、範圍和時間限制,一般會無休止地抓取下去,直到把全網的數據抓完為止。增量型Spider不僅僅抓取儘可能全的頁面,還要對已經抓取到的頁面進行相應的再次抓取和更新。
  • 今日頭條新一代搜尋引擎誕生 頭條通用搜尋引擎7大類搜索
    今日頭條新一代搜尋引擎誕生 頭條通用搜尋引擎7大類搜索 2019年11月29日 HuangJiang來源:網際網路
  • SEO的定義-什麼是搜尋引擎優化?
    什麼是搜尋引擎優化(也稱為SEO)?廣義的定義是,搜尋引擎優化是使網頁吸引搜尋引擎的藝術和科學。更狹義地講,SEO試圖調整已知的影響搜尋引擎信譽的特定因素,以使某些頁面比其他正在爭奪相同關鍵字或關鍵詞短語的網頁更具吸引力。
  • 由搜尋引擎社會責任 談我們都有一個大客戶
    上午去參加網際網路協會的一個論壇,中心議題是搜尋引擎的社會責任。搜尋引擎乃至所有企業,都應該將自己的道德底線稍微提高一點,這個我支持,因為現在企業的道德水平實在是太低了,連我都看不下去。但我也不得不承認,相關的監管部門,其實應該對企業道德水準低下負直接責任。
  • 搜尋引擎的大數據時代
    包括爬蟲爬取技術的優化、合法SEO的推動以及類似百度阿拉丁計劃。百度的阿拉丁計劃通過提供接口的方式,第三方網站主動接入自己的結構化數據,用戶在搜索時即可在結果前面看到這些信息。百度期望阿拉丁燈神可以「照亮」暗網。與此類似的計劃還有Google的OneBox,360的oneBox(360這名字取的)。但在暗網的問題還未解決之際,一個更暗的網已經到來。
  • 如何提高搜尋引擎排名?
    提高搜尋引擎排名的方式 有什麼提高搜尋引擎排名是每一個SEO從業者較為普遍的話題討論之一,事實上搜尋引擎排名是沒有近道的,要想迅速提升自己的搜尋引擎排名必須努力的勤奮當然要比他人多一些,可是應當向著恰當的方位而勤奮,要不然便是揠苗助長了。
  • 搜狗搜尋引擎展開全國大營銷
    昨天,阿里與搜狐共同投資成立的搜狗在深圳舉辦高峰論壇,與此同時,搜狗還在北京、上海、廣州等6個城市同時啟動搜索營銷,直接與百度爭搶客戶資源。  經過10多年發展,搜尋引擎已經成為網民使用頻率最高的網際網路應用,中國網際網路信息中心發布的《第28次中國網際網路發展狀況統計報告》稱,在中國4.85億網民中,搜尋引擎用戶高達3.86億。
  • 國臺辦就兩岸和平論壇、王鬱琦參會APEC等答問實錄
    中新網9月25日電 國臺辦25日舉行例行新聞發布會,發言人楊毅就首屆兩岸和平論壇、王鬱琦參會APEC、國民黨提禁「兩岸外交惡鬥」等問題答記者問。  發布會文字實錄如下:  楊毅:各位早上好!經國共兩黨有關方面協商,第九屆兩岸經貿文化論壇將於今年10月26日至27日在廣西壯族自治區南寧市舉行。
  • 租用臺灣伺服器搭建論壇網站有哪些優勢?
    許多經常上網的用戶會發現,很多部署在海外伺服器上的論壇網站實際上都部署在臺灣伺服器上。與其他地區的海外伺服器相比,租用臺灣伺服器建立論壇網站有哪些優勢?那麼下面磐石雲天小編就來和大家一起分析這個問題。因為論壇業務不像遊戲行業那樣,即使是幾千人同時在線刷帖也不會給伺服器造成很大的壓力。
  • AI技術與搜尋引擎加速融合 搜索可以更聰明更簡單
    「變化看起來不大,但在輸入方法以及搜索結果的呈現方式上都做了調整」,梁建平是「簡單搜索」的負責人,據他介紹,這些調整對搜尋引擎的技術革新要求很高,涉及語音識別、數據篩選、結果重組等多個過程,依靠的是語音交互技術與大數據。
  • 百度、360、搜狗這些搜尋引擎有什麼不一樣嗎
    常用的搜尋引擎有哪些 它們有什麼不一樣,目前我們常用的搜尋引擎主要有百度、360、搜狗、必應、谷歌等,同樣都是搜尋引擎,同樣都是搜索信息,但是他們有什麼不一樣嗎?其實不同的搜尋引擎工作原理是不一樣,我們搜索出來的結果也是大不相同。
  • DuckDuckGo:兼顧隱私安全與個性化需求的搜尋引擎
    要在搜尋引擎領域挑戰 Google 是一件幾乎不可能完成的任務,過往的這些 Google 殺手們暴露出了以下的兩個問題:呈現形式雷同,技術手段落後。Cuil 和 Bing 採取了與 Google 類似的服務形式和呈現方式,而 Google 已經在搜索領域經營多年,在技術上擁有巨大的優勢,也積累了大量忠實的用戶群體。
  • 優酷網屏蔽搜尋引擎服務 並不是針對第三方
    核心提示:中國第一視頻網站優酷網完全屏蔽了搜尋引擎視頻搜索服務從昨天到今天止,在搜尋引擎上已經完全找不到任何優酷網的視頻。這就意味著,網民無法再從搜尋引擎視頻搜索中找到優酷網上的視頻節目。不過,其他欄目還是一切正常,比如網頁搜索,比如圖片搜索等等。經證實,是優酷網主動屏蔽了搜尋引擎抓取該網站視頻。那麼,具體是什麼原因讓優酷忍心拋棄巨大的流量?又是什麼原因優酷恰好在這個寒冬決定此舉?