【CSDN報導】由雲基地、中雲網承辦,多家雲計算領軍企業共同參與的「2012雲世界大會」於2012年12月12日-12月13日在北京舉辦。本次大會會以積極、樂觀、堅定的態度擁抱雲計算,分享第一線企業的實踐成果,探索雲計算發展方向,審視雲計算帶來的巨大機遇,展示友好的雲、實用的雲、魅力的雲!
圖:騰訊無線業務群情境廣告中心總監王益博士
我今天給大家帶來的內容是關於廣告的。在騰訊用到的數據是很豐富的,精準的判斷一個人看什麼,對什麼感興趣,我們出的廣告應該是用戶覺得不受打擾的,這是騰訊接下來一個很重要的目標。
這個論壇叫大數據,大家一想廣告和大數據有什麼區別,或者大數據本身值不值得關注呢。兩個星期之前,騰訊的高級副總裁問了我們一個問題,說大數據是不是一個炒作,當然我知道他們希望我們回答不是炒作,因為他參加了一個IDG主持的論壇。
大數據到底是怎麼回事,說到大數據的時候就應該有一個來源。我以為真正大數據的來源是網際網路產品。我聽到研究行業各位教授們的介紹,也聽到了來自公司商業智能方面的介紹。我今天介紹的內容更主要的是來自網際網路產品的。我們每天早上起來就開始工作了,像我早上起來第一件事是收發電子郵件,今天我們大家用的這些電子郵件產品都是網際網路電子郵件。設想像QQmail、Gmail、新浪郵箱系統加起來用戶量有多少?差不多有10億。每天早上收發5封,發出去5封,就會為這個系統貢獻很多數據量。如果這樣的系統運營了10年,每年365天,數據的量就會很大。其他的協同編輯、雲筆記,還有搜尋引擎,半傳統不傳統的社交網絡,每天都會留下很多用戶的足跡,他們在上面做了什麼。這些足跡會幫助我們了解他們接下來想幹什麼,這些日誌每天的量都是以T計的。這是真正大數據的一個來源。
剛才說的那麼多應用都是誰在買單?應該是廣告主在替我們各位買單。廣告主替大家構造一個免費的網際網路,這個傳統是從什麼時候開始的?應該是從上個世紀最後的一段時間。我的印象中是從雅虎公司開始的,在雅虎這個公司走向巔峰之前的網際網路是一個小眾的應用,不是每個人都能用的。很多網際網路網頁要登錄進去,為了取得用戶名稱和密碼是要事先交費的。剛才我們說到常用的一些網際網路產品,在這些產品裡都能看到廣告,有的廣告並不多,讓這些廣告不至於影響我們的市場使用。差不多有三類搜尋引擎結果裡能看到搜索廣告,在社交網絡的內容裡能看到夾雜著社交廣告內容,其他的幾類產品中的廣告我們統稱為情境廣告,也有人叫上下文廣告。這幾個層次加在一起就構造了大數據的生態體系,為了實現剛才說的這些搜索社交郵件的應用,我們需要很多人工智慧算法。今天的網際網路產品和早期的已經不太一樣了,早期的網際網路產品是做主頁就能賣錢的,今天的網際網路產品在瀏覽器上大家要做各種互動。
網際網路人工智慧技術也是我接下來介紹廣告裡面的一個重點。它和我們在學校做的事情就很不一樣了。比如剛才大家聽祝教授的介紹,當學校裡的研究人員來做研究的時候,我們通常不會直接處理群量數據,要從中取出重要的樣本。在真實的網際網路環境裡,為了支持這個業務能跑起來,每個公司都必須要有極大的海量存儲和海量計算的框架。從另一個角度來看,這些數據都是用戶的行為產生的,大家在產生這個行為的時候,腦子裡在想這是人類智能活動留下的數據。1997年網際網路盛行之前,在人類了歷史上沒有任何一個機會讓我們留下並且有機會來分析幾億幾十億人的思維足跡。這也是網際網路大數據的價值所在,我們要充分利用這些數據歸納出足夠充分的知識,這些知識能夠幫我們做很多事。除了上面說的這些應用之外,它們能幫我們賺錢。
今天中國傳統廣告業務的規模有多大?是以千億計的。今天中國網際網路廣告業務的規模有多大?要少一個量級,是數百億,加起來也接近千億了,幾乎能夠跟傳統廣告抗衡,在美國市場這個比例更偏向於網際網路廣告一些。在網際網路應用越來越豐富的時候,在我們的技術越來越能抓住用戶需求的時候,網際網路廣告仍然會有很大的升值空間。為了讓這些智能算法跑起來,我們需要海量進行計算的技術,這就是我們所說的雲計算技術。後面列的幾項技術大家都很熟悉,這是本身我們把人工智慧算法從幾千個到幾萬個甚至幾十萬個CPU上跑起來的基礎。這些算法跑是要處理數據的,輸出的是海量的數據,結果可能也是海量的。為了支持海量數據的訪問,需要有海量的雲存儲。
支持雲存儲的機器在哪兒?在數據中心。比如騰訊那樣的公司,在中國很多大城市都有數據中心,Google在世界各地都分布著數據中心。數據中心裡裝的是什麼?是伺服器,是硬碟,是路由器。很長一段時間裡,當我聽到大數據這個詞的時候,我就覺得好像又是一個炒作,是不是造硬碟的公司弄出來的。實際上仔細想想,大數據還真是有這麼一個問題。列出來的是我理解中的大數據生態。廣告中買單是在為什麼買單?就是在買這樣一個層級結構,其中的每一級都要花錢。
接下來我要說的是廣告系統,剛剛我也介紹過廣告本身要利用其他的產品產生大數據。騰訊會利用搜尋引擎產生,幫助我們知道每個人對什麼感興趣。廣告本身要利用大數據,自己也要產生大數據。在廣告領域什麼樣的人工智慧算法能夠幫助我們更精準的定向廣告,一類叫相關性計算,這些人工智慧技術一方面幫助我們了解用戶對什麼感興趣,另一方面幫我們找到與興趣相符合的廣告。還有一類叫點擊率預估,我們要判斷一下哪些廣告展示出來,用戶最可能去點,我們選擇什麼樣的廣告展示?一方面是用戶願意點的,另一方面是用戶每次點擊之後廣告主為了感謝我們幫他做的推廣,願意給錢給的多的。
剛剛說到利用好這些數據之後,我們可以做一件今天廣告系統做不了的事情,就是精準的廣告定向。我們清楚的知道他願意看到什麼,就可以做到精準的展示。做到的極限就是廣告即內容。今天能做到類似的產品已經開始出現了,大家如果用手機的話看看Tiwtter,看看Facebook。我們的主要內容不在於技術,但是為了多提供點乾貨,我還是會介紹一些技術。
假設我是騰訊的工程師,知道這個人在看騰訊的產品,在用微信,他的QQ號是多少我們是知道。給這個人展示廣告展示什麼樣的廣告?一個很簡單的思路是我們知道這個人QQ號在搜搜上搜索了什麼,他剛好搜了鮮花,買了一果花,我們就可以在廣告中選擇標題裡帶鮮花這個詞的廣告。沿著這種思路往下想,來看看這樣做靠不靠譜。比如有一個用戶搜過兩個query,一個叫apple pie。假如我們有兩個廣告,一個是關於蘋果公司的,另一個是關於蘋果農業種植。我們怎麼做匹配,剛才我們說的方式是在文本中做的匹配。字面上的匹配發現apple pie和蘋果公司匹配起來了,而iPhone crack和蘋果公司有一點關係,可另外一個實際一點關係都沒有。在文本很短的時候,很多詞並沒有交集,但不能表示不匹配。機器能理解語意嗎?機器可以像人一樣能夠理解語意的。
假如我們在網際網路上搜索到海量的文本數據,比如在座有來自百度的同學,百度每次的搜索量很大。得到很多詞的聚類,每一類詞都可以頻繁的共建,表達的類似的語意。我們得到的每一類詞是一個語意。有了語意之後,如果還有一個算法能幫助我們把一包詞投影到語意空間,比如給apple pie這個詞,我知道它和上面的語意關係很強。apple pie和蘋果電腦關係不是那麼強,我就知道這一端的query主要是表達第一個語意的。我們把所有的query投到語意空間,發現很容易比較。
我們怎麼樣真的能得到這些聚類,又怎麼樣能夠有一個算法,利用這些聚類,把一段文本投影到語意空間,這是最近十年裡研究非常火熱的一項人工智慧技術,叫隱含語意分析。
實際上我們的系統能學出多少這樣的語意?在很多學術研究的論文裡,相關的技術能形成幾十個、幾百個語意。我所了解的業界最大的語意模型,包含的語意數量是Google的一個系統。我曾經在Google做相關的工作,它能學出100萬個語意。大家想想我們今天學的詞有多少,中文的詞,包括複合詞,很複雜的NBA的全稱,美國男子籃球聯賽。把這些詞全部算上差不多是30萬,100萬語意是什麼意思?已經不再是詞的簡單聚類了,它是能識別詞的多義性。它已經不做詞空間的比較,而是真正的到了語意空間的比較。
今天在騰訊碰到的一個問題是Google和百度這樣的公司沒有的,在Google和百度很多人會用他們的搜尋引擎,所以很多人都會留下搜索足跡。只要知道一個人的搜索足跡,就能知道他對什麼感興趣。可惜的是騰訊搜尋引擎的市場份額比較小,比搜狗還要小,但我們的用戶量又比百度要大。騰訊幾乎是包羅了中國最大的網際網路用戶群,在這個用戶群裡只有不大4%的人最近在搜搜上留下的搜索足跡。我們如何針對這個問題了解更多騰訊用戶的需求,這就需要用到另外一部分騰訊特有的數據。舉幾個例子,有的是我們能用的,有的是由於騰訊嚴格的數據管理政策,我們不能用的。
我們知道用戶的關係,在QQ裡有哪些好友,在騰訊微博裡放了誰,在騰訊QQmail裡和誰通訊,很不幸這些數據我們不能用,因為它太敏感了。在以大數據為輸入,從大數據中提取信息的過程中,我們經受很多的人,很多的工程師,這些過程都可能導致數據的流失或者是散布。所以這些我們不能用。我們怎麼樣把數據用起來?這又是人工智慧技術再次出場的時候。
對剛才的模型我們做了一些改進,結果不只是把詞聚類成語意,而且還包括不同的搜索足跡和語意之間的相關性。最上面這一行文字是我們學出來的幾十萬語意中的一個,目前世界上能學出來最大的最多種類的語意模型是Google的,但是我能看到的一些語意,有一個語意只有三個詞。這三個詞我都不認識,而且在字典裡查不到,在Google搜尋引擎中搜,才知道第一個是一個語言學家的名字,第二個是他的一條狗的名字,第三是非洲一個土著部落的名字。語言學家為了研究土著部落的語言,帶著狗在荒野裡生活了20年。這樣的語意我們在日常生活中幾乎用不到,大家會覺得沒有什麼用,有沒有用其實不好說,真可能有用。為什麼?大家想想今天我們網際網路廣告為什麼賺錢?因為我們用戶多種多樣。每個人有不同的偏好,所以各種各樣的廣告都可以有展示的機會,都可能有人感興趣去點,都有盈利的可能。
我在例子裡只用人的年齡來做分析。有19到24歲的,還有41歲到更大的。人到中年有賺錢壓力了,養老婆、養孩子了,所以41歲階段的他們對股票、投資、證券、黃金更感興趣。有了這樣的模型,我們就知道用戶喜歡什麼了。
我們期望邁向精準廣告的第一步。
更多精彩內容,請關注「2012雲世界大會」官網;更多雲計算技術,請關注新浪微博:@CSDN雲計算