騰訊無線業務群情境廣告中心總監王益博士:海量用戶數據驅動的精準...

2021-01-09 CSDN技術社區

【CSDN報導】由雲基地、中雲網承辦,多家雲計算領軍企業共同參與的「2012雲世界大會」於2012年12月12日-12月13日在北京舉辦。本次大會會以積極、樂觀、堅定的態度擁抱雲計算,分享第一線企業的實踐成果,探索雲計算發展方向,審視雲計算帶來的巨大機遇,展示友好的雲、實用的雲、魅力的雲!

圖:騰訊無線業務群情境廣告中心總監王益博士

我今天給大家帶來的內容是關於廣告的。在騰訊用到的數據是很豐富的,精準的判斷一個人看什麼,對什麼感興趣,我們出的廣告應該是用戶覺得不受打擾的,這是騰訊接下來一個很重要的目標。

這個論壇叫大數據,大家一想廣告和大數據有什麼區別,或者大數據本身值不值得關注呢。兩個星期之前,騰訊的高級副總裁問了我們一個問題,說大數據是不是一個炒作,當然我知道他們希望我們回答不是炒作,因為他參加了一個IDG主持的論壇。

大數據到底是怎麼回事,說到大數據的時候就應該有一個來源。我以為真正大數據的來源是網際網路產品。我聽到研究行業各位教授們的介紹,也聽到了來自公司商業智能方面的介紹。我今天介紹的內容更主要的是來自網際網路產品的。我們每天早上起來就開始工作了,像我早上起來第一件事是收發電子郵件,今天我們大家用的這些電子郵件產品都是網際網路電子郵件。設想像QQmail、Gmail、新浪郵箱系統加起來用戶量有多少?差不多有10億。每天早上收發5封,發出去5封,就會為這個系統貢獻很多數據量。如果這樣的系統運營了10年,每年365天,數據的量就會很大。其他的協同編輯、雲筆記,還有搜尋引擎,半傳統不傳統的社交網絡,每天都會留下很多用戶的足跡,他們在上面做了什麼。這些足跡會幫助我們了解他們接下來想幹什麼,這些日誌每天的量都是以T計的。這是真正大數據的一個來源。

剛才說的那麼多應用都是誰在買單?應該是廣告主在替我們各位買單。廣告主替大家構造一個免費的網際網路,這個傳統是從什麼時候開始的?應該是從上個世紀最後的一段時間。我的印象中是從雅虎公司開始的,在雅虎這個公司走向巔峰之前的網際網路是一個小眾的應用,不是每個人都能用的。很多網際網路網頁要登錄進去,為了取得用戶名稱和密碼是要事先交費的。剛才我們說到常用的一些網際網路產品,在這些產品裡都能看到廣告,有的廣告並不多,讓這些廣告不至於影響我們的市場使用。差不多有三類搜尋引擎結果裡能看到搜索廣告,在社交網絡的內容裡能看到夾雜著社交廣告內容,其他的幾類產品中的廣告我們統稱為情境廣告,也有人叫上下文廣告。這幾個層次加在一起就構造了大數據的生態體系,為了實現剛才說的這些搜索社交郵件的應用,我們需要很多人工智慧算法。今天的網際網路產品和早期的已經不太一樣了,早期的網際網路產品是做主頁就能賣錢的,今天的網際網路產品在瀏覽器上大家要做各種互動。

網際網路人工智慧技術也是我接下來介紹廣告裡面的一個重點。它和我們在學校做的事情就很不一樣了。比如剛才大家聽祝教授的介紹,當學校裡的研究人員來做研究的時候,我們通常不會直接處理群量數據,要從中取出重要的樣本。在真實的網際網路環境裡,為了支持這個業務能跑起來,每個公司都必須要有極大的海量存儲和海量計算的框架。從另一個角度來看,這些數據都是用戶的行為產生的,大家在產生這個行為的時候,腦子裡在想這是人類智能活動留下的數據。1997年網際網路盛行之前,在人類了歷史上沒有任何一個機會讓我們留下並且有機會來分析幾億幾十億人的思維足跡。這也是網際網路大數據的價值所在,我們要充分利用這些數據歸納出足夠充分的知識,這些知識能夠幫我們做很多事。除了上面說的這些應用之外,它們能幫我們賺錢。

今天中國傳統廣告業務的規模有多大?是以千億計的。今天中國網際網路廣告業務的規模有多大?要少一個量級,是數百億,加起來也接近千億了,幾乎能夠跟傳統廣告抗衡,在美國市場這個比例更偏向於網際網路廣告一些。在網際網路應用越來越豐富的時候,在我們的技術越來越能抓住用戶需求的時候,網際網路廣告仍然會有很大的升值空間。為了讓這些智能算法跑起來,我們需要海量進行計算的技術,這就是我們所說的雲計算技術。後面列的幾項技術大家都很熟悉,這是本身我們把人工智慧算法從幾千個到幾萬個甚至幾十萬個CPU上跑起來的基礎。這些算法跑是要處理數據的,輸出的是海量的數據,結果可能也是海量的。為了支持海量數據的訪問,需要有海量的雲存儲。

支持雲存儲的機器在哪兒?在數據中心。比如騰訊那樣的公司,在中國很多大城市都有數據中心,Google在世界各地都分布著數據中心。數據中心裡裝的是什麼?是伺服器,是硬碟,是路由器。很長一段時間裡,當我聽到大數據這個詞的時候,我就覺得好像又是一個炒作,是不是造硬碟的公司弄出來的。實際上仔細想想,大數據還真是有這麼一個問題。列出來的是我理解中的大數據生態。廣告中買單是在為什麼買單?就是在買這樣一個層級結構,其中的每一級都要花錢。

接下來我要說的是廣告系統,剛剛我也介紹過廣告本身要利用其他的產品產生大數據。騰訊會利用搜尋引擎產生,幫助我們知道每個人對什麼感興趣。廣告本身要利用大數據,自己也要產生大數據。在廣告領域什麼樣的人工智慧算法能夠幫助我們更精準的定向廣告,一類叫相關性計算,這些人工智慧技術一方面幫助我們了解用戶對什麼感興趣,另一方面幫我們找到與興趣相符合的廣告。還有一類叫點擊率預估,我們要判斷一下哪些廣告展示出來,用戶最可能去點,我們選擇什麼樣的廣告展示?一方面是用戶願意點的,另一方面是用戶每次點擊之後廣告主為了感謝我們幫他做的推廣,願意給錢給的多的。

剛剛說到利用好這些數據之後,我們可以做一件今天廣告系統做不了的事情,就是精準的廣告定向。我們清楚的知道他願意看到什麼,就可以做到精準的展示。做到的極限就是廣告即內容。今天能做到類似的產品已經開始出現了,大家如果用手機的話看看Tiwtter,看看Facebook。我們的主要內容不在於技術,但是為了多提供點乾貨,我還是會介紹一些技術。

假設我是騰訊的工程師,知道這個人在看騰訊的產品,在用微信,他的QQ號是多少我們是知道。給這個人展示廣告展示什麼樣的廣告?一個很簡單的思路是我們知道這個人QQ號在搜搜上搜索了什麼,他剛好搜了鮮花,買了一果花,我們就可以在廣告中選擇標題裡帶鮮花這個詞的廣告。沿著這種思路往下想,來看看這樣做靠不靠譜。比如有一個用戶搜過兩個query,一個叫apple  pie。假如我們有兩個廣告,一個是關於蘋果公司的,另一個是關於蘋果農業種植。我們怎麼做匹配,剛才我們說的方式是在文本中做的匹配。字面上的匹配發現apple  pie和蘋果公司匹配起來了,而iPhone  crack和蘋果公司有一點關係,可另外一個實際一點關係都沒有。在文本很短的時候,很多詞並沒有交集,但不能表示不匹配。機器能理解語意嗎?機器可以像人一樣能夠理解語意的。

假如我們在網際網路上搜索到海量的文本數據,比如在座有來自百度的同學,百度每次的搜索量很大。得到很多詞的聚類,每一類詞都可以頻繁的共建,表達的類似的語意。我們得到的每一類詞是一個語意。有了語意之後,如果還有一個算法能幫助我們把一包詞投影到語意空間,比如給apple  pie這個詞,我知道它和上面的語意關係很強。apple  pie和蘋果電腦關係不是那麼強,我就知道這一端的query主要是表達第一個語意的。我們把所有的query投到語意空間,發現很容易比較。

我們怎麼樣真的能得到這些聚類,又怎麼樣能夠有一個算法,利用這些聚類,把一段文本投影到語意空間,這是最近十年裡研究非常火熱的一項人工智慧技術,叫隱含語意分析。

實際上我們的系統能學出多少這樣的語意?在很多學術研究的論文裡,相關的技術能形成幾十個、幾百個語意。我所了解的業界最大的語意模型,包含的語意數量是Google的一個系統。我曾經在Google做相關的工作,它能學出100萬個語意。大家想想我們今天學的詞有多少,中文的詞,包括複合詞,很複雜的NBA的全稱,美國男子籃球聯賽。把這些詞全部算上差不多是30萬,100萬語意是什麼意思?已經不再是詞的簡單聚類了,它是能識別詞的多義性。它已經不做詞空間的比較,而是真正的到了語意空間的比較。

今天在騰訊碰到的一個問題是Google和百度這樣的公司沒有的,在Google和百度很多人會用他們的搜尋引擎,所以很多人都會留下搜索足跡。只要知道一個人的搜索足跡,就能知道他對什麼感興趣。可惜的是騰訊搜尋引擎的市場份額比較小,比搜狗還要小,但我們的用戶量又比百度要大。騰訊幾乎是包羅了中國最大的網際網路用戶群,在這個用戶群裡只有不大4%的人最近在搜搜上留下的搜索足跡。我們如何針對這個問題了解更多騰訊用戶的需求,這就需要用到另外一部分騰訊特有的數據。舉幾個例子,有的是我們能用的,有的是由於騰訊嚴格的數據管理政策,我們不能用的。

我們知道用戶的關係,在QQ裡有哪些好友,在騰訊微博裡放了誰,在騰訊QQmail裡和誰通訊,很不幸這些數據我們不能用,因為它太敏感了。在以大數據為輸入,從大數據中提取信息的過程中,我們經受很多的人,很多的工程師,這些過程都可能導致數據的流失或者是散布。所以這些我們不能用。我們怎麼樣把數據用起來?這又是人工智慧技術再次出場的時候。

對剛才的模型我們做了一些改進,結果不只是把詞聚類成語意,而且還包括不同的搜索足跡和語意之間的相關性。最上面這一行文字是我們學出來的幾十萬語意中的一個,目前世界上能學出來最大的最多種類的語意模型是Google的,但是我能看到的一些語意,有一個語意只有三個詞。這三個詞我都不認識,而且在字典裡查不到,在Google搜尋引擎中搜,才知道第一個是一個語言學家的名字,第二個是他的一條狗的名字,第三是非洲一個土著部落的名字。語言學家為了研究土著部落的語言,帶著狗在荒野裡生活了20年。這樣的語意我們在日常生活中幾乎用不到,大家會覺得沒有什麼用,有沒有用其實不好說,真可能有用。為什麼?大家想想今天我們網際網路廣告為什麼賺錢?因為我們用戶多種多樣。每個人有不同的偏好,所以各種各樣的廣告都可以有展示的機會,都可能有人感興趣去點,都有盈利的可能。

我在例子裡只用人的年齡來做分析。有19到24歲的,還有41歲到更大的。人到中年有賺錢壓力了,養老婆、養孩子了,所以41歲階段的他們對股票、投資、證券、黃金更感興趣。有了這樣的模型,我們就知道用戶喜歡什麼了。

我們期望邁向精準廣告的第一步。

更多精彩內容,請關注「2012雲世界大會」官網;更多雲計算技術,請關注新浪微博:@CSDN雲計算

相關焦點

  • 業務驅動創新,騰訊雲IDC產品族更懂用戶
    作為網際網路巨頭之一,騰訊基於自身龐大的業務需求從2007年開始自建第一代數據中心,騰訊數據中心高級總監楊曉偉表示,第一個自建數據中心的決定,對整個團隊或者騰訊數據中心來說是非常關鍵的一步棋,也是最重要的裡程碑。
  • 讓機器搞懂100萬種隱含語義,騰訊Peacock大規模主題模型首次全揭秘
    Peacock已應用在騰訊的文本語義理解、QQ群的推薦、用戶商業興趣挖掘、相似用戶擴展、廣告點擊率轉化率預估等多個業務數據中。本文節選自Peacock團隊的論文《Peacock:大規模主題模型及其在騰訊業務中的應用》,分享了廣點通Peacock研發和訓練的技術思想和技術細節,以及Peacock在騰訊業務中的應用,供讀者參考。
  • Jonathan Gardner:大數據:驅動業務決策 新型市場營銷的「獵犬」
    本文原文的作者Jonathan Gardner是市場分析雲平臺Turn的總監,同時也是科技創新行業的資深觀察者。
  • 薦書| 騰訊廣告法務嘔心瀝血之作《網際網路廣告業務合規與風險控制...
    2018年9月14日,騰訊公司在中國廣告協會舉辦的「網際網路廣告自律研討會」上發布了《騰訊廣告業務風控合規白皮書》,面向全行業開放了騰訊處理相關問題的經驗。作為第一本由網際網路公司發布的網際網路廣告白皮書,白皮書對網際網路廣告涉及到的廣告主開戶資質要求、廣告素材審核規則、廣告服務遵守的規則、廣告平臺投訴處理等行業熱點法律問題和監管關注的重點問題作出了回應。
  • 人人云圖CEO楊鵬:數據科學驅動業務安全
    據統計,中國線上廣告,包括拉新、促活等整體產值為6000億,而其中公認有50%-60%的數據存在問題,由此可推,中國黑產規模可能達到2000億-3000億。金融業和民航業是黑產組織布局的「重災區」。雖然國內先進的網際網路公司開發出了一套基於數據採集、數據處理、用戶畫像、效果評估、黑產處置完整的流程。但作為傳統機構升級轉型的領域,這些流程還都在建設過程中。
  • 三晉論道|河北無線傳媒盧金禹:創新驅動 智享未來
    在18日上午的主論壇上,河北廣電無線傳媒有限公司產品設計部總監盧金禹發表了主題為《創新驅動 智享未來》的演講。  以下為演講原文參加三晉論道的各位朋友大家好,我是河北廣電無線傳媒有限公司產品設計部總監盧金禹。
  • 騰訊鍾翔平:用戶驅動數位化服務體系升級|經銷商高峰論壇
    在本屆論壇上,騰訊公司副總裁鍾翔平先生發表了主題為《用戶驅動數位化服務體系升級》的演講,解讀在5G互聯、大數據高速發展的時代背景下,汽車流通行業的應對之策。 突如其來的疫情,改變了人們的生活,也加速了汽車產業的變革,越來越多的車企和經銷商,開始發力數位化體系的建設。
  • 廣告業務它不香嗎 幹嘛非得說騰訊想賣貨?
    壹明修棧道,暗度陳倉騰訊做電商經歷了三個階段:從2005年孵化拍拍網開始,到2014年把包括拍拍網在內的電商業務打包出售給京東,九年間騰訊做了不少努力,投資高朋網、收購易迅,甚至分拆電商業務為獨立公司,這一階段騰訊是真心想把電商業務做大做強,甚至會把電商交易的相關數據寫進財報。
  • 從「紐扣計劃」到「數據魔方」 寶龍攜手騰訊打造「數字商圈」
    騰訊位置服務做為騰訊擁抱產業網際網路的核心能力,業務覆蓋出行、物流、o2o、旅遊、運動健康、智慧零售和商業地產等多個領域,與微信、QQ、京東、滴滴、新美大、摩拜、麥當勞等行業領先企業深度合作,多項能力處於業內領先水平。特別是針對商業地產行業的數據魔方、客留通、室內通等產品已經被應用於多家大型地產項目。依託騰訊海量數據生態,LBS數據量位居行業第一。
  • KDD業界 | 騰訊社交廣告部總經理羅徵:基於社交行為數據的用戶畫像...
    特別是在基礎屬性數據、社交關係鏈數據、LBS數據等方面,騰訊在數量與質量上皆遙遙領先。在會上,羅徵詳述了騰訊如何挖掘社交行為數據,精準構建用戶畫像。騰訊在對社 交行為數據挖掘的過程中打造了領先的技術工具,Peacock大規模隱含主題學習工具可以高效地對5億x1億的超大規模矩陣進行分解,為精準挖掘提供強大 特徵,在用戶興趣挖掘和特定人群識別中都直接使用深度學習模型提高準確度。
  • 百度騰訊阿里大數據優劣勢與策略分析
    百度擁有兩種類型的大數據:用戶搜索表徵的需求數據;爬蟲和阿拉丁獲取的公共web數據。   阿里巴巴擁有交易數據和信用數據。這兩種數據更容易變現,挖掘出商業價值。除此之外阿里巴巴還通過投資等方式掌握了部分社交數據、移動數據。如微博和高德。   騰訊擁有用戶關係數據和基於此產生的社交數據。
  • 【CTO俱樂部深圳站】企業大數據建設案例分享
    迅雷數據平臺建設及應用案例首先,迅雷基礎研發中心數據平臺技術總監陳仕明,主要從三個方面介紹了「迅雷數據平臺建設及應用案例」。中型數據平臺數據平臺可以分成中型數據平臺和大型數據平臺,中型數據平臺的主要特點是伺服器資源、技術儲備和人員都比較有限。
  • 聚焦精準營銷 聯通在線打造沃廣告平臺
    揭牌儀式上,聯通在線董事長兼總經理馬彥闡述了聯通在線的「185」發展行動計劃,即以聚焦APPS為中心,八大核心能力為牽引,實現五個聚合的突破。其中基於沃廣告產品體系下的精準營銷能力,成為揭牌後聯通在線所具備的重要能力之一。聯通在線作為中國聯通旗下面向消費網際網路領域的平臺公司,以沃廣告為主要的營銷能力將對於打造產品體驗性和知名度具有重要作用。
  • 盛天網絡布局跨場景泛娛樂生態 構建多驅動增長引擎
    投入資金主要用於現有系統的更替、新平臺推廣、以及數據中心的搭建。如公司對已有的「易樂遊」平臺進行了改造升級,對戰吧電競平臺進行了推廣和運營,繼續建設並完善用戶中心和數據中心。5、開發衍生增值業務,打通公眾場所的場景用戶布局,多年大數據積累厚積薄發實現精準投放。公司從2013年起進軍移動互聯產業,依託過硬的研發實力以及遍及全國的渠道網絡,現有產品包括:硬體、OS、內容分發、近景遊戲、程序化廣告交易平臺等系列產品。
  • AI走進數據中心智能化運維:騰訊與清華聯合論文被自動化領域頂級...
    此前行業關於用數據驅動電池壽命預測的研究,也多關注於電動汽車電池這類可循環使用的電池,針對UPS類等常態處於浮充狀態電池的健康管理,此前未見已有研究。針對這些問題,騰訊清華聯合團隊依託於騰訊智維平臺提供的海量數據中心運營數據,研究了一種用於UPS中VRLA電池的預測維護的新型數據驅動技術。
  • 今年私域流水實現3個億:背後有關鍵的數據驅動起大作用
    說完數據,再說一下整個過程的重要節點:第一階段為2-4月,分銷爆發階段;第二階段為4-7月,實體經濟復甦階段;第三階段為8月,系統打通後迎來重服務發展階段,幫助我們實現穩定成長。在這個發展過程中,我們的方法和策略可以分為兩點:系統驅動業務發展和數據驅動業務運營。
  • 聚焦大數據生態,科達股份以數據技術助力企業轉型
    4月28日,中國網際網路信息中心發布第45次《中國網際網路發展狀況統計報告》。報告顯示,截止至2020年3月,我國網民規模為9.04億,網際網路普及率達64.5%。龐大的網民數量構成了中國蓬勃發展的消費市場,同時也為數字營銷的可持續發展奠定了堅實的用戶基礎。因此,作為數字營銷的龍頭企業,科達股份也在緊隨時代發展潮流,努力構建自身的全營銷生態。
  • 泰一數據:智能數據驅動智慧企業未來
    ①消費者具有什麼特徵和喜愛②產品和市場定位是否準確③哪些媒體用戶影響力比較大④合作媒體是否正確發聲⑤網際網路用戶的聲音怎樣⑥線上/下線活動和廣告投放效果如何⑦缺失支撐的數據⑧不同來源的數據無法融合 ⑨客戶的不滿情緒主要在哪 ⑩有哪些突發事件產生解耦功能模塊
  • Criteo:重定向廣告技術先行者
    而程序化購買取代了傳統的媒介採購人員,通過海量、多樣的數據來判斷是否購買,以及廣告投放價格。RTB方式更是將這一系列競價過程壓縮在150毫秒以內來完成,這樣使得用戶在看到廣告時根本無法察覺背後的一系列複雜流程。