騰訊孫國政:大數據挖掘和推薦算法最新進展

2020-12-01 網易科技

網易科技訊 9月8日消息,由CSDN主辦的2012中國軟體開發者大會今天在北京國家會議中心舉行,網易科技作為合作門戶在現場直播報導。

騰訊首席科學家孫國政做了主題為「超大規模用戶數據挖掘和推薦算法最新進展」的主題演講。

主持人:剛才蔣總PPT裡有很多圖,有一個共同特點都是指數系,這意味著速度越來越快,數據的增長不僅是多而且是越來越多,怎麼樣才能應對這樣的問題?我們下面有請騰訊首席科學家孫國政給我們介紹超大規模用戶數據挖掘和推薦算法最新進展。

孫國政:大家好,我來自騰訊公司,我今天演講的題目是超大規模用戶數據挖掘和推薦算法最新進展,並且從KDD—CUP2012談起。

剛才講到國際會議好多高手都參加,現在這個世界是一個網際網路時代,也可以說是一個大數據時代。比如說我們現在每天能出現2.5quintilion的數據,這就給大家一個挑戰,這些數據怎麼辦?如果現在開始每年能夠在將來10年中有50倍數據增長量,在第三年,現在世界五百強每個公司都有一個新的計劃就是怎麼來收集大數據,可見大數據現在很重要。究竟大數據問題是個煩惱還是商機,這是給所有公司和開發者的一個重要問題。我們現在所看到的好多公司一些管理層把大數據都當成煩惱,怎麼來處理?其實它孕育了很多商機,比如現在根據美國健康總署,他們估計如果把現在數據都用好了,他們相當於每年收入300萬美元,這相當於大數據處理好了有很大商機。

現在我們面臨的挑戰一個方面是大數據能夠看的著能夠存儲能夠處理,更重要的是大數據怎麼為我們造福,現在就有一個怎麼發展數據為用戶、為廣大網民服務的問題。在這樣的情況下,就出現了KDD—CUP的比賽,今年KDD—CUP選的題目有兩個,一個是根據騰訊微博數據,你推薦一個名人收不收聽,收聽了說明你感興趣,我們就給你所有數據讓你算一下用戶收聽這個人的機率。第二個是搜搜商業搜索的數據,每個搜尋引擎都有些廣告推薦,有些廣告對大家很有用,就會點擊。所以我們就是計算一下給個廣告給用戶被點擊機率有多大,我們今年都有很大的增加。比如說Track1,它出現了一個收聽一個人,有電極就是感興趣,我們給的數據是分兩個,一個是微博用戶,另外一個是名人。用戶有很多數據,包括年齡、性別等等詞語來描述,還有用戶在上面的動作,比如回複評論等等,還有一個是他們之間什麼關係,誰收聽誰這個數據。還有一個是每個人根據他過去的博文抽出一些關健詞,也給用戶提供。還有一個是每個推薦人屬於哪個方面的,我們把這個人推薦給一個用戶,算算被點擊的的機率有多大。我們的數據是有50天的記錄,包括用戶的描述等等。數不是怎麼分布的呢?橫軸是假如推薦的話有多少人多大機率收聽。被收聽多的人基本比較少,推薦人是藍色的、綠色是用戶,被收聽超過50%的基本沒有,大部分是收聽率很少。假如說我和被收聽人有關係的話,有多少路徑能通過中間人達到。比如說我的偶像是他,偶像的偶像是他,諸如此類,中間通過的路徑越多被收聽機率越大。

我們最終怎麼衡量比賽結果?我們有一個MAP,公式我就不再詳述了。

另外有Track2,我們每個Session是用戶、廣告、ads都給了,還有姓名、年齡、廣告等等都給了,因為參加人大部分都不懂中文,所以我們把中文部分用個數碼來表示,另外為了保護用戶隱私性,也用數碼來表示,究竟什麼意思不知道,所以在這裡懂中文的沒啥好處。點擊用戶記錄數據很大,縱軸是數目,橫軸是展現的次數,如果展現越多的話大約點擊越少。它的衡量標準我們用AUC,我們基本採用標準方式來衡量。

KDD—CUP基本有三個特點,第一數據比往年量大,直接來自真實產品運營日誌,沒有經過任何改變。第二參加人數與往年比也是最多的,traca1三千多人,traca2五千多人。第三數據集非常複雜,參賽者需要自己進行處理,形成緘默所需的特徵變量,且變量的最終數目還取決於參賽者處理方法,是沒有標準答案的。

KDD—CUP大賽結束之後評了三個得獎團隊,通過分析他們的結果,有些東西值得跟大家分享。首先介紹一下比賽數據特點,數據稀疏性是現在所有大用戶數據的一個問題,矩陣好多點都是空的,只有幾個點才有數據,雖然很多但是在矩陣上是很稀疏。另外有很多數據需要自己清理,你自己決定要不要這些數據,數據很複雜。另外也有嚴重的冷啟動問題,我們大家知道通常根據以往大家行為看你的興趣來推斷你下面對什麼感興趣,但是有可能我們在這裡所看的用戶,有77%的用戶做訓練的數據裡沒看到,他是新用戶,他們沒有行為歷史,這對冷啟動是一個大的挑戰。另外數據也不平衡,大部分沒有收聽,90%以上的都是沒收聽。後來我們把數據公布之後,每天可以上傳東西,大家來排寶,我們還提供了一個簡單的算法放在那兒,一開始沒人超過,但是過了幾天好的結果都排在前面了。在數據處理上是一個很大的特點,凡是能夠得到優勝的大部分對數據的理解是很到位的,比如說有些數據推薦其實就是沒收聽的並不等於用戶不喜歡它,因為你的前後時間太短了,他們分析了這些就去除了很多不需要的數據,另外把數據分類、噪音去除,這樣一處理數據精簡了很多。

這是一個數據處理圖,這個是很不成比例的,他們用一對對來比較,如果對不成比例就不好做。另外一個成功特點,大家都用matrix foctorization modeling,這是近幾年來做數據處理一個通用的辦法,解決Sparsity問題的有效算法。這個矩陣很稀疏,他可以分成兩個矩陣相乘,我在這裡沒有時間仔細結束了,大致體會是參數減少的工作,沒有這個工作數據稀疏性無法解決。成功算法還有一個特點是很好地解決了冷啟動的問題,比如說把用戶ID的年齡、性別分類,中山大學這方面做的比較好,他們通過這個關係來通過詞的關係挖掘用戶興趣,這種對數據的理解很好地解決了冷啟動的問題。另外他們都成功解決了Time dependence的問題,今年我們比賽跟時間有關係,我們都有一個時間窗幾月幾日幾點幾分推薦的,下一個時段他會不會火,下一部分發生什麼新聞事件,通常我們是沒有把時間因素加引來,現在就需要把時間因素加進來。這個是一個德國人在Track1得了的一名,他在把時間分成不同的Solutions,具體來說兩種方法,一種是Time oware modeling,你在推薦的時候除了其他算法,再加一個跟時間有關係的閾值,這種閾值參數是通過學習出來的,這就使得解決時間問題得到成功。再一個做法是用Seruential features,這跟時間有關,這個Solutions有多長,把跟時間有關係的詞都放進去發現非常有用,我們最後衡量MAP增加5.1%,這是很大的增長。

還有一個成功的特點是用Diverse models,這一點是臺大得了第一名,各種方式,千奇百怪的方法都試了,把推薦當成ranking、當成classification、regression等等方法,這樣每種解決方法都有結果了,最後合併到一塊兒叫Ensemble leaming,這也是許多參賽者在應用上的一個成功的特點。

Tarck1第二名和track2第三名,兩個都得獎,但是他不懂中文,他說我不管什麼問題我用統一辦法處理,叫Prediction with factorization Machines,本來是非常稀疏的二維矩陣被分解了,他這個好在把整個過程是統一的,這裡邊對用戶推薦的東西都是線性的,他引用了second order。不管是什麼factorization 都用0和1表示出來,整個都變成二進位,這一點非常有意思。我們大家都是數據挖掘的高手,KDD—CUP的我們兩個第一名都是中國的,一個臺灣的一個中國大陸的。

現在數據用途從廣告搜索、娛樂、內容等等都要服務用戶,所以推薦技術應運而生,但是推薦系統有幾個要關注的問題。第一個是Context aware的處理,Context包括時間、地點、涉及公司和用戶的情緒、屬性、社交網絡等等屬性,這個問題是我們要很好研究的課題,現在微博推薦也是這樣,就是不同場景下收聽率是不一樣的。再一個就是Heteragenity,有不同形式不同渠道的,你怎麼統一到一塊兒。另外你推薦應該跟它的內容,比如你了解不了解這個人的背景等等。第三個你要做推薦必須以用戶為中心,最重要的是用戶接不接受,你別推薦了半天人家不接受,那也沒用啊。在這裡有很多算法來研究,我們怎麼能讓用戶感到滿意,這樣界面交互很重要,你顯示不好人家不接受,或者寫的詞跟內容不搭界人家也不接受。這每一篇都代表了一篇文章,基本想解決冷啟動問題就是把用戶相關其他信息引進來。現在推薦都跟社區相關,基於社交網絡和用戶可信度的跟隨領導的模型聚類,這個也變成當今所研究的一個問題。再一個是Knowledge—based,你了解的東西你才推薦的清楚,你不了解的東西就推薦不好,所以推薦庫裡面有什麼、喜歡什麼、新穎的東西是什麼等等,這個弄好了才能做好推薦。再一個是Evaluation,你推薦是全部該推薦的都推薦了嗎?推薦的是不是有互相重複的?重複了第二次人家就不喜歡了,根據推薦的東西之間的關係有關,這方面Evaluation就變得更複雜一些,你推薦的東西必須有吸引性,人家才容易接收,  所以系統引進了多因素,有可能推薦不是一次,而是通過對話,這樣推薦才更有目的性。如果不是表示的很清楚,推薦效率就不大。

總之在推薦方面有很多挑戰,我總結了這幾點,主動對健不光是推薦什麼東西,怎麼推薦也很重要,另外隱私保護性也很重要,每個人都有個人行為,你每次推薦都是個性化的,怎麼個性化又怎麼保護隱私這是一個對立的問題,在移動網際網路下怎麼推薦這對我們提出很多挑戰。

最後我把這幾個得獎的人的數據公布一下,也謝謝大家。

本文來源:網易科技報導 責任編輯:王曉易_NE0011

相關焦點

  • 電子商務大數據挖掘常用算法
    關聯規則推薦算法分為關聯規則形成和推薦形成二個階段。商品推薦子系統先根據關聯規則對當前客戶沒有瀏覽的商品進行推薦度計算,再根據推薦度的大小,推薦未瀏覽的商品給當前客戶。電子商務中具有海量的交易數據和大量有趣的業務關係,在典型的購物籃分析中,它可以幫助許多商業決策。
  • 數據挖掘常用的算法
    很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?  知識發現(KDD)就是從大數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。  數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。
  • 資料|《常用數據挖掘算法總結及 Python 實現》
    今日資料推薦《 常用數據挖掘算法總結及 Python 實現 》這份資源非常適合相關的從業人員或大數據愛好者,該文檔總結了常用的數據挖掘的算法原理以及 Python 實踐內容,為初學者提供良好的參考資料目錄:第一部分:數據挖掘與機器學習數學基礎第二部分:機器學習概述第三部分:監督學習--分類與回歸第四部分:非監督學習--聚類與關聯分析
  • 【乾貨】數據挖掘中算法學習的2條進擊路線
    這說明你尚不具備深入開展數據挖掘算法學習的能力。你會發現到處都是門檻,很難繼續進行下去。 第1條路線(基於普通最小二乘法的)簡單線性回歸→線性回歸中的新進展(嶺回歸和LASSO回歸) → (此處可以插入Bagging和AdaBoost的內容) → Logistic回歸 →支持向量機(SVM) →感知機學習→神經網絡(初學者可先主要關注BP算法) →深度學習
  • 深度解析數據挖掘在推薦系統中的應用
    在移動網際網路時代, 我們會接收到很多由推薦系統推薦過來的信息。比如在逛淘寶、京東時,你會看到「猜你喜歡」這樣的推薦商品; 刷今日頭條、抖音時會首選看推薦的新聞、短視頻,接收來自推薦系統的信息似乎已經成了一種習慣。實際上,在構建推薦系統的過程中會用到大量的數據挖掘算法。
  • 吳信東:數據挖掘算法的經典與現代
    其中,明略科技首席科學家、明略科學院院長吳信東做了題為《數據挖掘算法回顧:經典與現代》報告,總時長為1個小時左右,內容主要分為三個部分:數據挖掘中代表性的領域、數據挖掘的經典算法、2006年之後的現代數據挖掘技術。下文是本場報告的文字版,由 AI 科技評論編輯。
  • 數據挖掘:基於機器學習方法的POI品類推薦算法
    如何使用這些已校準的POI數據,挖掘出有價值的信息,本文進行了一些嘗試:利用機器學習方法,自動標註缺失品類的POI數據。例如,門店名稱為「好再來牛肉拉麵館」的POI將自動標註「小吃」品類。機器學習解決問題的一般過程:
  • 關聯規則的挖掘與應用——Apriori和CBA算法
    文|光大科技大數據部 魏樂 盧格潤1 關聯規則1.1 關聯規則基本概念1.2 Apriori算法基本思路2 關聯分類2.1 CBA關聯分類算法思路這種利用頻繁項集挖掘潛在關係的技術對於貨架擺放、購物推薦、捆綁銷售和新聞推薦等都很有應用價值。但在實際應用中,人們可能更願意關注由關聯規則理論挖掘出的頻繁項集,常將其用作基礎數據處理,再集成其他算法從而解決實際問題,比如說數據挖掘中常見的分類問題。
  • 【大數據】最新大數據學習路線(完整詳細版】
    非常適合用來做大數據的實時查詢。Facebook用Hbase存儲消息數據並進行消息實時的分析ZooKeeper:針對大型分布式的可靠性協調系統。Hadoop的分布式同步等靠Zookeeper實現,例如多個NameNode,active standby切換。Sqoop:資料庫相互轉移,關係型資料庫和HDFS相互轉移Mahout:可擴展的機器學習和數據挖掘庫。
  • 總被系統推薦雷同信息?騰訊天衍實驗室糾偏算法攻克難題
    在我們瀏覽各大網站和APP時,受推薦系統影響,大量相似產品反覆出現的情況屢見不鮮,這不僅會產生視覺疲勞,而且很難讓我們做出理性的判斷和購買決策。究其原因,主要是目前主流的推薦系統採用的都是大數據模型篩查方式,會產生較大的路徑依賴。
  • 數據挖掘之關聯規則算法(Apriori)
    1 關聯規則挖掘定義大多數關聯規則挖掘算法通常採用的一種策略是,將關聯規則挖掘任務分解為如下兩個主要的子任務:頻繁項集產生(Frequent Itemset Generation關聯分析的目標發現頻繁項集;由頻繁項集產生強關聯規則,這些規則必須大於或等於最小支持度和最小置信度。
  • 大數據_數據挖掘技術分類及應用
    大數據簡介   大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。研究機構Gartner給出了這樣的定義。
  • 十大經典數據挖掘算法—Apriori
    打開APP 十大經典數據挖掘算法—Apriori 發表於 2018-02-04 09:37:56 關聯分析 關聯分析是一類非常有用的數據挖掘方法,能從數據中挖掘出潛在的關聯關係。
  • 清華178頁深度報告:一文看懂AI數據挖掘
    本期的智能內參,我們推薦來自清華大學人工智慧研究院、北京智源人工智慧研究院、清華-工程院知識智能聯合研究中心聯合推出的人工智慧數據挖掘報告,詳細解讀了數據挖掘技術應用領域、研究概念、算法實現、與發展趨勢。
  • 從概念到應用,這一次終於把數據挖掘給講明白了
    作者 | 陳封能 來源 | 《數據挖掘導論》(原書第2版) 導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。
  • 二十、數據挖掘之Eclat算法介紹
    Eclat算法簡介數據格式Apriori算法和FpGrowth都是從項集格式{TID: itemset}的事物集中挖掘頻繁模式,其中TID是事物標誌符,而itemset是事物TID中購買的商品。這種數據格式成為水平數據格式。
  • 資料|數據挖掘:概念、模型、方法和算法(第2版)/ 國外計算機科學...
    《數據挖掘:概念、模型、方法和算法(第2版)/國外計算機科學經典教材》介紹了通過分析高維數據空間中的海量原始數據來提取用於決策的新信息的尖端技術和方法。《數據挖掘:概念、模型、方法和算法(第2版)/國外計算機科學經典教材》開篇闡述數據挖掘原理,此後在示例的引導下詳細講解起源於統計學、機器學習、神經網絡、模糊邏輯和演化計算等學科的具有代表性的、前沿的挖掘方法和算法。書中還著重描述如何恰當地選擇方法和數據分析軟體併合理地調整參數。每章末尾附有複習題。
  • SQL Server2008中的9種數據挖掘算法淺析
    【IT168 技術文檔】  在sql server2008中提供了9種常用的數據挖掘算法,這些算法用在不同數據挖掘的應用場景下,下面我們就各個算法逐個分析討論。  1.決策樹算法  決策樹,又稱判定樹,是一種類似二叉樹或多叉樹的樹結構。
  • 乾貨 面向大數據的時空數據挖掘
    面向大數據的時空數據挖掘的重要性  20世紀90年代中後期,數據挖掘領域的一些較成熟的技術,如關聯規則挖掘、分類、預測與聚類等被逐漸用於時間序列數據挖掘和空間結構數據挖掘,以發現與時間或空間相關的有價值的模式,並且得到了快速發展。
  • 騰訊光影研究室憑GYSeg算法斬獲MIT場景解析評測第一
    近日,騰訊光影研究室(Tencent GYLab)憑藉自研語義分割算法GYSeg,在MIT Scene Parsing Benchmark 場景解析任務中刷新世界紀錄拔得頭籌,領先商湯科技、亞馬遜、復旦、北大、MIT等國內外研究機構和高校。