騰訊的內容算法是如何工作的?-虎嗅網

2020-12-25 虎嗅APP


現如今,算法已被應用到網際網路各領域之中,其中以媒體內容領域尤為突出。算法不僅能實現多樣化、個性化的內容精準推薦,還能賦能內容生產,輔助內容運營。


近期,騰訊PCG新聞產品技術部算法中心李彪應邀來到騰訊媒體研究院作內部分享,詳細梳理了算法應用產品場景,以下為部分內容實錄。


今天我跟大家分享的主題是算法賦能的內容處理和分發,重點講一下內容處理。開始之前,先介紹一下算法在騰訊新聞的應用場景。



第一個,騰訊新聞APP中各種內容形態的理解和分發,涉及推薦系統,以及AI算法賦能內容的運營。


第二個,將騰訊新聞推送到微信,每次一個大圖和三條新聞資訊,一共四條,點進去有些底層頁能跳轉到騰訊新聞APP。


第三個,海豚智音,一個「聽新聞」神器,主要用於智能音箱、車載音響和智能家電,目前能提供市場上70%的語音資訊;它涉及語音摘要、語音錄製和個性化語音推薦算法。


第四個,輔助創作,涉及寫稿、內容創作、篩稿、配圖等非常多的東西,也是本文介紹的重點。


一、算法的框架


算法整體框架由底層算法和上層應用組成。底層算法有NLP方面的詞法、句法、篇章理解等、視覺方面的圖像質量、圖文匹配、圖像視頻理解等算法,還有針對搜索的一些基礎算法。


底層算法的上面嫁接了兩大類應用,分別是推薦系統和搜索,推薦系統可分為五步。



1.內容處理


它也稱內容管理系統,裡面嵌入了文本分類、打標籤、摘要提取、語意分析、內容去重、內容分析、糾錯、配圖、篩稿等等和內容處理相關的算法。


2.索引


將初選完後的內容,即預備分發給用戶消費的圖文、視頻等資訊,加入索引。


3.畫像


它可分成基礎畫像和拓展畫像兩部分。基礎畫像通過用戶分類、Tag等興趣點、用戶基礎屬性、用戶地理位置、用戶使用時間段等情況,為用戶提供個性化推薦;還可以借鑑第三方提供的畫像,為用戶做相應的推薦。


拓展畫像會有一些隱式標識,比如根據他點擊過的新聞序列,用一個向量描述他的興趣點,而不是將他的興趣劃入某個分類或標籤,這個向量也會用在召回和排序中。


4.召回


根據用戶畫像描述的用戶興趣以及用戶行為序列,在庫中找他需要的文章。比如通過畫像的標籤進行召回、通過模型預測用戶的畫像和文章的匹配度進行召回、根據用戶的行為序列進行召回等等。


召回時,還要綜合考慮文章的熱度,比如四川地震,可能不是用戶的興趣,但是是近期熱點,也要召回,讓用戶消費這篇資訊。


此外,還得考慮人群聚類,用戶可能和其他人群有類似的興趣,但不體現在用戶標籤中,這時就需要做一些聚合,把別人喜歡的東西推薦給用戶。


最終通過上面多種召回途徑在庫裡找出比較大的候選文章集合,準備推薦給用戶,但最終只展示一部分,因此需要進入精排選出top的。


5.精排


這裡面涉及到排序算法,把底層最基礎的數據維度,比如用戶維度、內容維度設計出各種角度的特徵,包括簡單的值特徵,以及交叉特徵,甚至複雜的模型計算出的特徵,輸入到DNN+FM模型做點擊和時長預估。


它的目的是從而從幾千篇候選資訊中篩出幾十篇,為什麼不是10篇、20篇呢?


因為這中間要考慮業務需求,比如多樣性因素,不能把用戶感興趣的資訊全給堆出來,要講究文章的多樣性,這裡面就涉及到去重打散,要給用戶更多的候選文章。


二、算法賦能內容


算法賦能內容運營,在公司內部叫青雲項目,英文是Dreamwriter,它的主要目的是通過算法來輔助內容的運營,提高它的工作質量和效率。



先看看這個項目的背景,作為公司級的內容媒體平臺,有非常多的稿件要入庫,存在稿件的精編、糾錯、篩稿、配圖、視頻增量和熱點監控這六大問題,整個流程非常耗時。這擠佔了編輯參與深度創作的時間,我們需要通過算法來解放他,讓他更好地創作。


三、算法還能做什麼?


1.自動寫稿


輔助創作算法能寫短文、能寫長文,它是如何做到的呢?基於模版的方法來寫作。


實際套路是根據原始的數據抓取或者是採買一些實時數據格式化入庫,然後進行邏輯的判斷,再根據信息的類型、類別選擇相應的模版生成稿子去發布。



這裡有兩個疑問:如何構造模版庫呢?如何做邏輯判斷呢?


構造模版庫時,先通過人工,比如編輯和運營會先寫比較簡單的稿件模版,基於這個模版,我們通過算法去迭代,然後通過模版填充了一些詞,再挖掘出詞在不同語境下的不同模版,再循環迭代挖掘得到更多的模板。模板進入模板庫前,需要人工根據判斷準則審核一下。


接下來,我們再結合深度學習生成的模型提升模版的多樣化,比如一句話的表述,它可以表述成A,也可以表述成B,通過算法找出A和B的變化,最簡單的是進行同義詞的替換。最後再攻克表述銜接性的問題,就能得到一個更好的模版庫了。


有了模版庫之後再進行邏輯判斷,這時更多的根據內容源、所屬的場景類別決定使用哪些模版。我們現在的模版範圍挺大的,有一些類別是不需要人工審核,就可以直接發稿。


不過當前業界能自動寫稿的場景還是比較有限的,從流程看它比較依賴於算法挖掘出來的模版,當模版沒有套路時就很難做,比如讓它寫一篇文學作品,當前是做不到的,因為它需要巧妙的構思。


如果讓它寫一篇財經報導或者球賽報導,由於模式比較固定,機器肯定會做的很好。此外,生成式機器寫稿還存在一些問題,比如新冷詞不能很好地嵌入到文章裡、生成的句子會重複等。


2.自動配圖


這個工作在新聞裡面非常重要,它的目的是提升用戶體驗,吸引用戶去瀏覽資訊。有些文章是沒有圖片的,如何通過算法給它配圖?當文章比較長的時候,如何實現分段配圖?


有的文章裡面只有一兩張圖,由於三圖文的點擊率會比單圖的高,如何湊滿三張圖呢?有時圖片比較多,如何選出高質量的圖,還和語意匹配呢?


最開始選圖時,只要能過濾掉表情圖、微博、文字圖和表格圖就行,這時使用圖像的分類模型就能實現,缺點是有時候它選出來的圖和文章的語意匹配度不好。


舉個例子,比如之前網上畫了一個戶型圖,標題是君住長江尾我住長江頭,意思是說房子特別長,你住這頭,我住那頭,每天要跑很遠才能見面,第一版配的圖是它的報價,但是戶型圖沒有配。後來利用圖文語意匹配的模型解決了上述問題,整個語義匹配模型準確度超過90%,如何實現的呢?


先對標題或者正文的內容做一些標識,訓練時計算正例的圖片特徵和負例的圖片特徵之間的相對距離差,大於一個閾值,就認為語意匹配成功,即正例的圖片比負例的圖片和文章主題更貼近。


這裡引出另一個問題,即如何選正例的圖片和負例的圖片?通過人工在之前分發過的文章列表中找和文章語意最相似的圖片作為正例,至於負例,將在正文裡面達到一定條件的圖片作為負例,或者隨機採一些負例。


在上述基礎之上,對於無圖的文章,我們先建立一個圖庫,這個比較簡單,可以和第三方合作。還將歷史分發的有問題的圖片建立另一個圖庫,並監控它的標籤。


有了圖庫,無圖、少圖、多圖的文章面臨的配圖難題就迎刃而解了。不過模型還需要進一步的改進,比如圖像所處的位置和文本的匹配,再比如圖像主體和文章想描述的主體之間的語義匹配。


3.自動提取摘要


它可分為兩種,一種是全文摘要,另一種是分段摘要。如何提取摘要呢?整個過程可分為四步。


第一步是預處理,做一些片斷的分析,比如圖像的注釋不適合做摘要,比如整篇文章沒有幾個字也不適合做摘要。


第二步是給句子打分,就是看看文章的哪些句子更可能被選為摘要的句子,假設跟文章標題最相關的句子作為摘要候選的句子,據此提取很多特徵,比如句子的位置,在段首或者段尾的句子更有可能表達最重要的信息。


第三步是句子選擇,結合句子打分再考慮冗餘性和連貫性來篩選句子,篩選句子時,會遇到候選句子有很多的情況,需要去掉冗餘,這時先從庫中選一個句子,再和已選的句子集合進行匹配,相似度高的句子就放棄。還會遇到句子評分很高,但不能體現文章的核心內容的情況,這時需要做一些處理。


第四步是後處理,對選出來的句子做一些融合,再形成摘要,再然後通過人工評價內容是否通順、信息覆蓋是否全。


此外,智能的語音資訊也不能太長,因為10分鐘或5分鐘的語音會讓用戶很煩燥。這時需要對一篇新聞資訊提取出幾個摘要,確保一分鐘之內就能讀完。


4.自動生成短視頻


基於摘要配圖,再綜合文本,就能自動生成短視頻,即圖文轉視頻。有些文章,特別是娛樂類的圖片比較多,文字也不少,但是沒有對應的視頻,怎樣才能把這些圖文修成一個視頻呢?


先出一些摘要,再把摘要的句子打散,把這些句子配到每一個圖片上面。然後通過人工錄播或合成人聲搞定聲音,再做圖像之間的渲染和背景音樂的選擇,就生成了一個視頻。雖然它跟真實的視頻有一些差距,但是它的效果還是非常好的。


對於圖片比較少的文章,不足以支撐幾十秒的視頻時,需要通過自動配圖先給它配一些圖,再通過自動提取摘要萃取文章精華,最後自動生成短視頻。


5.分類平臺


AI輔助運營時,有很多分類,比如文章質量分、調性分、自動篩稿、一級分類、二級分類、地域分類、題材分類,歸根到底,從算法的角度來說就是分類任務。


最難的就是定義分類的標準,比如說按照質量分,質量分為三級,什麼是一級、二級、三級,肯定有一個標準。在這個過程,編輯老師需要和算法團隊頻繁溝通如何制定標準,如何標註數據,還得不斷反饋這些標註的質量。


標準確定後,累積一定樣本就可以通過文本分類方法來做,我們分類平臺能自動訓練,模型選擇,評估和在線服務化。


6.自動糾錯


由於錯別字的範圍不太好限定,所以錯別字的糾正非常難。常見的同音或近意錯別字,比如發標、發表,很容易糾正。


再難一點的是搭配錯誤,詞或者是字本身沒有錯誤,但是它不適合在這個語境用,搭配錯誤涉及到長距離的語意搭配錯誤和短距離的語意搭配錯誤。更難的設計知識內的錯誤,比如政治問題或者歷史人物信息等錯誤。



從應用角度來講,靠算法糾錯有時候不一定很準,有些本身沒有錯誤但算法提示錯誤,比如某一個人物講的話,這時需要標紅提醒一下。有時這個地方可能錯了,但算法沒有找到合適的詞去糾正,就有錯誤提醒。


自動糾錯大體可分為兩步。第一步是對輸入的文本先進行預處理,再加入一個規則系統。通用規則有成語、諺語,它是約定俗成的,字不對的話直接糾正過來就行。


第二步是通過模型糾正中高頻詞,通過自創方法糾正低頻詞。一般某一個字錯了,它的分詞也是錯的,這種需要結合上下文進行糾正,是比較難的。對於高頻詞的糾正,可以通過算法模型學習來實現。對於低頻次,就非常難學好。


7.生成簡報


即綜合好幾篇文章,自動生成一篇綜合性的文章,這個完全由算法來做。怎麼做呢?


首先是選文章,根據過去一天裡用戶反饋的信息,拿出一個候選的文章集合,再從每篇文章裡抽取摘要。然後是配圖和選圖,這樣就得到了一個由標題、摘要和圖片組成的比較短的內容,之後把這些文章整合在一起。接下來就是生成一個讓用戶更容易點的標題,最後需要人工審一下。


8.熱點監控


熱點監控會對不同來源的熱點做實時監控。監控之前需要更快的找到熱點,如何實現呢?


第一種是通過微信和微博,微信熱點通過內部合作來找到,微博熱點通過抓取大V之間的轉發、轉評贊等方式發現熱點。


第二種是根據用戶的消費情況找到熱點,相對會滯後一點,比如推薦系統裡面的統計熱點召回。


第三種是通過庫存的網站發現所謂的熱點,比如自媒體的文章同質非常多,通過算法得到潛在的熱點。


相關焦點

  • 內容處理和分發中的算法應用探究
    近期,騰訊PCG新聞產品技術部算法中心李彪應邀來到騰訊媒體研究院作內部分享,詳細梳理了算法應用產品場景,以下為部分內容實錄。今天我跟大家分享的主題是算法賦能的內容處理和分發,重點講一下內容處理。開始之前,先介紹一下算法在騰訊新聞的應用場景。
  • 【SDCC 2015現場】算法實踐論壇(上):網易、京東、騰訊的算法優化...
    現場詳解如何通過基於搜索用戶日誌挖掘、基於Query短語權重的相似性糾錯等Query優化手段實現RPM上升,「精確」召回更多廣告,提升單次點擊價格。圖:網易技術副總監 鞠奇以網上商城搜索查詢為例,當廣告主在廣告平臺投遞廣告後,用戶在網上商城通過關鍵詞搜索購買連衣裙,以「query1:連衣裙」實現「原價」的精確召回,以「query2:長款連衣裙」實現擴展召回,但「query 3:連衣裙女」又當如何解決
  • 拯救「手癌」:騰訊新聞推出中文糾錯算法能力
    內容生產的坑有千千萬,這其中,要數讓用戶怒點負反饋、狂扣編輯雞腿的「錯別字」最讓人頭疼。為了揪出惱人的「錯別字」,鵝廠的寫稿機器人Dreamwriter再拓展能力項,想用AI算法加持採編小夥伴的工作。本期全媒派(ID:quanmeipai)採訪了項目幕後團隊,探秘這套AI糾錯算法究竟如何治癒編輯部「手癌」。AI算法進行中文糾錯,到底有多牛?想讓計算機進行中文糾錯,可不像人類在語文考試中火眼金睛用筆「捉蟲」那麼簡單。
  • 全球主流社交媒體算法大解析-虎嗅網
    其次,文中所展示的圖表並不是算法的可視化,它們更多地是展示某些決定性問題,而不是算法方程式。本文作者為Ste Davies,由騰訊媒體研究院編譯。你可以遵循這篇文章來迭代自身內容,以確保能在各大平臺獲得最大的影響。
  • 騰訊新聞:優等生的長期主義和內容價值
    拒絕簡單地用算法投餵用戶,而是用好內容為用戶打開眼界。這樣的內容平臺,也終將顯現出它獨特的內容價值。現在,肯花大力氣打磨深度原創內容的媒體平臺少之又少,用算法給用戶「投餵」內容,似乎是一項成本低廉、穩賺不賠的生意。而騰訊新聞則走了另一條路,想用優質內容給用戶更新、更好的內容價值——打開眼界,打破信息繭房。
  • 騰訊新聞推出中文糾錯算法能力,從此AI拯救「手癌」不是夢
    內容生產的坑有千千萬,這其中,要數讓用戶怒點負反饋、狂扣編輯雞腿的「錯別字」最讓人頭疼。為了揪出惱人的「錯別字」,鵝廠的寫稿機器人Dreamwriter再拓展能力項,想用AI算法加持採編小夥伴的工作。鵝廠勘誤算法能力全透視從今年春節後啟動,到六月份在騰訊新聞CMS系統全量上線、實現新聞各資訊品類全覆蓋,Dreamwriter的勘誤算法能力可謂歷盡了九九八十一難。
  • 騰訊創始人Tony對談:如何看待現在的騰訊,以及將來的騰訊?-虎嗅網
    對騰訊而言,我們需要一個新的平臺,去適應這樣的變化,方便小夥伴們能高效和真誠的溝通,樂問承載了這樣的理念。問:樂問上線以後,有些部門並不希望自己的產品或服務在樂問上被討論,特別是一些「敏感」向內容,比如考核,但你提倡開誠布公地討論,你不怕因為這種討論或吐槽太多,導致怨氣太重,局面失控嗎?
  • 連續四年萬人參賽,騰訊廣告算法大賽逆算賽題火了,冠軍:我用BERT
    它就是騰訊廣告算法大賽,這場全球最受矚目的算法盛事今年已經舉辦到了第四屆。騰訊廣告副總裁蔣傑為 2020 騰訊廣告算法大賽決賽致辭。本屆騰訊廣告算法大賽由騰訊廣告主辦,騰訊雲 AI、騰訊大數據、騰訊招聘、騰訊高校合作以及英特爾聯合舉辦。與此同時,騰訊會議為大賽全程提供遠程協同、線上會議及直播等服務,英特爾和 TI-ONE 共同支持 AI 算法平臺。
  • 2020騰訊ConTech大會:2021年騰訊新聞將全面升級內容生態計劃
    此次大會以「好奇心睜開眼睛」為主題,騰訊副總裁陳國紅、全球暢銷書《槍炮、病菌與鋼鐵》、《劇變》作家傑瑞德戴蒙德、全球暢銷書《灰犀牛》作家米歇爾沃克、中國疾病控制中心傳染病前首席科學家曾光、奧運會冠軍鄧亞萍、著名神經生物學家路飛、嫦娥一號會上,騰訊副總裁陳國紅、騰訊新聞運營總經理黃晨霞和騰訊新聞產品總經理馮濤分別從內容生態系統的用戶需求、內容運營和技術支持三個角度介紹了去年騰訊新聞的發現和成績
  • 內容算法時代,如何引爆用戶流量?
    一、算法分發知多少?儘管算法分發中應用了各種高深的算法,但其基礎原理卻是樸素的:更好地了解待推薦的內容,更好地了解要推薦給的人,才能更高效的完成內容與人之間的對接。從這個角度來看:斷物識人,是一切推薦行為的起點。
  • 2020 Techo開發者大會召開,騰訊多媒體實驗室推出AI媒體內容生產...
    李松南表示,近期多媒體實驗室推出了AI媒體內容生產平臺——智慧媒體,可以通過搭建基於跨模態(圖像、音頻、文本、語音)算法的多媒體內容分析和理解框架,實現媒體標籤、分類、檢測、摘要、內容描述等功能。論壇上,李松南重點介紹了智慧媒體的內容生產。他指出,媒體內容包含視頻、圖片、聲音及文字等多種形態,綜合使用這些媒體形態的技術即為多模態技術。
  • 李國飛:全面反思騰訊的戰略(騰訊的兩難)
    ;二是內容分發算法,包括對內容特徵的分析以及用戶所處的環境特徵分析(也就是當時用戶是在辦公室、家裡、出差地等)。展望未來,如果算法沒有大的突破,騰訊廣告的增長也不能太樂觀。再舉一個例子,近兩年由於抖音發展非常迅猛,騰訊下了很大決心重啟微視,抽調精兵強將,並出重金獎勵優質內容(曾有傳言說本年度會補貼30億元),同時通過QQ、QQ空間、大王卡以各種獎勵形式強推抖音,上個月還把時下最火爆的綜藝節目《創造101》的點讚機制引入微視,可以說傳統上最強的拉新手段全都用上了,效果如何呢?
  • CB算法:基於內容的推薦算法的基本原理
    近幾年,今日頭條、抖音等產品的誕生,也使得基於內容的推薦算法這一古老算法的崛起。本文將簡要闡述基於內容的推薦算法的基本原理,enjoy~基於內容的推薦算法是眾多推薦算法中的一種,是一種機器學習算法。可以說推薦系統算法是機器學習算法應用在我們生活中最普及的算法。基於內容的推薦算法(Content-Based Recommendations CB),下文中簡稱CB。
  • 2021算法阿里&騰訊&快手上岸!菜鳥小碩校招經驗分享
    (計算機視覺算法工程師)、騰訊微信(視頻號,應用研究)、快手(圖像視頻算法工程師)    在這裡也歡迎各位從事網際網路的小夥伴加入我們,一起交流學習,一起進步。今年秋招算法內卷太嚴重,建議學弟學妹們提前參加暑期實習的面試,一方面積累些面試經驗,另一方面很多公司的暑期實習轉正率(例如阿里)比較高,實習中還能去磨合和崗位的匹配程度,阿里和騰訊的轉正答辯基本上都是在八月中下旬。    刷題刷題還是刷題!!正常的筆試和面試的題目基本上和leetcode、劍指offer差不多,多多練習把思路打開。
  • 知乎的另一面:如何用數據管理內容
    首先,一批用戶針對問題進行關注、回答,產生了基礎的優質內容,然後,其他用戶的自發邀請、關注、收藏、感謝、投票、評論等社交行為,使得這些內容獲得了更廣泛的傳播和關注,覆蓋的人群不斷擴大。在知乎,社交行為催生了優質內容的生產與傳播,而優質內容又引發了下一輪新的社交行為。如何用大數據做用戶興趣識別?
  • 騰訊新聞發布 ConTech 背後:爭奪內容變革期新紅利
    內容紅利期真的過了嗎?用騰訊公司副總裁陳菊紅髮布的數據看,還沒有。人們可能還沒有發現老年、低幼、低學歷內容用戶正撲面而來,低學歷群體甚至達到4.79億,而這三個群體的用戶還在加劇增速。數據背後,就是紅利。只是紅利期會持續多久,內容創業者們該如何抓住,值得有勇氣的人們去探索。
  • 騰訊多媒體實驗室推出AI媒體內容生產平臺「智媒...
    李松南表示,近期多媒體實驗室推出了AI媒體內容生產平臺——智慧媒體,可以通過搭建基於跨模態(圖像、音頻、文本、語音)算法的多媒體內容分析和理解框架,實現媒體標籤、分類、檢測、摘要、內容描述等功能。  論壇上,李松南重點介紹了智慧媒體的內容生產。他指出,媒體內容包含視頻、圖片、聲音及文字等多種形態,綜合使用這些媒體形態的技術即為多模態技術。
  • 騰訊多媒體實驗室推出AI媒體內容生產平臺「智媒」
    李松南表示,近期多媒體實驗室推出了AI媒體內容生產平臺——智慧媒體,可以通過搭建基於跨模態(圖像、音頻、文本、語音)算法的多媒體內容分析和理解框架,實現媒體標籤、分類、檢測、摘要、內容描述等功能。論壇上,李松南重點介紹了智慧媒體的內容生產。他指出,媒體內容包含視頻、圖片、聲音及文字等多種形態,綜合使用這些媒體形態的技術即為多模態技術。
  • 騰訊同傳博鰲出洋相,YouTube Kids放棄算法改用人工
    博鰲騰訊同傳昨日的博鰲亞洲論壇,騰新同傳AI機器人被官方指定為同聲傳譯合作夥伴,這讓同傳從業者感到危機,但現實是怎麼樣的呢?在現場嘉賓觀眾可以看到雙語字幕,騰訊同傳不斷重複著某個詞彙,且與翻譯沒有任何關係,場面一度十分尷尬。
  • 內容算法時代,如何引爆用戶流量? - 36氪
    儘管算法分發中應用了各種高深的算法,但其基礎原理卻是樸素的:更好地了解待推薦的內容,更好地了解要推薦給的人,才能更高效的完成內容與人之間的對接。從這個角度來看:斷物識人,是一切推薦行為的起點。常駐點結合其他信息,可以推測用戶的工作地點、出差地點、旅遊地點。這些用戶標籤非常有助於推薦。」(摘錄自今日頭條推薦算法原理全文詳解——曹歡歡博士)內容畫像和用戶畫像,是一個相互影響的循環系統。內容畫像決定人的畫像,自然是最容易理解的。