今日頭條的引擎是怎麼樣工作的?

2021-01-12 雷鋒網

把媒體內容分發給用戶,「你關心的才是頭條」,對於今日頭條這個產品,相信大家都不陌生。那麼,你是否好奇過,今日頭條是如何做到,向每個讀者推送不一樣的、據稱是符合讀者每個人不同興趣的內容的呢?今日頭條算數中心執行總監劉志毅在日前於深圳北京大學滙豐商學院舉行的「數據之美」論壇上做了介紹。

首先,數據從哪裡來?

雖然對於頭條來講,其用戶量、用戶的粘性時間已經足夠大了,但是,要怎麼樣精細,怎麼樣的數據才是可信賴的,怎麼樣的數據是可復用的?

對於數據所產生和獲取的流程,今日頭條算數中心執行總監劉志毅拋出一道小問題來介紹:

現在面前有很多顆糖果,然後有兩個人要把這個糖果的數量數清楚,有一個人他會加減乘除地來數,3顆3顆數,5顆5顆地;還有一個人就很笨,只會一顆一顆,永遠一顆一顆地數,那問一下,是哪一個人能夠先把這一大堆糖果數清楚啊?

事實上,按正常的邏輯確實應該回答「第一個」的,「但是在網際網路公司,答案是第二個,因為雖然是一顆一顆地數,但他一秒種可以數一萬個,所以他更直接更快速。」這是機器學習發展到今天的成果,機器分發的效率一定大於人工分發。在2016年的年終,易觀發布的第三方數據顯示,如今機器分發的比例已經超過了人工分發。

分發糖果與分發內容邏輯是一樣的。那麼,這背後,頭條具體的引擎是怎麼樣工作的?這時候需要把文章和用戶兩端的數據連接起來。

據劉志毅解釋,

首先文章進入機器引擎後,頭條需要機器識別它們的關鍵詞,識別其涉及到的內容領域,用戶對它們的反應,然後把結果放到一個特徵向量空間中。

與此同時,用戶端也發生了同樣的變化。

「然後我們去看這兩個向量,怎麼樣匹配度最高,然後就推送給他。」

具體來說,這些用以匹配的數據變量可能包括幾個大方面的特徵:

首先,這個用戶,他的性別興趣,年齡地域用的手機是什麼?

家鄉是哪裡?關注什麼東西?會點什麼樣的廣告?

然後他目前處在什麼樣的環境?今天有沒有下雨?用WiFi還是用3G,4G,2G?

這個文章本身是一分鐘之內的快消息,還是幾年之內看都不算失效的消息?用戶的反饋對他們是什麼樣?

這個文章有什麼樣的關鍵詞……等等

這些數據將產生一個百億級別的特徵,今日頭條最終根據特徵判斷用戶的需求,把內容呈現到每一個人不同的手機屏幕上。

但是,這還不是最技術範的地方。數據部門真正做的事情是,「從剛剛所描述的這個過程中積累出來一些東西,然後讓他去發揮價值,」劉志毅說道,這才是數據挖掘的價值所在。

「這只是我所想要表達的數據維度的1%,」

用戶點擊什麼文章?沒有點擊什麼文章?

點讚還是點踩?

閱讀速度快不快?完成多少比例?

對某一個話題產生了持續性的還是短暫的影響?讀完之後有沒有講到什麼評論?

那他用的是什麼樣的手機在讀你的東西?是什麼樣的手機的什麼型號?去年用這個型號,今年是不是還用這個型號?

……

劉志毅稱,「這樣的信息都會作為這個用戶的組合特徵的一部分,然後我們去提取這一部分來把它作為數據的樣本進行分析。」

數據到哪裡去?

知道了數據怎麼來之後,數據要到哪裡去,產生怎樣的價值?這又是一場好戲了。

據雷鋒網了解,今日頭條曾推出了「今日頭條媒體實驗室」,這個實驗室的作用,相當於差異化內容創作的「參謀」。就是說,其將通過每一篇文章的傳播數據去告訴不同的內容的寫作者創作者,假如想要影響某一個特定的人群,需要怎麼樣創作內容,並且在什麼樣的平臺上,以什麼樣的方式在什麼樣的時間點發布是效率最大化的。

劉志毅舉了這樣一個例子:以美國總統選舉為例,在中國希拉蕊一直熱度是領先,但是跟美國人投票不一樣。最後希拉蕊敗選,但是她敗選之後,在頭條平臺上面的熱度也降得非常快,這個可能跟中國人對美國時政事件的關心規律有關係,那麼,媒體則會依據這個來進行內容創作。

另外一個是,數據也許可以呈現出人類作者意想不到的角度:在今日頭條與南方周末的合作中,大家都關心學區房房價的問題,但數據顯示——在這些事實之外,跟學區房同時出現的概率最高的詞中間,「離婚」排在前3位。

這就是計算機輔助報導的一種方式,也是大數據、AI帶給傳統行業的變革。

AI帶給商業市場更多機會

除了反哺媒體創作,閱讀數據還有哪些想像力呢?

透視市場潛力

雷鋒網此前報導,在一些數據密集型的產業,都成為了AI產業應用孵化的首選之地。接下來看了OPPO和vivo的案例,你就不會奇怪了。

眾所周知,去年,手機市場一個關注度頗高的話題是:大家發現主流手機品牌不那麼景氣了,包括蘋果,但是有兩家廠商非常受關注——OPPO和Vivo。

「OPPO跟Vivo做了一件很有意思的事情,他們在345線城市的用戶很多,但是他們請了很多跟一二線城市的口味更匹配的代言人來作為宣傳他們品牌的代言人。這是他們根據通過閱讀數據產生的決定。他們充分把握住了345線城市對於手機的需求。」

雷鋒網了解到,根據頭條閱讀的數據發現,345線城市對於手機的具體參數、性價比方面表現得不那麼敏感,但對於手機的體驗的介紹,卻是閱讀量遠高於一二線城市的。「所以當OPPO沒有把大部分的推廣和宣傳經費放到線下的渠道去影響345線城市的時候,他後面的成功,也是在閱讀數據上能夠發現的奇妙的地方。」

總的來說,劉志毅表示,AI之所以影響人類各行各業,是因為,「閱讀其實是一種人們對於自我歸類的一種方式,所以頭條上面閱讀數據其實是人在不同的組別中間自我歸類的一些信息,這些規律的信息產生了我剛才所說到的所有的價值。」

封面圖來自網絡

相關焦點

  • 今日頭條啟用新LOGO
    「今日頭條」是一款於2012年上線的基於數據挖掘的推薦引擎產品,內容涵蓋科技、體育、健康、美食、教育、三農、國風、NBA等超過100個垂直領域。近日,今日頭條宣布啟用新版品牌LOGO。自2012年上線以來,「今日頭條」的產品圖標由象徵傳統報紙頭版的灰色背景和傾斜的紅底白字「頭條」設計而成,隨著時間的發展,經歷過多次的版本更新。
  • 今日頭條創始人張一鳴:機器學習將會大規模改變信息傳播的方式...
    記得從中學到剛工作的那段日子,每周四下午都會有點高興,因為下班或者放學後能買到南方周末。一直以來,我始終保持著信息獲取重度用戶的習慣,並長期關注如何解決信息不對稱的問題。11年底,移動網際網路的快速發展,導致信息的創作、分發、討論,發生很大的變化。12年初,我從上一個創業公司離開,重新啟動,做了今日頭條。
  • 今日油條商標侵權今日頭條,「今日」大哥出手了!
    在今日頭條上刷到「今日油條」是啥感覺?近日,一家名為今日油條的店鋪火爆網絡,迅速火成了網紅打卡地。看看店鋪亮眼的裝修,襯託的左右兩邊的店面都黯然失色。無疑是這條街最亮眼的鋪,還有這個非常吸睛的招牌,是不是有點眼熟?這標誌性十足的招牌設計,加上今日油條四個陌生又熟悉的大字,不就是今日頭條的翻版嘛!
  • 自媒體攻略系列之一今日頭條的創作者平臺頭條號的有關問題
    自媒體攻略系列之一今日頭條的創作者平臺頭條號的註冊及創作權益問題 本篇文章是寫給新手,並能幫助新手解決一些困惑的,大V、大牛等自動忽略就行了, 今日頭條是一個通用信息平臺,擁有推薦引擎、搜尋引擎、關注訂閱、
  • 今日頭條集生肖什麼時候結束 今日頭條集生肖攻略
    今日,今日頭條公布了新年紅包玩法,2月8日上線「發財中國年」活動,用戶可以通過集生肖卡,紅包雨,還有拍視頻可以平分10個億.。那麼今日頭條集生肖什麼時候結束?一起來看看今日頭條集生肖結束時間吧!
  • 今日油條,你被今日頭條告了!
    「你關心的,才是頭條」「關心你的,才是好油條」如果你不仔細看還真的會以為「今日頭條」改行賣油條了呢!今天,河南鄭州一家油條店火了!網紅店鋪走紅,模仿今日頭條還疑「碰瓷」格力西貝王思聰咱們先來看一看他家的招牌↓↓↓是不是很眼熟?!今日頭條:正是在下!
  • 【今日頭條】來賓市公安局部署疫情聯防聯控工作
    【今日頭條】來賓市公安局部署疫情聯防聯控工作 2021-01-11 18:21 來源:澎湃新聞·澎湃號·政務
  • 今日頭條推廣案例|看今日頭條推廣如何助力企業實現突圍
    企業發展之初最大的問題就是客戶來源問題,經過幾年的營銷探索之後,學藝在2018年10月開始嘗試在今日頭條和抖音上進行推廣,正是看重了今日頭條推廣海量流量、精準獲客的優勢。今日頭條推廣案例|看今日頭條推廣如何助力企業實現突圍  鎖定今日頭條推廣平臺,精細化投放讓企業成長事半功倍  面對獲客壓力,學藝很早嘗試做搜尋引擎推廣
  • 獨家調查 | 技術公司的B Side:今日頭條如何用1萬名銷售死磕450...
    巨大的失落、沮喪讓他對「今日頭條」的期待完全消失,他之前對這份工作的想像可不是這樣的。2016年9月,正式入職前,劉鳴在位於盈都大廈9層的今日頭條北京總部接受培訓,那是一層明亮寬敞的辦公區,一個人可以佔用巨大的辦公區域,專供培訓使用。「那7天的培訓,就讓你愛上頭條。」劉鳴說。
  • 今日頭條道歉背後 自掘墳墓斷送未來
    昨日,今日頭條被曝旗下抖音APP的廣告中,出現侮辱英烈邱少雲內容,頭條隨後道歉,然而廣大網友對於此似乎並不買帳,人民日報甚至發表微評稱,犯這種錯,犯了改改了犯,這樣的道歉顯得廉價。
  • 今日頭條如何用算法打擊「標題黨」
    調配分發資源,打擊標題亂象 今日頭條雖然提供資訊信息,但是其內部並沒有編輯與記者,平臺上90%的內容來源於頭條號,截至2017年3月底,已有超過60萬個人或組織開設頭條號。這就決定了今日頭條在打擊「標題黨」方面,要做的更多的是從生產層面和分發層面來進行控制。
  • 今日頭條道歉和反思後將加強黨建工作
    關心今日頭條的朋友們:  我真誠地向監管部門致歉,向用戶及同事們道歉。 從昨天下午接到監管部門的通知到現在,我一直處在自責和內疚之中,一夜未眠。  今日頭條將永久關停「內涵段子」客戶端軟體及公眾號。   一、將正確的價值觀融入技術和產品  1、加強黨建工作,對全體員工進行「四個意識」、社會主義核心價值觀、輿論導向、法律法規等教育,真正履行好企業的社會責任。
  • 今日油條被今日頭條起訴,員工回應:我賣的是「今日的油條」
    這家網紅店從名字到圖標,再到店內裝修,都與今日頭條APP有相似之處。根據天眼查APP顯示,字節跳動以商標權權屬、侵權糾紛為案由,將上述網紅店背後的運營公司告到了廣州智慧財產權法院。目前,該案件的裁決文書尚無法在中國裁判文書網搜索到。10月15日,「今日油條」的員工告訴紅星新聞記者,作為員工,他個人認為「今日油條」的意思就是「賣的是今日的油條」,沒有其他意思。
  • 今日頭條用1萬名銷售死磕450億元KPI 銷售每天需打滿400個電話
    「這就是我在今日頭條上班的第一天。」劉鳴向《第一財經周刊》回憶。巨大的失落、沮喪讓他對「今日頭條」的期待完全消失,他之前對這份工作的想像可不是這樣的。2016年9月,正式入職前,劉鳴在位於盈都大廈9層的今日頭條北京總部接受培訓,那是一層明亮寬敞的辦公區,一個人可以佔用巨大的辦公區域,專供培訓使用。「那7天的培訓,就讓你愛上頭條。」劉鳴說。
  • ...基於數據挖掘的今日頭條,是如何在BAT的手臂上砍出一條鮮紅血跡...
    產品定位:今日頭條是一款基於數據挖掘的推薦引擎產品,為用戶提供精準化、個性化的移動資訊平臺,實現內容與用戶的精準連接。那就打開今日頭條看看那些我感興趣的資訊吧,因為我發現相比於傳統的新聞客戶端,今日頭條實在是太節省我篩選新聞的時間了,其實我只是想看點我喜歡的新鮮新聞而已,在睡前我不想關心國家大事,也不想被餵雞湯,反正我這個城市也沒什麼好玩的,工作上也沒什麼挑戰,早睡晚睡點也沒什麼,但總要有點東西來打發我無聊的睡前時光,而今日頭條每次都能夠告訴我喜歡的明星最新的新聞或者視頻,還能夠推送給我笑話段子,就連我這個行業或者本地的最新新聞也會穿插著告訴我
  • 今日頭條極速版邀請碼到底是那個?小白填寫今日頭條極速版如何賺錢?
    今日頭條極速版邀請碼C84H443W或1215690648的另一個賺錢版本叫做:今日頭條極速版,大家在上面看新聞都有收益,我下載了兩個月不到,賺了30400
  • 【今日油條回應今日頭條起訴】日前,一家名為「今日油條」的店鋪...
    文 / 夏洛特2020-10-16 05:38:01來源:FX168 【今日油條回應今日頭條起訴】日前,一家名為「今日油條」的店鋪引起網友的注意,由於該店鋪裝修、logo與今日頭條極度相似,被今日頭條母公司告上法庭,引發網友熱議。
  • 網易新聞,難道是「穿著潮牌的今日頭條」?
    本文主要是從用戶群體的切入視角來探討網易新聞與今日頭條的異同,以及其發展現狀。一位知友戲稱:「網易新聞客戶端的用戶其實和今日頭條是同一批人,這批用戶在今日頭條看完段子,接著就跑到網易新聞客戶端刷評論。」網易新聞,難道是「穿著潮牌的今日頭條」?
  • 「今日油條」被今日頭條起訴侵權,老闆:只是覺得傍大牌好玩
    「今日油條」被今日頭條起訴侵權,老闆:只是覺得傍大牌好玩 今日頭條起訴「今日油條」一事持續引發關注。
  • 今日頭條張超:頭條號將全面升級,一點接入六大產品
    張超認為,內容付費,是2017年以來備受關注的變現方式,接下來,今日頭條也會在內容付費領域進行嘗試。 在分發機制進化方面,今日頭條打出兩大戰略:一是轉型智能社交,推出千人百萬粉計劃(在創作者大會上有過介紹);頭條號平臺升級,全面打通六大產品。第二點是頭條立足於「超級內容平臺」的發展現狀和「智能社交」的轉型方向,為了滿足創作者多元化的創作需求而做出的一項重大的決定。