把媒體內容分發給用戶,「你關心的才是頭條」,對於今日頭條這個產品,相信大家都不陌生。那麼,你是否好奇過,今日頭條是如何做到,向每個讀者推送不一樣的、據稱是符合讀者每個人不同興趣的內容的呢?今日頭條算數中心執行總監劉志毅在日前於深圳北京大學滙豐商學院舉行的「數據之美」論壇上做了介紹。
首先,數據從哪裡來?
雖然對於頭條來講,其用戶量、用戶的粘性時間已經足夠大了,但是,要怎麼樣精細,怎麼樣的數據才是可信賴的,怎麼樣的數據是可復用的?
對於數據所產生和獲取的流程,今日頭條算數中心執行總監劉志毅拋出一道小問題來介紹:
現在面前有很多顆糖果,然後有兩個人要把這個糖果的數量數清楚,有一個人他會加減乘除地來數,3顆3顆數,5顆5顆地;還有一個人就很笨,只會一顆一顆,永遠一顆一顆地數,那問一下,是哪一個人能夠先把這一大堆糖果數清楚啊?
事實上,按正常的邏輯確實應該回答「第一個」的,「但是在網際網路公司,答案是第二個,因為雖然是一顆一顆地數,但他一秒種可以數一萬個,所以他更直接更快速。」這是機器學習發展到今天的成果,機器分發的效率一定大於人工分發。在2016年的年終,易觀發布的第三方數據顯示,如今機器分發的比例已經超過了人工分發。
分發糖果與分發內容邏輯是一樣的。那麼,這背後,頭條具體的引擎是怎麼樣工作的?這時候需要把文章和用戶兩端的數據連接起來。
據劉志毅解釋,
首先文章進入機器引擎後,頭條需要機器識別它們的關鍵詞,識別其涉及到的內容領域,用戶對它們的反應,然後把結果放到一個特徵向量空間中。
與此同時,用戶端也發生了同樣的變化。
「然後我們去看這兩個向量,怎麼樣匹配度最高,然後就推送給他。」
具體來說,這些用以匹配的數據變量可能包括幾個大方面的特徵:
首先,這個用戶,他的性別興趣,年齡地域用的手機是什麼?
家鄉是哪裡?關注什麼東西?會點什麼樣的廣告?
然後他目前處在什麼樣的環境?今天有沒有下雨?用WiFi還是用3G,4G,2G?
這個文章本身是一分鐘之內的快消息,還是幾年之內看都不算失效的消息?用戶的反饋對他們是什麼樣?
這個文章有什麼樣的關鍵詞……等等
這些數據將產生一個百億級別的特徵,今日頭條最終根據特徵判斷用戶的需求,把內容呈現到每一個人不同的手機屏幕上。
但是,這還不是最技術範的地方。數據部門真正做的事情是,「從剛剛所描述的這個過程中積累出來一些東西,然後讓他去發揮價值,」劉志毅說道,這才是數據挖掘的價值所在。
「這只是我所想要表達的數據維度的1%,」
用戶點擊什麼文章?沒有點擊什麼文章?
點讚還是點踩?
閱讀速度快不快?完成多少比例?
對某一個話題產生了持續性的還是短暫的影響?讀完之後有沒有講到什麼評論?
那他用的是什麼樣的手機在讀你的東西?是什麼樣的手機的什麼型號?去年用這個型號,今年是不是還用這個型號?
……
劉志毅稱,「這樣的信息都會作為這個用戶的組合特徵的一部分,然後我們去提取這一部分來把它作為數據的樣本進行分析。」
數據到哪裡去?
知道了數據怎麼來之後,數據要到哪裡去,產生怎樣的價值?這又是一場好戲了。
據雷鋒網了解,今日頭條曾推出了「今日頭條媒體實驗室」,這個實驗室的作用,相當於差異化內容創作的「參謀」。就是說,其將通過每一篇文章的傳播數據去告訴不同的內容的寫作者創作者,假如想要影響某一個特定的人群,需要怎麼樣創作內容,並且在什麼樣的平臺上,以什麼樣的方式在什麼樣的時間點發布是效率最大化的。
劉志毅舉了這樣一個例子:以美國總統選舉為例,在中國希拉蕊一直熱度是領先,但是跟美國人投票不一樣。最後希拉蕊敗選,但是她敗選之後,在頭條平臺上面的熱度也降得非常快,這個可能跟中國人對美國時政事件的關心規律有關係,那麼,媒體則會依據這個來進行內容創作。
另外一個是,數據也許可以呈現出人類作者意想不到的角度:在今日頭條與南方周末的合作中,大家都關心學區房房價的問題,但數據顯示——在這些事實之外,跟學區房同時出現的概率最高的詞中間,「離婚」排在前3位。
這就是計算機輔助報導的一種方式,也是大數據、AI帶給傳統行業的變革。
AI帶給商業市場更多機會
除了反哺媒體創作,閱讀數據還有哪些想像力呢?
透視市場潛力
雷鋒網此前報導,在一些數據密集型的產業,都成為了AI產業應用孵化的首選之地。接下來看了OPPO和vivo的案例,你就不會奇怪了。
眾所周知,去年,手機市場一個關注度頗高的話題是:大家發現主流手機品牌不那麼景氣了,包括蘋果,但是有兩家廠商非常受關注——OPPO和Vivo。
「OPPO跟Vivo做了一件很有意思的事情,他們在345線城市的用戶很多,但是他們請了很多跟一二線城市的口味更匹配的代言人來作為宣傳他們品牌的代言人。這是他們根據通過閱讀數據產生的決定。他們充分把握住了345線城市對於手機的需求。」
雷鋒網了解到,根據頭條閱讀的數據發現,345線城市對於手機的具體參數、性價比方面表現得不那麼敏感,但對於手機的體驗的介紹,卻是閱讀量遠高於一二線城市的。「所以當OPPO沒有把大部分的推廣和宣傳經費放到線下的渠道去影響345線城市的時候,他後面的成功,也是在閱讀數據上能夠發現的奇妙的地方。」
總的來說,劉志毅表示,AI之所以影響人類各行各業,是因為,「閱讀其實是一種人們對於自我歸類的一種方式,所以頭條上面閱讀數據其實是人在不同的組別中間自我歸類的一些信息,這些規律的信息產生了我剛才所說到的所有的價值。」
封面圖來自網絡