抖音的算法,是如何把你束縛在信息繭房裡的?

2020-12-13 站長之家

一、背景

二、算法推薦系統的兩個核心

1.內容標籤

2.用戶標籤

三、如何衡量推薦系統的好壞

四、總結

一、背景

在紙媒時代,消費者對於信息和內容的獲取,處於十分被動且匱乏的狀態。

一張報紙、一份雜誌,雖然「千人一面」,但許多人仍然愛不釋手,翻來覆去。

隨著網際網路時代(特別是移動網際網路)的到來,信息如同《三體》裡「技術爆炸」一般,呈現出「信息爆炸」的狀態。

每天以EB為單位的信息量誕生在網際網路的每個角落。預計到2025年,全球每天產生的數據量將達到491EB(1EB=1024PB=1048576TB)。

在這種情況下,消費者對於信息的獲取無疑變得更加的主動且豐富。

但豐富,並不意味著有效。

紙媒時代尚且有專業的編輯對內容進行篩選、排版後「分發」給消費者。

但對於網際網路產品來說,即使內容再豐富,用戶如果不感興趣也是無效內容。

「效率」始終是商業社會的本質之一。低效意味著隨時有可能落後或被淘汰。

為了解決這一問題, 淘寶最早再在2013年提出「千人千面」的概念。

依託淘寶網十年發展積累下來的龐大資料庫,從細分類目中抓取那些與買家興趣相匹配的商品,進行優先展現。

而每個在淘寶網上購買或是瀏覽過商品的消費者,都會被平臺打上標籤,比如年齡、地域、客單價、收藏偏好等。

標籤的不同,在千人千面模式下,用戶所看到的產品自然就會有所差異。

更有效率的內容分發方式,由此從野蠻生長進入到精細化運營的時代。

到了以「算法驅動」為核心理念的張一鳴手裡,今日頭條、抖音等產品更是在這種理念下飼養出來的洪水猛獸。

因此作為一名網際網路人,即使不用動手去寫編程算法,但了解相關算法知識、懂得相關內容分發與推薦機制背後的基本原理,也有利於更上一個認知的新臺階。

二、算法推薦系統的兩個核心

(一)抖音為何讓人如此上癮?

許多人或許會有這樣的體驗:

在不同的場景下(在家、地鐵、公司)、不同的時間點(早上、中午、晚上),即使是同類型的電影,實際上所接收到的內容也略有差別。

例如白天大多會收到比較幽默的內容,而到了晚上則會收到略帶懸疑的影視剪輯片段等。

而無論是什麼時候打開抖音,它都能讓用戶沉浸其中,似乎感覺不到時間的流逝,往往一下子能過去一兩個小時。

你會發現抖音似乎很懂你,因為給你推送的內容全都是你喜歡看的。

拋開抖音的產品設計、沉浸式消費體驗、短平快的內容節奏等,這其中還涉及到算法推薦機制和運營策略等因素。

而內容的個性化分發,本質上用一句大白話就可以解釋:

讓喜歡看妹子的用戶,看到含有妹子的內容。

但在現實環境中,放眼網際網路,能把這句話做好的公司其實沒幾個。

那麼問題到底難在哪裡呢?

(二)給內容打標,沒有想的那麼簡單

給標籤定義難,給內容打標也難。

在給一篇內容打上標籤之前,首先需要做的是給標籤做定義。

即講清楚什麼是蘋果,什麼是梨,而不是把蘋果叫成梨。

一篇內容通常包括一級分類、二級分類、三級分類、標籤等幾個層次。

如動漫>日漫>火影忍者>鳴人等。

對於這些具有普遍性認知的分類跟標籤來說,通常比較好下定義。

但是對於搞笑、美女這樣的標籤,則因人而異。

因為每個人的笑點不同、審美不同。

到底什麼內容才算好笑、多好看才算美女?

蘿蔔青菜各有所愛,打標還沒開始,就先卡在定義上面。

這裡其實就涉及到兩個概念——實體標籤跟語義標籤:

1.實體標籤

廣州就是廣州、上海就是上海;馬雲就是馬雲,淘寶就是淘寶。

他們都是確定的實體,通常在不同人那裡不會產生太大的歧義。

2.語義標籤

如沙雕、美女、奇葩等詞,並沒有確定的指定對象。

在不同人那裡會有不同的認知,因此打標難點通常出現在語義標籤的定義上面。

語義標籤的推薦效果是檢驗一個公司NLP(自然語言處理)技術水平的試金石。

不同公司根據其業務能力或需求的不同,對標籤顆粒度的要求也不同。

比如有的公司拆分到火影忍者就不往下拆了,直接把這個詞當作最小顆粒度的標籤。

所有涉及到這部動漫的內容都可以打上這個「火影忍者」標籤,但是難免有種一刀切的感覺,對後續的運營工作也有影響。

比如有的用戶想看、或者想搜索「鳴人」,結果推送的、搜索出來的全都是「火影忍者」裡面的其他人。

而有的公司則繼續往下拆:例如拆到火影忍者>鳴人、佐助、小櫻等實體標籤。

因此可以看得出:標籤顆粒度越細,推薦的內容越精準,同時所需要投入的資源則越多。

OK,即使把整個公司的打標團隊拉到一個會議室裡面,大家通過統一培訓、講解,一個月後大家終於對什麼才算是美女有了一個統一的認知,審美逐漸相同。

那麼打標就可以順利開展了嗎?NO!

讓我們先喝口水緩一緩,然後再接著往下繼續聊。

(三)用戶標籤:可能是最難搞的部分

1.用戶口味就像個難哄的女朋友

比內容標籤難度更大的便是用戶標籤。

因為火影忍者就是火影忍者,一旦打上這個內容標籤,它就不會變成海賊王。

內容標籤尚且可以通過人工打標+機器訓練的方式進行。

用戶不一樣,可能這個月他喜歡看火影忍者,算法推薦機制也給他匹配了相關的內容。但是下個月他可能因為朋友或同事的推薦開始看海賊王了。

如果算法還沒反應過來,繼續給他推送火影忍者的相關內容,此時這些內容對他來說便是無效內容,從而影響了內容的分發效率

好比胡蘿蔔一直是胡蘿蔔,但是用戶的口味卻一直在變化。

今天想喝湯,明天想吃肉。

這裡其實涉及到「推薦窄化」的問題,算法機制越差的產品,其推薦的內容越容易出現窄化。

如不小心點擊了幾篇文章,算法便默認你喜歡這一類內容,此後便一直推送相關信息,無法做到根據用戶的需求變化進行靈活更迭。

儘管在這個時代,無論使用哪一款內容產品,都不可避免的會出現「信息繭房」的現象,但成熟的NLP技術與初級之間,實際的產品體驗效果仍是天差地別。

2. 掌握用戶的基本信息

在做用戶標籤之前,需要先掌握跟用戶相關的信息,通常包括性別、年齡、地點、興趣偏好等。

1)性別有助於分發性別屬性較明顯的內容:如給男生推送體育、給女生推送美容護膚;

2)年齡也同理:給年輕人推送動漫、遊戲等內容,給老年人推送養生、健康信息等;

3)地點則用於推送與區域熱點相關的信息:如給上海用戶推送上海突發新聞,北京限行對於廣州用戶似乎沒有多大影響。

以上三者通常可以通過用戶自動填寫、授權訪問位置信息的方式獲取,且不會有太大的變動。

3.掌握用戶興趣偏好

對於用戶興趣偏好,如上所說,則是做用戶標籤的難點所在。

獲取用戶興趣偏好採用的方式,是根據用戶消費過的內容匹配相應的標籤,通常採取以下幾種方式進行定位:

1)過濾噪聲:如用戶被標題黨內容吸引進去,但是停留時間過段,則說明用戶對該內容所綁定的標籤不感興趣,以此來過濾標題黨;

2)熱點降權:對一些社會熱點、突發新聞(如某明星出軌),雖然短時間內用戶瀏覽了相關信息,但並不能說明該用戶一定對「娛樂」內容特別感興趣,需要對該用戶的「娛樂」興趣偏好進行降權處理;

3)時間衰減:如上所說,用戶的興趣會發生偏移,因此推送策略需要更偏向於新的用戶行為;

4)懲罰展現:如果一篇推薦給用戶的文章沒有被點擊,則該內容的相關特徵(如內容分類、標籤)權重會被降低。

舉一個十分簡單的例子:

如某新註冊用戶(女,25歲,上海)在刷抖音時,算法採用A-A、A-B的方式進行測試。

首先連續推送兩條影視剪輯內容(A-A),用戶都完整觀看並有點讚、評論等操作;

其次推送影視剪輯後推送母嬰內容(A-B),用戶只觀看了影視剪輯內容,卻划走了母嬰內容。

那麼則說明用戶對「影視剪輯」這一內容的興趣偏好度較高,對「母嬰」標籤內容興趣偏好較低。

4. 不同內容類型的推薦權重

我們都知道對於綜合型平臺而言,內容通常不止一種類型,如今日頭條便包含了長圖文、小視頻、短視頻、問答、微頭條等幾種不同形態的內容。

即使是同一個標籤,如「美女」,不同內容類型的推薦權重是否一樣?這也是算法推薦機制需要考慮的問題。

三、如何衡量推薦系統的好壞

內容推薦的準不準,通常可以直接從數據上去分析。

CTR(點擊率)、消費時長、點讚、評論、轉發數等「可量化指標」。

如Y=F(X1,X2,X3),Y代表內容可被加大曝光的權重,X代表點讚、評論等實際參數。

評論數的影響權重通常大於點讚權重,不同平臺由於產品差異對於參數的權重設置也有所不同。

而不同的用戶因其帳號「置信度」的差異,即使點讚了同一條內容,對該內容的影響權重也有差異,如某知乎大V點讚跟普通帳號點讚的權重顯然是不一樣的。

但有時數據也有缺陷。如對於低俗、標題黨、涉黃內容,如果短時間內吸引了大量用戶點擊瀏覽,那麼算法能判定其為好內容,並加大推送量嗎?

答案顯然是否定的。

因此通常需要打壓降權的內容主要有以下幾種:

1)廣告、低質搬運內容打壓;

2)涉黃、低俗噁心內容打壓;

3)標題黨、低質帳號內容降權等。

基於社會責任感和政策法規等因素,平臺需要對該部分內容進行打壓、降權,而對重點時事新聞進行置頂強插,如打開新聞APP都會看到置頂了習大大的相關文章。

這些都是算法無法獨立完成的,需要運營配合進行。許多資訊平臺都會有專門的首頁運營小組對內容進行人工幹預。

大多數APP日常通知欄PUSH的內容也是採取算法+人工的方式進行推送的。

四、總結

回到開頭所說:要讓喜歡看妹子的用戶看到含有妹子的內容。

這句如此簡單的話想要實現它,需要做到:

1. 內容標籤的準確定義、準確打標

因為不同的人對於同一個語義標籤會有不相同的認知。

2. 用戶標籤的準確匹配

清楚用戶對於哪種「妹子」興趣偏好度更高:是長髮妹子?還是短髮妹子?是南方人還是北方人等等顆粒度更細的拆分。

用戶標籤是建立在內容標籤打的足夠準確的前提條件之上的,一步錯則步步錯。

如果內容標籤無法準確判斷,那麼基於內容標籤建立起來的用戶標籤也是不可信的。

3. 算法訓練

要想訓練機器能夠自動打標,往往一個「標籤」就需要訓練幾個星期的時間。

通常採用抓取標題關鍵詞的方式打上內容標籤,但有時標題與文章或視頻裡面所有表達的內容其實有很大出入,因此打上的標籤很有可能是不準確的,需要人工進行覆核,判斷其準確率。

綜上所述,如今算法分發幾乎已經是所有搜尋引擎、資訊軟體、內容社區、社交軟體等產品的標配。

算法代表著用系統的方法去描述、解決問題的策略機制。

因此無論你是一隻產品汪、還是一隻運營喵,了解了內容平臺的基本算法原理,無論是對於產品推薦機制的設計,還是對平臺運營策略的構建,都能有所幫助。

相關焦點

  • 雲之家:高考作文中「信息繭房」概念對於移動辦公的意義
    當然,學霸的你可能立馬就從中聯繫到了一個著名的傳播學理論——「信息繭房」,那麼,何為「信息繭房」?   從字面意思來看 ,比喻的是信息被蟲繭一般封鎖住。「信息繭房」,是指傳播體系中的個性化推薦的普及所導致的信息封閉的後果。
  • 信息繭房是什麼意思什麼梗? 信息繭房名詞解釋先睹為快
    信息繭房是什麼意思什麼梗? 信息繭房名詞解釋先睹為快時間:2020-07-07 17:20   來源:遊俠網   責任編輯:沫朵 川北在線核心提示:原標題:信息繭房是什麼意思什麼梗? 信息繭房名詞解釋先睹為快 信息繭房是什麼意思?
  • 後真相時代,我們如何走出「信息繭房」?
    在這個移動網際網路時代,人們每天只需抱著手機,隨便點幾下屏幕,就能獲取到世界上任何一個角落的信息,可以說真正做到了「足不出戶便知天下事」。然而,我們的朋友圈或社交圈也因此經歷了前所未有的撕裂。
  • 「雙語彙」Information Cocoon/信息繭房
    造成這一極化(polarization)現象的原因不一而足,而新興技術、媒體、政治推波助瀾下的信息繭房(information cocoons)效應無疑是其中之一。關於信息繭房這個概念,最為人熟知的來源是美國哈佛大學法學院教授、美國前總統歐巴馬團隊成員卡斯·森斯坦在2006年出版的《信息烏託邦》(Infotopia)一書。
  • 【雙語彙】Information Cocoon/信息繭房
    造成這一極化(polarization)現象的原因不一而足,而新興技術、媒體、政治推波助瀾下的信息繭房(information cocoons)效應無疑是其中之一。關於信息繭房這個概念,最為人熟知的來源是美國哈佛大學法學院教授、美國前總統歐巴馬團隊成員卡斯·森斯坦在2006年出版的《信息烏託邦》(Infotopia)一書。
  • 抖音海外版TikTok揭秘短視頻推薦算法的工作機制
    和其他社交媒體平臺和應用程式一樣,TikTok的主要競爭點就在於個性化的算法推薦。但是,TikTok推薦系統的幕後工作方式對外界而言始終是個謎。就在今天,TikTok在海外官方博客發表了一篇文章,詳細介紹了推薦算法的工作機制,以及如何針對用戶進行加權運算,以實現精準推薦的。
  • 訂閱號像抖音、淘寶一樣推送你習慣嗎?
    其實微博、抖音、淘寶等也有類似功能,根據用戶興趣推薦內容。 其實,隨著「根據你喜好推送消息」類似大數據分析的應用越來越多,這種表面上「討好」用戶的技術,更在不知不覺中給用戶建造了信息圍牆,即永遠只能看到他們願意看到的內容,而探尋不了更大的世界。人們不禁思考:越來越多平臺究竟帶來了信息的日漸豐富,還是日漸匱乏?
  • 練多多場館增收論壇深度解析剖開信息繭房下「老」場館的真正機會
    你的場館「老」了嗎?  在許多行業完成產業升級的當下,健身行業的技術升級是怎樣的?  在其他行業充分享受信息平權帶來的好處時,為何健身行業卻被困在時代的信息繭房,又如何能讓行業走出信息割裂的迷霧?  虛偽的技術升級與信息繭房困境  我們來一起看看,2010年後,新技術對各行各業的改造:  微信利用即時通訊,解決信息流通問題;  京東的智能物流、智能供應鏈讓其成為優秀的物流公司和選品公司;  淘寶憑藉資料庫、
  • 練多多場館增收論壇深度解析,剖開信息繭房下「老」場館的真正機會
    你的場館「老」了嗎?在許多行業完成產業升級的當下,健身行業的技術升級是怎樣的?在其他行業充分享受信息平權帶來的好處時,為何健身行業卻被困在時代的信息繭房,又如何能讓行業走出信息割裂的迷霧?虛偽的技術升級與信息繭房困境我們來一起看看,2010年後,新技術對各行各業的改造:微信利用即時通訊,解決信息流通問題;京東的智能物流、智能供應鏈
  • 今天你的手指在手機屏幕上滑行了幾公裡?
    APP的算法精英熟悉我們內心的黑洞,它深入我們的大腦,將其編程,讓人對APP的一切內容上癮,而後達到算法目標。同時,APP悄無聲息地改變著我們的思維,形成信息繭房。(註:人們的信息領域會習慣性地被自己的興趣所引導,從而將自己的生活桎梏於像蠶繭一般的「繭房」中的現象,稱「信息繭房」。)我們暢遊在信息的海洋中,選擇自己感興趣的話題,呈現出定式化、程序化、僵硬化。最終,我們在各自的繭房裡,迷失在算法給我們形成的虛擬快樂中,無盡地消耗著時間。
  • 高考語文第471天:如何在「算法過濾」的世界裡生活?
    在這個由信息組成的技術形態中,一方面,我們享受著社交媒體、搜尋引擎、內容推薦等智能應用帶來的無限連接、快速查詢、精準定製,而另一方面,在技術打造的「算法流水線」上,你看什麼、聽什麼、怎麼工作、和誰交往、去哪兒消費、聊什麼話題等,都逐漸交由算法決策。
  • 抖音算法下的紅人浮沉:毛毛姐和祝曉晗們如何長紅不衰?
    傳統的一夜成名,需要百分之一的靈感加百分之九十九的汗水,那麼抖音,可能只需要百分之一的靈感就已足夠。「如果你愛他,就讓他去做抖音如果你恨他,就讓他去做抖音」抖音的出現,讓一夜成名的門檻前所未見的降低,也正因如此,很多人在抖音上,點燃了自己的夢想。
  • 亮底牌拼數據,抖音快手「短視頻一哥」之爭進入IPO時間!
    放之短視頻行業,則是抖音、快手短視頻之戰。因其分別背靠騰訊、字節跳動,兩個東家早已在各領域短兵相接。兩個產品即使用戶在一定程度上具有互補性,你中有我我中有你的大結局也完全沒戲。不過三年孰強孰弱的判定,恐怕要在雙雙發布招股書後一見分曉。
  • 短視頻導致了信息繭房嗎?我們和刷寶上三個90後聊了聊
    (原標題:短視頻導致了信息繭房嗎?「每一個人都想成為野獸,卻因為內心的考量,活得束縛又艱難。」如果有哪一部劇、哪一句臺詞,可以形容當下職場年輕人的心境,那一定是這部《無法成為野獸的我們》。繁重的壓力,殘酷的現實與遠去的夢想,讓他們戴上了一副面具,藏住內心中的「野獸」。另一份「自己」,藏在手機裡。電商平臺的購物車藏著興趣,視頻網站的歷史記錄藏著夢想,短視頻平臺的智能推薦,藏著他們對生活的期許。
  • 被抖音洗腦的女生愛情觀還有救嗎?
    給我發了一段他女朋友發給他的文字:「我本該端高腳杯的雙手和你在出租屋裡洗碗,我本該穿高跟鞋的腳穿著平底鞋陪你一起擠地鐵,我其實可以過得精彩很多很多,看更大的世界,但在你身邊圍繞,可你至今都沒有為我真正付出過…」看到這段話時,我感覺一股濃厚的抖音風襲來,這樣的文案在抖音上層出不窮,內容基本都是一些很精美,很名媛範的場景。
  • 網際網路時代,我們都將困在大數據與算法的新世界裡
    法蘭克福學派認為廣播電視的結果就是奧威爾《1984》式的社會:老大哥在看著你;波茲曼也反對廣播和電視,但理由不一樣。他認為,廣播電視的結果是赫胥黎筆下的《美麗新世界》。 他在《童年的消逝》裡抱怨:在電視時代,「能讀能寫」不再是成年人的標誌了。在文字時代,我們從外部世界獲得的一切信息,並不是其本來面目,而只是它在語言中的表現形式。將這些信息進行文字編碼的過程,訓練了人們的抽象思維能力;而將這些文字信息再傳遞給他人,等於讓信息接收者「對信息進行解碼」。
  • 從傳播學角度思考微信公眾平臺與抖音的「流量算法差異」
    正如你看到的標題那樣,筆者欲以傳播學的角度,與讀者朋友們一同思考微信公眾平臺與抖音的「流量算法」的差異。如果可能,也希望幫助很多抖音沉迷者走出「大數字誤區」。 不管玩沒玩過抖音,讀者朋友們都知道,抖音之所以能夠幫助那麼多素人、普通人成為「網紅」,就是因為他們的內容傳播基於算法推薦。你的每一條視頻都會被推薦給500、幾千、幾萬、幾十萬甚至更多的站內用戶,並不是只有你的訂閱者能夠看到這些視頻。
  • 別再給我推薦 「你可能認識的人」了!
    聽過幾首歌的以後,它永遠可以精準掌握你的喜好,然後按照算法推薦給你最對口味的歌。不用費勁尋找,同好就能輕鬆get。後來發現智能推薦的牛逼,是在今日頭條的信息流裡。董星辰說的,推薦算法雖然方便,可是過度重複的信息,會造成「信息繭房」。長以此往,我們接觸的信息會越來越局限,越來越狹窄。什麼叫信息繭房?這個概念,是2006年桑斯坦《信息烏託邦》中提出的。
  • 比抖音讓我們墮落更可怕的,是我們在不知不覺中變傻
    「信息傳播中,公眾自身的信息需求並非全方位的,公眾只注意自己選擇的東西和使自己愉悅的領域,久而久之,會將自身桎梏於像蠶繭一般的『繭房』之中。」 每一個應用軟體的背後,都有一個個龐大的團隊,時時刻刻在研究我們,迎合我們,最後把我們封閉在一個個「繭房」裡面。   上面舉了穆斯塔法的例子,他在Facebook上,只能看到和自己觀點相同的信息,看不到相反的信息,從而做出了錯誤的判斷。 在中國,我們用的知乎、微博、微信,其實也一樣。
  • 我在抖音裡孤獨消費,卻在視頻號裡熱烈生產
    2012 年的公眾號,錯過了 2018 年的抖音,不要再錯過 2020 年的視頻號。現在如果你刷視頻號,會發現很多關於視頻號的成功學內容,真是應了那句:賣水比淘金更賺錢。當所有人都去追風口的時候, 你要去成為風口的「供應商」。但我看了幾個覺得內容同質化嚴重,果斷點了不感興趣。視頻號成功學裡大都是類似陳安之這樣的大叔UP主,所以現在視頻號領域流行一句調侃「玩視頻號的都是中年大叔」。