一、為什麼需要標籤?
隨著網際網路的興起,每天有大量的內容以視頻等形式被生產並上傳到各大平臺,面對海量的內容,如何提升這些內容的智能分發效率是各大平臺面臨的重要課題。而要實現這一目標,第一步就是更好地認識我們的用戶。
構建用戶畫像的過程的本質就是對用戶信息進行標籤化管理的過程。通過標籤體系的建設,一方面讓數據變得可閱讀、易理解,方便業務使用;另一方面通過標籤類目體系將標籤組織排布,以一種適用性更好的組織方式來匹配未來變化的業務場景需求。如何合理規劃標籤體系對產品的運營影響非常大,因此,標籤是產品策略中特別關鍵的一環。
二、標籤是什麼?
對於標籤的定義在不同場景中往往是不同的,太糾結或執著於單一概念定義,會無法推進實際的業務和工作。我們所有的技術和業務層面的工作是為了業務目標,並且要實用和適用,並不是純學術層面的研討。一般來說,我們認為標籤是指「利用原始數據,通過一定的加工邏輯產出,能夠為業務所直接使用的可閱讀、易理解、有業務價值的數據。」
標籤體系有兩種組織方式:結構化標籤和半結構化/非結構化標籤。
所謂結構化標籤是按照某個分類法制定一個層次標籤體系,其中上層的標籤是下一層的父節點,在人群覆蓋上是包含關係。一些面向品牌廣告的受眾定嚮往往採用這種結構化較強的標籤體系。需要指出,這一體系中的標籤是根據需求方的邏輯而制定,某些在媒體方意義很大的分類標籤,如軍事等,由於沒有明確的需求對應,不宜出現在標籤體系中。
另外一種興趣標籤的組織方式,是根據具體需求設置相應的標籤,所有的標籤並不能為同一個分類體系中所描述,也不存在明確的父子關係。這種半結構化或非結構化的標籤體系往往包含一些比較精準的標籤的集合,因而主要適用於多種目標,特別是效果目標並存的對內容精準投放的訴求。
選擇結構化興趣標籤體系還是非結構化的興趣標籤體系更多地是基於業務場景的決策,當標籤僅僅是投放系統需要的中間變量,作為CTR預測或者其他模塊的變量輸入時,那麼結構化的標籤體系其實是沒有必要的,應該完全按照效果驅動的方式來規劃或挖掘標籤,而各個標籤之間也不太需要層次關係的約束。
還有一種特殊的標籤形式,關鍵詞。直接按照搜索或瀏覽內容的關鍵詞劃分人群和投放廣告,往往可以達到比較精準的效果。關鍵詞這種標籤體系是無層級關係、完全非結構化的,它雖然很容易理解,但並不太容易操作。不過由於搜索在網際網路中的重要地位,選擇和優化投放關鍵詞這樣一項專門技術已經發展得相當充分,因此這種標籤也是實踐中常用的。
三、如何構建標籤體系?
1、確定對象
進行標籤建設,首先要清楚對哪類對象建設標籤,也就是確定對象。對象是客觀世界中研究目標的抽象,有實體的對象,也有虛擬的對象。在企業經營過程中可以抽象出非常多的對象,這些對象在不同業務場景下交叉產生聯繫,是企業的重要資產,需要全面刻畫了解。
經過對多個行業、多個標籤體系建設經驗的總結,可把對象分為「人」「物」「關係」三大類。三種對象是不一樣的,「人」往往具有主動性和智慧,能主動參與社會活動,主動發揮推動作用,往往是關係的發出者。「物」往往是被動的,包括原料、設備、建築物、簡單操作的工具或功能集合等,是關係的接收者。當常規意義上的設備具有了充分的人工智慧,變成了機器人,那麼它就屬於「人」這一類對象。「人」和「物」是實體類的對象,即看得到、摸得著的對象,而「關係」屬於一種虛擬對象,是對兩兩實物實體間的聯繫的定義。因為關係很重要,企業大多數情況下反而是在對關係進行定義、反覆發生、記錄、分析、優化,因此需要「關係」這種對象存在,對關係進行屬性描述和研究。關係按照產生的動因不同,又分為事實關係和歸屬關係,事實關係會產生可量化的事實度量,歸屬關係只是一種歸屬屬性。
明確了對象的定義和分類,就可以根據業務的需要確定要對哪些對象建立標籤體系。基於內容的對象非常多,不可能對所有對象都建立獨立的標籤體系,一般我們會根據業務流量的需求,稿件數量的多少,類目的相似性,類目間的關係進行排名,確定標籤的優先級和必要性。
2、設計框架
一般來說,網際網路產品需要使用的標籤類目數量非常龐大,當標籤項超過一定數量時,業務人員要使用或查找標籤就開始變得麻煩,管理標籤也會變得困難。因此筆者借鑑了圖書管理學中的經典方法:海量圖書需要有專門的圖書分類體系對書本進行編號並按照編號分櫃排放,閱讀者在查閱圖書時只需要按編號索引即可快速找到自己所需圖書,圖書管理員也可以方便、有效地理清所有圖書狀況。
構建標籤類目體系首先需要確定根目錄。根目錄就是上文提到的對象,因此有三大類根目錄:人、物、關係。根目錄就像樹根一樣直接確定這是一棵什麼樹。
如果根目錄是人,即這個標籤類目體系就是人的標籤類目體系,每個根目錄都有一個識別列來唯一識別具體對象。人這種大類下包括自然人和企業法人兩種亞根,同時自然人群體或企業法人群體也可以認為屬於人的對象範疇內,也是亞根。自然人實例可以有消費者、員工、加盟商等,因此可以形成消費者的標籤類目體系、員工的標籤類目體系、加盟商的標籤類目體系。同樣法人也可以細分為實體公司、營銷公司、運輸公司等。從最大的「人」根目錄、到「自然人/法人/自然人群體/法人群體」亞根,再到實例「用戶/員工/加盟商」,都屬於根目錄的範疇。
根據類似的方式,也可以將物細分為「物品」「物體」「物品集合」「物體集合」等亞類,各亞類下也可以細分根;關係也可以細分「關係記錄」「關係集合」。
標籤類目體系是對業務所需標籤採用類目體系的方法進行設計、歸屬、分類。類目體系本身是對某一類目標物進行分類、架構組織,分類通常使用一級類目、二級類目、三級類目等作為分類名。
類目結構可以用樹狀結構來比擬,根上長出的第一級分支,稱為一級類目;從第一級分支中長出的第二級分支,稱為二級類目;從第二級分支中長出的第三級分支,稱為三級類目。一般類目結構設為三級分層結構即可。沒有下一級分類的類目叫葉類目,掛在葉類目上的具體葉子就是標籤。
需要注意的是,類目框架的建設一般是基於業務展開的,因為類目體系存在的核心意義即為幫用戶快速查找、管理數據/標籤。
下圖為某銀行構建的客戶標籤類目體系,其中客戶是根目錄,會由custom_id來進行唯一識別,根目錄下有「基本特徵」「資產特徵」「行為特徵」「偏好特徵」「價值特徵」「風險特徵」「營銷特徵」等一級類目。「基本特徵」一級類目下又分「ID信息」「人口統計」「地址信息」「職業信息」等二級類目。「地址信息」二級類目下再細分為「帳單地址」「家庭地址」「工作地址」「手機地址」等三級類目。「帳單地址」三級類目下掛有「帳單詳細地址」「帳單地址郵編」「帳單地址所在省」等標籤。
標籤類目設計完成,整個標籤體系的框架就有了,接下來要做的就是往每個葉類目下填充有業務價值並且可以加工出來的標籤,進而完成整個標籤體系的設計。
3、填充內容
通過標籤類目設計,已經有了某類對象的標籤體系框架,只是還沒有具體的標籤內容。標籤設計就是設計合適的標籤並將其掛載到標籤類目。在這一部分,筆者將儘量脫離技術視角,從產品視角出發,剖析如何「製作標籤」。
首先,是如何拆解內容。對內容的拆解首先還是分為三個部分:「用戶」「內容」「關係」,作為根目錄。接下來,關於「人」這個部分,我們可以拆分為:人口屬性、興趣屬性、行為偏好、發表時間等;同理,關於內容,我們可以拆分成「統計類」、「質量類」、「向量類」。接著,我們再對二級類目進行拆分,比如「統計類」中包含「點擊率」「時長」「完播率」「轉評贊」「跳出率」等。
要特別注意的是,往常習慣給別人打標籤、貼標籤的動作,其實不是在設計標籤,而是在設計特徵值。例如對某個人的定義「女、20~30歲、白領、活潑開朗」,分別是性別、年齡段、職業、性格標籤的具體特徵值。
這些特徵會進行一定的交叉,賦予這個特徵更多的含義。比如說使用用戶畫像和內容畫像做交叉,可以得到用戶的長短期的興趣匹配、Session興趣泛化匹配、用戶年齡對於某些內容類別的偏好、用戶性別對於某些內容類別的偏好等。如果拿用戶特徵與請求的上下文進行特徵的交叉,則會得到用戶常駐地在什麼地方、用戶的興趣隨時間的變化,比如有的用戶會在早上看新聞,而在晚上看一些娛樂類的資訊;還有一些場景的刻畫,如用戶喜歡在地鐵上看視頻,而在辦公的時候喜歡看圖文。通過這些特徵值組合,我們可以儘可能高效地對用戶群進行劃分,從而實現內容的精準分發。
現在,我們知道了如何建設標籤體系以及如何通過標籤體系對用戶群進行劃分,但想要做好標籤,我們不僅要從需要解構技術,還要立足於「好的內容」。在這一部分,筆者將通過運營&創作者的視角簡單分析如何製作「好的標籤」。
要想制定能夠打動人心的標籤,首先要了解用戶,切中他們的痛點。
如何才能了解用戶?一種辦法是角色轉換,換位思考,把自己看作用戶,而且是什麼都不懂的「小白用戶」,以這樣的視角去看問題、去思考。
舉個例子,你作為一個UP主,接了一份宣傳「降噪耳機」的營銷單,你的任務是讓用戶下單,完成內容的價值轉化。思考一下,該怎麼設計這個故事?
下面的一段參考文案:你在銀行做經理,維護客戶關係很艱難,你的職位不上不下。你有房貸和車貸,每月按揭五千元。你孩子的數學成績不好。你老婆在市人民醫院做護士,她母親有尿毒症並透析多年,她不愛你。你年輕的時候覺得能成一番事業,但現在也就這樣,朋友們混得都比你好。生活太糟了,你需要一個獨立的環境抒發情緒,這時候你戴上了降噪耳機。
這就是一個典型的「用戶視角」,它描述的是一個場景,它讓你一邊看一邊產生強烈的代入感,不由自主受到內容的感染,產生情緒波動,在情緒的驅使下完成下單的行為,實現價值轉化。
除了上面這種基於內容體驗的打標方法,還有另一種方式,也就是我們之前提過的「特徵值」,基於算法生成的高精度內容標籤,一般是基於視頻幀、標題、作者、內容屬性、地理屬性、時間等。這些由算法生成的內容標籤可以替換人工標註,從而節省人力成本,提高內容標籤生產效率。目前的內容標籤技術,其精度已經達到了90%以上,通過算法對內容的分析自動生成一些標籤值。
比如上面這個視頻,所生成的標籤值就可能是「中華田園犬」「農村」「百萬播放」「狗」「華農兄弟」「萌寵」「動物」等。
經過對象確定、框架設計、類目設計、標籤設計、打標這幾個步驟,我們就完成了整個標籤體系的建設,文章寫得比較簡單,全當拋磚引玉。
四、一些問題
在標籤體系落地的過程中我們還會遇到很多問題,以下幾個問題也是筆者一直在思考的,如果有任何好的建議歡迎加我的微信JemiLH一起交流溝通。
內容的時效性:任何一個內容,包括視頻或者圖文,是有生命周期在裡面的,內容有長有短,其中預測一個內容的生命周期是一個挺難的事情,不論通過算法也好或者其它技術也好;假設我們已經知道內容的生命周期,如何在有效的周期內給予內容有效的曝光量,也是個很難的問題。如何Balance這兩個問題,時效性是非常重要的,因為過了內容的生命周期,再給用戶推薦,是沒有意義的,用戶體驗會非常差。
內容質量的判定:怎樣判定一個內容質量到底是好還是壞,好的標準到底是什麼,以及我們如何去建模,如果可以建模,特徵是什麼,以及我們的模型如何有效的利用特徵去判別?
冷啟動問題:分為內容冷啟動與用戶冷啟動。內容冷啟動就是一個新內容進入平臺,沒有被分發出來;而用戶冷啟動就是一個新的用戶,交互數據和行為非常的稀疏,如何做比較好的推薦、能夠引導進行後續更加稠密的交互,增加粘性,以此來提升用戶體驗,更好的滿足用戶的需求?