今日頭條讓人上癮的數據挖掘

2020-12-20 人人都是產品經理

編輯導語:「今日頭條」是一款基於數據挖掘技術的個性化推薦引擎產品,它為用戶推薦有價值的、個性化的信息,提供連接人與信息的新型服務,是國內移動網際網路領域成長最快的產品之一。今日頭條的數據挖掘雖然可以精準的推薦我們所喜歡的內容,但同時也像精神鴉片一樣令人上癮,本文作者基於此做出了他的分析。

由於某一些不可抗拒的力量,讓今日頭條的產品在海外受阻,同時還有其他的企業。但是,我們對於這些力量看看就好。

本文將從兩個角度即:產品+技術的層面來看看今日頭條和抖音,讓我們對今日頭條的產品有個了解。

當然僅限我個人在有限的資料以及認知層面,進行淺顯的分析,首先我們需要知道兩款產品都有著相似的一點,就是好玩同時能夠讓每個人(全世界)都喜歡。

抖音表現出一款好的產品是能夠讓所有人都能夠完全的自由創作,記錄每個人的生活。

在開始之前我們需要對於抖音和今日頭條的數據有個大致了解,以下兩組數據記錄了抖音和頭條的發展歷史。

今日頭條:一款基於數據挖掘的推薦引擎產品。

截至2015年12月,今日頭條累計擁有激活用戶3.5億,日活躍度超過3500萬。

其中,「頭條號」平臺的帳號數量已超過4.1萬個,各類媒體、政府、機構總計超過11000家;籤約合作的傳統媒體過千家,「頭條號」自媒體其帳號總數超過3萬個。

抖音:技術層面一樣的搜尋引擎。

自2016年9月於今日頭條孵化上線,定位為適合中國年輕人的音樂短視頻社區,應用為垂直音樂的UGC短視頻,2017年以來獲得用戶規模快速增長。

抖音國際版TikTok的下載和安裝量曾在美國市場躍居第一位,並在日本、泰國、印尼、德國、法國和俄羅斯等地,多次登上當地App Store或Google Play總榜的首位。

據抖音產品負責人王曉蔚2017年9月2日表示:「85%的抖音用戶在24歲以下,主力達人和用戶基本都是95後甚至00後。截至2018年10月,該應用程式已被150多個國家的超過8億全球用戶下載。」

2020年5月份Sensor Tower的最新數據顯示,「抖音」及海外「TikTok」,目前在全球App Store和Google Play應用程式商店的總下載次數已突破20億次。

這兩組數據說明了抖音和今日頭條的受歡迎程度,好的產品表現出良好的數據以及用戶增長,讓我們產品經理有個學習的榜樣。

接著我們從產品層面來看抖音和今日頭條,主要將兩者相同的部分進行分析。

一、上癮快樂的源泉

今日頭條在剛推出的時候,將每一個新聞儘可能的推薦給適合他的人;同樣的技術應用到抖音上面,就會出現同樣的效果。

如果今日頭條的算法成功的體現,那麼我們就可以看看抖音效果,今日頭條的試水產品讓自己的抖音成為全世界最受歡迎的短視頻社交產品。

不管是抖音還是今日頭條,每個用戶都能刷到自己喜歡的內容,沒有自己不喜歡的內容。

如果上班使用微信或者是QQ進行溝通交流,每個人處於一種壓力狀態下面;抖音則正好相反,每個人沒有工作的煩惱以及壓力,在休息或者下班時間都會打開抖音或者今日頭條,在一種無壓力下狀況下進行放鬆娛樂。

我們都知道快樂是好的,都喜歡快樂的感覺,同時上癮的快樂還是好的嗎?

當我們一味的追求在抖音上面的快樂,消耗自己的注意力,就像我們想要著急完成工作,然後打開抖音在上面看短視頻。我們基於逃避,著急逃避那個帶著壓力的工作環境,同樣的簡單的逃離會加深我們的這種感覺。

這種感覺會在每時每刻都在,每天加深一遍,也可以說是每天都會重複這種感覺。唯一的辦法就是漸漸的放下抖音或者是今日頭條,降低對這款產品的依賴程度,減少使用抖音的次數以及時間。

二、廣而告之

我們都知道當下流行的就是,有任何的事情找記者,不再是以前的出事找警察叔叔,為什麼一個簡單的輿論新聞能夠引起這麼大的反響。

首先我們要感謝在這個信息發達的社會和國家,信息發達到讓我們能夠知道誰家的貓丟了,警察全城找,然後上了熱搜。這要感謝背後的粉絲,還是粉絲力量大。

今日頭條和抖音做為媒體平臺,對於上面的內容能夠審核和把控,一部分因素來源是政策。

如果全部開放,像海外市場那種,那麼它也將會面臨一系列監管問題。在國內的抖音更多是娛樂性質,同時在上面你不能發表對應的個人自由言論,所以我們看到的是生活,記錄這些不一樣的生活。

關於言論部分我們不進行過多進行討論,我們繼續會到抖音做為媒體的產品背後所包含的輿論部分。

不知我們有沒有發現,輿論的熱點一旦發酵,首先考慮的是禮儀和道德;不管法律多麼的嚴厲,都會涉及到一些禮儀和道德。

當然,每個人的道德觀念不一樣,但是大眾的道德觀念會讓所有人跟著一起走,大白話就是符合群體大眾的道德觀念,而不是個體的觀念。如果單個個體持有不同的道德觀念,那麼這個熱點的輿論事件你就參與不了。

三、數據挖掘

每個成熟的產品離不開技術的支持,技術和科研不同是,技術是需要 創造價值,而科研是無價值的研究,今日頭條和抖音背後的技術數據挖掘下面會介紹

1. 數據挖掘

是一個跨學科的計算機科學分支。涉及人工智慧、機器學習、統計學、和資料庫的交叉方法在相對大型的數據集(data set)發現模式的計算過程。

數據挖掘過程的總體目標是從一個數據集中提取信息,並將其轉換成可理解的結構,以進一步使用。

除了原始分析步驟,它還涉及到資料庫和數據管理方面、數據預處理(英語:data pre-processing)、模型與推斷方面考量、興趣度度量、複雜度的考慮,以及發現結構、可視化及在線更新等後處理本質上屬於機器學習的範疇。

類似詞語「數據捕撈(data dredging)」、「數據捕魚」和「數據探測」,指用數據挖掘方法來採樣(可能)過小以致無法可靠地統計推斷出所發現任何模式的有效性的更大總體數據集的部分,不過這些方法可以建立新的假設來檢驗更大數據總體。

2. 歷史

資料探勘是因為海量有用資料快速增長的產物。

使用計算機進行歷史資料分析,1960年代數字方式採集資料已經實現;1980年代,關係資料庫隨著能夠適應動態按需分析資料的結構化查詢語言發展起來,數據倉庫開始用來存儲大量的資料。

因為面臨處理資料庫中大量資料的挑戰,於是資料探勘應運而生。對於這些問題,它的主要方法是資料統計分析和人工智慧搜索技術。

3. 定義

資料有以下這些不同的定義:

「從資料中提取出隱含的過去未知的有價值的潛在信息」;

「一門從大量資料或者資料庫中提取有用信息的科學」。

儘管通常資料探勘應用於資料分析,但是像人工智慧一樣,它也是一個具有豐富含義的詞彙,可用於不同的領域。

它與KDD(Knowledge discovery in databases)的關係是:KDD是從數據中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而數據挖掘是KDD通過特定的算法在可接受的計算效率限制內生成特定模式的一個步驟。

事實上,在現今的文獻中,這兩個術語經常不加區分的使用。

4. 本質

數據挖掘本質上屬於機器學習的內容。

例如:《數據挖掘:實用機器學習技術及Java實現》一書大部分是機器學習的內容,這本書最初只叫做「實用機器學習」,「數據挖掘」一詞是後來為了營銷才加入的。

通常情況下,使用更為正式的術語,(大規模)數據分析和分析學,或者指出實際的研究方法(例如人工智慧和機器學習)會更準確一些。

5. 過程

數據挖掘的實際工作是對大規模數據進行自動或半自動的分析,以提取過去未知的有價值的潛在信息。例如:數據的分組(通過聚類分析)、數據的異常記錄(通過異常檢測)和數據之間的關係(通過關聯式規則挖掘)。

這通常涉及到資料庫技術,例如空間索引(英語:spatial index)。這些潛在信息可通過對輸入數據處理之後的總結來呈現,之後可以用於進一步分析,比如機器學習和預測分析。

舉個例子:進行數據挖掘操作時可能要把數據分成多組,然後可以使用決策支持系統以獲得更加精確的預測結果。

不過數據收集、數據預處理、結果解釋和撰寫報告都不算數據挖掘的步驟,但它們確實屬於「資料庫知識發現」(KDD)過程,只不過是一些額外的環節。

資料庫知識發現(KDD)過程通常定義為以下階段:

  1. 選擇
  2. 預處理
  3. 變換
  4. 數據挖掘
  5. 解釋/評估

1)預處理

在運用數據挖掘算法之前,必須收集目標數據集。

由於數據挖掘只能發現實際存在於數據中的模式,目標數據集必須大到足以包含這些模式,而其餘的足夠簡潔以在一個可接受的時間範圍內挖掘,常見的數據源如資料超市或資料倉儲。

在數據挖掘之前,有必要預處理來分析多變量數據,然後要清理目標集,數據清理移除包含噪聲和含有缺失數據的觀測量。

2)數據挖掘

數據挖掘涉及六類常見的任務:

  1. 異常檢測(異常/變化/偏差檢測):識別不尋常的數據記錄,錯誤數據需要進一步調查;
  2. 關聯規則學習(依賴建模):搜索變量之間的關係。例如:一個超市可能會收集顧客購買習慣的數據,運用關聯規則學習,超市可以確定哪些產品經常一起買,並利用這些信息幫助營銷——這有時被稱為市場購物籃分析;
  3. 聚類:是在未知數據的結構下,發現數據的類別與結構;
  4. 分類 :是對新的數據推廣已知的結構的任務。例如:一個電子郵件程序可能試圖將一個電子郵件分類為「合法的」或「垃圾郵件」;
  5. 回歸:試圖找到能夠以最小誤差對該數據建模的函數;
  6. 匯總(Automatic summarization):提供了一個更緊湊的數據集表示,包括生成可視化和報表。

3)結果驗證

數據挖掘的價值一般帶著一定的目的,而這目的是否得到實現一般可以通過結果驗證來實現。

驗證是指「通過提供客觀證據對規定要求已得到滿足的認定」,而這個「認定」活動的策劃、實施和完成,與「規定要求」的內容緊密相關。

數據挖掘過程中的數據驗證的「規定要求」的設定,往往與數據挖掘要達到的基本目標、過程目標和最終目標有關。

驗證的結果可能是「規定要求」得到完全滿足或者完全沒有得到滿足,以及其他介於兩者之間的滿足程度的狀況。驗證可以由數據挖掘的人自己完成,也可以通過其他人參與或完全通過他人的項目,以與數據挖掘者毫無關聯的方式進行驗證。

一般驗證過程中,數據挖掘者是不可能不參與的,但對於認定過程中的客觀證據的收集、認定的評估等過程如果通過與驗證提出者無關的人來實現,往往更具有客觀性。

通過結果驗證,數據挖掘者可以得到對自己所挖掘的數據價值高低的評估。

數據挖掘的方法包括監督式學習、非監督式學習、半監督學習、增強學習。監督式學習包括:分類、估計、預測。非監督式學習包括:聚類,關聯規則分析。

6. 例子

數據挖掘在零售行業中的應用:零售公司跟蹤客戶的購買情況,發現某個客戶購買了大量的真絲襯衣,這時資料探勘系統就在此客戶和真絲襯衣之間建立關聯。

銷售部門就會看到此信息,直接發送真絲襯衣的當前行情,以及所有關於真絲襯衫的資料發給該客戶。這樣零售商店通過資料探勘系統就發現了以前未知的關於客戶的新信息,並且擴大經營範圍。

7. 數據捕撈

通常作為與資料倉庫和分析相關的技術,資料探勘處於它們的中間。

然而有時還會出現十分可笑的應用,例如發掘出不存在但看起來振奮人心的模式(特別的因果關係),這些根本不相關的、甚至引人誤入歧途的、或是毫無價值的關聯,在統計學文獻裡通常被戲稱為「資料挖泥」(Data dredging, data fishing, or data snooping)。

資料探勘意味著掃瞄可能存在任何關係的資料,然後篩選出符合的模式,(也叫「過度匹配模式」)。大量的數據集中總會有碰巧或特定的資料,有著「令人振奮的關係」。

因此,一些結論看上去十分令人懷疑。儘管如此,一些探索性資料分析 還是需要應用統計分析尋找資料,所以好的統計方法和數據資料的界限並不是很清晰。

危險是出現根本不存在的關聯性,投資分析家似乎最容易犯這種錯誤。

在一本叫做《顧客的遊艇在哪裡?》的書中寫道:

「總是有相當數量的可憐人,忙於從上千次的賭輪盤的輪子上尋找可能的重複模式。十分不幸的是,他們通常會找到。」

多數的資料研究都關注於發現大量的資料集中,一個高度詳細的模式。

在《大忙人的資料探勘》一書中, 西維吉尼亞大學和不列顛哥倫比亞大學研究者討論了一個交替模式,用來發現一個資料集當中兩個元素的最小區別,它的目標是發現一個更簡單的模式來描述相關數據。

參考資料:維基百科

#專欄作家#

李杭,人人都是產品經理專欄作家。關注B端產品,擅長複雜的需求梳理,愛好將複雜難以理解的事物口語化。

本文原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自 Pexels,基於CC0協議

相關焦點

  • 淺談數據挖掘的基本概念及其最常用算法
    搶沙發 2020-06-04 13:47:34  來源:今日頭條 摘要:當前,大數據的理論和應用正在國民經濟和生活的各個領域如火如荼的進行很多人對大數據的基本概念和特點已經有所了解, 關鍵詞: 數據 挖掘   當前,大數據的理論和應用正在國民經濟和生活的各個領域如火如荼的進行。
  • 信息創造價值:今日頭條競品分析報告
    這主要是因為今日頭條藉助強大的大資料庫,進行精準的數據推送,能夠根據用戶喜歡看什麼內容就推薦什麼內容。牢牢的把握了用戶的心理,使其不斷的上癮,用戶的粘性就不斷的增加。 騰訊新聞在市場上與今日頭條你追我趕,而在最新的新聞資訊APP下載排行榜中,今日頭條的下載量排在第二,第三是騰訊新聞。
  • 今日頭條如何用算法打擊「標題黨」
    今日頭條並不是傳統意義上的媒體,而是一家有媒體屬性的科技公司,一個內容創作與分發的平臺,其願景是「成為最懂你的信息平臺,連接人與信息,促進創作與交流」。 基於文本挖掘的機器「把關人」 很多「標題黨」常用的內容元素其實都是可以在文本層面進行總結的,交由機器處理的效率會更高。「正則表達式」就是定義一系列與「標題黨」相關的詞彙來維護一些規則,進而使用這些規則來檢測每一篇文章。今日頭條實際有數百人的審核隊伍,建立起了一套比較完善的規則,並利用機器算法對每天幾十萬篇的新進文章進行篩選。
  • 毀譽參半的今日頭條前路漫漫
    用戶瀏覽了哪些標題、點擊了哪些新聞、有沒有看完、有沒有寫評論以及用戶分享和收藏的情況,都會作為今日頭條進行用戶興趣分析的數據依據。此外,採用新浪微博等合作夥伴的帳戶體系,也使今日頭條掌握了更多的用戶關係,從而能夠更加精準地為用戶推薦提供參考。可以說,這與當下大數據和精準營銷等的潮流概念頗為吻合。因此,今日頭條不僅收穫了大量的用戶,也獲得了不少行業人士的肯定。
  • 今日頭條反低俗 其實就是在反自己
    事後,有媒體通過查詢企業工商信息發現,火山直播(北京微播視界公司)的幕後實際控制人,正是今日頭條(北京字節跳動公司)。火山直播的公司法定代表人為梁汝波,其在今日頭條內的職務為天津字節跳動的法人代表和總經理。這一消息令外界一片譁然:原來今日頭條的「機器推薦」也難免「夾帶私貨」,而且是主動向用戶推送「不可描述」的低俗內容。
  • 今日頭條買下音樂版Instagram和海外版今日頭條
    原標題:今日頭條清空購物車,買下音樂版Instagram和海外版今日頭條   今年雙十一有點特別,不光普通人在買買買,科技公司也開啟了買買買模式。   最厲害的是,這個軟體是一個不足 10 人的中國團隊做的。給外國年輕人做一款社交軟體,並引領時尚潮流,Musical.ly是第一家這麼成功的中國企業。   在資本市場上,短短1年,Musical.ly受到投資人和主流基金的熱捧,估值翻了百倍。這款產品目前估值超過10億美金,是業界公認的「獨角獸」。
  • 今日頭條「尋找好心人」 發布數據, 「好心人」中教師佔比位居榜首
    見圳客戶端 ·深圳新聞網2020年12月21日訊 (記者 李丹璐 )近日,今日頭條公益尋人項目「尋找好心人」發布最新數據:截至12月18日,共收到4831個來自網友的真實正能量故事,成功找到163位好心當事人。
  • 抖音、今日頭條首份讀書數據出爐:抗疫、原生家庭題材熱度暴增
    7月13日,「都來讀書」全民閱讀計劃發布首份讀書內容數據,展現了抖音、今日頭條用戶的讀書偏好和熱度。數據顯示,今年以來疫情對大眾生活的影響,體現在了閱讀上:抖音上,疫情題材書籍讀書視頻熱度明顯上升,《霍亂時期的愛情》、《中國抗疫簡史》等10部作品讀書視頻上半年總播放量超780萬,較2019年下半年環比增長14倍。
  • 成都今日頭條推廣X
    基本上這三眼看完,能吸引人,有關鍵詞,就是一篇能在頭條上大火的文章。吸不吸引人就看是不是踩到熱點標籤。基本理論就是每個標籤對應的人群數量是不一樣的,比如範冰冰這個標籤對應的人群數量,就要比一個不知名的小明星名字,對應的人群數量大好多。精心優化一周見成效,安裝成本低至13經過一周的優化,APP下載安裝完成成本從200元左右,急速下降到十幾元,而且經過後續的優化,穩定在13元左右。
  • 被「遺忘」的今日頭條?
    同時,抖音也繼續著驚人的增長,字節跳動官方9月公布的數據顯示,其用戶數已突破6億,儼然成為國民級app,並且在廣告之外開始發力新的增長點電商業務。西瓜視頻也與抖音完成「任務分工」,明確了「中視頻」的發展方向,未來一年將拿出超過20億元扶持創作者。在一片熱鬧中,曾經被用作整個公司名字的「今日頭條」,如今卻鮮少被提及了。
  • 今日頭條的惡
    這家技術公司的特色在於,他們使用人工智慧和大數據技術,對用戶的初始閱讀進行識別,然後進行分析和研究,有目的地進行個性化內容的推薦。  稍微有點審美和獨立思考意識的人,都很難接受今日頭條的內容,假新聞在今日頭條上比比皆是,隨便就能找到一堆,這些假新聞有一個共同點,那就是捕風捉影,之所以沒有被人起訴,是因為其描述對象往往都是虛構的,乃至於有些玄幻的。 比如《驚悚!科學家讓5000年前木乃伊開口》、《安徽巨蟒渡劫飛升,不幸被數股閃電劈下!》、《太平間監控 拍下女屍產嬰全過程!》
  • 在今日頭條,有45位作者2020年收入超過1千萬!
    2020年以來,今日頭條共有9359位創作者實現月薪過萬,其中45人收入超過1000萬。在這個平臺上,創作者這一年共收穫了76億營收,比去年增長了60%。這是「2020今日頭條生機大會」上官方發布的一組數據,意味著今日頭條的新生態紅利已成為當下主流,背後,不僅僅是內容創作者,還包括帶給企業和品牌方的巨大紅利。
  • 今日頭條盛典,與「你」有關
    也就是說,2019頭條盛典是群星薈萃的年度盛會,但也和坐在屏幕前的每一個你我有關。就如同今日頭條相關負責人所說:「在頭條盛典上,既有明星閃耀,也有平凡人生。」與「你」有關的「頭條特色」除了頗具行業性以外,2019今日頭條盛典的群星匯聚背後,還頗有「頭條特色」——除了明星之外,頭條盛典從預熱到頒獎的整個過程,都展現出與普羅大眾的聯繫和對其的重視。「作為信息分發平臺,今日頭條致力於連接人與信息,促進創作與交流。」今日頭條相關負責人表示:「我們希望幫助更多普通人被看見,更多優質信息發揮其價值。」
  • 今日頭條對百度提起訴訟 百度回應稱今日頭條太焦慮
    百度和今日頭條的糾紛仍在繼續。1月30日晚間,今日頭條官方微信公號發文稱: 在百度搜索「今日頭條」相關內容,排序第一的搜索結果,是由非正規稿源(百度旗下的自媒體平臺「百家號」)於2017年12月中旬發布的「舊聞」(今日頭條被要求整改的文章)。
  • 信息創造價值:今日頭條產品體驗報告
    2012 年 8 月,今日頭條問世,最初定位為基於數據挖掘的智能推薦內容產品,聲稱「不做新聞生產者,只做新聞搬運工」,由此可見頭條的核心就是通過算法精準匹配用戶需求, 做「千人千面」 的資訊分發,這樣不走尋常路的產品值得我們去體驗一番!體驗環境:HONOR 9X,APP版本:7.9.9報告框架:本文的結構框架如下圖所示:
  • 從賦能影視營銷到推出聯合製片人計劃,今日頭條內容生態再升級
    不難發現,不管是春節檔上映的《流浪地球》《瘋狂的外星人》《飛馳人生》等國產影片以及熱門國產劇《破冰行動》《知否》《都挺好》,還是在國內掀起熱潮的好萊塢影片《復仇者聯盟4》,這些爆款項目背後都有著今日頭條的營銷助力。在建立起全鏈路深度運營以及社會化生產挖掘影視娛樂內容高潛用戶的優勢後,今日頭條的娛樂內容依然在不斷升級。
  • 今日頭條收購二次元社區「半次元」
    記者登錄天眼查發現,王耀網絡的法人已變更為今日頭條合伙人兼高級副總裁張利東,股東則變更為閃星科技,後者由今日頭條全資持有。  此前,今日頭條已在直播、短視頻等領域入股、收購和孵化了多個垂直化產品。業界認為,今日頭條的四處擴張與自身的流量焦慮有直接關係,同時,巨頭們對今日頭條持續圍剿也讓後者充滿危機感。
  • 讓「真知灼見」被看見,2020今日頭條生機大會發布「頭條行家計劃」
    11月25日,2020今日頭條生機大會在北京嘉裡大飯店舉行。大會宣布了今日頭條Slogan升級為「看見更大的世界」,並推出了「頭條行家計劃」助力各行業專業作者提升個人品牌力、影響力、變現力。今日頭條CEO朱文佳、內容生態總經理洪緋、副總編輯徐一龍等8位產品和業務負責人及17位知名人士和創作者出席大會並發表演講。
  • 今日頭條的魯班電商廣告的開戶投放流程、開戶費用及操作
    答: 魯班是為今日頭條電商廣告主量身定做的電商廣告管理工具。  今日頭條的魯班電商廣告投放是電商企業存眷的成績,同樣該挑選哪個平臺進行投放,商家也是非常頭疼。今日頭條上線了魯班電商廣告治理東西,對電商行業將會發生較大打擊。
  • 數據挖掘要用什麼軟體呢?商業數據挖掘案例
    所謂的數據挖掘其實就是在大量的的非結構化數據裡搜索可用的數據,並提取隱含在其中、人們事先不知道的、但又有潛在應用價值的過程。 Smartbi數據挖掘工具揭示的是未知的、將來的數據關係。數據挖掘的知識領域涵蓋了資料庫技術、統計學知識、機器學習、可視化等多學科知識的綜合應用。