現在網際網路上關於「增長黑客」的概念很火,它那「四兩撥千斤」、「小投入大收益」的神奇法力令無數網際網路從業者為之著迷。一般來說,「增長黑客」主要依賴於企業的內部數據(如企業自身擁有的銷售數據、用戶數據、頁面瀏覽數據等),以此為依據進行數據分析和推廣策略擬定。但是,如果遇到如下幾種情況,「增長黑客」就捉襟見肘了:
假如一家初創公司,自己剛起步,自身並沒有還積累數據,怎麼破?
就算有數據,但自己擁有的數據無論在「質」和「量」上都很差,正所謂「garbage in ,garbage out」,這樣的數據再怎麼分析和挖掘,也難以得到可作為決策依據的數據洞察。。。
能看到數量上的變化趨勢,卻無法精準的獲悉數值變動的真正原因,比如,近期APP上的活躍度下降不少,從內部數據上,你只能看到數量上的減少,但對於用戶活躍度下降的真實動因卻無法準確判定,只能拍腦袋或者利用過時的經驗,無法讓相關人信服。
由此,筆者引出了「外部數據」這一概念,尤其是「Open Data」這片「數據藍海」,「他山之石,可以攻玉」,從海量的外部數據中獲取可以對自身業務起到指導作用和借鑑意義的insight,藉助外部環境數據來優化自己。
下圖是本文的行文脈絡:
在談及外部數據的重要性之前,讓我們先簡單的看一看數據分析的四種類型。
1 四種常見的數據分析類型
按數據分析對於決策的價值高低和處理分析複雜程度,可將數據分析歸為如下圖所示的4種範式:
從上圖可以看到,越遠離坐標原點,沿坐標軸正向延伸,價值度就越高,分析處理的難度也就越大。對於數據分析師而言,「描述型分析」、「診斷型分析」和「預測型分析」最為常見,而「規範型分析」涉及比較高深的數據挖掘和機器學習知識,不是我們接下來討論的重點。
1.1 描述型數據分析
描述型分析是用來概括、表述事物整體狀況以及事物間關聯、類屬關係的統計方法,是上述四類中最為常見的數據分析類型。通過統計處理可以簡潔地用幾個統計值來表示一組數據地集中性(如平均值、中位數和眾數等)和離散型(反映數據的波動性大小,如方差、標準差等)。
1.2 診斷型數據分析
在描述型分析的基礎上,數據分析師需要進一步的鑽取和深入,細分到特定的時間維度和空間維度,依據數據的淺層表現和自身的歷史累積經驗來判斷現象/問題出現的原因。
1.3 預測型數據分析
預測型數據分析利用各種高級統計學技術,包括利用預測模型,機器學習,數據挖掘等技術來分析當前和歷史的數據,從而對未來或其他不確定的事件進行預測。
1.4 規範型數據分析
最具價值和處理複雜度的當屬規範型分析。
規範型分析通過 「已經發生什麼」、「為什麼發生」和「什麼將發生」,也就是綜合運用上述提及的描述型分析、診斷型分析和預測型分析,對潛在用戶進行商品/服務推薦和決策支持。
2 對外部數據中的分析很重要
經過上面對四種數據分析類型的描述,筆者認為現有的基於企業內部數據的數據分析實踐存在如下幾類特徵:
大多數的數據分析僅停留在描述性數據分析上,未觸及數據深層次的規律,沒有最大限度的挖掘數據的潛在價值
數據分析的對象以結構化的數值型數據為主,而對非結構化數據,尤其是文本類型的數據分析實踐則較少;
對內部數據高度重視,如用戶增長數據,銷售數據,以及產品相關指標數據等,但沒有和外部數據進行關聯,導致分析的結果片面、孤立和失真,起不到問題診斷和決策支撐作用。
由此,我們必須對企業之外的外部數據引起重視,尤其是外部數據中的非結構化文本數據。
對於文本數據的重要性,筆者已在之前的文章中有過詳細的論述,詳情請參看《數據運營|數據分析中,文本分析遠比數值型分析重要!(上)》。與此同時,非結構化的文本數據廣泛存在於社會化媒體之中,關於社會化媒體的相關介紹,請參看《乾貨|如何利用Social Listening從社會化媒體中「提煉」有價值的信息?》。
3 外部數據的幾種常見類型
外部數據是網際網路時代的產物,隨著移動互聯時代的興起,外部數據的增長呈現井噴的趨勢。各個領域的外部數據從不同角度刻畫了移動互聯時代的商業社會,綜合這些外部數據,才能俯瞰到一個「全息式」的網際網路版圖。
按網際網路行業和領域的不同,外部數據包括且不限於:
阿里(淘寶和天貓):電商大數據
騰訊(微信和QQ):社交網絡大數據
新浪(新浪微博和新浪博客):社交媒體大數據
脈脈:職場社交大數據
谷歌/百度:搜索大數據
優酷:影視播放大數據
今日頭條:閱讀興趣大數據
酷雲EYE:收視大數據
高德地圖:POI大數據
4 外部數據的獲取/採集
隨著網際網路時代對於「Open Data(開放數據)」或「Data Sharing(共享數據)」的日益倡導,很多網際網路巨頭(部分)開放了它們所積累的外部數據;再者一些可以抓取網絡數據的第三方應用和編程工具不斷出現,使得我們可以以免費或付費的方式獲得大量外部數據(在獲得對方允許和涉及商業目的的情況下),最終的形式包括未加工的原始數據、系統化的數據產品和定製化的數據服務。
以下是一些常見的外部數據分析和採集工具:
4.1 指數查詢
4.2 爬蟲工具
4.3 社會化媒體監測與分析平臺
關於上述工具的使用介紹,請參考筆者之前的文章《萬字乾貨|10款數據分析「工具」,助你成為新媒體運營領域的「增長黑客》、《不懂數理和編程,如何運用免費的大數據工具獲得行業洞察?》。
5 外部數據分析的應用場景
最先對外部數據高度重視的先行者其實是政府機構,它們利用大數據輿情系統進行網絡輿情的監測,但隨著大數據時代的向前推進,外部數據的應用場景也越來越多,包括且不限如下方面:
輿情監測
企業口碑和客戶滿意度追蹤
企業競爭情報分析
品牌宣傳、廣告投放及危機公關
市場機會挖掘、產品技術開發創意挖掘
行業趨勢分析
接下來,筆者將以知名網際網路社區---「人人都是產品經理」上近6年的文章數據作為實例,進行「360度無側漏式」的數據分析,來「示範」下如何對外部數據進行挖掘,從中最大限度的「榨取」關於網際網路產品、運營方面的insight。
6 外部數據分析實操---以「人人都是產品經理」上的文章數據分析為例
「人人都是產品經理」社區創建於2010年,是一個產品經理學習、交流、分享的社會化媒體平臺,每天都有更新關於網際網路產品、設計、運營等的資訊和文章,由此吸聚了大量的具有網際網路背景的讀者。據官方宣稱,截至2015年,社區共擁有300萬忠實粉絲。
因此,「人人都是產品經理」在網際網路在網際網路界具有廣泛的影響力,是國內網際網路發展的一面鏡子,分析它上面的文章數據可以達到見微知著、管中窺豹的效果,從中可以發掘網際網路界的歷史變遷和發展現狀,進而展望網際網路行業「將發未發」的熱點和前進方向。
在筆者下面的「數據發現之旅」中,會帶著3個目的,主要是:
通過該社區的資訊文章中,發掘國內網際網路發展的一些特徵
發掘網際網路某些欄目下的熱點及其變動趨勢
給筆者的內容創作予以寫作風格定位和題材選取方面的指導
以下是筆者抓取的數據的原始形態,抓取了「標題」、「時間」、「正文」、「閱讀量」、「評論量」、「收藏量」和「作者」這7個維度的數據,抓取時間區間是2012.05.17~2017.07.31,文章數據共計33,412條。
然後,筆者對數據進行了清洗,主要是「閱讀量」,將「k(1000)「、「萬(10000)」、「m(1000000)」變成了相應的數字,便於後續的數值計算和排序。同時,新增3個維度,即文章所屬的欄目「類別」、「正文字數」和「標題字數」。
6.1全局縱覽
6.1.1 各欄目下的文章數量分布情況
首先,先對各個欄目下的文章數量進行基礎性的描述性分析,看看10個欄目類別下的文章數量分布。
從上面的條狀圖和環形圖可以看出,「業界動態」這一欄目下的文章數量最多,為10,,452篇,佔到了文章篇數總量的31.3%,其次是產品設計和產品運營,分別佔到了總數的19.5%和16.87%,反倒是「產品經理」下的文章數量不多。
接下來,筆者統計了這10各欄目在過去的6年中的數量變化情況,如下面的熱力圖所示:
上面的熱力圖中,色塊越深,對應的數值就越大,越淺則數值愈小。其中,網際網路的「業界動態」一直是文章發布數量最多的欄目。而「產品經理」的發文數量一路飆升(當然2017年還沒過完),間接的可知該職位的熱度(關注和寫作偏好)蹭蹭的往上竄,成為「改變世界」、拿著高薪的產品經理,是無數網際網路從業人員夢寐以求的工作。與此類似的是「產品運營」欄目,發文數量也在穩步上升。
另外,「產品設計」方面的文章主要集中在2012年,可以看出以「用戶體驗」、「UI設計」、「信息架構」和「需求規劃」為主要活動的產品設計在2012年蓬勃發展,產生了大量基於實踐經驗的乾貨文章。
6.1.2 閱讀數據分析
現在,筆者從「閱讀量」、「點讚量」、「收藏量」、「正文字數」和「標題字數」這些能反映讀者閱讀偏好的數據著手,進行由淺入深的挖掘,從中發現閱讀數據中的洞察。
在統計分析之前,先去掉若干有缺失值的數據,此時文本數據總量為33,394。
(1)文章數據的描述性分析
先對所有文章的各個維度進行描述性統計分析,獲得這些數據的「初の印象」。
上面的數據過多,為節省篇幅,筆者僅摘取部分數據進行解讀:
(2)文章聚類分析
在該部分,筆者選取 「閱讀量」、「收藏量」、「評論量」、「標題字數」這4個維度作為此次聚類分析的特徵(Feature),它們共同構造了一個四維空間,每一篇文章因其在這4個維度上的數值不同,在四維空間中形成一個個的點。
以下是由DBSCAN自動聚類形成的圖像,因4維空間難以在現實中呈現,故以2維的形式進行展示。
從上圖可以看出,此次聚類中,有少數的異常點,由上面的描述型分析可知,閱讀量極大的那幾篇文章的「嫌疑」最大,現在在源數據中「揪出」它們,遊街示眾,然後再「除掉」。
去除掉上述異常點之後的聚類圖譜:
從上圖中可以看出,雖然因為維度過高,不同類別簇群存在重合現象,但不同的顏色明顯的將文章類別進行了區分,按照「閱讀量」、「收藏量」、「評論量」、「標題字數」這4個維度進行的DBSCAN聚類可以分為5個類別。
(3)閱讀量與正文字數、標題字數之間的關聯分析
接著,筆者分別對「閱讀量」與「標題字數」、「正文字數」做了散點圖分析,以期判斷它們之間是否存在相關關係。
從上圖來看,閱讀量和標題字數之間並沒有明顯的線性相關性,標題字數及其對應數量的散點分布,近似形成了一條左偏態的正態曲線,從圖像上印證了上面的描述性分析,而且更新了我們的認知:在10~30這個「標題字數」區間的文章數量最多,而標題字數過多未必是好事。
從上圖可以看出,從1000字開始,閱讀量和正文字數在大體上呈負相關關係,即文章字數越多,閱讀量越小。由此看來,大家都比較喜歡短平快的「快餐式」閱讀,篇幅太長的文章看起來太磨人。。。
6.1.3 熱門文章特徵分析
一篇文章的「收藏量」能在一定程度上反映讀者對該文章的價值度的認可,較高的收藏量能代表該文章的質量屬於上乘。而從一定數量的高收藏量文章中,我們又能間接的從中發掘出讀者的閱讀偏好,進而界定讀者群體的某些特徵。
在這部分,筆者篩選出收藏量大於1,000的文章,各欄目合計下來,不多不少,剛好60篇。以下是它們在各欄目下的數量分布情況:
從上表中,筆者發現如下信息:
「產品經理」欄目下收藏量過1,000的文章數量最多,佔到半數;
「分析評測」下的文章數量不多,但讀者互動最多(平均評論量為90);
「分析評測」、「交互體驗」、「業界動態」、「原型設計」入圍的文章數量不多,但它們的平均閱讀量較高
以上3點僅是從數值型數據上獲得的認知,但是這些熱門文章到底有哪些特徵,我們不得而知,由此,筆者統計了這些熱門文章的標題中的高頻詞,並將其製成關鍵詞云:
從上面的高頻詞,「Axure」、「乾貨」、「工具」、「新人」、「7天」、「速成」等高頻詞可以間接的推測出,這些文章的主要面向初學者(按照心理學上的「投射原理」,讀者其實也大都是初學者),以乾貨類、工具類和方法論為主題,並透露出濃厚的「成功學氣息」(如「速成」、「7天」、「必學」等詞),具有這類標題特徵的文章,堪稱「眼球收割機」,初學者合併小白喜聞樂見,最是喜歡~
6.1.4 文本中一線~五線城市提及次數的地理分布
在該部分,筆者先列出了一個國內一、二、三、四、五線城市的城市名錄,然後在經過分詞處理的333,94篇文本數據中統計這些城市的提及次數(不包含簡稱和別稱),最後製成一張反映城市提及次數的地理分布地圖,進而間接的了解各個城市網際網路的發展狀況(一般城市的提及跟網際網路產業、產品和職位信息掛鈎,能在一定程度上反映該城市網際網路行業的發展態勢)。
經處理,製成的數據地圖如下:
上圖反映的結果比較符合常識,北上深廣杭這些一線城市/網際網路重鎮的提及次數最多。其次是成都、天津、重慶、蘇州和青島這些二線城市,再次是哈爾濱、大連。
總結起來的一句廢話就是---網際網路發達的城市主要集中在東南沿海。。。
上面的數據分析大多數是基於數值型數據的描述性分析,接下來,筆者將利用其中的文本數據做深入的文本挖掘。
6.2 針對「產品運營&數據分析」欄目的專項文本挖掘
因為筆者關注的領域主要是數據分析和產品運營,平時寫的文章也大都集中在這兩塊,所以筆者把這兩個板塊的數據單獨拎出來,從文本挖掘角度,做一系列由淺入深的數據分析。
6.2.1 高頻詞彙TOP200
首先是文本挖掘中最常規的高頻詞分析,筆者從中獲取了TOP200詞彙。
可以看到,大部分是跟「運營」息息相關的詞彙,比如「用戶」、「運營」、「內容」、「APP」、「營銷」、「微信」等詞彙。
單獨看其中的高頻詞TOP30,可以發現,這些詞大部分跟新媒體運營(「內容」、「微信」、「微博」、「文章」等)、用戶(「用戶」、「粉絲」、「需求」、「社群」、「客戶」、「消費者」等)有關係。
將這TOP200高頻詞製成關鍵詞雲,直觀的看到其中重要的信息。
6.2.2 Bicluster文本聚類分析
剛才筆者提到了基於關鍵詞歸納主題的做法,在上面的高頻詞中,這種主題特徵不甚明顯,因而筆者採用更強有力的Bicluster文本聚類分析,從「數據分析&產品運營」的數千篇文章中「析出」若干「子主題」,並進行「發布年份」&「主題構成」之間的關聯分析。
基於譜聯合聚類算法(Spectral Co-clusteringalgorithm)的文檔聚類,這部分的原理涉及到艱深的數學和算法知識,可能會引起小夥伴們的閱讀不適感,如果是這樣,請快速跳過,直接看後面的操作和結果。
先將待分析的文本經TF-IDF向量化構成了詞頻矩陣,然後使用Dhillon的譜聯合聚類算法(Spectral Co-clusteringalgorithm)進行雙聚類(Biclusters)。所得到的「文檔-詞彙」雙聚類(Biclusters)會把某些文檔子集中的常用詞彙聚集在一起,由若干個關鍵詞構成某個主題。
正式分析之前,先對保存在Excel中的文本數據做一定的預處理,使用「乾坤大挪移」,將Excel中的文本數據按年份一條條的歸到不同的文件夾下面,具體步驟如下圖所示:
做好預處理後,進行正式的Bicluster文本聚類,結果如下:
上面的分析結果中,Bicluster1的話題區分度不明顯,且僅包含2個文檔和16個關鍵詞,所以排除掉這個主題,僅留下其他5個主題,排除噪聲,從這些子話題中的主要關鍵詞來歸納其要旨。
為了看得更清楚,筆者將這些數據整理成二維表格的形式:
從上表可以看出,「數據分析&產品運營」下的子話題中,涉及「新媒體運營」的內容最多,佔到文檔總量的35.62%,其次是「APP運營」和「智能硬體」方面的話題,分別佔到文檔總量的23.72%和19.6%。而「數據分析」話題下的文檔數最少。
將子話題和年份進行交叉分析,可以從中了解到各個子話題在各年份的信息分布量,從某種意義上講,也就是話題熱度。
從上表可以看到,「智能硬體」的子話題在2012和2013年的熱度最高,而「APP運營」和「數據分析」在2016和2017年開始火了起來,而「新媒體運營」在近3年也是風光無限。而單獨從2016年來看,除了「智能硬體」方面的話題不火外,其他三個話題均有較高的熱度,達到了近5年來熱度峰值,看來2016年是個特殊的年份。
總體上,除了「智能硬體」這個子話題外,其他3個子話題熱度都呈現出不斷上升的趨勢,當然,筆者假設2017年的4個月過完的時候還是如此。
6.2.3 基於「數據分析&產品運營」語境下的關聯詞分析
接下來進行的是基於Word Embedding的Word2vec詞向量分析,將正文分詞文本直接進行詞向量模型訓練,然後用來進行關聯詞分析。
Word2vec是Word Embedding(詞嵌入)中的一種,是將文本進行詞向量處理,將這些詞彙映射到向量空間,變成一個個詞向量(WordVector),以使這些詞彙在便於被計算機識別和分析的同時,還具有語義上的關聯性,而不僅僅是基於詞彙之間的共現關係。類似的例子可以參看筆者之前的文章《用數據全方位解讀<歡樂頌2>》、《以<大秦帝國之崛起>為例,來談大數據輿情分析和文本挖掘》。
由此,通過Word2vec,我們可以查找到在「數據分析&產品運營」語境下的各個詞彙的關聯詞。
先看看筆者最關心的「數據分析」,在「數據分析&產品運營」語境下有哪些詞與之關聯度最高,這裡採用的method是』predict_output_word』,也就是把「數據分析」單個詞當做語境,預測在「數據分析」語境下的關聯詞。(Report the probability distribution of the center word given the context words as input to the trainedmodel.)
在這種情況下,「數據分析」與自身的關聯度不是1了,因為它可能在一段話裡出現兩次。後面關聯度較高的詞彙依次是「統計分析」、「數據挖掘」、「BI」、「Excel」等,從其中的幾個數據工具(Growing IO、神策和友盟等)來看,廠家的品宣軟文做的還是蠻好的。
再來看看「數據挖掘」+「運營」下的關聯詞有哪些,這次採用的method是’most_similar』,結果如下:
結果顯示,這2個詞的組合得到的關聯詞,除了「數據分析」外,還有「精細化」、「BI」、「統計分析」、「(用戶)畫像」、「數據模型」、「指標體系」、「產品策劃」等關鍵詞,它們是數據運營中涉及較多的概念。
下面是「pm」和「運營」的共同關聯詞,它們能較好的說明運營和產品之間的存在的某些「公共關係」。
本來,這兩個職位由於跟進流程多,涉及面廣,需要幹各種「雜活」,因而很多產品或運營抱怨自己就是 「打雜」的。近一段時間,網際網路界某些專家適時造出「全棧產品」和「全棧運營」這兩個新概念,認為必須在這兩個崗位上掌握更多的「斜槓」技能,熟諳相關領域的各個「工種」,最好精通各個流程。要做好這兩個「非技術」的崗位,很多方面不僅要「略懂」,還要扮演「多面手」的角色,比如「技術開發」、「產品策劃」等,如此才能在實際工作中「獨當一面」。
接下來,筆者從中挑選出出90個跟「數據分析」具有較高關聯度的詞彙,看哪些詞彙在該語境下中提及次數最多,以及這些詞之間的共現關係(Co-occurrence Relation),通過詞彙連結關係的多寡,找到重要性程度最高的詞彙。
從字體大小來看, 「數據」、「數據分析」、「運營」、「數據挖掘」「資料庫」、「預測」等詞連結的詞彙最多,它們的重要性程度在這90個詞彙中的重要性程度最高。
從顏色上來看,這90個詞根據「關係親疏(共現關係)」聚集為5個社群(Community),最為突出的是3個社群,分別是:
橙色系的「SPSS」和「SAS」,數據分析工具類;
紫色系的「數據」、「數據分析」、「數據挖掘」等,數據分析相關重要的概念;
綠色系的「營銷」、「社會化媒體」、「監測」等,品牌營銷類。
其中,「社會化媒體」與「營銷」之間的線條最為明顯,代表它們之間有很強的關聯度---因為社會化媒體正式營銷活動的載體,營銷活動必須在各類社會化媒體(微信、微博、頭條號等)實施。
6.2.4 Lexical dispersion plot(詞彙分散圖)
接下來,筆者想了解「產品運營&數據分析」欄目中的某些詞在2012.05~2017.07之間的數量分布情況,以及它們出現的位置信息(the location of a word in the text),這時可以利用Lexicaldispersion plot(詞彙分散圖)進行分析,它可以揭示某個詞彙在一段文本中的分布情況(Producea plot showing the distribution of the words through the text)。
筆者先將待分析的文本按時間順序進行排列,分詞後再進行Lexicaldispersion plot分析。因此,文本字數的累積增長方向與時間正向推移的方向一致。圖中縱軸表示詞彙,橫軸是文本字數,是累加的;黑色豎線表示該詞彙在文本中被提及一次,對應橫軸能看到它所處的位置信息,空白則表示無提及。
從上圖可以看出,在近4,500,000詞彙量的文本中,「運營」、「微博」和「電商」在近6年裡的提及次數極高,中間的間隙較少,貫穿始終,它們是作家談論最多的三個詞彙/話題。像「新媒體」、「微信公眾號」、「用戶運營」、「社群」等詞彙,在頭兩年的提及熱度不高,但後來居上,提及量呈現逐漸上漲的趨勢。而「BI」、「CRM」在近六年內呈零星分布,提及量較少,在「產品運營&數據分析」欄目中屬於冷門話題。
6.2.5 利用DTM模型(Dynamic Topic Models )分析主題下的熱點變遷
上面的分析是針對某個詞彙的時間動態分析,這裡筆者要分析的是某個話題隨時間的變遷情況(This implements topics that change over time)。筆者運用的模型是DTM模型 (Dynamic Topic Models ),它是「概率主題模型」家族的一員,用於對語料庫中主題演變進行建模。
它基於這樣的假設:
蘊含時間因素的主題,儘管它包含的關鍵詞會隨著時間的變化而產生相應的變化,但它如構成要素不斷更新換代的「忒修斯之船(The Ship of Theseus)」一般,即使同一主題下的開端和末尾中的主題詞沒有一個是相同的,但還是原先的主題,保留有相同的語境。(By having a time-basedelement to topics, context is preserved while key-words may change.)
首先,從「產品運營&數據分析」中「解析」出如下6個子話題,它們是「運營」、「商業模式」、「流量運營&數據分析」、「品牌營銷&數據分析」、「電商運營」和「內容運營」,如下表所示:
筆者對Topic2,也就是「流量運營&數據分析」在2012.05~2017.07間的話題變遷情況感興趣,於是將這6年間出現的主題詞重新整合,製成下面的熱力圖:
上圖中縱軸是主題詞,橫軸是年份,顏色由淺入深代表數值的由小到大。從中可以明顯的看出,「流量運營&數據分析」子話題下的「數據」、「數據分析」、「運營」和「業務」在該話題中始終處於「核心地位」,保持較高且穩定的word_prob值。而「渠道」、「遊戲」、「互金」在近3年的word_prob值有了較大的提升,說明社區的作者在近期比較關注這3個主題詞所代表的領域,間接表明它們在網際網路中的話題熱度呈現上升趨勢。
6.2.6 利用ATM模型(Author-TopicModel)分析作家寫作主題分布
在這個版塊,筆者想了解「人人都是產品經理」上作家的寫作主題,分析某些牛X作家喜歡寫哪方面的文章(比如「產品運營」、「數據分析」、「新媒體運營」等)寫作了啥,主題相似度的作者有哪些。
為此,筆者採用了ATM模型進行分析,注意,這不是自動取款機的縮寫,而是author-topic model:
ATM模型(author-topic model)也是「概率主題模型」家族的一員,是LDA主題模型(Latent Dirichlet Allocation )的拓展,它能對某個語料庫中作者的寫作主題進行分析,找出某個作家的寫作主題傾向,以及找到具有同樣寫作傾向的作家,它是一種新穎的主題探索方式。
首先,先從文本中「析出」若干主題,經過探索,10個主題的區分度正好。根據各個主題下的主題詞特徵,筆者將這10個主題歸納為 :「行業動態」、「電商運營」、「商業模式」、「產品運營」、「社交媒體」、「互金產品」、「數據運營」、「用戶研究」、「產品設計」和「新媒體運營」。
同時,在數據處理的過程中,模型建立了作者(author)、主題(topic)及文檔(document)之間的映射關聯關係,以dict的形式保存數據。
模型訓練完畢,先看看筆者自己的寫作主題分布吧。值得注意的是,這裡的文檔數據經過甄選,並不是全部的文檔數據,因此數量會少於網站上所看到的文章數。
上面的「Docs」中的元素是文章對應的文檔ID編號按照時間順序排列的,「Topics」中的元素有兩列,一列代表主題,一列代表主題的權重大小。很明顯,筆者的寫作主題主要集中在「數據運營」、「新媒體運營」和「用戶研究」這3個主題上,有些直接從標題即可看出,有些「潛藏」在文章的正文論述之中。
再看看運營大神韓敘的寫作主題分布,很明顯,他側重於寫產品運營方面的乾貨文章,而且寫作主題很明確。
再看看另一位專欄作家類類的寫作主題分布,他傾向於寫產品運營、用戶研究和社交媒體方面的文章,看過他文章的人都知道,他尤其擅長基於社區的用戶運營。
再看看另一位運營大神---張亮,也就是「網際網路運營第一書」《從零開始做運營》的作者張亮,他的寫作主題跟類類幾近一致,也是產品運營、用戶研究和社交媒體方面的乾貨分享。
接下來,根據上述作者的寫作主題分布,筆者找出與他們寫作相似度最高的作家,為保持準確度,筆者有一個限制條件---發文數量不小於3篇。
結果以表格的形式展示,主要的維度有「作者(Author)」、「相似度得分(Score)」和「文檔數量(Size)」。以下是「韓敘」「類類有話說」和「張亮-leo」的相似作者名單TOP10,限於篇幅,筆者就不做過多分析了。
6.2.7 LSI相似標題索引
最後,筆者想通過文章標題之間的語義相似關係來找到相同主題的文章,而這種語義相關性不僅僅是字面上的(不包含相同的詞彙,但其中的詞含義相近)。利過LSI(Latent Semantic Index,潛在語義索引)就可以做到這一點。
通過「詞袋模型(bag-of-words)」將語句映射到特定的Vector Space Model (VSM)中,比較語句向量化後的餘弦夾角值(介於0-1之間),值越大,就代表相似度越高。詳細的原理推導,小夥伴們可以自行Google腦補。
從標題中找出主題相似的文章,檢索感興趣的內容,不僅僅是通過關鍵詞檢索,潛在語義分析。
在這裡,筆者先後對如下三篇文章進行LSI語義索引:
結果顯示如下:
從上面的索引結果可以看到,搜尋到的語句和原語句之間即使沒有包含相同的詞彙,但語義上是相關的,分別從屬於4「用戶研究」、「運營實操根據」和「內容運營」這三個話題。筆者通過這種文本相似度索引,就可以找到自己感興趣的內容,進行更進一步的文本挖掘。
結語
限於篇幅,上述許多模型的用途/使用場景,筆者並未展開詳說,比如Lexical Dispersion Plot、Bicluster文本聚類和DTM模型可以預測詞彙和主題的熱度,從而為寫作選材和熱點追蹤提供參考;而LSI相似文本索引和ATM模型可以在內容創作中進行競品分析,找到與筆者寫作主題相近的作家和內容進行針對性的分析,知己知彼,做好自己的寫作風格定位。
拿筆者的分析實踐為例,在「數據分析」欄目中,採用上述分析手段,筆者發現相關文章大都是理論型和設想型的論述,缺少真實的數據分析實例支撐,真正投入到實際工作中的效果也未可知;同時,很多是常規的、基礎性的數值型分析,介紹的工具則是Excel、SQL、SPSS,難以滿足當今大數據背景下的數據分析實踐。因此,筆者的寫作風格傾向於「少許理論+實操」,儘量少扯「看起來對、看過就忘」的理論,在數據分析工具和方法的使用上儘量做到多樣化,實例分析不為得出具體的結論,重在開拓讀者的數據分析思路,授人以魚。
最後,透過上面的外部數據分析實例,筆者想闡明如下3點:
數據來源及參考資料:
1.數據來源:人人都是產品經理,http://www.woshipm.com
2.Kemal Eren,An introduction to biclustering, http://www.kemaleren.com/an-introduction-to-biclustering.html
3.Ofir Pele and MichaelWerman, A linear time histogram metric for improved SIFT matching,2008.
4.Matt Kusner et al. From Embeddings To Document Distances,2015.
5.Michal Rosen-Zvi, Thomas Griffiths et al. The Author-Topic Modelfor Authors and Documents
6.David Hall et al. Studying the Historyof Ideas Using Topic Models
7. D.Blei and J. Lafferty. Dynamic topicmodels. In Proceedings of the 23rd International Conference on MachineLearning, 2006.
蘇格蘭折耳喵(微信公眾號:運營喵是怎樣煉成的),人人都是產品經理專欄作家。新浪微輿情數據PM,擅長數據分析和可視化表達,熱衷於用數據發現洞察,指導實踐。
·END·
本文由運營喵是怎樣煉成的(ID:yymzylc)授權梅花網轉載,
版權歸原作者所有,未經授權,請勿轉載,謝謝!