比elbow方法更好的聚類評估指標

2021-02-19 AINLP




作者:Tirthajyoti Sarkar

編譯:ronghuaiyang

我們展示了用來可視化和決定最佳聚類數量的評估方法,要比最常用的elbow方法要好的多。

介紹

聚類是利用數據科學的商業或科研企業機器學習pipeline的重要組成部分。顧名思義,它有助於在一個數據blob中確定緊密相關(通過某種距離度量)的數據點的集合,否則就很難理解這些數據點。

然而,大多數情況下,聚類過程屬於無監督機器學習。而無監督的ML則是一件混亂的事情。

沒有已知的答案或標籤來指導優化過程或衡量我們的成功。我們正處於一個未知的領域。

因此,當我們面對一個基本問題時,像k-means clustering]樣的流行方法似乎不能提供一個完全令人滿意的答案。

剛開始的時候,我們如何知道聚類的實際數量呢?

這個問題非常重要,因為聚類的過程通常是進一步處理單個聚類數據的前置問題,因此計算資源的數量可能依賴於這種度量。

在業務分析問題的情況下,後果可能更糟。聚類通常是為了市場細分的目標而進行的分析。因此,很容易想到,根據聚類的數量,對營銷人員進行分配。因此,對聚類數量的錯誤評估可能導致寶貴資源的次優分配。

elbow方法

對於k-means聚類方法,回答這個問題最常用的方法是所謂的elbow 方法。它需要在一個循環中多次運行算法,聚類的數量不斷增加,然後繪製聚類得分作為聚類數量的函數。

elbow法的分數或度量是什麼?為什麼它被稱為'elbow'方法?一個典型的場景如下:

通常,得分是k-means目標函數上輸入數據的度量,即某種形式的簇內距離相對於簇間距離。例如,在Scikit-learn的k-means estimator中,一個score 方法可用於此目的。

並不是那麼明顯,不是嗎?

Silhouette coefficient — 一個更好的度量

Silhouette Coefficient是用每個樣本的平均簇內距離a)和平均最近簇間距離(b)計算出來的。樣本的輪廓係數為(b - a) / max(a, b)。為了澄清,b是該樣本與該樣本不屬於的最近的群之間的距離。我們可以計算所有樣本的平均Silhouette Coefficient,並以此作為判斷集群數量的指標。

為了說明,我們使用Scikit-learn的make_blob 函數在4個特徵維度和5個聚類中心上生成隨機數據點。因此,這個問題的基本事實是,數據是在5個聚類中心附近生成的。然而,k-means算法無法知道這一點。

簇可以按如下方式繪製(成對特徵):

接下來,我們運行k-means算法,選擇k=2到k=12,計算每次運行的默認k-means得分和平均Silhouette Coefficient,並將它們並排繪製出來。

兩者之間的區別再明顯不過了。平均silhouette係數在k=5時增大,然後k值越大,平均silhouette係數急劇減小,即在k=5處有一個明顯的峰值,這就是原始數據集生成的簇數。

silhouette係數與elbow法的平緩彎曲相比,表現出峰值特性。這更容易可視化和歸因。

如果我們在數據生成過程中增加高斯噪聲,簇看起來會更加重疊。

在本例中,elbow方法的默認k-means得分會產生相對不明確的結果。在下面的elbow圖中,很難選擇真正發生彎曲的合適點。是4、5、6還是7?

但silhouette係數圖仍然能在4或5個聚類中心處出現峰值特徵,使我們的判斷更容易。

事實上,如果你回頭看看重疊的簇,你會發現大多數情況下有4個可見的簇 —— 儘管數據是用5個聚類中心生成的,但由於高方差,只有4個簇在結構上顯示出來。Silhouette係數可以很容易地捕捉到這種行為,並顯示聚類的最佳數量在4到5之間。

BIC評分採用高斯混合模型

還有其他優秀的指標來確定的聚類的數量,比如Bayesian Information Criterion (BIC) ,但這些只有當我們希望用在k - means以外的聚類方法的時候才可以 ——  Gaussian Mixture Model (GMM)。

基本上,GMM將一個數據簇看作是具有獨立均值和方差的多個高斯數據集的疊加。然後應用Expectation-Maximization (EM)算法來近似地確定這些平均值和方差。

把BIC作為正則化

你可能是從統計分析或你之前與線性回歸的交互中認識到BIC這個術語。採用BIC和AIC (Akaike Information criteria)作為線性回歸變量選擇的正則化技術。

BIC/AIC用於線性回歸模型的正則化。

這個想法在BIC中也有類似的應用。理論上,極其複雜的數據簇也可以建模為大量高斯數據集的疊加。為了這個目的,使用多少高斯函數沒有限制。

但這與線性回歸中增加模型複雜度類似,在線性回歸中,可以使用大量特徵來擬合任意複雜的數據,但卻失去了泛化能力,因為過於複雜的模型擬合的是噪音,而不是真實的模式。

BIC方法懲罰了大的高斯函數數量,並試圖使模型足夠簡單以解釋給定的數據模式。

總結

這是這篇文章的notebook:https://github.com/tirthajyoti/computerlearing-with-python/blob/master/clustering-dimensions-reduction/clustering_metrics.ipynb,你可以試試。

對於經常使用的elbow方法,我們討論了幾個備選方案,用於使用k-means算法在無監督學習設置中挑選出正確數量的聚類。我們表明,Silhouette係數和BIC評分(來自k-means的GMM擴展)是比elbow方法更好的可視化識別最優簇數的方法。

英文原文:https://towardsdatascience.com/clustering-metrics-better-than-the-elbow-method-6926e1f723a6

推薦閱讀

這個NLP工具,玩得根本停不下來

完結撒花!李宏毅老師深度學習與人類語言處理課程視頻及課件(附下載)

從數據到模型,你可能需要1篇詳實的pytorch踩坑指南

如何讓Bert在finetune小數據集時更「穩」一點

模型壓縮實踐系列之——bert-of-theseus,一個非常親民的bert壓縮方法

徵稿啟示| 200元稿費+5000DBC(價值20個小時GPU算力)

文本自動摘要任務的「不完全」心得總結番外篇——submodular函數優化

Node2Vec 論文+代碼筆記

模型壓縮實踐收尾篇——模型蒸餾以及其他一些技巧實踐小結

中文命名實體識別工具(NER)哪家強?

學自然語言處理,其實更應該學好英語

史丹福大學NLP組Python深度學習自然語言處理工具Stanza試用

關於AINLP

AINLP 是一個有趣有AI的自然語言處理社區,專注於 AI、NLP、機器學習、深度學習、推薦算法等相關技術的分享,主題包括文本摘要、智能問答、聊天機器人、機器翻譯、自動生成、知識圖譜、預訓練模型、推薦系統、計算廣告、招聘信息、求職經驗分享等,歡迎關注!加技術交流群請添加AINLPer(id:ainlper),備註工作/研究方向+加群目的。

相關焦點

  • 「elbow room」別理解成「胳膊肘的空間」
    大家好,今天我們分享一個非常有用且地道的表達——elbow room, 這個短語的含義不是指「胳膊肘的空間」,其正確的含義是:elbow room 活動餘地,活動空間 We were tightlysquashed in at dinner, with very little elbow room.
  • 新聞熱詞:撞肘問候 elbow bump
    現在有一種在哪個國家都適用的問候方式很流行,叫做elbow bump(撞肘),你知道是怎麼回事嗎?The elbow bump is an informal greeting where two people touch, or tap, elbows.
  • elbow one's way 嗯?用手肘開路?
    新媒體管家elbow one's way 嗯?用手肘開路💪?
  • 方法分享:MACD指標的經典背離結構!
    又到周末了,本周打算給各位粉絲講講基礎的技術分析方法。今天先講基礎入門指數:MACD指標最經典的頂/底背離結構。之所以稱為「異同移動平均線」,原因是MACD指標是從傳統的平均線發展而來,由快的移動平均線(EMA12)減去慢的移動平均線(EMA26),得到DIF線(指標上的白線)。
  • 全面建成小康社會的評價方法及指標體系
    採用定性分析和定量分析相結合的方法評價全面建成小康社會的成效,選擇的質量指標和數量指標應既有反映進展和成績的正指標,又有反映不足和缺陷的負指標,如公眾對政府效率滿意度增加是正向指標,而公眾對政府效率滿意度下降則是負向指標。比較靜態分析和動態分析相結合的方法。以創新理念對全面建成小康社會進行評價,需要比較靜態分析和動態分析相結合的方法。
  • roc指標選股公式 該指標的計算方法如何
    炒股的人有不少,對於股民來說肯定是要了解不同指標的的運用了,還有選股也是很重要的。ROC指標一般指變動率指標,那麼這roc指標選股公式怎麼樣?還有roc指標的計算方法如何?我們一起來看看!
  • KDJ指標詳解:KDJ 指標原理和計算方法
    和其它指標的計算一樣,由於選用的計算周期的不同,KDJ指標也包括日KDJ指標、周KDJ指標、月KDJ指標年KDJ指標以及分鐘KDJ指標等各種類型。經常被用於股市分析的是日KDJ指標和周KDJ指標。雖然它們的計算時的取值有所不同,但基本的計算方法一樣。
  • 用戶滿意度指標權重計算方法
    在了解整體滿意度、一級指標滿意度、二級指標滿意度外,還需要了解下一級指標對上一級指標的權重,幫助確定各個方面的工作優先級,為產品優化改進方向提供決策依據。下文將簡單介紹一下幾種滿意度指標權重的計算方法。Part 1. 權重計算的作用指標權重可以更合理的評分用戶滿意度,指導用戶體驗優化方向。滿意度調查的主要作用有:
  • 分析方法驗證中的統計指標
    在分析方法驗證中,也是需要圍繞著準確度、精密度、可檢測性和專屬性進行各項指標確認,本文試圖分別展開對其中涉及到的統計指標進行簡單的描述和討論:一、準確度準確度:測量結果與真實值之間的接近程度。其試驗方法通常通過在中加入已知量的標準品計算加標回收率,或對已知濃度標準品的測試結果與理論值計算誤差,數據量一般為測定濃度6份或低、中、高濃度9份樣品。常用的準確度統計指標如下:1、回收率:測量結果與真實值的比值。2、相對誤差(Relative Error,RE):測量所造成的絕對誤差與被測量真實值的比值。
  • 因子分析統計方法在指標評價中的實踐應用
    此時採用主成分分析方法和因子分析方法可以通過簡化數據結構達到降為的目的,把多個存在相關關係的指標化成少數幾個互不相關的新的綜合性指標,需要建立一定規則來尋找原始指標的某種線性組合而形成新的綜合指標,這些新的主成分或公因子反映了原始指標的大部分信息且互不相關,去除了重疊信息。
  • 讀文獻:比TMB更好的泛癌預測指標……
    在此,作者提出一種測量腫瘤免疫原性評分(TIGS)的方法,該方法結合了腫瘤突變負荷(TMB)和抗原處理呈遞機制(APM)的表達特徵。無論是與泛癌ICI反應率(ORR)的相關性,還是對個體患者的ICI臨床反應預測,TIGS始終比TMB和其他已知的ICI反應預測生物標誌物表現出更好的性能。
  • 遼寧撫順市2020年指標到校信息大公開!指標到校方法與名額分配表
    一、指標到校名額的分配背景及依據根據《遼寧省教育廳關於加強中小學招生入學管理工作的實施意見〕106號)《關於做好2020年普通中小學招生入學工作的通知》(遼教辦〔2020〕29號)《遼寧省教育廳辦公室關於報送2020年普通高中招生計劃的通知》(遼教辦〔2020〕48號)《遼寧省教育廳 遼寧省人力資源和社會保障廳關於建立高中階段教育統一招生平臺的通知》(遼教電〔2019〕155號)等文件精神,依照撫順市2020年中招方案及各高中招生計劃,結合撫順教育發展實際情況和前期對今年初中畢業生享受指標到校資格的核實情況
  • 相對指標的種類和計算方法
    1.結構相對數  結構相對數是表明總體內部各個組成部分在總體中所佔比重的相對指標,用來分析現象總體的內部構成情況。  結構相對數一般用百分數或係數表示,其計算公式的分子和分母既可以是單位總量指標,也可以是標誌總量指標。各組結構相對數之和為100%。
  • 恆指期貨布林線指標功能及使用方法
    那在做恆指期貨交易前,有了解過技術指標BOLL布林線嗎?今天講解下恆指期貨的布林線指標功能及使用方法。 恆指期貨的布林線指標功能: 1、恆指期貨的布林線指標功能是由上,中,下軌線構成,中軌線代表市場的主要趨勢,起到支撐和壓力的作用。
  • 客觀影響力的評估方法、指標、權重和模型
    本節討論客觀影響力的評估方法和1990年以來世界131個國家的客觀影響力及其變化。客觀影響力的評估方法國家的客觀影響力,是國家對國際環境的客觀影響的總和。客觀影響力,沒有統一定義,沒有標準評價方法。本報告提出一種簡化的客觀影響力評價方法。
  • CR指標是什麼意思?CR指標的計算方法纖細介紹
    什麼是CR指標,CR指標的計算方法是什麼?  CR指數的原理與AR和BR指數有許多相似之處,如計算公式和判斷規則等。但Cr指數與ar和BR指數的最大區別在於理論起點的不同。信用評級指數的理論起點是中間價格是股票市場最具代表性的價格。
  • 新生兒的各項指標的測量方法你知道嗎?
    現在的新手寶爸寶媽們都擁有一定的文化水平和專業知識,但是在面對新生兒的測量項目時,難免會遇到測量指標項目多,煩惱也多的情況。愛娃心切是每個父母的真實寫照,但如何科學準確的做好嬰兒的各項指標測量,今天祺祺媽媽就和大家分享一下。身高測量方法:測量新生兒身高,必須由兩個人進行。
  • 國民經濟指標和經濟形勢分析方法
    就宏觀經濟指標來說,至今國際上也沒有一個完全統一的宏觀調控指標體系。經過長期探索,並借鑑一些國家的經驗,黨的十六大確定了我國宏觀調控的主要目標是促進經濟增長、增加就業、穩定物價、保持國際收支平衡。這裡重點報告一下這四大指標。
  • 知友優選|CNKI學科分析的方法、指標與工具
    中國知網學科服務中心高級分析師 張志輝各位領導、各位專家下午好,很高興有這個機會圍繞學科方法、指標與工具給大家做報告。我從事的工作內容是學科分析,因此接下來我想從學科分析如何做以及可操作性的角度來為大家進行介紹。學科分析是建設高水平學科的重要手段。
  • 醫保大數據風控之指標體系的構建方法
    前文提到指標在大數據風控中特別重要,指標+邏輯+取值+參數調整+指標組合=模型。本文採用我們初稿中的指標建設方法(實際指標遠比列舉的方法要複雜)為引子,闡述指標體系的建設路徑。