【數據分析】k-mean聚類分析顆粒物

2021-02-19 天天Matlab

先隨機選取K個對象作為初始的聚類中心。然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。一旦全部對象都被分配了,每個聚類的聚類中心會根據聚類中現有的對象被重新計算。這個過程將不斷重複直到滿足某個終止條件。終止條件可以是以下任何一個:

得到相互分離的球狀聚類,在這些聚類中,均值點趨向收斂於聚類中心。一般會希望得到的聚類大小大致相當,這樣把每個觀測都分配到離它最近的聚類中心(即均值點)就是比較正確的分配方案。

%% SEM MAster%% New text data -- Bingbing: you may have to change this depending on what%% elements you ran with EDX. Make sure the column order matches all of%% your .csv filesclcclear allwarning off;SEMStr={'Part#','Field#','Phase#','X_stage','Y_stage','X_cent','Y_cent','X_left','Y_low','X_width','Y_height','Xferet','Yferet','AvgDiam','LProj','Area','Perim','Shape','Aspe','Orient','C','N','O','Na','Mg','Al','Si','P','S','Cl','K','Ca','Mn','Fe','Zn','CPS','AvgVideo','StgX ','StgY ','MinCnts'};elstr={'C','N','O','Na','Mg','Al','Si','P','S','Cl','K','Ca','Mn','Fe','Zn'};%% Import data:% right click on a single .csv file and import as matrix.% You need to import the files one by one. A single file is the data from% a single sample. In the example data, I have 3 samples.% HighOCwithIN1;% MedOCwithIN1;% LowOCwithIN1;
%% Put data into cell arrayfile1=importdata('HighOC_withIN_1.csv');file2=importdata('LowOC_withIN_1.csv');file3=importdata('MedOC_withIN_1.csv');Sample{1}=file1.data;Sample{2}=file2.data;Sample{3}=file3.data;
% Assign sample labels to a cell arraySampString={'HiOC','MedOC','LowOC'};
% make sure to save this so you don't have to import again.save HiMedLow.mat% Get rid of values less than 0.5%
thresh=0.5;
for i=1:length(Sample) for j=1:length(Sample{i}) for k=21:35 if Sample{i}(j,k)<thresh Sample{i}(j,k)=0; end end endend
%% run k-means on cell arrays defined above
% How many clusters?clustnum=6;
%Any gain you want to add? Typically this may change things a little bit,%but not much. A value less than 1 makes the differences in atomic ratio%between particles smaller and greater than 1 makes the difference in%atomic ratio between particles larger. See the MultiSampleKmeans.m%function.gain=0.5;
samplesize=length(Sample);
[idx,C,alldat,SampBegIdx,SampEndIdx]=MultiSampleKmeans(Sample,SampString,clustnum,gain);SampleFraction(SampBegIdx,SampEndIdx,idx,SampString,[1:clustnum],[1:samplesize])KmeansSemClassSizDistCares(alldat,idx,'highoc');
% KmeansClusterPlot(C,idx,alldat(:,21:38),elstr)% You may have to change the column numbers depending on what atoms you% chooseKmeansClusterPlot(C,idx,alldat(:,21:35),elstr)
% Maybe you want to output what particle is what cluster. Then you can go% back and look at the SEM image of that one particle. Use the code below% to get a list of particle number and cluster number.HighOCPartID=Sample{1}(:,1);B=[HighOCPartID,idx(1:length(Sample{1}))];dlmwrite('HighOC.dat',B,'delimiter','\t','precision','%12.5e')

相關焦點

  • SPSS聚類分析 I K-均值聚類法案例實操
    PART 02 聚類分析入門 聚類分析實質就是按照距離的遠近將數據分為若干個類別,以使得類別內數據的「差異」儘可能小,類別間「差異」儘可能大。 1.
  • 安全數據的聚類分析和判別分析概述
    1 聚類分析的基本原理1)聚類分析的含義聚類分析是根據「物以類聚」的原理,對樣品或指標進行分類的一種多元統計分析方法,將安全統計對象的集合分成多個類的分析過程。通常聚類分析可分為Q型聚類和R型聚類,Q型聚類是對樣品進行分類處理,R型聚類是對變量進行分類處理。
  • 聚類分析與SPSS實操演練
    一、聚類分析概率聚類分析是一種探索性的分析,個案所屬的群組特點還未知,也就是說,在聚類分析之前,研究者還不知道獨立觀察組可以分成多少個類,類的特點也無所得。聚類分析的實質是建立一種分類方法,它能夠將一批樣本數據按照他們在性質上的親密程度在沒有先驗知識的情況下自動進行分類。
  • 騰訊QQ大數據:用戶增長分析——用戶分群分析
    聚類分析的特徵: 簡單、直觀; 主要應用於探索性的研究,其分析的結果可以提供多個可能的解,選擇最終的解需要研究者 的主觀判斷和後續的分析;不管實際數據中是否真正存在不同的類別,利用聚類分析都能得到若干類別的解;聚類分析的解完全依賴於研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產生實質性的影響。
  • 機器學習之分類算法K-Means介紹與代碼分析(篇四)
    維基百科,自由的百科全書中提到K-平均算法(英文:k-means clustering)源於信號處理中的一種向量量化方法,現在則更多地作為一種聚類分析方法流行於數據挖掘領域。k-平均聚類的目的是:把n個點(可以是樣本的一次觀察或一個實例)劃分到k個聚類中,使得每個點都屬於離他最近的均值(此即聚類中心)對應的聚類,以之作為聚類的標準。
  • spss聚類分析功能怎麼使用?spss聚類分析教程
    spss 是一個非常好用的統計分析軟體,spss有一個聚類分析的功能哦,但是很多人不知道spss聚類分析功能怎麼使用?spss聚類分析是一個將case分析的數據的功能哦,下面小編就來告訴大家spss聚類分析使用教程吧!
  • 新技術助力單細胞RNA測序數據聚類分析
    新技術助力單細胞RNA測序數據聚類分析 作者:小柯機器人 發布時間:2020/5/6 14:35:34 英國威康桑格研究所Mara K. N.
  • python之kmeans數據聚類算法
    圖3kmeans實現邏輯:需要輸入待聚類的數據和欲聚類簇數k1.隨機生成k個初始點作為質心2.將數據集中的數據按照距離質心的遠近分到各個簇中3.對每個簇的數據求平均值本章通過變化k的個數,計算k取不同值時,最後的誤差多少,誤差越小,則k最準確。二 數據準備對數據進行聚類,要對測試數據進行清洗。一般代碼都是對數值型數據進行計算,所以如果測試數據是漢字或其他類型的信息,我們要對其進行量化。本案例通過鏈家數據進行測試,通過學習,可以學習python機器學習的一般步驟和整個過程。
  • 因子分析與聚類分析在消費者生活形態研究中的應用
    下面本文主要介紹如何通過因子分析和聚類分析方法來對消費者進行分類。2.利用因子分析的結果,對樣本的回答按照新的類型進行重新評估打分,然後根據這些評價進行聚類分析,根據統計原則以及在現實中容易解釋的原則,確定最終採用的分類個數。3.根據分類結果對每一樣本判別其所屬類別,然後對各類型消費者的背景進行交叉分析。
  • 數據分析的6種常用方法
    原標題:數據分析的6種常用方法 醫學工作者做完醫學實驗後,少不了要對收集的實驗數據進行數據分析。通常來說,常用的數據分析方法有以下六種:聚類分析、因子分析、相關分析、對應分析、回歸分析、方差分析。
  • 數據分析方法論是什麼?
    一、數據分析的基本思路數據分析應該以業務場景為起始思考點,以業務決策作為終點。1、明確思路明確數據分析的目的以及思路是確保數據分析過程有效進行的首要條件。它作用的是可以為數據的收集、處理及分析提供清晰的指引方向。可以說思路是整個分析流程的起點。
  • 安全數據的判別分析
    安全數據的判別分析包括四大內容,如圖所示1 距離判別法2 貝葉斯判別法3 Fisher判別法Fisher判別法是一種先進行高維向低維投影,再根據距離判別的一種方法,就是通過將k組多元安全統計數據投影到某一個方向上(或某一低維空間中),使投影后的組與組之間儘可能地分開
  • 常用的數據分析方法及案例講解
    常用的數據分析方法有描述統計、信度分析、相關分析、回歸分析、聚類分析等。本文將結合實際案例,為大家一一講解這些數據分析的方法。如果你想了解如何做數據分析,就接著看下去吧~描述性統計分析是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。這也是我們在日常生活最常用的一種數據分析方法,因此這裡就不再用案例展開講解了。2、信度分析信度即可靠性,它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。企業在招聘員工時會有一套性格測試題,這裡面就用到了信度分析。
  • 2017.05:基於函數型數據聚類的京津冀空氣汙染特徵分析(梁銀雙等)
    >劉黎明 盧媛   內容摘要:近年來,京津冀地區的空氣汙染問題受到高度關注,為探討該地區空氣汙染的特徵,文章採用函數型數據的聚類分析方法對空氣品質指數(2014)對京津冀地區城市環境空氣顆粒物及其元素特徵做了詳細分析[9]。
  • Kmeans中的K值確定*
    ]]x1,y1 = np.random.multivariate_normal(mean1,cov1,1000).Tmean2 = [0,8]cov2 = [[0.3,0],[0,0.3]]x2,y2 = np.random.multivariate_normal
  • R時間序列分析學習筆記(二十四)—— ARIMA建模和模擬(十六)
    in 1:(n-2)){ ayw[k+1,k+1] <- (gams[(k+1)+1] - sum(ayw[k,1:k] * gams[(k:1)+1])) / ss[k+1] ayw[k+1,1:k] <- ayw[k, 1:k] - ayw[k+1,k+1]*ayw[k, k:1] ss[k+2] <- ss[k+1] * (1 - ayw[k
  • 統計學最常用的「數據分析方法」清單(一)|信度|卡方|施測|統計量|...
    經常會有朋友問到一個朋友,數據分析常用的分析方法有哪些,我需要學習哪個等等之類的問題,今天數據分析精選給大家整理了十六種常用的數據分析方法,供大家參考學習。  一、描述統計  描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。  1. 集中趨勢分析  集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。
  • 論文常用數據分析方法分類總結-3
    知識圖譜繼續我們的知識總結,本文總結包括:多選題研究、聚類分析研究、權重研究、非參數檢驗、數據分布。聚類分析聚類分析-SPSSAU聚類分析以多個研究標題作為基準,對樣本對象進行分類。正態性:很多分析方法的使用前提都是要求數據服從正態性,比如線性回歸分析、相關分析、方差分析等,可通過正態圖、P-P/Q-Q圖、正態性檢驗查看數據正態性。隨機性:遊程檢驗是一種非參數性統計假設的檢驗方法,可用於分析數據是否為隨機。
  • 數據分析淺談 | 基礎篇
    統計分析方法論:描述統計、假設檢驗、信度分析、相關分析、方差分析、回歸分析、聚類分析、判別分析、主成分與因子分析、時間序列分析,決策樹。 其實不然,舉個慄子,我們常用的 求和or 平均,這就是最基本的數據描述統計方法,該方法是通過匯總多個數據得到一個具體的確定值來表徵數據特點。其目的是為了描述數據特徵,找出數據的基本規律。描述統計可以分為集中趨勢分析和離散趨勢分析和相關分析三個部分。
  • 代碼分析 | 單細胞轉錄組clustering詳解
    我們在單細胞轉錄組分析中最為常用的聚類可視化即為tSNE和UMAP(Hemberg-lab單細胞轉錄組數據分析(十二)-