溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)開發(fā)中常見的聚類算法有哪些

發(fā)布時(shí)間:2022-01-14 14:34:55 來源:億速云 閱讀:199 作者:小新 欄目:大數(shù)據(jù)

小編給大家分享一下大數(shù)據(jù)開發(fā)中常見的聚類算法有哪些,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!


· 常見的聚類算法 ·


K-Means

(K均值)聚類 


算法步驟

(1) 首先我們選擇一些類/組,并隨機(jī)初始化它們各自的中心點(diǎn)。中心點(diǎn)是與每個(gè)數(shù)據(jù)點(diǎn)向量長(zhǎng)度相同的位置。這需要我們提前預(yù)知類的數(shù)量(即中心點(diǎn)的數(shù)量)。 

(2) 計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到中心點(diǎn)的距離,數(shù)據(jù)點(diǎn)距離哪個(gè)中心點(diǎn)最近就劃分到哪一類中。 

(3) 計(jì)算每一類中中心點(diǎn)作為新的中心點(diǎn)。 

(4) 重復(fù)以上步驟,直到每一類中心在每次迭代后變化不大為止。也可以多次隨機(jī)初始化中心點(diǎn),然后選擇運(yùn)行結(jié)果最好的一個(gè)。 

下圖演示了K-Means進(jìn)行分類的過程:

大數(shù)據(jù)開發(fā)中常見的聚類算法有哪些

優(yōu)點(diǎn): 

速度快,計(jì)算簡(jiǎn)便 

缺點(diǎn): 

我們必須提前知道數(shù)據(jù)有多少類/組。 

K-Medians是K-Means的一種變體,是用數(shù)據(jù)集的中位數(shù)而不是均值來計(jì)算數(shù)據(jù)的中心點(diǎn)。 

K-Medians的優(yōu)勢(shì)是使用中位數(shù)來計(jì)算中心點(diǎn)不受異常值的影響;缺點(diǎn)是計(jì)算中位數(shù)時(shí)需要對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行排序,速度相對(duì)于K-Means較慢。

2. 均值漂移聚類

3. 基于密度的聚類方法(DBSCAN)

4. 用高斯混合模型(GMM)的最大期望(EM)聚類

5. 凝聚層次聚類

6. 圖團(tuán)體檢測(cè)(Graph Community Detection)

其他的算法可以查看:

https://blog.csdn.net/Katherine_hsr/article/details/79382249

K-mean聚類

代碼實(shí)現(xiàn)

1、導(dǎo)入數(shù)據(jù)

大數(shù)據(jù)開發(fā)中常見的聚類算法有哪些

2、計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到中心點(diǎn)的距離

大數(shù)據(jù)開發(fā)中常見的聚類算法有哪些

3、對(duì)數(shù)據(jù)點(diǎn)分組

大數(shù)據(jù)開發(fā)中常見的聚類算法有哪些

4、迭代收斂和更新質(zhì)心

大數(shù)據(jù)開發(fā)中常見的聚類算法有哪些

結(jié)果圖展示:

大數(shù)據(jù)開發(fā)中常見的聚類算法有哪些

相似的代碼和演示的數(shù)據(jù)都上傳到了網(wǎng)盤,大家可以去下載、嘗試和應(yīng)用到自己的項(xiàng)目中。

以上是“大數(shù)據(jù)開發(fā)中常見的聚類算法有哪些”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI