您好,登錄后才能下訂單哦!
小編給大家分享一下大數(shù)據(jù)開發(fā)中常見的聚類算法有哪些,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
· 常見的聚類算法 ·
算法步驟
(1) 首先我們選擇一些類/組,并隨機(jī)初始化它們各自的中心點(diǎn)。中心點(diǎn)是與每個(gè)數(shù)據(jù)點(diǎn)向量長(zhǎng)度相同的位置。這需要我們提前預(yù)知類的數(shù)量(即中心點(diǎn)的數(shù)量)。
(2) 計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到中心點(diǎn)的距離,數(shù)據(jù)點(diǎn)距離哪個(gè)中心點(diǎn)最近就劃分到哪一類中。
(3) 計(jì)算每一類中中心點(diǎn)作為新的中心點(diǎn)。
(4) 重復(fù)以上步驟,直到每一類中心在每次迭代后變化不大為止。也可以多次隨機(jī)初始化中心點(diǎn),然后選擇運(yùn)行結(jié)果最好的一個(gè)。
下圖演示了K-Means進(jìn)行分類的過程:
優(yōu)點(diǎn):
速度快,計(jì)算簡(jiǎn)便
缺點(diǎn):
我們必須提前知道數(shù)據(jù)有多少類/組。
K-Medians是K-Means的一種變體,是用數(shù)據(jù)集的中位數(shù)而不是均值來計(jì)算數(shù)據(jù)的中心點(diǎn)。
K-Medians的優(yōu)勢(shì)是使用中位數(shù)來計(jì)算中心點(diǎn)不受異常值的影響;缺點(diǎn)是計(jì)算中位數(shù)時(shí)需要對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行排序,速度相對(duì)于K-Means較慢。
其他的算法可以查看:
https://blog.csdn.net/Katherine_hsr/article/details/79382249
K-mean聚類
代碼實(shí)現(xiàn)
1、導(dǎo)入數(shù)據(jù)
2、計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到中心點(diǎn)的距離
3、對(duì)數(shù)據(jù)點(diǎn)分組
4、迭代收斂和更新質(zhì)心
結(jié)果圖展示:
相似的代碼和演示的數(shù)據(jù)都上傳到了網(wǎng)盤,大家可以去下載、嘗試和應(yīng)用到自己的項(xiàng)目中。
以上是“大數(shù)據(jù)開發(fā)中常見的聚類算法有哪些”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。