溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Python?sklearn中的K-Means聚類如何使用

發(fā)布時間:2022-12-28 15:10:35 來源:億速云 閱讀:128 作者:iii 欄目:開發(fā)技術(shù)

這篇文章主要講解了“Python sklearn中的K-Means聚類如何使用”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“Python sklearn中的K-Means聚類如何使用”吧!

初步認(rèn)識

k-means翻譯過來就是K均值聚類算法,其目的是將樣本分割為k個簇,而這個k則是KMeans中最重要的參數(shù):n_clusters,默認(rèn)為8。

下面做一個最簡單的聚類

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
X, y = make_blobs(1500)
fig = plt.figure()
for i in range(2):
    ax = fig.add_subplot(1,2,i+1)
    y = KMeans(i+2).fit_predict(X)
    plt.scatter(X[:, 0], X[:, 1], c=y)
plt.show()

其中,y是聚類結(jié)果,其數(shù)值表示對應(yīng)位置X所屬類號。

效果如圖所示,對于下面這組數(shù)據(jù)來說,顯然最好是分為兩類,但如果KMeansn_clusters設(shè)為3,那就會聚成3類。

Python?sklearn中的K-Means聚類如何使用

上面調(diào)用的KMeans是一個類,sklearn中同樣提供了函數(shù)形式的調(diào)用,其使用方法如下

from sklearn.cluster import k_means
cen, y, interia = k_means(X, 3)

其中,cen表示聚類后,每一類的質(zhì)心;y為聚類后的標(biāo)簽;interia表示均方誤差之和。

初值選取

KMeans最重要的概念是簇,也就是被分割后的數(shù)據(jù)種類;而每個簇都有一個非常重要的點(diǎn),就是質(zhì)心。在設(shè)定好簇的個數(shù)之后,也就相當(dāng)于確定了質(zhì)心的個數(shù),而KMeans算法的基本流程是

  • 選擇k個點(diǎn)作為k個簇的初始質(zhì)心

  • 計算樣本到這k個質(zhì)心(簇)的距離,并將其劃入距離最近的簇中

  • 計算每個簇的均值,并使用該均值更新簇的質(zhì)心

重復(fù)上述2-3的操作,直到質(zhì)心區(qū)域穩(wěn)定或者達(dá)到最大迭代次數(shù)。

從這個流程可以看出來,KMeans算法至少有兩個細(xì)節(jié)需要考慮,一個是初始化方案,另一個則是質(zhì)心更新的方案。

KMeans類或者k_means函數(shù)中,提供了兩種初始化質(zhì)心方案,通過參數(shù)init來控制

  • 'random':表示隨機(jī)生成k個質(zhì)心

  • 'k-means++':此為默認(rèn)值,通過kMeans++方法來初始化質(zhì)心。

kMeans++初始化質(zhì)心的流程如下

  • 隨機(jī)選擇1個點(diǎn)作為初始質(zhì)心 x 0

  • 計算其他點(diǎn)到最近質(zhì)心的距離

  • 假定現(xiàn)有 n n n個質(zhì)心了,那么選擇距離當(dāng)前質(zhì)心較遠(yuǎn)的點(diǎn)作為下一個質(zhì)心 x n x_n xn

重復(fù)步驟2和3,直到質(zhì)心個數(shù)達(dá)到 k k k個。

若希望直接調(diào)用kMeans++函數(shù),則可使用kmeans_plusplus。

小批

sklearn提供了KMeans的一個變種MiniBatchKMeans,可在每次訓(xùn)練迭代中隨機(jī)抽樣,這種小批量的訓(xùn)練過程大大減少了運(yùn)算時間。

當(dāng)樣本量非常巨大時,小批KMeans的優(yōu)勢是非常明顯的

from sklearn.cluster import MiniBatchKMeans
import time
ys, xs = np.indices([4,4])*6
cens = list(zip(xs.reshape(-1), ys.reshape(-1)))
X, y = make_blobs(100000,centers=cens)
km = KMeans(16)
mbk = MiniBatchKMeans(16)
def test(func, value):
    t = time.time()
    func(value)
    print("耗時", time.time()-t)
test(km.fit_predict, X)
# 耗時 3.2028110027313232
test(mbk.fit_predict, X)
# 耗時 0.2590029239654541

可見效果非常明顯,其中fit_predictpredict相似,但并沒有返回值,km.fit_predict(X)運(yùn)行之后,會更改km中的labels_屬性,此即分類結(jié)果

fig = plt.figure()
ax = fig.add_subplot(1,2,1)
ax.scatter(X[:,0], X[:,1], c=km.labels_, 
    marker='.', alpha=0.5)
ax = fig.add_subplot(1,2,2)
ax.scatter(X[:,0], X[:,1], c=mbk.labels_, 
    marker='.', alpha=0.5)
plt.show()

效果如圖所示,可見小批的KMeans算法和KMeans算法從結(jié)果上來看區(qū)別不大。

Python?sklearn中的K-Means聚類如何使用

感謝各位的閱讀,以上就是“Python sklearn中的K-Means聚類如何使用”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對Python sklearn中的K-Means聚類如何使用這一問題有了更深刻的體會,具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識點(diǎn)的文章,歡迎關(guān)注!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI