溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

K-means算法怎么在Python中應(yīng)用

發(fā)布時(shí)間:2021-04-27 16:27:33 來(lái)源:億速云 閱讀:124 作者:Leah 欄目:編程語(yǔ)言

這篇文章將為大家詳細(xì)講解有關(guān)K-means算法怎么在Python中應(yīng)用,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個(gè)參考,希望大家閱讀完這篇文章后對(duì)相關(guān)知識(shí)有一定的了解。

python是什么意思

Python是一種跨平臺(tái)的、具有解釋性、編譯性、互動(dòng)性和面向?qū)ο蟮哪_本語(yǔ)言,其最初的設(shè)計(jì)是用于編寫自動(dòng)化腳本,隨著版本的不斷更新和新功能的添加,常用于用于開(kāi)發(fā)獨(dú)立的項(xiàng)目和大型項(xiàng)目。

1、調(diào)用以下庫(kù)

import numpy as np   #用于抽樣和生成隨機(jī)數(shù)
from sklearn.cluster import KMeans   #sklearn自帶的Kmeans算法, 用于嚴(yán)重本文算法結(jié)果是否正確
import matplotlib.pyplot as plt     #結(jié)果可視化
import sys   #需要用到sys.exit()函數(shù)

若不需要驗(yàn)證聚類結(jié)果是否可以不使用Sklearn庫(kù)。

2、生成用于訓(xùn)練的隨機(jī)數(shù)據(jù)

np.set_printoptions(suppress=True)    #令numpy的結(jié)果不以科學(xué)計(jì)數(shù)法的方式輸出
Data = np.array([[1.0, 2.0], [1.5, 1.8], [3, 4], [6, 8], [8, 8], [1, 0.6],
                 [9, 11], [7, 10]])  #你也可以通過(guò)抽樣的方式來(lái)更快的獲得測(cè)試數(shù)據(jù)

3、定義用于選擇隨機(jī)初始點(diǎn)和簇?cái)?shù)(k)的函數(shù)

def K_means(data, k):
    global Mean
    mean = []
    a = np.max(data[:, 0])
    b = np.min(data[:, 0])
    c = np.max(data[:, 1])
    d = np.min(data[:, 1])
    for i in range(k):
        x = np.random.uniform(a, b, 1)  
        #此處返回array
        y = np.random.uniform(c, d, 1)  #此處返回array
        mean.append([float(x), float(y)])
    Mean = np.array(mean)
    return Mean

在上面的代碼中,為了限定初始點(diǎn)(x,y)的位置不會(huì)超出樣本點(diǎn)的范圍,因此均勻抽樣的上下限是指訓(xùn)練數(shù)據(jù)(a,b)和(c,d)的最小橫距。

4、定義可視化函數(shù), 繪制測(cè)試數(shù)據(jù)散點(diǎn)圖

def vision(data, cell):
    plt.figure(figsize=(12,6))
    ax1 = plt.subplot(121)
    ax1.scatter(Data[:, 0], Data[:, 1])   #原始數(shù)據(jù)散點(diǎn)圖
    ax1.scatter(point[:, 0], point[:, 0])    #同時(shí)將隨機(jī)選取的初始點(diǎn)表示出來(lái)
    plt.xlabel("x")
    plt.ylabel("y")
    plt.title("scatter of " + "rural" + " data")
    ax2 = plt.subplot(122)
    ax2.scatter(Data[:, 0], Data[:, 1])    #原始數(shù)據(jù)散點(diǎn)圖
    ax2.scatter(data[:, 0], data[:, 1])     #經(jīng)過(guò)迭代后最終確定的聚類點(diǎn)
    plt.xlabel("x")
    plt.ylabel("y")
    plt.title("scatter of " + cell + " data")
    plt.show()

聚類結(jié)果的可視化對(duì)于判斷聚類結(jié)果的準(zhǔn)確性至關(guān)重要。

5、定義迭代過(guò)程, 通過(guò)不斷計(jì)算各個(gè)樣本對(duì)聚類點(diǎn)的歐式聚類, 來(lái)不斷更新聚類點(diǎn)

def iteration(Data, point):
    A = []
    B = []
    for i in range(len(Data)):
        d1 = np.sqrt(sum(pow(Data[i] - point[0], 2)))
        d2 = np.sqrt(sum(pow(Data[i] - point[1], 2)))
        if d1 > d2:
            A.append(list(Data[i]))
        else:
            B.append(list(Data[i]))
    if len(A) == len(Data) or len(B) == len(Data):
        print("初始化錯(cuò)誤")
        sys.exit(0)
    new_x1 = np.mean(np.array(A)[:, 0])
    new_y1 = np.mean(np.array(A)[:, 1])
 
    new_x2 = np.mean(np.array(B)[:, 0])
    new_y2 = np.mean(np.array(B)[:, 1])
    new_point = np.array([[new_x1, new_y1], [new_x2, new_y2]])
    return new_point

注意, 上段代碼中加入了一個(gè)if語(yǔ)句

    if len(A) == len(Data) or len(B) == len(Data):
        print("初始化錯(cuò)誤")
        sys.exit(0)

關(guān)于K-means算法怎么在Python中應(yīng)用就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI