<th id="q1qi1"></th>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

怎么用Python進(jìn)行系統(tǒng)聚類分析

發(fā)布時(shí)間：2021-10-28 17:51:44 來源：億速云閱讀：207 作者：柒染欄目：編程語言

怎么用Python進(jìn)行系統(tǒng)聚類分析，很多新手對此不是很清楚，為了幫助大家解決這個(gè)難題，下面小編將為大家詳細(xì)講解，有這方面需求的人可以來學(xué)習(xí)下，希望你能有所收獲。

在進(jìn)行機(jī)器學(xué)習(xí)時(shí)，我們往往要對數(shù)據(jù)進(jìn)行聚類分析，聚類，說白了就是把相似的樣品點(diǎn)/數(shù)據(jù)點(diǎn)進(jìn)行歸類，相似度高的樣品點(diǎn)會(huì)放在一起，這樣一個(gè)樣本就會(huì)被分成幾類。而聚類分析也有很多種方法，比如分解法、加入法、有序樣品的聚類、模糊聚類法以及系統(tǒng)聚類法等。而本文要介紹的就是系統(tǒng)聚類法，以及如何用python來進(jìn)行系統(tǒng)聚類分析。

首先來看一下系統(tǒng)聚類法的定義。系統(tǒng)聚類法（hierarchical clustering method），又叫分層聚類法，是目前最常用的聚類分析方法。其基本步驟如下：假設(shè)樣本中有n個(gè)樣品，那么就先將這n個(gè)樣品看作n類，也就是一個(gè)樣品一個(gè)類，然后將性質(zhì)最接近的兩類合并為一個(gè)新的類，這樣就得到n-1個(gè)類，接著從中再找出最接近的兩個(gè)類，讓其進(jìn)行合并，這樣就變?yōu)閚-2個(gè)類，讓此過程持續(xù)進(jìn)行下去，最后所有的樣品都?xì)w為一類，把上述過程繪制成一張圖，這個(gè)圖就稱為聚類圖，從圖中再?zèng)Q定分為多少類。其大致過程如圖1所示。

怎么用Python進(jìn)行系統(tǒng)聚類分析

圖1. 系統(tǒng)聚類分析示意圖

而這里我們要確定各個(gè)樣品的相似度，才能將其歸類，那么如何確定其相似度呢？通常我們用的方法是計(jì)算各個(gè)樣品點(diǎn)之間的距離，然后再根據(jù)距離來分類。這里我們根據(jù)距離來分類，同樣也是有幾種方法的，比如最短距離法、最長距離法、重心法、類平均法以及ward法。下面我們對這幾種方法進(jìn)行一個(gè)簡單的介紹。

1. 最短距離法

最短距離法就是從兩個(gè)類中找出距離最短的兩個(gè)樣品點(diǎn)，如圖2所示。點(diǎn)3和點(diǎn)7是類G1和類G2中距離最短的兩個(gè)點(diǎn)。計(jì)算公式如圖4所示。

怎么用Python進(jìn)行系統(tǒng)聚類分析

圖2. 最短距離法示意圖

2. 最長距離法

最長距離法就是從兩個(gè)類中找出距離最長的兩個(gè)樣品點(diǎn)，如圖3所示。點(diǎn)1和點(diǎn)6是類G1和類G2中距離最長的兩個(gè)點(diǎn)。計(jì)算公式如圖4所示。

怎么用Python進(jìn)行系統(tǒng)聚類分析

圖3. 最長距離法示意圖

3. 重心法

從物理的觀點(diǎn)看，一個(gè)類用它的重心，也就是類樣品的均值，來做代表比較合理，類之間的距離也就是重心之間的距離。若樣品之間用歐氏距離，設(shè)某一步將類G1與G2合并成G3，它們各有n1、n2、n3個(gè)樣品，其中n3=n1+n2，它們的重心用X1、X2和X3表示，則X3=1/n3(n1X1+n2X2)。重心法的計(jì)算公式參考圖4。

4. 類平均法

這個(gè)顧名思義，就是取兩個(gè)類之間所有點(diǎn)的距離的平均值。計(jì)算公式如圖4所示。

怎么用Python進(jìn)行系統(tǒng)聚類分析

圖4. 常用的距離計(jì)算方法

5. 離差平方和法

離差平方和法又叫Ward法，其思想源于方差分析，即如果類分得正確，同類樣品的離差平方和應(yīng)當(dāng)較小，類與類之間的離差平方和應(yīng)該較大。計(jì)算公式如圖4所示。

在了解了系統(tǒng)聚類法的基本知識(shí)以后，我們就用python代碼來展示一下系統(tǒng)聚類法的具體使用。

首先還是導(dǎo)入各種庫。

import numpy as np  from matplotlib import pyplot as plt  from scipy.cluster.hierarchy import dendrogram, linkage

接下來是生成數(shù)據(jù)集。我們這次用的數(shù)據(jù)集是隨機(jī)生成的，數(shù)量也不多，一共15個(gè)數(shù)據(jù)點(diǎn)，分為兩個(gè)數(shù)據(jù)簇，一個(gè)有7個(gè)數(shù)據(jù)點(diǎn)，另一個(gè)有8個(gè)。之所以把數(shù)據(jù)點(diǎn)數(shù)量設(shè)置這么少，是因?yàn)楸阌诳辞鍞?shù)據(jù)分布，以及后面畫圖時(shí)容易看清圖片的分類。代碼如下。

state = np.random.RandomState(99) #設(shè)置隨機(jī)狀態(tài)  a = state.multivariate_normal([10, 10], [[1, 3], [3, 11]], size=7)  #生成多元正態(tài)變量  b = state.multivariate_normal([-10, -10], [[1, 3], [3, 11]], size=8)  data = np.concatenate((a, b)) #把數(shù)據(jù)進(jìn)行拼接

這里我們設(shè)置一個(gè)隨機(jī)狀態(tài)，便于重復(fù)試驗(yàn)。然后利用這個(gè)隨機(jī)狀態(tài)生成兩個(gè)變量a和b，這兩個(gè)變量就是前面說過的數(shù)據(jù)簇，a有7個(gè)數(shù)據(jù)點(diǎn)，b有8個(gè)，a和b都是多元正態(tài)變量，其中a的均值向量是[10, 10]，b的均值向量是[-10, -10]，兩者協(xié)方差矩陣是[[1, 3], [3, 11]]。這里要注意的是協(xié)方差矩陣要是正定矩陣或半正定矩陣。然后對a與b進(jìn)行拼接，得到變量data。

接下來要繪制數(shù)據(jù)點(diǎn)的分布。代碼如下。

fig, ax = plt.subplots(figsize=(8,8)) #設(shè)置圖片大小  ax.set_aspect('equal') #把兩坐標(biāo)軸的比例設(shè)為相等  plt.scatter(data[:,0], data[:,1])  plt.ylim([-30,30]) #設(shè)置Y軸數(shù)值范圍  plt.xlim([-30,30])  plt.show()

這里代碼比較簡單，不再贅述，主要說一下ax.set_aspect('equal')這行代碼，因?yàn)閙atplotlib默認(rèn)情況下x軸和y軸的比例是不同的，也就是相同單位長度的線段，在顯示時(shí)長度是不一樣的，所以要把二者的比例設(shè)為一樣，這樣圖片看起來更協(xié)調(diào)更準(zhǔn)確。所繪制圖片如圖5所示，從圖中可以明顯看到兩個(gè)數(shù)據(jù)簇，上面那個(gè)數(shù)據(jù)簇大概集中在坐標(biāo)點(diǎn)[10, 10]附近，而下面那個(gè)大概集中在[-10, -10]附近，這和我們設(shè)置的是一樣的。從圖中可以很明顯看出，這個(gè)數(shù)據(jù)集大概可以分為兩類，即上面的數(shù)據(jù)簇分為一類，下面的數(shù)據(jù)簇分為另一類，但我們還要通過算法來計(jì)算一下。

怎么用Python進(jìn)行系統(tǒng)聚類分析

圖5. 所用數(shù)據(jù)分布圖

然后是數(shù)據(jù)處理，代碼如下。

z = linkage(data, "average") #用average算法，即類平均法

數(shù)據(jù)處理只有這一行代碼，非常簡單，但難點(diǎn)也就在這。首先我們來看一下z的結(jié)果，如圖6所示。

怎么用Python進(jìn)行系統(tǒng)聚類分析

圖6. 聚類計(jì)算結(jié)果

很多人第一次看到這個(gè)結(jié)果都是一臉懵逼，甚至是n臉懵逼，但其實(shí)里面的道理很簡單。scipy官方對此有一些設(shè)定，比如該結(jié)果中第一行有4個(gè)數(shù)字，即11、13、0.14740505、2，前兩個(gè)數(shù)字就是指“類”，剛開始每個(gè)點(diǎn)就是一個(gè)類，所以11和13這兩個(gè)點(diǎn)就是兩個(gè)類，第三個(gè)數(shù)字0.14740505就是這兩個(gè)點(diǎn)的距離，這兩個(gè)點(diǎn)被合并成一個(gè)類，所以這個(gè)新的類包含兩個(gè)點(diǎn)（11和13），這也就是第四個(gè)點(diǎn)的數(shù)值2，而這個(gè)新的類就被算為類15。注意這里是類15，不是第15個(gè)類，因?yàn)槲覀冊瓉淼臄?shù)據(jù)集中有15個(gè)點(diǎn)，按照順序就是類0、類1、類2...類14，因?yàn)閜ython是從0開始，所以這里類15就是指第16個(gè)類。z的第二行數(shù)據(jù)里，前兩個(gè)數(shù)字是2和5，就是原來類2和類5，距離是0.3131184，包含2個(gè)點(diǎn)，這行數(shù)據(jù)和第一行類似。然后再看第三行數(shù)據(jù)，前兩個(gè)數(shù)字是10和15，就是類10與類15，類15就是前面第一行合并成的新類，其包含11和13這兩個(gè)點(diǎn)，類15與類10的距離是0.39165998，這個(gè)數(shù)字是類11和13與類10的平均距離，因?yàn)槲覀冞@里用的算法是average，類10、11和13合并為了一個(gè)新類，其包含3個(gè)點(diǎn)，所以第四個(gè)數(shù)字就是3。z中其他行的數(shù)據(jù)按照此規(guī)律以此類推。最后一行數(shù)據(jù)中，類26和27合并成一個(gè)新類，這個(gè)類包含了全部15個(gè)點(diǎn)，也就是這15個(gè)點(diǎn)最終劃為了一個(gè)類，算法終止。

接下來就是畫圖，代碼如下，其結(jié)果如圖7所示。

fig, ax = plt.subplots(figsize=(8,8))  dendrogram(z, leaf_font_size=14) #畫圖 plt.title("Hierachial Clustering Dendrogram")  plt.xlabel("Cluster label")  plt.ylabel("Distance")  plt.axhline(y=10) #畫一條分類線  plt.show()

怎么用Python進(jìn)行系統(tǒng)聚類分析

圖7. 聚類結(jié)果圖

從圖中可以看出，這15個(gè)點(diǎn)可以分為兩類，前面綠色的線連接的點(diǎn)代表一類，即點(diǎn)0到點(diǎn)6這7個(gè)點(diǎn)，后面紅色的線連接的點(diǎn)代表第二類，即點(diǎn)7到點(diǎn)14這8個(gè)點(diǎn)。我們可以看到這個(gè)劃分結(jié)果是非常正確的，和我們當(dāng)時(shí)的設(shè)定是一樣的。

系統(tǒng)聚類法的算法比較簡單，實(shí)用性非常高，是目前使用最廣泛的聚類方法，但該方法在處理極大數(shù)據(jù)量時(shí)會(huì)有所不足，所以最好配合其他算法來使用，同時(shí)使用者在使用時(shí)要根據(jù)自己的情況，來選擇合適的距離計(jì)算方法。本文主要用類平均法來進(jìn)行聚類操作，因?yàn)檫@個(gè)數(shù)據(jù)集非常簡單，所以用其他距離計(jì)算方法得到的結(jié)果和這個(gè)是一樣的。如果數(shù)據(jù)量比較大時(shí)，最終不同距離計(jì)算方法得到的結(jié)果可能不同，所以使用者要根據(jù)自己的情況來進(jìn)行選擇。

看完上述內(nèi)容是否對您有幫助呢？如果還想對相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章，請關(guān)注億速云行業(yè)資訊頻道，感謝您對億速云的支持。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
。
下一篇新聞：
Mysql數(shù)據(jù)分組排名實(shí)現(xiàn)的示例分析

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<big id="k1qle"></big>