溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

一文讀懂如何對混合型數(shù)據(jù)做聚類分析!

發(fā)布時間:2020-08-11 01:30:26 來源:ITPUB博客 閱讀:420 作者:格伯納 欄目:互聯(lián)網(wǎng)科技

總的來說,對無監(jiān)督數(shù)據(jù)進(jìn)行聚類并非易事?,F(xiàn)如今的數(shù)據(jù)處理和探索無法準(zhǔn)確的測量數(shù)據(jù)。這也意味著我們對數(shù)據(jù)的處理和探索變得愈發(fā)困難。

此外,關(guān)于在無監(jiān)督學(xué)習(xí)的入門課程中,對拿來討論的理想的案例,k-means教程,也只適用于數(shù)值特性。

一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


在這篇文章中,作者將通過R語言進(jìn)行非監(jiān)督分類訓(xùn)練。

  • 第一部分包括方法論:作者正在討論使用距離的數(shù)學(xué)概念來衡量個體間相似性的問題。然后介紹了PAM集群算法(圍繞medoids進(jìn)行分割)以及選擇最佳集群數(shù)(輪廓系數(shù))的方法。

  • 在第二部分中,作者將使用uci機(jī)器學(xué)習(xí)數(shù)據(jù)庫中提供的銀行營銷數(shù)據(jù)集和Rtsne軟件包中的一些函數(shù)來說明該方法。該數(shù)據(jù)集與葡萄牙某銀行機(jī)構(gòu)的電話營銷活動相關(guān)。我們會把這些數(shù)據(jù)用于對監(jiān)督學(xué)習(xí)情況的討論。

第一部分:方法論

如何測量相似性

一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


(數(shù)據(jù)科學(xué)家作用在于在對未知數(shù)據(jù)進(jìn)行集群時,我們不能盲人摸象,只看到事物的一面。他們主張與數(shù)據(jù)產(chǎn)生一定的"距離",以便更全面地了解它們。)

距離是對個體之間相隔多遠(yuǎn)的數(shù)值度量,也就是說,用于測量個體之間的接近度或相似度的度量。面對眾多的度量,作者必須要介紹的是 Gower distance  (1971)。

Gower距離被用于計算個體之間部分差異的平均值。(Gower距離的范圍為[0 1]。)

一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


其中表示不相似的(d_ij ^ f)計算取決于被評估的變量的類型。這意味著每個特性都應(yīng)該有一個固定的標(biāo)準(zhǔn),并且兩個個體之間的距離是所有特性距離的平均值。

· 對于數(shù)值特性f,部分相異性是:觀察的絕對差異x_i和x_j之間的比率,從所有個體觀察到的最大范圍:d_ij ^ f = | x_i - x_j | / |(max_N(x) - min_N(x))| ,N是數(shù)據(jù)集中的個體數(shù)量。

一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


數(shù)值特性的部分差異度計算(R_f =觀察到的最大范圍)

· 對于定性特性f,僅當(dāng)觀測值y_i和y_j具有不同的值時,部分相異度等于1。否則為0。

注意:Gower距離可使用R集群包中的daisy()函數(shù)。首先自動標(biāo)準(zhǔn)化特性(即重新縮放以落在[0 1]范圍內(nèi))。

聚類算法:圍繞MEDOIDS(PAM)進(jìn)行分區(qū)

Gower距離與k-medoids算法非常相似。k-medoid是一種經(jīng)典的聚類技術(shù),它將n個對象的數(shù)據(jù)集集群變?yōu)橐阎膋個集群。

與k-means算法非常相似,PAM具有以下特性:

· 優(yōu)點(diǎn):與k-means(由于使用距離的屬性)相比,它更直觀,對噪聲和異常值更敏感,并且它為每個集群產(chǎn)生一個"典型個體"。

· 缺點(diǎn):它耗費(fèi)時間,屬于計算機(jī)密集型(運(yùn)行時和內(nèi)存是二次的)。

評估數(shù)據(jù)集群內(nèi)的一致性

除非你有一個很好的先驗原理來強(qiáng)制特定數(shù)量的集群k,否則你可能會向計算機(jī)請求基于統(tǒng)計數(shù)據(jù)的推薦。存在若干方法來限定所選的集群的相關(guān)性。在第二部分中,我們使用了輪廓系數(shù)。

解釋

基本上有兩種方法可以調(diào)查這種集群實踐的結(jié)果,以便得出一些專業(yè)的解釋。

1.每個集群基本都要使用R中的summary()函數(shù)。

2.學(xué)會利用t-SNE,它是一種用于降維的技術(shù),其特別適合于高維數(shù)據(jù)集的可視化。

我們在用例中介紹了這兩種情況(第二部分)。讓我們應(yīng)用和說明!

第二部分:使用案例

在此用例中,我們將嘗試根據(jù)以下特性對銀行客戶進(jìn)行分組:

· 年齡(數(shù)字)

· 工作類型(類別):'行政'、'藍(lán)領(lǐng)'、'企業(yè)家'、'女傭'、'管理'、'退休'、'自雇'、'服務(wù)'、'學(xué)生'、'技師'、'失業(yè)'、'未知'

· 婚姻狀況(類別):'離婚'、'已婚'、'單身'、'未知'

· 教育(類別):'初級'、'中級'、'大專'、'未知'

· 違約:有過違約記錄嗎?(類別):'沒有'、'有'、'未知'

· 余額(數(shù)字):年平均余額,以歐元為單位

· 住房:有住房貸款嗎?(類別):'沒有'、'有'、'未知'

一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


根據(jù)Gower距離劃分的相似和不同的客戶:

一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


在商業(yè)環(huán)境中,我們通常會搜索一些有意義且易于記憶的集群,即最多2到8個集群。輪廓圖有助于我們確定最佳選擇。

一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


7具有最高的輪廓寬度。但是5更簡單,我們選擇k = 5

解釋

每個集群的摘要

一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


在這里,可以嘗試為集群內(nèi)的客戶派生一些常見模式。例如,集群1由"管理x三級x無違約x無住房"客戶組成,集群2由"藍(lán)領(lǐng)x二級x無違約x住房"客戶等組成。

較低維度空間中的可視化

一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


一文讀懂如何對混合型數(shù)據(jù)做聚類分析!


盡管不是很完美(尤其是集群3),但顏色大多位于相似區(qū)域,這證實了劃分的相關(guān)性。

結(jié)論

本文回顧了作者在嘗試對混合類型無監(jiān)督數(shù)據(jù)集執(zhí)行聚類算法時的想法。作者認(rèn)為它可以為其他數(shù)據(jù)科學(xué)家?guī)硪恍┯幸馑嫉南敕?,從而實現(xiàn)共享。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI