溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python怎么實(shí)現(xiàn)數(shù)據(jù)分箱技術(shù)

發(fā)布時(shí)間:2021-08-26 14:44:15 來(lái)源:億速云 閱讀:157 作者:chen 欄目:大數(shù)據(jù)

本篇內(nèi)容主要講解“Python怎么實(shí)現(xiàn)數(shù)據(jù)分箱技術(shù)”,感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“Python怎么實(shí)現(xiàn)數(shù)據(jù)分箱技術(shù)”吧!

1 數(shù)據(jù)分箱

數(shù)據(jù)分箱技術(shù)在Pandas官方給出的定義:Bin values into discrete intervals,是指將值劃分到離散區(qū)間。好比不同大小的蘋(píng)果歸類到幾個(gè)事先布置的箱子中;不同年齡的人劃分到幾個(gè)年齡段中。

這種技術(shù)在數(shù)據(jù)處理時(shí)會(huì)很有用。

2 例子

我們先來(lái)看例子

import numpy as npimport pandas as pd
ages = np.array([5,10,36,12,77,89,100,30,1]) #年齡數(shù)據(jù)

現(xiàn)把數(shù)據(jù)劃分成 3 個(gè)區(qū)間,并打上老、中、青的標(biāo)簽。Pandas提供了易用的API,很容易就可以實(shí)現(xiàn)。

pd.cut(ages, 3, labels=['青','中','老'])

結(jié)果如下,一行代碼便實(shí)現(xiàn)。

[青, 青, 中, 青, 老, 老, 老, 青, 青]

cut在操作時(shí),統(tǒng)計(jì)了一維數(shù)組的最小、最大值,得到一個(gè)區(qū)間長(zhǎng)度,因?yàn)樾枰獎(jiǎng)澐?個(gè)區(qū)間,所以會(huì)得到三個(gè)均勻的區(qū)間,如下。

pd.cut(ages, 3 )>>>區(qū)間如下:Categories (3, interval[float64]): [(0.901, 34.0] < (34.0, 67.0] < (67.0, 100.0]]

給定數(shù)據(jù)的最小值為1,區(qū)間默認(rèn)是左開(kāi)右閉,所以為了囊括1,需要將最靠左的區(qū)間向左延長(zhǎng)0.1%(總區(qū)間長(zhǎng)度),默認(rèn)精度為小數(shù)點(diǎn)后3位。

3 函數(shù)原型

通過(guò)以上例子初步認(rèn)識(shí)cut后,再分析cut原型就比較容易。

Python怎么實(shí)現(xiàn)數(shù)據(jù)分箱技術(shù)

參數(shù)含義如下:

x:被切分的類數(shù)組數(shù)據(jù),注意必須是1維;

bins:簡(jiǎn)單理解為分箱規(guī)則,就是桶。支持int 標(biāo)量、序列;

right:表示是否包含區(qū)間的右邊界,默認(rèn)包含;

labels:分割后的bins打標(biāo)簽;

retbins:表示是否將分割后的bins返回,默認(rèn)不返回。如為True,則:

array([   0.901,   34.   ,   67.   ,  100.   ]))

include_lowest:區(qū)間的左邊是開(kāi)還是閉,默認(rèn)為開(kāi);
duplicates:是否允許重復(fù)區(qū)間。raise:不允許,drop:允許。

到此,相信大家對(duì)“Python怎么實(shí)現(xiàn)數(shù)據(jù)分箱技術(shù)”有了更深的了解,不妨來(lái)實(shí)際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI