溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

python如何利用pd.cut()和pd.qcut()對數(shù)據(jù)進(jìn)行分箱操作

發(fā)布時(shí)間:2022-06-15 11:45:30 來源:億速云 閱讀:221 作者:iii 欄目:開發(fā)技術(shù)

這篇“python如何利用pd.cut()和pd.qcut()對數(shù)據(jù)進(jìn)行分箱操作”文章的知識點(diǎn)大部分人都不太理解,所以小編給大家總結(jié)了以下內(nèi)容,內(nèi)容詳細(xì),步驟清晰,具有一定的借鑒價(jià)值,希望大家閱讀完這篇文章能有所收獲,下面我們一起來看看這篇“python如何利用pd.cut()和pd.qcut()對數(shù)據(jù)進(jìn)行分箱操作”文章吧。

1.cut()可以實(shí)現(xiàn)類似于對成績進(jìn)行優(yōu)良統(tǒng)計(jì)的功能,來看代碼示例。

假如我們有一組學(xué)生成績,我們需要將這些成績分為不及格(0-59)、及格(60-70)、良(71-85)、優(yōu)(86-100)這幾組。這時(shí)候可以用到cut()

import numpy as np
import pandas as pd

# 我們先給 scores傳入30個(gè)從0到100隨機(jī)的數(shù)
scores = np.random.uniform(0,100,size=30)

# 然后使用 np.round()函數(shù)控制數(shù)據(jù)精度
scores = np.round(scores,1)

# 指定分箱的區(qū)間
grades = [0,59,70,85,100]

cuts = pd.cut(scores,grades)
print('\nscores:')
print(scores)
print('\ncuts:')
print(cuts)
# 我們還可以計(jì)算出每個(gè)箱子中有多少個(gè)數(shù)據(jù)
print('\ncats.value_counts:')
print(pd.value_counts(cuts))

======output:======

scores:
[ 6.  50.8 80.2 22.1 60.1 75.1 30.8 50.8 81.6 17.4 13.4 24.3 67.3 84.4
 63.4 21.3 17.2  3.7 40.1 12.4 15.7 23.1 67.4 94.8 72.6 12.8 81.  82.
 70.2 54.1]

cuts:
[(0, 59], (0, 59], (70, 85], (0, 59], (59, 70], ..., (0, 59], (70, 85], (70, 85], (70, 85], (0, 59]]
Length: 30
Categories (4, interval[int64]): [(0, 59] < (59, 70] < (70, 85] < (85, 100]]

cuts.value_counts:
(0, 59]      17
(70, 85]      8
(59, 70]      4
(85, 100]     1
dtype: int64

默認(rèn)情況下,cat()的區(qū)間劃分是左開右閉,可以傳遞right=False來改變哪一邊是封閉的

代碼示例:

cuts = pd.cut(scores,grades,right=False)

也可以通過向labels選項(xiàng)傳遞一個(gè)列表或數(shù)組來傳入自定義的箱名

代碼示例:

group_names = ['不及格','及格','良','優(yōu)秀']
cuts = pd.cut(scores,grades,labels=group_names)

當(dāng)我們不需要自定義劃分區(qū)間時(shí),而是需要根據(jù)數(shù)據(jù)中最大值和最小值計(jì)算出等長的箱子。

代碼示例:

# 將成績均勻的分在四個(gè)箱子中,precision=2的選項(xiàng)將精度控制在兩位
cuts = pd.cut(scores,4,precision=2)

2.qcut()可以生成指定的箱子數(shù),然后使每個(gè)箱子都具有相同數(shù)量的數(shù)據(jù)

代碼示例:

import numpy as np
import pandas as pd

# 正態(tài)分布
data = np.random.randn(100)

# 分四個(gè)箱子
cuts = pd.qcut(data,4)

print('\ncuts:')
print(cuts)
print('\ncuts.value_counts:')
print(pd.value_counts(cuts))


======output:======

cuts:
[(-0.745, -0.0723], (0.889, 2.834], (-0.745, -0.0723], (0.889, 2.834], (0.889, 2.834], ..., (-0.745, -0.0723], (-0.0723, 0.889], (-3.1599999999999997, -0.745], (-0.745, -0.0723], (-0.0723, 0.889]]
Length: 100
Categories (4, interval[float64]): [(-3.1599999999999997, -0.745] < (-0.745, -0.0723] < (-0.0723, 0.889] <
                                    (0.889, 2.834]]

cuts.value_counts:
(0.889, 2.834]                   25
(-0.0723, 0.889]                 25
(-0.745, -0.0723]                25
(-3.1599999999999997, -0.745]    25
dtype: int64

以上就是關(guān)于“python如何利用pd.cut()和pd.qcut()對數(shù)據(jù)進(jìn)行分箱操作”這篇文章的內(nèi)容,相信大家都有了一定的了解,希望小編分享的內(nèi)容對大家有幫助,若想了解更多相關(guān)的知識內(nèi)容,請關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI