您好,登錄后才能下訂單哦!
pd.cut
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)
x:要分箱的輸入數(shù)組,必須是一維的
bins:int或標(biāo)量序列
若bins是一個(gè)int,它定義在x范圍內(nèi)的等寬單元的數(shù)量。然而,在這種情況下,x的范圍在每一側(cè)延伸0.1%以包括x的最小值或最大值
若bins是一個(gè)序列,它定義了允許非均勻bin寬度的bin邊緣。在這種情況下不進(jìn)行x的范圍的擴(kuò)展
right:bool,可選:決定區(qū)間的開閉,如果right == True(默認(rèn)),則區(qū)間[1,2,3,4]指示(1,2],(2,3],(3,4]
labels:array或boolean,默認(rèn)值為無:用作生成的區(qū)間的標(biāo)簽。必須與生成的區(qū)間的長度相同。如果為False,則只返回bin的整數(shù)指示符
retbins:bool,可選:是否返回bin。如果bin作為標(biāo)量給出,則可能有用
precision:int:存儲(chǔ)和顯示容器標(biāo)簽的精度,默認(rèn)保留三位小數(shù)
include_lowest:bool:第一個(gè)間隔是否應(yīng)該包含左邊
import numpy as np import pandas as pd # 使用pandas的cut函數(shù)劃分年齡組 ages = [20,22,25,27,21,23,37,31,61,45,32] bins = [18,25,35,60,100] cats = pd.cut(ages,bins) print(cats) # 分類時(shí),當(dāng)數(shù)據(jù)不在區(qū)間中將變?yōu)閚an # 統(tǒng)計(jì)落在各個(gè)區(qū)間的值數(shù)量 print(pd.value_counts(cats)) # 使用codes為年齡數(shù)據(jù)進(jìn)行標(biāo)號(hào) print(cats.codes) # 設(shè)置自己想要的面元名稱 group_names = ['Youth','YoungAdult','MiddleAged','Senior'] print(pd.cut(ages, bins, labels=group_names)) # 設(shè)置區(qū)間數(shù)學(xué)符號(hào)為左閉右開 print(pd.cut(ages, bins, right=False)) # 向cut傳入面元的數(shù)量,則會(huì)根據(jù)數(shù)據(jù)的最小值和最大值計(jì)算等長面元 print(pd.cut(ages, 4, precision=2)) # precision=2表示設(shè)置的精度
pd.qcut
與cut類似,它可以根據(jù)樣本分位數(shù)對(duì)數(shù)據(jù)進(jìn)行面元?jiǎng)澐?/p>
pandas.qcut(x, q, labels=None, retbins=False, precision=3)
x:ndarray或Series
q:整數(shù)或分位數(shù)陣列分位數(shù)。十分位數(shù)為10,四分位數(shù)為4或者,分位數(shù)陣列,例如[0,.25,.5,.75,1.]四分位數(shù)
labels:array或boolean,默認(rèn)值為無:用作生成的區(qū)間的標(biāo)簽。必須與生成的區(qū)間的長度相同。如果為False,則只返回bin的整數(shù)指示符。
retbins:bool,可選:是否返回bin。如果bin作為標(biāo)量給出,則可能有用。
precision:int:存儲(chǔ)和顯示容器標(biāo)簽的精度
import numpy as np import pandas as pd # qcut可以根據(jù)樣本分位數(shù)對(duì)數(shù)據(jù)進(jìn)行面元?jiǎng)澐?# data = np.random.randn(20) # 正態(tài)分布 data = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20] cats = pd.qcut(data, 4) # 按四分位數(shù)進(jìn)行切割 print(cats) print(pd.value_counts(cats)) print("-------------------------------------------------") # 通過指定分位數(shù)(0到1之間的數(shù)值,包含端點(diǎn))進(jìn)行面元?jiǎng)澐?cats_2 = pd.qcut(data, [0, 0.5, 0.8, 0.9, 1]) print(cats_2) print(pd.value_counts(cats_2))
以上這篇關(guān)于pandas的離散化,面元?jiǎng)澐衷斀饩褪切【幏窒斫o大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持億速云。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。