您好,登錄后才能下訂單哦!
本篇內(nèi)容主要講解“Python怎么實(shí)現(xiàn)數(shù)據(jù)分箱技術(shù)”,感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“Python怎么實(shí)現(xiàn)數(shù)據(jù)分箱技術(shù)”吧!
1 數(shù)據(jù)分箱
數(shù)據(jù)分箱技術(shù)在Pandas官方給出的定義:Bin values into discrete intervals,是指將值劃分到離散區(qū)間。好比不同大小的蘋(píng)果歸類到幾個(gè)事先布置的箱子中;不同年齡的人劃分到幾個(gè)年齡段中。
這種技術(shù)在數(shù)據(jù)處理時(shí)會(huì)很有用。
2 例子
我們先來(lái)看例子
import numpy as np
import pandas as pd
ages = np.array([5,10,36,12,77,89,100,30,1]) #年齡數(shù)據(jù)
現(xiàn)把數(shù)據(jù)劃分成 3 個(gè)區(qū)間,并打上老、中、青的標(biāo)簽。Pandas提供了易用的API,很容易就可以實(shí)現(xiàn)。
pd.cut(ages, 3, labels=['青','中','老'])
結(jié)果如下,一行代碼便實(shí)現(xiàn)。
[青, 青, 中, 青, 老, 老, 老, 青, 青]
cut在操作時(shí),統(tǒng)計(jì)了一維數(shù)組的最小、最大值,得到一個(gè)區(qū)間長(zhǎng)度,因?yàn)樾枰獎(jiǎng)澐?個(gè)區(qū)間,所以會(huì)得到三個(gè)均勻的區(qū)間,如下。
pd.cut(ages, 3 )>>>區(qū)間如下:Categories (3, interval[float64]): [(0.901, 34.0] < (34.0, 67.0] < (67.0, 100.0]]
給定數(shù)據(jù)的最小值為1,區(qū)間默認(rèn)是左開(kāi)右閉,所以為了囊括1,需要將最靠左的區(qū)間向左延長(zhǎng)0.1%(總區(qū)間長(zhǎng)度),默認(rèn)精度為小數(shù)點(diǎn)后3位。
3 函數(shù)原型
通過(guò)以上例子初步認(rèn)識(shí)cut后,再分析cut原型就比較容易。
參數(shù)含義如下:
x:被切分的類數(shù)組數(shù)據(jù),注意必須是1維;
bins:簡(jiǎn)單理解為分箱規(guī)則,就是桶。支持int 標(biāo)量、序列;
right:表示是否包含區(qū)間的右邊界,默認(rèn)包含;
labels:分割后的bins打標(biāo)簽;
retbins:表示是否將分割后的bins返回,默認(rèn)不返回。如為True,則:
array([ 0.901, 34. , 67. , 100. ]))
include_lowest:區(qū)間的左邊是開(kāi)還是閉,默認(rèn)為開(kāi);
duplicates:是否允許重復(fù)區(qū)間。raise:不允許,drop:允許。
到此,相信大家對(duì)“Python怎么實(shí)現(xiàn)數(shù)據(jù)分箱技術(shù)”有了更深的了解,不妨來(lái)實(shí)際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。