<big id="zxiuj"><track id="zxiuj"><pre id="zxiuj"></pre></track></big><var id="zxiuj"><thead id="zxiuj"><strong id="zxiuj"></strong></thead></var>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

怎么利用Python計算KS

發(fā)布時間：2021-04-14 10:01:46 來源：億速云閱讀：289 作者：小新欄目：開發(fā)技術(shù)

這篇文章將為大家詳細講解有關(guān)怎么利用Python計算KS，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

在金融領(lǐng)域中，我們的y值和預(yù)測得到的違約概率剛好是兩個分布未知的兩個分布。好的信用風控模型一般從準確性、穩(wěn)定性和可解釋性來評估模型。

一般來說。好人樣本的分布同壞人樣本的分布應(yīng)該是有很大不同的，KS正好是有效性指標中的區(qū)分能力指標：KS用于模型風險區(qū)分能力進行評估，KS指標衡量的是好壞樣本累計分布之間的差值。

好壞樣本累計差異越大，KS指標越大，那么模型的風險區(qū)分能力越強。

1、crosstab實現(xiàn)，計算ks的核心就是好壞人的累積概率分布，我們采用pandas.crosstab函數(shù)來計算累積概率分布。

2、roc_curve實現(xiàn)，sklearn庫中的roc_curve函數(shù)計算roc和auc時，計算過程中已經(jīng)得到好壞人的累積概率分布，同時我們利用sklearn.metrics.roc_curve來計算ks值

3、ks_2samp實現(xiàn)，調(diào)用stats.ks_2samp()函數(shù)來計算。鏈接scipy.stats.ks_2samp¶為ks_2samp()實現(xiàn)源碼，這里實現(xiàn)了詳細過程

4、直接調(diào)用stats.ks_2samp()計算ks

import pandas as pd 
import numpy as np
from sklearn.metrics import roc_curve
from scipy.stats import ks_2samp
 
def ks_calc_cross(data,pred,y_label):
  '''
  功能: 計算KS值，輸出對應(yīng)分割點和累計分布函數(shù)曲線圖
  輸入值:
  data: 二維數(shù)組或dataframe，包括模型得分和真實的標簽
  pred: 一維數(shù)組或series，代表模型得分（一般為預(yù)測正類的概率）
  y_label: 一維數(shù)組或series，代表真實的標簽（{0,1}或{-1,1}）
  輸出值:
  'ks': KS值，'crossdens': 好壞客戶累積概率分布以及其差值gap
  '''
  crossfreq = pd.crosstab(data[pred[0]],data[y_label[0]])
  crossdens = crossfreq.cumsum(axis=0) / crossfreq.sum()
  crossdens['gap'] = abs(crossdens[0] - crossdens[1])
  ks = crossdens[crossdens['gap'] == crossdens['gap'].max()]
  return ks,crossdens
 
def ks_calc_auc(data,pred,y_label):
  '''
  功能: 計算KS值，輸出對應(yīng)分割點和累計分布函數(shù)曲線圖
  輸入值:
  data: 二維數(shù)組或dataframe，包括模型得分和真實的標簽
  pred: 一維數(shù)組或series，代表模型得分（一般為預(yù)測正類的概率）
  y_label: 一維數(shù)組或series，代表真實的標簽（{0,1}或{-1,1}）
  輸出值:
  'ks': KS值
  '''
  fpr,tpr,thresholds= roc_curve(data[y_label[0]],data[pred[0]])
  ks = max(tpr-fpr)
  return ks
 
def ks_calc_2samp(data,pred,y_label):
  '''
  功能: 計算KS值，輸出對應(yīng)分割點和累計分布函數(shù)曲線圖
  輸入值:
  data: 二維數(shù)組或dataframe，包括模型得分和真實的標簽
  pred: 一維數(shù)組或series，代表模型得分（一般為預(yù)測正類的概率）
  y_label: 一維數(shù)組或series，代表真實的標簽（{0,1}或{-1,1}）
  輸出值:
  'ks': KS值，'cdf_df': 好壞客戶累積概率分布以及其差值gap
  '''
  Bad = data.loc[data[y_label[0]]==1,pred[0]]
  Good = data.loc[data[y_label[0]]==0, pred[0]]
  data1 = Bad.values
  data2 = Good.values
  n1 = data1.shape[0]
  n2 = data2.shape[0]
  data1 = np.sort(data1)
  data2 = np.sort(data2)
  data_all = np.concatenate([data1,data2])
  cdf1 = np.searchsorted(data1,data_all,side='right')/(1.0*n1)
  cdf2 = (np.searchsorted(data2,data_all,side='right'))/(1.0*n2)
  ks = np.max(np.absolute(cdf1-cdf2))
  cdf1_df = pd.DataFrame(cdf1)
  cdf2_df = pd.DataFrame(cdf2)
  cdf_df = pd.concat([cdf1_df,cdf2_df],axis = 1)
  cdf_df.columns = ['cdf_Bad','cdf_Good']
  cdf_df['gap'] = cdf_df['cdf_Bad']-cdf_df['cdf_Good']
  return ks,cdf_df
 
data = {'y_label':[1,1,1,1,1,1,0,0,0,0,0,0],
    'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9]}
 
data = pd.DataFrame(data)
ks1,crossdens=ks_calc_cross(data,['pred'], ['y_label'])
 
ks2=ks_calc_auc(data,['pred'], ['y_label'])
 
ks3=ks_calc_2samp(data,['pred'], ['y_label'])
 
get_ks = lambda y_pred,y_true: ks_2samp(y_pred[y_true==1], y_pred[y_true!=1]).statistic
ks4=get_ks(data['pred'],data['y_label'])
print('KS1:',ks1['gap'].values)
print('KS2:',ks2)
print('KS3:',ks3[0])
print('KS4:',ks4)

輸出結(jié)果：

KS1: [ 0.83333333]
KS2: 0.833333333333
KS3: 0.833333333333
KS4: 0.833333333333

當數(shù)據(jù)中存在NAN數(shù)據(jù)時，有一些問題需要注意！

例如，我們在原數(shù)據(jù)中增加了y_label=0，pred=np.nan這樣一組數(shù)據(jù)

data = {'y_label':[1,1,1,1,1,1,0,0,0,0,0,0,0],
'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9,np.nan]}

此時執(zhí)行

ks1,crossdens=ks_calc_cross(data,['pred'], ['y_label'])

輸出結(jié)果

KS1: [ 0.83333333]

執(zhí)行

ks2=ks_calc_auc(data,['pred'], ['y_label'])

將會報以下錯誤

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

執(zhí)行

ks3=ks_calc_2samp(data,['pred'], ['y_label'])

輸出結(jié)果

KS3: 0.714285714286

執(zhí)行

ks4=get_ks(data['pred'],data['y_label'])

輸出結(jié)果

KS4: 0.714285714286

我們從上述結(jié)果中可以看出

三種方法計算得到的ks值均不相同。

ks_calc_cross計算時忽略了NAN，計算得到了數(shù)據(jù)正確的概率分布，計算的ks與我們手算的ks相同

ks_calc_auc函數(shù)由于內(nèi)置函數(shù)無法處理NAN值，直接報錯了，所以如果需要ks_calc_auc計算ks值時，需要提前去除NAN值。

ks_calc_2samp計算得到的ks因為searchsorted()函數(shù)（有興趣的同學可以自己模擬數(shù)據(jù)看下這個函數(shù)），會將Nan值默認排序為最大值，從而改變了數(shù)據(jù)的原始累積分布概率，導致計算得到的ks和真實的ks有誤差。

總結(jié)

在實際情況下，我們一般計算違約概率的ks值，這時是不存在NAN值的。所以以上三種方法計算ks值均可。但是當我們計算單變量的ks值時，有時數(shù)據(jù)質(zhì)量不好，存在NAN值時，繼續(xù)采用ks_calc_auc和ks_calc_2samp就會存在問題。

解決辦法有兩個

1. 提前去除數(shù)據(jù)中的NAN值

2. 直接采用ks_calc_cross計算。

關(guān)于“怎么利用Python計算KS”這篇文章就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，使各位可以學到更多知識，如果覺得文章不錯，請把它分享出去讓更多的人看到。

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
如何利用Python自動化操作AutoCAD的實現(xiàn)
下一篇新聞：
如何使用Python繪制漫步圖

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<ol id="qwmoi"><tr id="qwmoi"></tr></ol>

^{<var id="qwmoi"></var>}