怎么使用Kaggle實現(xiàn)對抗驗證

發(fā)布時間：2021-12-27 10:36:06 來源：億速云閱讀：147 作者：iii 欄目：大數(shù)據(jù)

這篇文章主要介紹“怎么使用Kaggle實現(xiàn)對抗驗證”，在日常操作中，相信很多人在怎么使用Kaggle實現(xiàn)對抗驗證問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”怎么使用Kaggle實現(xiàn)對抗驗證”的疑惑有所幫助！接下來，請跟著小編一起來學(xué)習(xí)吧！

學(xué)習(xí)對抗驗證模型

首先，導(dǎo)入一些庫：

數(shù)據(jù)準(zhǔn)備

對于本教程，我們將使用Kaggle的IEEE-CIS信用卡欺詐檢測數(shù)據(jù)集。首先，假設(shè)您已將訓(xùn)練和測試數(shù)據(jù)加載到pandas DataFrames中，并將它們分別命名為df_train和df_test。然后，我們將通過替換缺失值進(jìn)行一些基本的清理。

怎么使用Kaggle實現(xiàn)對抗驗證

對于對抗性驗證，我們想學(xué)習(xí)一個模型，該模型可以預(yù)測訓(xùn)練數(shù)據(jù)集中哪些行以及測試集中哪些行。因此，我們創(chuàng)建一個新的目標(biāo)列，其中測試樣本用1標(biāo)記，訓(xùn)練樣本用0標(biāo)記，如下所示：

怎么使用Kaggle實現(xiàn)對抗驗證

這是我們訓(xùn)練模型進(jìn)行預(yù)測的目標(biāo)。目前，訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集是分開的，每個數(shù)據(jù)集只有一個目標(biāo)值標(biāo)簽。如果我們在此訓(xùn)練集上訓(xùn)練了一個模型，那么它只會知道一切都為0。我們想改組訓(xùn)練和測試數(shù)據(jù)集，然后創(chuàng)建新的數(shù)據(jù)集以擬合和評估對抗性驗證模型。我定義了一個用于合并，改組和重新拆分的函數(shù)：

怎么使用Kaggle實現(xiàn)對抗驗證

新的數(shù)據(jù)集adversarial_train和adversarial_test包括原始訓(xùn)練集和測試集的混合，而目標(biāo)則指示原始數(shù)據(jù)集。注意：我已將TransactionDT添加到特征列表中。

對于建模，我將使用Catboost。我通過將DataFrames放入Catboost Pool對象中來完成數(shù)據(jù)準(zhǔn)備。

怎么使用Kaggle實現(xiàn)對抗驗證

建模

這部分很簡單：我們只需實例化Catboost分類器并將其擬合到我們的數(shù)據(jù)中：

怎么使用Kaggle實現(xiàn)對抗驗證

讓我們繼續(xù)前進(jìn)，在保留數(shù)據(jù)集上繪制ROC曲線：

怎么使用Kaggle實現(xiàn)對抗驗證

這是一個完美的模型，這意味著有一種明確的方法可以告訴您任何給定的記錄是否在訓(xùn)練或測試集中。這違反了我們的訓(xùn)練和測試集分布相同的假設(shè)。

診斷問題并進(jìn)行迭代

為了了解模型如何做到這一點，讓我們看一下最重要的特征：

怎么使用Kaggle實現(xiàn)對抗驗證

到目前為止，TransactionDT是最重要的特征。鑒于原始的訓(xùn)練和測試數(shù)據(jù)集來自不同的時期（測試集出現(xiàn)在訓(xùn)練集的未來），這完全合情合理。該模型剛剛了解到，如果TransactionDT大于最后一個訓(xùn)練樣本，則它在測試集中。

我之所以包含TransactionDT只是為了說明這一點–通常不建議將原始日期作為模型特征。但是好消息是這項技術(shù)以如此戲劇性的方式被發(fā)現(xiàn)。這種分析顯然可以幫助您識別這種錯誤。

讓我們消除TransactionDT，然后再次運(yùn)行此分析。

怎么使用Kaggle實現(xiàn)對抗驗證

現(xiàn)在，ROC曲線如下所示：

怎么使用Kaggle實現(xiàn)對抗驗證

它仍然是一個相當(dāng)強(qiáng)大的模型，AUC> 0.91，但是比以前弱得多。讓我們看一下此模型的特征重要性：

怎么使用Kaggle實現(xiàn)對抗驗證

現(xiàn)在，id_31是最重要的功能。讓我們看一些值以了解它是什么。

怎么使用Kaggle實現(xiàn)對抗驗證

此列包含軟件版本號。顯然，這在概念上與包含原始日期類似，因為特定軟件版本的首次出現(xiàn)將與其發(fā)布日期相對應(yīng)。

讓我們通過刪除列中所有不是字母的字符來解決此問題：

怎么使用Kaggle實現(xiàn)對抗驗證

現(xiàn)在，我們的列的值如下所示：

怎么使用Kaggle實現(xiàn)對抗驗證

讓我們使用此清除列來訓(xùn)練新的對抗驗證模型：

怎么使用Kaggle實現(xiàn)對抗驗證

現(xiàn)在，ROC圖如下所示：

怎么使用Kaggle實現(xiàn)對抗驗證

性能已從0.917的AUC下降到0.906。這意味著我們已經(jīng)很難讓模型區(qū)分我們的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集，但是它仍然很強(qiáng)大。

到此，關(guān)于“怎么使用Kaggle實現(xiàn)對抗驗證”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識，請繼續(xù)關(guān)注億速云網(wǎng)站，小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

向AI問一下細(xì)節(jié)

怎么使用Kaggle實現(xiàn)對抗驗證

學(xué)習(xí)對抗驗證模型

數(shù)據(jù)準(zhǔn)備

建模

診斷問題并進(jìn)行迭代

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽