python怎么改進(jìn)分類器

發(fā)布時(shí)間：2021-12-27 13:54:05 來源：億速云閱讀：157 作者：iii 欄目：大數(shù)據(jù)

本篇內(nèi)容主要講解“python怎么改進(jìn)分類器”，感興趣的朋友不妨來看看。本文介紹的方法操作簡(jiǎn)單快捷，實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“python怎么改進(jìn)分類器”吧!

當(dāng)涉及到機(jī)器學(xué)習(xí)分類任務(wù)時(shí)，用于訓(xùn)練算法的數(shù)據(jù)越多越好。在監(jiān)督學(xué)習(xí)中，這些數(shù)據(jù)必須根據(jù)目標(biāo)類進(jìn)行標(biāo)記，否則，這些算法將無法學(xué)習(xí)獨(dú)立變量和目標(biāo)變量之間的關(guān)系。但是，在構(gòu)建用于分類的大型標(biāo)記數(shù)據(jù)集時(shí)，會(huì)出現(xiàn)兩個(gè)問題：

標(biāo)記數(shù)據(jù)可能很耗時(shí)。假設(shè)我們有1000000張狗圖像，我們想將它們輸入到分類算法中，目的是預(yù)測(cè)每個(gè)圖像是否包含波士頓狗。如果我們想將所有這些圖像用于監(jiān)督分類任務(wù)，我們需要一個(gè)人查看每個(gè)圖像并確定是否存在波士頓狗。
標(biāo)記數(shù)據(jù)可能很昂貴。原因一：要想讓人費(fèi)盡心思去搜100萬張狗狗照片，我們可能得掏錢。

那么，這些未標(biāo)記的數(shù)據(jù)可以用在分類算法中嗎？

這就是半監(jiān)督學(xué)習(xí)的用武之地。在半監(jiān)督方法中，我們可以在少量的標(biāo)記數(shù)據(jù)上訓(xùn)練分類器，然后使用該分類器對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

由于這些預(yù)測(cè)可能比隨機(jī)猜測(cè)更好，未標(biāo)記的數(shù)據(jù)預(yù)測(cè)可以作為“偽標(biāo)簽”在隨后的分類器迭代中采用。雖然半監(jiān)督學(xué)習(xí)有很多種風(fēng)格，但這種特殊的技術(shù)稱為自訓(xùn)練。

自訓(xùn)練

python怎么改進(jìn)分類器

在概念層面上，自訓(xùn)練的工作原理如下：

步驟1：將標(biāo)記的數(shù)據(jù)實(shí)例拆分為訓(xùn)練集和測(cè)試集。然后，對(duì)標(biāo)記的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)分類算法。

步驟2：使用經(jīng)過訓(xùn)練的分類器來預(yù)測(cè)所有未標(biāo)記數(shù)據(jù)實(shí)例的類標(biāo)簽。在這些預(yù)測(cè)的類標(biāo)簽中，正確率最高的被認(rèn)為是“偽標(biāo)簽”。

（第2步的幾個(gè)變化：a）所有預(yù)測(cè)的標(biāo)簽可以同時(shí)作為“偽標(biāo)簽”使用，而不考慮概率；或者b）“偽標(biāo)簽”數(shù)據(jù)可以通過預(yù)測(cè)的置信度進(jìn)行加權(quán)。）

步驟3：將“偽標(biāo)記”數(shù)據(jù)與正確標(biāo)記的訓(xùn)練數(shù)據(jù)連接起來。在組合的“偽標(biāo)記”和正確標(biāo)記訓(xùn)練數(shù)據(jù)上重新訓(xùn)練分類器。

步驟4：使用經(jīng)過訓(xùn)練的分類器來預(yù)測(cè)已標(biāo)記的測(cè)試數(shù)據(jù)實(shí)例的類標(biāo)簽。使用你選擇的度量來評(píng)估分類器性能。

（可以重復(fù)步驟1到4，直到步驟2中的預(yù)測(cè)類標(biāo)簽不再滿足特定的概率閾值，或者直到?jīng)]有更多未標(biāo)記的數(shù)據(jù)保留。）

好的，明白了嗎？很好！讓我們通過一個(gè)例子解釋。

示例：使用自訓(xùn)練改進(jìn)分類器

為了演示自訓(xùn)練，我使用Python和surgical_deepnet 數(shù)據(jù)集

此數(shù)據(jù)集用于二分類，包含14.6k+手術(shù)的數(shù)據(jù)。這些屬性是bmi、年齡等各種測(cè)量值，而目標(biāo)變量complexing則記錄患者是否因手術(shù)而出現(xiàn)并發(fā)癥。顯然，能夠準(zhǔn)確地預(yù)測(cè)患者是否會(huì)因手術(shù)而出現(xiàn)并發(fā)癥，這對(duì)醫(yī)療保健和保險(xiǎn)供應(yīng)商都是最有利的。

導(dǎo)入庫(kù)

對(duì)于本教程，我將導(dǎo)入numpy、pandas和matplotlib。我還將使用sklearn中的LogisticRegression分類器，以及用于模型評(píng)估的f1_score和plot_confusion_matrix 函數(shù)

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import f1_score
from sklearn.metrics import plot_confusion_matrix

加載數(shù)據(jù)

# 加載數(shù)據(jù)

df = pd.read_csv('surgical_deepnet.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14635 entries, 0 to 14634
Data columns (total 25 columns):
bmi                    14635 non-null float64
Age                    14635 non-null float64
asa_status             14635 non-null int64
baseline_cancer        14635 non-null int64
baseline_charlson      14635 non-null int64
baseline_cvd           14635 non-null int64
baseline_dementia      14635 non-null int64
baseline_diabetes      14635 non-null int64
baseline_digestive     14635 non-null int64
baseline_osteoart      14635 non-null int64
baseline_psych         14635 non-null int64
baseline_pulmonary     14635 non-null int64
ahrq_ccs               14635 non-null int64
ccsComplicationRate    14635 non-null float64
ccsMort30Rate          14635 non-null float64
complication_rsi       14635 non-null float64
dow                    14635 non-null int64
gender                 14635 non-null int64
hour                   14635 non-null float64
month                  14635 non-null int64
moonphase              14635 non-null int64
mort30                 14635 non-null int64
mortality_rsi          14635 non-null float64
race                   14635 non-null int64
complication           14635 non-null int64
dtypes: float64(7), int64(18)
memory usage: 2.8 MB

數(shù)據(jù)集中的屬性都是數(shù)值型的，沒有缺失值。由于我這里的重點(diǎn)不是數(shù)據(jù)清理，所以我將繼續(xù)對(duì)數(shù)據(jù)進(jìn)行劃分。

數(shù)據(jù)劃分

為了測(cè)試自訓(xùn)練的效果，我需要將數(shù)據(jù)分成三部分：訓(xùn)練集、測(cè)試集和未標(biāo)記集。我將按以下比例拆分?jǐn)?shù)據(jù)：

1% 訓(xùn)練
25% 測(cè)試
74% 未標(biāo)記

對(duì)于未標(biāo)記集，我將簡(jiǎn)單地放棄目標(biāo)變量complexing，并假裝它從未存在過。

所以，在這個(gè)病例中，我們認(rèn)為74%的手術(shù)病例沒有關(guān)于并發(fā)癥的信息。我這樣做是為了模擬這樣一個(gè)事實(shí)：在實(shí)際的分類問題中，可用的大部分?jǐn)?shù)據(jù)可能沒有類標(biāo)簽。然而，如果我們有一小部分?jǐn)?shù)據(jù)的類標(biāo)簽（在本例中為1%），那么可以使用半監(jiān)督學(xué)習(xí)技術(shù)從未標(biāo)記的數(shù)據(jù)中得出結(jié)論。

下面，我隨機(jī)化數(shù)據(jù)，生成索引來劃分?jǐn)?shù)據(jù)，然后創(chuàng)建測(cè)試、訓(xùn)練和未標(biāo)記的劃分。然后我檢查各個(gè)集的大小，確保一切都按計(jì)劃進(jìn)行。

X_train dimensions: (146, 24)
y_train dimensions: (146,)

X_test dimensions: (3659, 24)
y_test dimensions: (3659,)

X_unlabeled dimensions: (10830, 24)

類分布

python怎么改進(jìn)分類器

多數(shù)類的樣本數(shù)（（并發(fā)癥））是少數(shù)類（并發(fā)癥）的兩倍多。在這樣一個(gè)不平衡的類的情況下，我想準(zhǔn)確度可能不是最佳的評(píng)估指標(biāo)。

選擇F1分?jǐn)?shù)作為分類指標(biāo)來判斷分類器的有效性。F1分?jǐn)?shù)對(duì)類別不平衡的影響比準(zhǔn)確度更為穩(wěn)健，當(dāng)類別近似平衡時(shí)，這一點(diǎn)更為合適。F1得分計(jì)算如下：

python怎么改進(jìn)分類器

其中precision是預(yù)測(cè)正例中正確預(yù)測(cè)的比例，recall是真實(shí)正例中正確預(yù)測(cè)的比例。

初始分類器（監(jiān)督）

為了使半監(jiān)督學(xué)習(xí)的結(jié)果更真實(shí)，我首先使用標(biāo)記的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)簡(jiǎn)單的Logistic回歸分類器，并對(duì)測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè)。

Train f1 Score: 0.5846153846153846
Test f1 Score: 0.5002908667830134

python怎么改進(jìn)分類器

分類器的F1分?jǐn)?shù)為0.5?；煜仃嚫嬖V我們，分類器可以很好地預(yù)測(cè)沒有并發(fā)癥的手術(shù)，準(zhǔn)確率為86%。然而，分類器更難正確識(shí)別有并發(fā)癥的手術(shù)，準(zhǔn)確率只有47%。

預(yù)測(cè)概率

對(duì)于自訓(xùn)練算法，我們需要知道Logistic回歸分類器預(yù)測(cè)的概率。幸運(yùn)的是，sklearn提供了.predict_proba()方法，它允許我們查看屬于任一類的預(yù)測(cè)的概率。如下所示，在二元分類問題中，每個(gè)預(yù)測(cè)的總概率總和為1.0。

array([[0.93931367, 0.06068633],
       [0.2327203 , 0.7672797 ],
       [0.93931367, 0.06068633],
       ...,
       [0.61940353, 0.38059647],
       [0.41240068, 0.58759932],
       [0.24306008, 0.75693992]])

自訓(xùn)練分類器（半監(jiān)督）

既然我們知道了如何使用sklearn獲得預(yù)測(cè)概率，我們可以繼續(xù)編碼自訓(xùn)練分類器。以下是簡(jiǎn)要概述：

第1步：首先，在標(biāo)記的訓(xùn)練數(shù)據(jù)上訓(xùn)練Logistic回歸分類器。

第2步：接下來，使用分類器預(yù)測(cè)所有未標(biāo)記數(shù)據(jù)的標(biāo)簽，以及這些預(yù)測(cè)的概率。在這種情況下，我只對(duì)概率大于99%的預(yù)測(cè)采用“偽標(biāo)簽”。

第3步：將“偽標(biāo)記”數(shù)據(jù)與標(biāo)記的訓(xùn)練數(shù)據(jù)連接起來，并在連接的數(shù)據(jù)上重新訓(xùn)練分類器。

第4步：使用訓(xùn)練好的分類器對(duì)標(biāo)記的測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)，并對(duì)分類器進(jìn)行評(píng)估。

重復(fù)步驟1到4，直到?jīng)]有更多的預(yù)測(cè)具有大于99%的概率，或者沒有未標(biāo)記的數(shù)據(jù)保留。

下面的代碼使用while循環(huán)在Python中實(shí)現(xiàn)這些步驟。

Iteration 0
Train f1: 0.5846153846153846
Test f1: 0.5002908667830134
Now predicting labels for unlabeled data...
42 high-probability predictions added to training data.
10788 unlabeled instances remaining.

Iteration 1
Train f1: 0.7627118644067796
Test f1: 0.5037463976945246
Now predicting labels for unlabeled data...
30 high-probability predictions added to training data.
10758 unlabeled instances remaining.

Iteration 2
Train f1: 0.8181818181818182
Test f1: 0.505431675242996
Now predicting labels for unlabeled data...
20 high-probability predictions added to training data.
10738 unlabeled instances remaining.

Iteration 3
Train f1: 0.847457627118644
Test f1: 0.5076835515082526
Now predicting labels for unlabeled data...
21 high-probability predictions added to training data.
10717 unlabeled instances remaining.

...
Iteration 44
Train f1: 0.9481216457960644
Test f1: 0.5259179265658748
Now predicting labels for unlabeled data...
0 high-probability predictions added to training data.
10079 unlabeled instances remaining.

自訓(xùn)練算法經(jīng)過44次迭代，就不能以99%的概率預(yù)測(cè)更多的未標(biāo)記實(shí)例了。即使一開始有10,830個(gè)未標(biāo)記的實(shí)例，在自訓(xùn)練之后仍然有10,079個(gè)實(shí)例未標(biāo)記(并且未被分類器使用)。

python怎么改進(jìn)分類器

經(jīng)過44次迭代，F(xiàn)1的分?jǐn)?shù)從0.50提高到0.525！雖然這只是一個(gè)小的增長(zhǎng)，但看起來自訓(xùn)練已經(jīng)改善了分類器在測(cè)試數(shù)據(jù)集上的性能。上圖的頂部面板顯示，這種改進(jìn)大部分發(fā)生在算法的早期迭代中。同樣，底部面板顯示，添加到訓(xùn)練數(shù)據(jù)中的大多數(shù)“偽標(biāo)簽”都是在前20-30次迭代中出現(xiàn)的。

python怎么改進(jìn)分類器

最后的混淆矩陣顯示有并發(fā)癥的手術(shù)分類有所改善，但沒有并發(fā)癥的手術(shù)分類略有下降。有了F1分?jǐn)?shù)的提高，我認(rèn)為這是一個(gè)可以接受的進(jìn)步-可能更重要的是確定會(huì)導(dǎo)致并發(fā)癥的手術(shù)病例（真正例），并且可能值得增加假正例率來達(dá)到這個(gè)結(jié)果。

警告語

所以你可能會(huì)想：用這么多未標(biāo)記的數(shù)據(jù)進(jìn)行自訓(xùn)練有風(fēng)險(xiǎn)嗎？答案當(dāng)然是肯定的。請(qǐng)記住，盡管我們將“偽標(biāo)記”數(shù)據(jù)與標(biāo)記的訓(xùn)練數(shù)據(jù)一起包含在內(nèi)，但某些“偽標(biāo)記”數(shù)據(jù)肯定會(huì)不正確。當(dāng)足夠多的“偽標(biāo)簽”不正確時(shí)，自訓(xùn)練算法會(huì)強(qiáng)化糟糕的分類決策，而分類器的性能實(shí)際上會(huì)變得更糟。

可以使用分類器在訓(xùn)練期間沒有看到的測(cè)試集，或者使用“偽標(biāo)簽”預(yù)測(cè)的概率閾值，可以減輕這種風(fēng)險(xiǎn)。

到此，相信大家對(duì)“python怎么改進(jìn)分類器”有了更深的了解，不妨來實(shí)際操作一番吧！這里是億速云網(wǎng)站，更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢，關(guān)注我們，繼續(xù)學(xué)習(xí)！

向AI問一下細(xì)節(jié)

python怎么改進(jìn)分類器

自訓(xùn)練

示例：使用自訓(xùn)練改進(jìn)分類器

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽