溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

機器學習模型的度量選擇怎么理解

發(fā)布時間:2021-12-27 13:45:33 來源:億速云 閱讀:136 作者:iii 欄目:大數(shù)據(jù)

本篇內容主要講解“機器學習模型的度量選擇怎么理解”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“機器學習模型的度量選擇怎么理解”吧!

定義

在討論每種方法的優(yōu)缺點之前,我們先了解一下分類問題中使用的基本術語。如果你已經熟悉這個術語,可以跳過這個部分。

機器學習模型的度量選擇怎么理解

  • 召回率或TPR(真正例率):所有正例中正確識別為正例的項目數(shù)=TP/(TP+FN)

  • 特異性或TNR(真反例率):所有反例中正確識別為反例的項目數(shù)=TN/(TN+FP)

  • 精確度:在確定為正例的項目中,正確確定為正例的項目數(shù)=TP/(TP+FP)

  • 假正例率或I型錯誤:所有反例中被錯誤識別為正例的項目數(shù)=FP/(FP+TN)

  • 假反例率或II型錯誤:所有正例中被錯誤識別為反例的項目數(shù)=FN/(FN+TP)

機器學習模型的度量選擇怎么理解

  • 混淆矩陣

機器學習模型的度量選擇怎么理解

  • F1度量:精確性和召回率的調和平均值。F1 = 2*Precision*Recall/(Precision + Recall)

  • 準確率:正確分類的項目總數(shù)百分比 (TP+TN)/(N+P)

ROC-AUC評分

ROC-AUC得分的概率解釋是,如果隨機選擇一個正案例和一個負案例,根據(jù)分類器,正案例高于負案例的概率由AUC給出。

機器學習模型的度量選擇怎么理解

從數(shù)學上講,它是由靈敏度曲線(TPR)下的面積計算的。

FPR(1-特異性)。理想情況下,我們希望具有高靈敏度和高特異度,但在實際情況下,敏感性和特異度之間始終存在權衡。

ROC-AUC的一些重要特征是

  • 該值的范圍可以是0到1。然而,平衡數(shù)據(jù)的隨機分類器的auc得分是0.5

  • ROC-AUC評分與分類閾值集無關。F1分數(shù)不一樣,在概率輸出的情況下,F(xiàn)1分數(shù)需要一個閾值確定

Log損失

對數(shù)損失是一種精度測量,它結合了以下二進制類表達式給出的概率置信度的概念:

機器學習模型的度量選擇怎么理解

它考慮了你的預測的不確定性,基于它與實際標簽的差異。在最壞的情況下,假設你預測的概率都是0.5。因此,對數(shù)損失將變成-log(0.5)=0.69。

因此,我們可以說,考慮到實際的概率,任何高于0.6的都是一個非常糟糕的模型。

案例1

Log損失與ROC和F1度量的比較

機器學習模型的度量選擇怎么理解

以案例1為例,模型1在預測絕對概率方面做得更好,而模型2預測的概率值是有序遞增的。讓我們用實際分數(shù)來驗證一下:

機器學習模型的度量選擇怎么理解

如果考慮到log丟失,模型2給出的log損失最高,因為絕對概率與實際標簽有很大差異。但這與F1和AUC評分完全不一致,根據(jù)該評分模型2具有100%的精確率。

此外,你可以注意,對于不同的閾值,F(xiàn)1得分會變化,在默認閾值為0.5時,F(xiàn)1更喜歡模型1而不是模型2。

從上述示例得出的推論:

  • 如果你關心絕對概率差,就用對數(shù)損失

  • 如果你只關心某一個類的預測,而不想調整閾值,那么使用AUC score

  • F1分數(shù)對閾值敏感,在比較模型之前,你需要先調整它

案例2

他們如何處理類別不平衡的情況?

機器學習模型的度量選擇怎么理解

這兩個模型的唯一不同之處是它們對觀測13和14的預測。模型1在對觀測值13(標簽0)進行分類方面做得更好,而模型2在對觀測值14(標簽1)進行分類方面做得更好。

我們的目標是看哪個模型能更好地捕捉到不平衡類分類的差異(標簽1數(shù)據(jù)量少)。在欺詐檢測/垃圾郵件檢測這樣的問題中,正例的標簽總是很少,我們希望我們的模型能夠正確地預測正例,因此我們有時會更喜歡那些能夠對這些正例進行正確分類的模型

機器學習模型的度量選擇怎么理解

顯然,在這種情況下,log損失是失敗的,因為根據(jù)log丟失,兩個模型的性能是相同的。這是因為log損失函數(shù)是對稱的,并且不區(qū)分類。

F1度量和ROC-AUC評分在選擇模型2方面均優(yōu)于模型1。所以我們可以使用這兩種方法來處理類不平衡。但我們必須進一步挖掘,看看他們對待類別不平衡的方式有哪些不同。

機器學習模型的度量選擇怎么理解

在第一個例子中,我們看到很少有正標簽。在第二個例子中,幾乎沒有負標簽。讓我們看看F1度量和ROC-AUC如何區(qū)分這兩種情況。

機器學習模型的度量選擇怎么理解

ROC-AUC評分處理少數(shù)負標簽的情況與處理少數(shù)正標簽的情況相同。這里需要注意的一件有趣的事情是,F(xiàn)1的分數(shù)在模型3和模型4中幾乎是一樣的,因為正標簽的數(shù)量很大,它只關心正標簽的錯誤分類。

從以上例子得出的推論:

  • 如果你關心的是一個數(shù)量較少的類,并且不需要管它是正是負的,那么選擇ROC-AUC分數(shù)。

你什么時候會選擇F1度量而不是ROC-AUC?

當你有一個數(shù)量小的正類,那么F1的得分更有意義。這是欺詐檢測中的常見問題,因為正標簽很少。我們可以通過下面的例子來理解這個陳述。

例如,在大小為10K的數(shù)據(jù)集中,模型(1)預測100個真正例數(shù)據(jù)中有5個正例數(shù)據(jù),而另一個模型(2)預測100個真正例數(shù)據(jù)中的90個正例數(shù)據(jù)。顯然,在這種情況下,模型(2)比模型(1)做得更好。讓我們看看F1得分和ROC-AUC得分是否都能捕捉到這種差異

  • 模型(1)的F1得分=2*(1)*(0.1)/1.1 = 0.095

  • 模型(2)的F1得分= 2*(1)*(0.9)/1.9 = 0.947

是的,F(xiàn)1成績的差異反映了模型的表現(xiàn)。

  • 模型(1)的ROC-AUC=0.5

  • 模型(2)的ROC-AUC=0.93

ROC-AUC也給模型1打了一個不錯的分數(shù),這并不是一個很好的性能指標。因此,對于不平衡的數(shù)據(jù)集,在選擇roc-auc時要小心。

你應該使用哪種度量來進行多重分類?

我們還有三種類型的非二分類:

  • 多類:具有兩個以上類的分類任務。示例:將一組水果圖像分為以下任一類別:蘋果、香蕉和桔子。

  • 多標簽:將樣本分類為一組目標標簽。示例:將博客標記為一個或多個主題,如技術、宗教、政治等。標簽是獨立的,它們之間的關系并不重要。

  • 層次結構:每個類別都可以與類似的類別組合在一起,從而創(chuàng)建元類,這些元類又可以再次組合,直到我們到達根級別(包含所有數(shù)據(jù)的集合)。例子包括文本分類和物種分類。

在這個博客里,我們只討論第一類。

機器學習模型的度量選擇怎么理解

正如你在上表中看到的,我們有兩種類型的指標-微平均和宏平均,我們將討論每種指標的利弊。多個類最常用的度量是F1度量、平均精度、log損失。目前還沒有成熟的ROC-AUC多類評分。

多類的log損失定義為:

機器學習模型的度量選擇怎么理解

  • 在微平均法中,將系統(tǒng)中不同集合的真正例、假正例和假反例進行匯總,然后應用它們得到統(tǒng)計數(shù)據(jù)。

  • 在宏平均法中,取不同集合上系統(tǒng)的精度和召回率的平均值

如果存在類別不平衡問題,則采用微平均法。

到此,相信大家對“機器學習模型的度量選擇怎么理解”有了更深的了解,不妨來實際操作一番吧!這里是億速云網(wǎng)站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續(xù)學習!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經查實,將立刻刪除涉嫌侵權內容。

AI