溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣

發(fā)布時(shí)間:2021-12-06 11:01:43 來(lái)源:億速云 閱讀:770 作者:柒染 欄目:大數(shù)據(jù)

大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來(lái)學(xué)習(xí)下,希望你能有所收獲。



現(xiàn)實(shí)世界的數(shù)據(jù)通常遵循長(zhǎng)尾分布,也就是說(shuō)每個(gè)類(lèi)的數(shù)量通常是不同的。例如,數(shù)據(jù)集頭部類(lèi)中樣本數(shù)很多,而尾部類(lèi)中樣本數(shù)很少。然而我們希望模型是能夠公平的表示整個(gè)數(shù)據(jù)集,而不是偏向某些樣本多的類(lèi)。解決長(zhǎng)尾問(wèn)題的各種方法中,類(lèi)平衡損失、重采樣和數(shù)據(jù)增廣是比較常見(jiàn)的方法。但是對(duì)于尾部類(lèi)來(lái)說(shuō),我們不得不考慮一些其他知識(shí)來(lái)彌補(bǔ)丟失的信息。在本文中,作者提出了一種新的方法來(lái)解決長(zhǎng)尾問(wèn)題——在特征空間中將頭部類(lèi)的特征增廣到尾部類(lèi)特征上。具體來(lái)說(shuō)是將每個(gè)類(lèi)的特征解耦成類(lèi)特有和類(lèi)共有特征,將尾部類(lèi)的類(lèi)特有特征和頭部類(lèi)的類(lèi)共有特征進(jìn)行融合,從而實(shí)現(xiàn)特征空間的增廣。該方法在iNaturalist, ImageNet-LT, Places-LT 和長(zhǎng)尾的CIFAR集四個(gè)數(shù)據(jù)集上都取得了不錯(cuò)的效果。

簡(jiǎn)介


   




長(zhǎng)尾分布廣泛存在于視覺(jué)任務(wù)中。如圖所示在分類(lèi)和檢測(cè)任務(wù)中存在長(zhǎng)尾分布問(wèn)題。


大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣


長(zhǎng)尾分布帶來(lái)的主要問(wèn)題是在訓(xùn)練時(shí),因?yàn)?strong>尾部類(lèi)數(shù)據(jù)量少,統(tǒng)計(jì)信息不夠豐富,因而模型并不能很好的表達(dá)尾部類(lèi)。現(xiàn)有的方法主要有數(shù)據(jù)增廣,下采樣,過(guò)采樣,和平衡損失函數(shù)的構(gòu)建等。但是這些方法當(dāng)尾部類(lèi)數(shù)量極少時(shí),性能并不理想。如下圖所示。


大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣


本文提出了在特征空間中,將頭部類(lèi)的信息遷移到尾部類(lèi)上,具體方法如下。


本文方法


     

     


本文首先用CAM方法提取注意力區(qū)域,得到每個(gè)類(lèi)的類(lèi)特有特征和類(lèi)共有特征。之后將尾部類(lèi)的類(lèi)特有特征和頭部類(lèi)的類(lèi)共有特征進(jìn)行融合。


首先來(lái)介紹一下CAM(Class Activation Map)。


大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣


M是我們得到的高亮圖。c是類(lèi)別,x,y是像素位置,k是通道,w是權(quán)重,f是特征向量。當(dāng)M越大,意味著x,y處的特征對(duì)于c這一類(lèi)別來(lái)說(shuō)越發(fā)重要。之后我們將M歸一化到0-1,給一個(gè)閾值大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣,通過(guò)下面的公式,我們就能得到類(lèi)特有特征(s代表specific)和類(lèi)共有特征(g代表generic)。


大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣


其中,大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣代表Hadamard乘積,而當(dāng)x大于等于0時(shí),sgn(x)=1,小于0時(shí),sgn(x)=0。


之后我們來(lái)看整體的訓(xùn)練流程。第一步是進(jìn)行全部數(shù)據(jù)的訓(xùn)練,得到提取特征的子網(wǎng)絡(luò)和基礎(chǔ)分類(lèi)器,用于之后的步驟中。第二步是根據(jù)剛剛得到的提取特征網(wǎng)絡(luò)和分類(lèi)器,以及之前的CAM,進(jìn)行尾部類(lèi)的增廣??梢钥吹剑诙竭M(jìn)去一張尾部類(lèi)圖片和一張頭部類(lèi)圖片,選取頭部類(lèi)圖片時(shí)是選取的與尾部類(lèi)距離較近,容易混淆的頭部類(lèi)(根據(jù)置信度排序得到)。


大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣


第三步則是微調(diào)。注意第三步和第二步是同步進(jìn)行的,統(tǒng)稱為第二階段。第二階段整體算法流程如下。


大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣


實(shí)驗(yàn)與結(jié)果

     

     


數(shù)據(jù)集: Long-tailed CIFAR-10 and CIFAR-100, ImageNet-LT and Places-LT Dataset,iNaturalist 2017 and 2018.


對(duì)比實(shí)驗(yàn):


大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣

大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣

大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣


消融實(shí)驗(yàn)


大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣


結(jié)果分析


大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣

大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣

大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣

大數(shù)據(jù)中怎么解決長(zhǎng)尾分布問(wèn)題以及解耦類(lèi)別特征并實(shí)現(xiàn)空間增廣


看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝您對(duì)億速云的支持。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI