溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

發(fā)布時(shí)間:2021-12-23 10:22:39 來(lái)源:億速云 閱讀:196 作者:柒染 欄目:大數(shù)據(jù)

今天就跟大家聊聊有關(guān)如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。

1. 介紹

現(xiàn)在的物體檢測(cè)方法中的其中一個(gè)問(wèn)題是,目標(biāo)的分類(lèi)得分無(wú)法代表對(duì)于其位置預(yù)測(cè)的質(zhì)量,這導(dǎo)致有些位置預(yù)測(cè)很準(zhǔn)的框的置信度不高,在做NMS的時(shí)候會(huì)被抑制掉。為了解決這個(gè)問(wèn)題,也提出了很多的方法,比如用一個(gè)額外的IoU得分或者centerness的得分來(lái)對(duì)位置的預(yù)測(cè)質(zhì)量進(jìn)行評(píng)估,然后在做NMS的時(shí)候,把分類(lèi)得分和位置質(zhì)量得分相乘起來(lái)使用。但是這種方法并不是最優(yōu)的,甚至?xí)?dǎo)致更差的結(jié)果,后面會(huì)說(shuō)。如果是用一個(gè)小的網(wǎng)絡(luò)去預(yù)測(cè)位置評(píng)分的話(huà),這種方法不夠優(yōu)雅,需要額外的計(jì)算量。

為了克服這些缺點(diǎn),我們可以思考一個(gè)問(wèn)題:我們能不能將這個(gè)位置的質(zhì)量預(yù)測(cè)合并到分類(lèi)得分里面,而不是單獨(dú)去預(yù)測(cè)一個(gè)定位的質(zhì)量?也就是說(shuō),預(yù)測(cè)一個(gè)和定位相關(guān)的分類(lèi)得分,或者是IoU相關(guān)的分類(lèi)得分,叫做IACS。

我們的貢獻(xiàn)如下:

1、我們展示了使用合適的分?jǐn)?shù)對(duì)大量的候選框進(jìn)行準(zhǔn)確的排序是提升dense目標(biāo)檢測(cè)器表現(xiàn)的關(guān)鍵因素。

2、我們提出了Varifocal Loss來(lái)訓(xùn)練dense目標(biāo)檢測(cè)器,去回歸IACS。

3、我們提出了一種新的星型的目標(biāo)框的特征表示方式來(lái)預(yù)測(cè)IACS并對(duì)框進(jìn)行優(yōu)化。

4、我們基于FCOS開(kāi)發(fā)了一種新的目標(biāo)檢測(cè)器,叫做VarifocalNet或者VFNet,我們的方法的示意圖如下。

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

 

2. 動(dòng)機(jī)

這部分中,我們研究了FCOS+ATSS的performance的上限,展示了將IoU-aware的分類(lèi)得分作為排序bias的重要性。在研究FCOS+ATSS的上限的時(shí)候,在做NMS之前,我們把dense的預(yù)測(cè)分類(lèi)得分,距離的offset以及centerness的得分都換成了ground truth值,然后在coco val2017上進(jìn)行評(píng)估。對(duì)于分類(lèi)概率向量,我們有兩種選擇,一個(gè)是直接把對(duì)應(yīng)的類(lèi)別置為1,另一個(gè)方法是置為gt和預(yù)測(cè)框的gt-IoU的值。對(duì)于centerness值,我們也考慮使用其真實(shí)值或者是gt-IoU的值。結(jié)果如表1,原始的FCOS+ATSS的AP是39.2,當(dāng)我們?cè)谕评淼臅r(shí)候?qū)enterness得分使用gt值(gt_ctr)的時(shí)候,只提升了2個(gè)點(diǎn),類(lèi)似的,我們把centerness值替換為gt_IoU(gt_ctr_iou)的值之后,也只是提升到了43.5。這表明用類(lèi)別概率和centerness相乘并不能得到顯著的提升。

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

相比之下,使用gt包圍框的FCOS+ATSS在沒(méi)有centerness的情況下,達(dá)到了56.1的AP。但是,如果將gt_label位置的類(lèi)別概率(gt_cls)設(shè)為1,是否使用centerness就變得很重要了(43.1 AP vs 58.1 AP),因?yàn)閏enterness可以在某種程度上區(qū)分開(kāi)正確和不正確的包圍框。

最令人驚訝的是,如果把分類(lèi)得分替換為gt_IoU(gt_cls_iou),也就是IACS,在推理的時(shí)候不需要centerness,可以得到74.7的AP。上面的結(jié)果表明,對(duì)于大多數(shù)的gt目標(biāo),在龐大的候選結(jié)果的池子里是存在準(zhǔn)確定位的包圍框的,那么,關(guān)鍵就是如何把這些高質(zhì)量的檢測(cè)結(jié)果從候選池子里挑選出來(lái),上面的結(jié)果顯示了,IACS就是選擇候選結(jié)果的最佳的度量方法。

 

3.  VarifocalNet

基于上面的發(fā)現(xiàn),我們提出去學(xué)習(xí)一個(gè)IoU-aware的分類(lèi)得分(IACS)來(lái)排序檢測(cè)結(jié)果,然后我們基于FCOS+ATSS,去掉了centerness分支,構(gòu)建了一個(gè)新的dense物體檢測(cè)器,叫做VarifocalNet或者VFNet。相比于FCOS+ATSS,有3個(gè)新東西:varifocal loss,星型包圍框以及包圍框優(yōu)化。

 

3.1 Varifocal Loss

我們?cè)O(shè)計(jì)了Varifocal Loss用來(lái)訓(xùn)練IACS,這是從Focal Loss演化而來(lái)的。Focal Loss的定義如下:

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

其中,α是用來(lái)平衡正負(fù)樣本的權(quán)重,    和    用來(lái)調(diào)制每個(gè)樣本的權(quán)重,使得困難樣本有較高的權(quán)重,避免大量的簡(jiǎn)單的負(fù)樣本主導(dǎo)了訓(xùn)練時(shí)候的loss。我們借用了Focal Loss中的這種加權(quán)的思想,我們用Varifocal Loss來(lái)訓(xùn)練回歸連續(xù)的IACS,和Focal Loss不一樣的是,F(xiàn)ocal Loss對(duì)于正負(fù)樣本的處理是相同的,而我們這里是不對(duì)等的,我們的Varifocal Loss定義為:

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

其中p是預(yù)測(cè)的IACS,q是目標(biāo)IoU得分,對(duì)于正樣本,q是預(yù)測(cè)包圍框和gt框之間的IoU,對(duì)于負(fù)樣本,q為0。見(jiàn)上面的圖1。

從式子中可以看到,VFL只對(duì)負(fù)樣本進(jìn)行了    的衰減,這是由于正樣本太少了,我們希望充分利用正樣本的監(jiān)督信號(hào)。另一方面,受到PISA和IoU-balanced Loss的啟發(fā),我們對(duì)正樣本使用q進(jìn)行了加權(quán),如果正樣本具有很高的gt_iou,那么,loss的貢獻(xiàn)就要大一些,這樣使得訓(xùn)練可以聚焦在那些質(zhì)量高的樣本上。為了平衡總體的正負(fù)樣本,我們同樣使用了α進(jìn)行了負(fù)樣本的加權(quán)。

 

3.2 星型包圍框的特征表示

我們還設(shè)計(jì)了一種高效的星型的包圍框的表示方法來(lái)預(yù)測(cè)IACS,使用了固定的9個(gè)采樣點(diǎn)(圖1中的黃色圓圈),通過(guò)可變形卷積來(lái)表示包圍框。這種表示方法可以獲取包圍框的幾何信息以及附近的上下文的信息,這對(duì)于預(yù)測(cè)框和gt框在編碼時(shí)的不對(duì)齊問(wèn)題很重要。

具體來(lái)說(shuō),給定一個(gè)采樣點(diǎn)(x,y),我們首先使用一個(gè)3x3的卷積回歸一個(gè)初始框,和FCOS一樣,包圍框編碼為4D向量(l’, t’, r’, b’),表示采樣點(diǎn)到四條邊的距離,使用這個(gè)距離向量,我們啟發(fā)式的選擇了9個(gè)采樣點(diǎn):(x, y), (x-l’, y), (x, y-t’), (x+r’, y), (x, y+b’), (x-l’, y-t’), (x+l’, y-t’), (x-l’, y+b’) 和 (x+r’, y+b’),然后,這9個(gè)點(diǎn)被映射到特征圖上,使用可變形卷積來(lái)表示包圍框,由于這些點(diǎn)是手工選取的,不需要額外的預(yù)測(cè),所以計(jì)算上非常高效。

 

3.3 包圍框優(yōu)化

我們通過(guò)包圍框的優(yōu)化步驟進(jìn)一步提升了物體的定位準(zhǔn)確率。包圍框的優(yōu)化在dense的物體檢測(cè)中并不常用,但是,使用星型的包圍框的表示,我們可以在dense的物體檢測(cè)器中利用包圍框優(yōu)化而不損失計(jì)算效率。

我們將包圍框的優(yōu)化建模為一個(gè)殘差學(xué)習(xí)的問(wèn)題。對(duì)于初始的回歸框(l’, t’, r’, b’),我們首先提取星型的表示并編碼,然后,我們學(xué)習(xí)4個(gè)距離縮放因子,(△l, △t, △r, △b)來(lái)縮放這個(gè)距離向量,這樣優(yōu)化后的包圍框可以表示為(l, t, r, b) = (△l×l’,△t×t’, △r×r’, △b×b’),更加接近gt。

 

3.4 VarifocalNet

加上上面的三個(gè)組件,然后去掉centerness分支,就得到了VarifocalNet,圖3顯示了VarifocalNet的結(jié)構(gòu),主干和FCOS一樣,區(qū)別就在于檢測(cè)頭上。定位子網(wǎng)絡(luò)需要進(jìn)行包圍框的回歸和refine。

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

 

3.5 損失函數(shù)和推理

損失函數(shù)如下:

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

其中,bbox‘和bbox分別表示初始的和refine之后的預(yù)測(cè)包圍框,我們使用訓(xùn)練的target的qi進(jìn)行加權(quán)。

推理:推理就是直接圖像的前向傳播然后NMS去除冗余框。

 

4. 實(shí)驗(yàn)

訓(xùn)練細(xì)節(jié):初始學(xué)習(xí)率0.01,使用線性warmup策略,warmup比例是0.1,使用了8個(gè)V100 GPU,batchsize為16。輸入圖像的最大尺寸為1333x800,數(shù)據(jù)增強(qiáng)方面只使用了水平翻轉(zhuǎn)。

 

4.1 消融實(shí)驗(yàn)

 

4.1.1 Varifocal Loss

不同超參數(shù)(α,γ)以及損失加權(quán)的效果,如表2,效果最好的是γ=2,α=0.75。

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

 

4.1.2 每個(gè)組件的貢獻(xiàn)

每個(gè)組件的影響見(jiàn)表3:

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

 

4.2 和其他最先進(jìn)方法的對(duì)比

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

 

4.3 通用性和優(yōu)勢(shì)

和GFL進(jìn)行了對(duì)比,將VFL用到其他的方法上看是否有效果:


如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案


看完上述內(nèi)容,你們對(duì)如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI