如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

發(fā)布時(shí)間：2021-12-23 10:22:39 來(lái)源：億速云閱讀：196 作者：柒染欄目：大數(shù)據(jù)

今天就跟大家聊聊有關(guān)如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結(jié)了以下內(nèi)容，希望大家根據(jù)這篇文章可以有所收獲。

1. 介紹

現(xiàn)在的物體檢測(cè)方法中的其中一個(gè)問(wèn)題是，目標(biāo)的分類(lèi)得分無(wú)法代表對(duì)于其位置預(yù)測(cè)的質(zhì)量，這導(dǎo)致有些位置預(yù)測(cè)很準(zhǔn)的框的置信度不高，在做NMS的時(shí)候會(huì)被抑制掉。為了解決這個(gè)問(wèn)題，也提出了很多的方法，比如用一個(gè)額外的IoU得分或者centerness的得分來(lái)對(duì)位置的預(yù)測(cè)質(zhì)量進(jìn)行評(píng)估，然后在做NMS的時(shí)候，把分類(lèi)得分和位置質(zhì)量得分相乘起來(lái)使用。但是這種方法并不是最優(yōu)的，甚至?xí)?dǎo)致更差的結(jié)果，后面會(huì)說(shuō)。如果是用一個(gè)小的網(wǎng)絡(luò)去預(yù)測(cè)位置評(píng)分的話(huà)，這種方法不夠優(yōu)雅，需要額外的計(jì)算量。

為了克服這些缺點(diǎn)，我們可以思考一個(gè)問(wèn)題：我們能不能將這個(gè)位置的質(zhì)量預(yù)測(cè)合并到分類(lèi)得分里面，而不是單獨(dú)去預(yù)測(cè)一個(gè)定位的質(zhì)量？也就是說(shuō)，預(yù)測(cè)一個(gè)和定位相關(guān)的分類(lèi)得分，或者是IoU相關(guān)的分類(lèi)得分，叫做IACS。

我們的貢獻(xiàn)如下：

1、我們展示了使用合適的分?jǐn)?shù)對(duì)大量的候選框進(jìn)行準(zhǔn)確的排序是提升dense目標(biāo)檢測(cè)器表現(xiàn)的關(guān)鍵因素。

2、我們提出了Varifocal Loss來(lái)訓(xùn)練dense目標(biāo)檢測(cè)器，去回歸IACS。

3、我們提出了一種新的星型的目標(biāo)框的特征表示方式來(lái)預(yù)測(cè)IACS并對(duì)框進(jìn)行優(yōu)化。

4、我們基于FCOS開(kāi)發(fā)了一種新的目標(biāo)檢測(cè)器，叫做VarifocalNet或者VFNet，我們的方法的示意圖如下。

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

2. 動(dòng)機(jī)

這部分中，我們研究了FCOS+ATSS的performance的上限，展示了將IoU-aware的分類(lèi)得分作為排序bias的重要性。在研究FCOS+ATSS的上限的時(shí)候，在做NMS之前，我們把dense的預(yù)測(cè)分類(lèi)得分，距離的offset以及centerness的得分都換成了ground truth值，然后在coco val2017上進(jìn)行評(píng)估。對(duì)于分類(lèi)概率向量，我們有兩種選擇，一個(gè)是直接把對(duì)應(yīng)的類(lèi)別置為1，另一個(gè)方法是置為gt和預(yù)測(cè)框的gt-IoU的值。對(duì)于centerness值，我們也考慮使用其真實(shí)值或者是gt-IoU的值。結(jié)果如表1，原始的FCOS+ATSS的AP是39.2，當(dāng)我們?cè)谕评淼臅r(shí)候?qū)enterness得分使用gt值（gt_ctr）的時(shí)候，只提升了2個(gè)點(diǎn)，類(lèi)似的，我們把centerness值替換為gt_IoU（gt_ctr_iou）的值之后，也只是提升到了43.5。這表明用類(lèi)別概率和centerness相乘并不能得到顯著的提升。

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

相比之下，使用gt包圍框的FCOS+ATSS在沒(méi)有centerness的情況下，達(dá)到了56.1的AP。但是，如果將gt_label位置的類(lèi)別概率(gt_cls)設(shè)為1，是否使用centerness就變得很重要了（43.1 AP vs 58.1 AP），因?yàn)閏enterness可以在某種程度上區(qū)分開(kāi)正確和不正確的包圍框。

最令人驚訝的是，如果把分類(lèi)得分替換為gt_IoU（gt_cls_iou），也就是IACS，在推理的時(shí)候不需要centerness，可以得到74.7的AP。上面的結(jié)果表明，對(duì)于大多數(shù)的gt目標(biāo)，在龐大的候選結(jié)果的池子里是存在準(zhǔn)確定位的包圍框的，那么，關(guān)鍵就是如何把這些高質(zhì)量的檢測(cè)結(jié)果從候選池子里挑選出來(lái)，上面的結(jié)果顯示了，IACS就是選擇候選結(jié)果的最佳的度量方法。

3. VarifocalNet

基于上面的發(fā)現(xiàn)，我們提出去學(xué)習(xí)一個(gè)IoU-aware的分類(lèi)得分（IACS）來(lái)排序檢測(cè)結(jié)果，然后我們基于FCOS+ATSS，去掉了centerness分支，構(gòu)建了一個(gè)新的dense物體檢測(cè)器，叫做VarifocalNet或者VFNet。相比于FCOS+ATSS，有3個(gè)新東西：varifocal loss，星型包圍框以及包圍框優(yōu)化。

3.1 Varifocal Loss

我們?cè)O(shè)計(jì)了Varifocal Loss用來(lái)訓(xùn)練IACS，這是從Focal Loss演化而來(lái)的。Focal Loss的定義如下：

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

其中，α是用來(lái)平衡正負(fù)樣本的權(quán)重，和用來(lái)調(diào)制每個(gè)樣本的權(quán)重，使得困難樣本有較高的權(quán)重，避免大量的簡(jiǎn)單的負(fù)樣本主導(dǎo)了訓(xùn)練時(shí)候的loss。我們借用了Focal Loss中的這種加權(quán)的思想，我們用Varifocal Loss來(lái)訓(xùn)練回歸連續(xù)的IACS，和Focal Loss不一樣的是，F(xiàn)ocal Loss對(duì)于正負(fù)樣本的處理是相同的，而我們這里是不對(duì)等的，我們的Varifocal Loss定義為：

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

其中p是預(yù)測(cè)的IACS，q是目標(biāo)IoU得分，對(duì)于正樣本，q是預(yù)測(cè)包圍框和gt框之間的IoU，對(duì)于負(fù)樣本，q為0。見(jiàn)上面的圖1。

從式子中可以看到，VFL只對(duì)負(fù)樣本進(jìn)行了的衰減，這是由于正樣本太少了，我們希望充分利用正樣本的監(jiān)督信號(hào)。另一方面，受到PISA和IoU-balanced Loss的啟發(fā)，我們對(duì)正樣本使用q進(jìn)行了加權(quán)，如果正樣本具有很高的gt_iou，那么，loss的貢獻(xiàn)就要大一些，這樣使得訓(xùn)練可以聚焦在那些質(zhì)量高的樣本上。為了平衡總體的正負(fù)樣本，我們同樣使用了α進(jìn)行了負(fù)樣本的加權(quán)。

3.2 星型包圍框的特征表示

我們還設(shè)計(jì)了一種高效的星型的包圍框的表示方法來(lái)預(yù)測(cè)IACS，使用了固定的9個(gè)采樣點(diǎn)（圖1中的黃色圓圈），通過(guò)可變形卷積來(lái)表示包圍框。這種表示方法可以獲取包圍框的幾何信息以及附近的上下文的信息，這對(duì)于預(yù)測(cè)框和gt框在編碼時(shí)的不對(duì)齊問(wèn)題很重要。

具體來(lái)說(shuō)，給定一個(gè)采樣點(diǎn)（x，y），我們首先使用一個(gè)3x3的卷積回歸一個(gè)初始框，和FCOS一樣，包圍框編碼為4D向量(l’, t’, r’, b’)，表示采樣點(diǎn)到四條邊的距離，使用這個(gè)距離向量，我們啟發(fā)式的選擇了9個(gè)采樣點(diǎn)：(x, y), (x-l’, y), (x, y-t’), (x+r’, y), (x, y+b’), (x-l’, y-t’), (x+l’, y-t’), (x-l’, y+b’) 和 (x+r’, y+b’)，然后，這9個(gè)點(diǎn)被映射到特征圖上，使用可變形卷積來(lái)表示包圍框，由于這些點(diǎn)是手工選取的，不需要額外的預(yù)測(cè)，所以計(jì)算上非常高效。

3.3 包圍框優(yōu)化

我們通過(guò)包圍框的優(yōu)化步驟進(jìn)一步提升了物體的定位準(zhǔn)確率。包圍框的優(yōu)化在dense的物體檢測(cè)中并不常用，但是，使用星型的包圍框的表示，我們可以在dense的物體檢測(cè)器中利用包圍框優(yōu)化而不損失計(jì)算效率。

我們將包圍框的優(yōu)化建模為一個(gè)殘差學(xué)習(xí)的問(wèn)題。對(duì)于初始的回歸框(l’, t’, r’, b’)，我們首先提取星型的表示并編碼，然后，我們學(xué)習(xí)4個(gè)距離縮放因子，(△l, △t, △r, △b)來(lái)縮放這個(gè)距離向量，這樣優(yōu)化后的包圍框可以表示為(l, t, r, b) = (△l×l’,△t×t’, △r×r’, △b×b’)，更加接近gt。

3.4 VarifocalNet

加上上面的三個(gè)組件，然后去掉centerness分支，就得到了VarifocalNet，圖3顯示了VarifocalNet的結(jié)構(gòu)，主干和FCOS一樣，區(qū)別就在于檢測(cè)頭上。定位子網(wǎng)絡(luò)需要進(jìn)行包圍框的回歸和refine。

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

3.5 損失函數(shù)和推理

損失函數(shù)如下：

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

其中，bbox‘和bbox分別表示初始的和refine之后的預(yù)測(cè)包圍框，我們使用訓(xùn)練的target的qi進(jìn)行加權(quán)。

推理：推理就是直接圖像的前向傳播然后NMS去除冗余框。

4. 實(shí)驗(yàn)

訓(xùn)練細(xì)節(jié)：初始學(xué)習(xí)率0.01，使用線性warmup策略，warmup比例是0.1，使用了8個(gè)V100 GPU，batchsize為16。輸入圖像的最大尺寸為1333x800，數(shù)據(jù)增強(qiáng)方面只使用了水平翻轉(zhuǎn)。

4.1 消融實(shí)驗(yàn)

4.1.1 Varifocal Loss

不同超參數(shù)(α，γ)以及損失加權(quán)的效果，如表2，效果最好的是γ=2，α=0.75。

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

4.1.2 每個(gè)組件的貢獻(xiàn)

每個(gè)組件的影響見(jiàn)表3：

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

4.2 和其他最先進(jìn)方法的對(duì)比

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

4.3 通用性和優(yōu)勢(shì)

和GFL進(jìn)行了對(duì)比，將VFL用到其他的方法上看是否有效果：

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

看完上述內(nèi)容，你們對(duì)如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案有進(jìn)一步的了解嗎？如果還想了解更多知識(shí)或者相關(guān)內(nèi)容，請(qǐng)關(guān)注億速云行業(yè)資訊頻道，感謝大家的支持。

向AI問(wèn)一下細(xì)節(jié)

如何用VarifocalNet進(jìn)行對(duì)候選框排序的最優(yōu)方案

1. 介紹

2. 動(dòng)機(jī)

3. VarifocalNet

3.1 Varifocal Loss

3.2 星型包圍框的特征表示

3.3 包圍框優(yōu)化

3.4 VarifocalNet

3.5 損失函數(shù)和推理

4. 實(shí)驗(yàn)

4.1 消融實(shí)驗(yàn)

4.1.1 Varifocal Loss

4.1.2 每個(gè)組件的貢獻(xiàn)

4.2 和其他最先進(jìn)方法的對(duì)比

4.3 通用性和優(yōu)勢(shì)

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽