溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Sparse R-CNN實例分析

發(fā)布時間:2022-03-29 13:50:22 來源:億速云 閱讀:186 作者:iii 欄目:大數(shù)據(jù)

本文小編為大家詳細介紹“Sparse R-CNN實例分析”,內(nèi)容詳細,步驟清晰,細節(jié)處理妥當(dāng),希望這篇“Sparse R-CNN實例分析”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學(xué)習(xí)新知識吧。

導(dǎo)讀  

看看第三種思路的物體檢測是什么樣的。

今天我們將討論一個新的方法稱為Sparse R-CNN(不要和處理3D計算機視覺任務(wù)的Sparse R-CNN混淆),使用了完全稀疏和可學(xué)習(xí)的包圍框生成來實現(xiàn)最先進的物體檢測。

Sparse R-CNN實例分析

相關(guān)的工作

我們先簡要介紹一下現(xiàn)有的方法。

Dense方法

單階段檢測器是目前應(yīng)用最廣泛的方法之一,直接預(yù)測anchor box的標(biāo)簽和位置,anchor密集覆蓋空間位置、比例和寬高比。例如SSD或YOLO。

我們來看YOLO算法。最終,它的目標(biāo)是預(yù)測圖像上一個目標(biāo)的類和指定目標(biāo)位置的包圍框。每個包圍框可以用四個描述子來描述:

  1. 包圍框的中心點 (bx, by)
  2. 寬 (bw)
  3. 高 (bh)
  4. c為對應(yīng)目標(biāo)的類別(比如:車,交通燈等)

此外,我們還必須預(yù)測一個pc值,即框中存在目標(biāo)的概率。它是一個dense的方法,因為它不是在給定的圖像中搜索可能包含一個目標(biāo)的感興趣的區(qū)域。相反,YOLO將圖像分割成單元格,使用19×19的網(wǎng)格。但一般來說,單階段檢測器可以產(chǎn)生W x H個cell,每個像素一個。每個單元格負責(zé)預(yù)測k個邊界框(本例中k選為5),因此,對于一張圖像,我們會得到大量的W x H x k個邊界框。

Sparse R-CNN實例分析

Dense-to-sparse 方法

兩階段探測器,利用RPN產(chǎn)生dense的建議框,如Faster R-CNN論文提出的。這些探測器多年來一直主導(dǎo)著物體探測。

利用RPN算法從dense區(qū)域候選框中得到稀疏的前景框,然后對每個框的位置進行細化,并預(yù)測其具體類別。

Sparse R-CNN實例分析

與單階段探測器的方法相似,它不是直接預(yù)測目標(biāo)的類別,而是預(yù)測目標(biāo)的概率。第二階段通過objectness和包圍框的overlap分數(shù)來進行預(yù)測類別的過濾。 

Sparse 方法

本文將其新的Sparse R-CNN范式歸類為現(xiàn)有目標(biāo)檢測范式的擴展,該范式包括從完全dense到dense-to-sparse,再加入新的步驟到完全sparse。

Sparse R-CNN實例分析

在論文中,避免了使用RPN,取而代之的是一組小的建議框(例如每幅圖像100個)。這些框是通過網(wǎng)絡(luò)的可學(xué)習(xí)的proposal boxes部分和proposal features部分來獲得的。這種形式為每個proposal預(yù)測4個值*(x,y,h,w)*,后者為每個bbox預(yù)測一個長度為256的潛在表示向量。學(xué)習(xí)到的建議框作為一個合理的統(tǒng)計量來執(zhí)行后續(xù)的細化步驟,學(xué)習(xí)到的建議特征用于引入注意力機制。這種機制與DETR論文中使用的機制非常相似。這些操作是在動態(tài)實例交互式head中執(zhí)行的,我們將在下一節(jié)中介紹。

建議模型特征

正如論文的名稱所暗示的那樣,該模型是端到端的。結(jié)構(gòu)很優(yōu)雅。它由上述可學(xué)習(xí)的proposal boxesproposal features以及動態(tài)實例交互頭組成,這是本文神經(jīng)網(wǎng)絡(luò)架構(gòu)的主要貢獻。

動態(tài)實例交互頭

給定N個建議框,Sparse R-CNN首先利用RoIAlign操作針對每個由建議框定義的區(qū)域,從主干中提取特征。每個感興趣區(qū)域的特征被輸入到單獨的頭中用于目標(biāo)的定位和分類,其中每個頭以特定的可學(xué)習(xí)的建議特征為條件。

Sparse R-CNN實例分析

建議特征被用作卷積的權(quán)重,在上面的圖像中它們被稱為“參數(shù)”。RoI特征由這個產(chǎn)生的卷積來得到最終的特征。這樣,那些最具前景信息的框?qū)ψ罱K目標(biāo)的位置和分類產(chǎn)生影響。在動態(tài)頭部中嵌入自注意模塊來推理物體之間的關(guān)系,并通過卷積影響預(yù)測。

主要結(jié)果

作者提供了幾個對比表,顯示這種新方法的性能。Sparse R-CNN與RetinaNet,F(xiàn)aster R-CNN和DETR在ResNet50和ResNet100的兩個變體上的比較。

Sparse R-CNN實例分析

在這里我們可以看到稀疏的R-CNN在R50和R100上都比RetinaNet和Faster R-CNN更好,但是它的性能與基于DETR非常相似。

根據(jù)作者的觀點,DETR模型實際上是密集到稀疏的模型,因為它利用稀疏的目標(biāo)查詢集,與全局(密集)圖像特征交互。因此,與DETR相比,這篇文章的新穎之處就出現(xiàn)了。

Sparse R-CNN實例分析

在這張圖片上,你可以看到COCO Dataset上模型推斷的結(jié)果。在第一列中顯示了學(xué)習(xí)的建議框,它們是對任何新圖像的預(yù)測。在下一列中,你可以看到從建議中提煉出來的最終bbox。在迭代學(xué)習(xí)過程中,它們因階段的不同而不同。 

讀到這里,這篇“Sparse R-CNN實例分析”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領(lǐng)會,如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI