溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

R-CNN模型是怎樣的

發(fā)布時(shí)間:2022-01-14 16:38:23 來源:億速云 閱讀:145 作者:iii 欄目:大數(shù)據(jù)

這篇文章主要講解了“R-CNN模型是怎樣的”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“R-CNN模型是怎樣的”吧!

摘要

目標(biāo)識(shí)別與檢測(cè)數(shù)據(jù)庫(kù):PASCAL VOC在12年以前一直進(jìn)展緩慢,一些新提出的優(yōu)化方法只是把之前的方法線性地結(jié)合在一起。Ross Girshick提出的R-CNN直接將識(shí)別準(zhǔn)確率提高了30%。作者主要利用兩個(gè)因素:一個(gè)是CNN可以應(yīng)用于區(qū)域候選,以便定位和分割物體;另一個(gè)是當(dāng)標(biāo)記的訓(xùn)練數(shù)據(jù)很少時(shí),輔助任務(wù)的預(yù)訓(xùn)練加以fine-tuning,可以顯著提高性能。(when labeled training data is scarce, supervised pre-training for an auxiliary task, followed by domain-specific fine-tuning, yields a significant performance boost.)

1. 介紹

  • R-CNN提出以前,各式各樣的目標(biāo)檢測(cè)算法大都基于SIFTHOG算子,二者都是 blockwise orientation histograms,我們可以大致地將它們與哺乳動(dòng)物視覺聯(lián)系起來。但大腦的識(shí)別過程應(yīng)該是多層傳遞的,因此識(shí)別程序也應(yīng)該有一個(gè)多層結(jié)構(gòu)?;诖耍?strong>Fukushima 提出了“neocognitron”方法,Lecun 也提出了“missing algorithm”

  • 鑒于13年CNN的火爆,作者認(rèn)為:CNN在圖像分類上的結(jié)果也可以擴(kuò)展應(yīng)用到PASCAL VOC的挑戰(zhàn)上。為了達(dá)成目標(biāo),需要解決兩個(gè)問題:

    • 用深度網(wǎng)絡(luò)定位目標(biāo)。目標(biāo)檢測(cè)首先需要定位物體(localization)。定位的實(shí)現(xiàn)方式一般為滑動(dòng)窗檢測(cè)(用窗口截取圖像的一部分,每次都做一個(gè)定位回歸),但對(duì)于較大感受野和步長(zhǎng)的CNN是一個(gè)不小的挑戰(zhàn)。

    • 用小容量的標(biāo)記數(shù)據(jù)訓(xùn)練大容量的網(wǎng)絡(luò)。解決方式上面其實(shí)已經(jīng)說了,就是在ILSVRC這個(gè)大的輔助訓(xùn)練集上進(jìn)行監(jiān)督訓(xùn)練,接著在PASCAL上domain-specific fine-tuning。

  • 另外,作者的系統(tǒng)也十分有效:The only class-specific computations are a reasonably small matrix-vector product and greedy non-maximum suppression。

  • 作者還發(fā)現(xiàn),即使去除94%的參數(shù),CNN模型檢測(cè)的準(zhǔn)確率只會(huì)有略微的下降。通過一個(gè)檢測(cè)分析工具,發(fā)現(xiàn)只需要通過簡(jiǎn)單的邊界框回歸就可以顯著地降低定位錯(cuò)誤率。


2. R-CNN模型介紹

2.1 模型設(shè)計(jì)

  • 整個(gè)檢測(cè)系統(tǒng)分為三個(gè)部分:

    • 生成獨(dú)立分類的候選區(qū)域。作者的方法是use selective search to enable a controlled comparison with prior

    • 用CNN,對(duì)每個(gè)候選區(qū)域提出固定長(zhǎng)度的特征向量。輸入的圖片固定為227*227,且提前進(jìn)行mean-subtracted處理。之后用一個(gè)5卷積層,2全連接層的CNN來提取4096維特征向量。

    • 用SVM對(duì)特征向量進(jìn)行分類。

2.2 Test-time detection

  • 一開始,系統(tǒng)先用selective search提取2000個(gè)候選區(qū)域,并將其warp到277*277大小,進(jìn)入CNN提取特征,并用SVM分類。最后,再用 greedy non-maximum suppression 把那些高度重疊的框剔除。

  • R-CNN運(yùn)行時(shí)間很短,這歸功于兩點(diǎn):1. CNN對(duì)于每個(gè)分類的參數(shù)都是共享的;2. 與其他方法相比,4096維的特征向量算是很小的了。

  • 運(yùn)行結(jié)果是,即使有100k個(gè)分類,一張圖在多核CPU上也只要10秒;生成的低維特征圖只占1.5GB。

2.3 Training

  • Supervised pre-training:先將CNN在ILSVRC 2012上進(jìn)行預(yù)訓(xùn)練(with image-level annotations (i.e., no bounding box labels)),框架采用的是Caffe。由于訓(xùn)練過程的簡(jiǎn)單化,作者不小心就達(dá)到了ILSVRC最低錯(cuò)誤率;

  • Domain-specific fine-tuning:微調(diào)過程,以0.001的學(xué)習(xí)速率進(jìn)行SGD訓(xùn)練。對(duì)某個(gè)分類只要IOU>0.5就視該邊框?yàn)檎?。每次SGD迭代都采樣38個(gè)正邊框和96個(gè)背景。

  • Object category classifiers:對(duì)某個(gè)分類,高IOU和IOU都很好區(qū)分,但I(xiàn)OU處于中值時(shí)則很難定義生成的候選框是否包含了該物體。作者設(shè)定了一個(gè)閾值0.3,低于它的一律視為背景(負(fù)數(shù))。另外,每個(gè)分類都優(yōu)化一個(gè)SVM。由于負(fù)樣本很多,因此還采用了hard negative mining方法

2.4 Results on PASCAL VOC 2010-12

  • 作者提交了兩個(gè)版本,一個(gè)沒有bounding box regression(RCNN),一個(gè)有(RCNN BB),結(jié)果如下:

  • 簡(jiǎn)而言之,就是MAP顯著提高了不少(從35.1%到53.7%),而且運(yùn)行時(shí)間也短。 

感謝各位的閱讀,以上就是“R-CNN模型是怎樣的”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對(duì)R-CNN模型是怎樣的這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI