您好,登錄后才能下訂單哦!
大數(shù)據(jù)文摘出品
編譯:張睿毅、寧靜
計(jì)算機(jī)視覺是一門研究如何對(duì)數(shù)字圖像或視頻進(jìn)行高層語義理解的交叉學(xué)科,它賦予機(jī)器“看”的智能,需要實(shí)現(xiàn)人的大腦中(主要是視覺皮層區(qū))的視覺能力。
想象一下,如果我們想為盲人設(shè)計(jì)一款導(dǎo)盲產(chǎn)品,盲人過馬路時(shí)系統(tǒng)攝像機(jī)拍到了如下的圖像,那么需要完成那些視覺任務(wù)呢?
以上已經(jīng)囊括了計(jì)算機(jī)視覺(CV)領(lǐng)域的四大任務(wù),在CV領(lǐng)域主要有八項(xiàng)任務(wù),其他四大任務(wù)包括:圖像生成、人體關(guān)鍵點(diǎn)檢測、視頻分類、度量學(xué)習(xí)等。
目標(biāo)檢測作為CV的一大任務(wù)之一,其對(duì)于圖片的理解也發(fā)揮著重要的作用,在本文中,我們將介紹目標(biāo)檢測的基礎(chǔ)知識(shí),并回顧一些最常用的算法和一些全新的方法。(注: 每個(gè)小節(jié)展示的論文圖片,均在節(jié)末給出了具體的鏈接)
目標(biāo)檢測定位圖像中物體的位置,并在該物體周圍繪制邊界框,這通常涉及兩個(gè)過程,分類物體類型,然后在該對(duì)象周圍繪制一個(gè)框?,F(xiàn)在讓我們回顧一下用于目標(biāo)檢測的一些常見模型架構(gòu):
R-CNN
該技術(shù)結(jié)合了兩種主要方法:將高容量卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于自下而上的候選區(qū)域,以便對(duì)物體進(jìn)行局部化和分割,并監(jiān)督輔助任務(wù)的預(yù)訓(xùn)練。接下來是特定領(lǐng)域的微調(diào),從而產(chǎn)生高性能提升。論文的作者將算法命名為R-CNN(具有CNN特征的區(qū)域),因?yàn)樗鼘⒑蜻x區(qū)域與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合。
模型接收圖像并提取約2000個(gè)自下而上的候選區(qū)域,然后,它使用大型CNN計(jì)算每個(gè)候選區(qū)域的特征,此后,它使用特定類的線性支持向量機(jī)(SVM)對(duì)每個(gè)區(qū)域進(jìn)行分類,該模型在PASCAL VOC 2010上實(shí)現(xiàn)了53.7%的平均精度。
模型中的物體檢測系統(tǒng)有三個(gè)模塊:第一個(gè)負(fù)責(zé)生成與類別無關(guān)的候選區(qū)域,這些候選區(qū)域定義了模型檢測器可用的候選檢測器集;第二個(gè)模塊是一個(gè)大型卷積神經(jīng)網(wǎng)絡(luò),負(fù)責(zé)從每個(gè)區(qū)域提取固定長度的特征向量;第三個(gè)模塊由一類支持向量機(jī)組成。
模型內(nèi)部使用選擇性搜索來生成區(qū)域類別,選擇性搜索根據(jù)顏色、紋理、形狀和大小對(duì)相似的區(qū)域進(jìn)行分組。對(duì)于特征提取,該模型通過在每個(gè)候選區(qū)域上應(yīng)用Caffe CNN(卷積神經(jīng)網(wǎng)絡(luò))得到4096維特征向量,227×227 的RGB圖像,通過五個(gè)卷積層和兩個(gè)全連接層前向傳播來計(jì)算特征,節(jié)末鏈接中的論文解釋的模型相對(duì)于PASCAL VOC 2012的先前結(jié)果實(shí)現(xiàn)了30%的改進(jìn)。
R-CNN的一些缺點(diǎn)是:
相關(guān)論文和參考內(nèi)容鏈接:
https://arxiv.org/abs/1311.2524?source=post_page
http://host.robots.ox.ac.uk/pascal/VOC/voc2010/index.html?source=post_page
https://heartbeat.fritz.ai/a-beginners-guide-to-convolutional-neural-networks-cnn-cf26c5ee17ed?source=post_page
Fast R-CNN
下圖中展示的論文提出了一種基于快速區(qū)域的卷積網(wǎng)絡(luò)方法(Fast R-CNN)進(jìn)行目標(biāo)檢測,它在Caffe(使用Python和C ++)中實(shí)現(xiàn),該模型在PASCAL VOC 2012上實(shí)現(xiàn)了66%的平均精度,而R-CNN則為62%。
與R-CNN相比,F(xiàn)ast R-CNN具有更高的平均精度,單階段訓(xùn)練,更新所有網(wǎng)絡(luò)層的訓(xùn)練,以及特征緩存不需要磁盤存儲(chǔ)。
在其結(jié)構(gòu)中,F(xiàn)ast R-CNN將圖像作為輸入同時(shí)獲得候選區(qū)域集,然后,它使用卷積和最大池化圖層處理圖像,以生成卷積特征圖,在每個(gè)特征圖中,對(duì)每個(gè)候選區(qū)域的感興趣區(qū)域(ROI)池化層提取固定大小的特征向量。
這些特征向量之后將送到全連接層,然后它們分支成兩個(gè)輸出層,一個(gè)產(chǎn)生幾個(gè)對(duì)象類softmax概率估計(jì),而另一個(gè)產(chǎn)生每個(gè)對(duì)象類的四個(gè)實(shí)數(shù)值,這4個(gè)數(shù)字表示每個(gè)對(duì)象的邊界框的位置。
相關(guān)內(nèi)容參考鏈接:
https://github.com/rbgirshick/fast-rcnn?source=post_page
Faster R-CNN
Faster R-CNN:利用候選區(qū)域網(wǎng)絡(luò)實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測,提出了一種訓(xùn)練機(jī)制,可以對(duì)候選區(qū)域任務(wù)進(jìn)行微調(diào),并對(duì)目標(biāo)檢測進(jìn)行微調(diào)。
Faster R-CNN模型由兩個(gè)模塊組成:提取候選區(qū)域的深度卷積網(wǎng)絡(luò),以及使用這些區(qū)域FastR-CNN檢測器, Region Proposal Network將圖像作為輸入并生成矩形候選區(qū)域的輸出,每個(gè)矩形都具有檢測得分。
相關(guān)論文參考鏈接:
https://arxiv.org/abs/1506.01497?source=post_page
Mask R-CNN
下面論文中提出的模型是上述Faster R-CNN架構(gòu)的擴(kuò)展,它還能夠估計(jì)人體姿勢。
在此模型中,物體通過邊界框和語義分割實(shí)現(xiàn)分類和局部化,語義分割是將圖片中每個(gè)像素分類。該模型通過在每個(gè)感興趣區(qū)域(ROI)添加分割掩模的預(yù)測來擴(kuò)展Faster R-CNN, Mask R-CNN產(chǎn)生兩個(gè)輸出,類標(biāo)簽和邊界框。
相關(guān)論文參考鏈接:
https://arxiv.org/abs/1703.06870?source=post_page
SSD: Single Shot MultiBox Detectorz
下面的論文提出了一種使用單個(gè)深度神經(jīng)網(wǎng)絡(luò)預(yù)測圖像中物體的模型。網(wǎng)絡(luò)使用特征圖的小卷積濾波器為每個(gè)對(duì)象類別生成分?jǐn)?shù)。
該方法使用前饋卷積神經(jīng)網(wǎng)絡(luò),產(chǎn)生特定目標(biāo)的一組邊界框和分?jǐn)?shù),添加了卷積特征圖層,允許在多個(gè)尺度上進(jìn)行特征檢測,在此模型中,每個(gè)特征圖單元格都關(guān)聯(lián)到一組默認(rèn)邊界框,下圖顯示了SSD512模型在動(dòng)物,車輛和家具上的表現(xiàn)。
相關(guān)內(nèi)容參考鏈接:
https://arxiv.org/abs/1512.02325?source=post_page
You Only Look Once (YOLO)
下圖中展示的文章提出了一種單一的神經(jīng)網(wǎng)絡(luò),可以在單次評(píng)估中預(yù)測圖像中的邊界框和類概率。
YOLO模型實(shí)時(shí)處理每秒45幀,YOLO將圖像檢測視為回歸問題,這使得其管道非常簡單因此該模型非???。
它可以實(shí)時(shí)處理流視頻,延遲小于25秒,在訓(xùn)練過程中,YOLO可以看到整個(gè)圖像,因此能夠在目標(biāo)檢測中包含上下文。
在YOLO中,每個(gè)邊界框都是通過整個(gè)圖像的特征來預(yù)測的,每個(gè)邊界框有5個(gè)預(yù)測,x,y,w,h和置信度,(x,y)表示相對(duì)于網(wǎng)格單元邊界的邊界框中心, w和h是整個(gè)圖像的預(yù)測寬度和高度。
該模型通過卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),并在PASCAL VOC檢測數(shù)據(jù)集上進(jìn)行評(píng)估。網(wǎng)絡(luò)的卷積層負(fù)責(zé)提取特征,而全連接的層預(yù)測坐標(biāo)和輸出概率。
該模型的網(wǎng)絡(luò)架構(gòu)受到用于圖像分類的GoogLeNet模型的啟發(fā),網(wǎng)絡(luò)有24個(gè)卷積層和2個(gè)完全連接的層,模型的主要挑戰(zhàn)是它只能預(yù)測一個(gè)類,并且它在諸如鳥類之類的小物體上表現(xiàn)不佳。
此模型的平均AP精度為52.7%,但能夠達(dá)到63.4%。
參考鏈接:
https://arxiv.org/abs/1506.02640?source=post_page
將目標(biāo)看做點(diǎn)
下圖中的論文提出將對(duì)象建模為單點(diǎn),它使用關(guān)鍵點(diǎn)估計(jì)來查找中心點(diǎn),并回歸到所有其它對(duì)象屬性。
這些屬性包括3D位置,姿勢方向和大小。它使用CenterNet,這是一種基于中心點(diǎn)的方法,與其它邊界框檢測器相比,它更快,更準(zhǔn)確。
對(duì)象大小和姿勢等屬性根據(jù)中心位置的圖像特征進(jìn)行回歸,在該模型中,圖像被送到卷積神經(jīng)網(wǎng)絡(luò)中生成熱力圖,這些熱力圖中的最大值表示圖像中對(duì)象的中心。為了估計(jì)人體姿勢,該模型檢查2D關(guān)節(jié)位置并在中心點(diǎn)位置對(duì)它們進(jìn)行回歸。
此模型以每秒1.4幀的速度實(shí)現(xiàn)了45.1%的COCO平均精度,下圖顯示了這與其他研究論文中的結(jié)果進(jìn)行比較的結(jié)果。
論文參考鏈接:
https://arxiv.org/abs/1904.07850v2?source=post_page
用于目標(biāo)檢測的數(shù)據(jù)增強(qiáng)策略
數(shù)據(jù)增強(qiáng)通過旋轉(zhuǎn)和調(diào)整原始圖片大小等方式來創(chuàng)建新圖像數(shù)據(jù)。
雖然該策略本身不是模型結(jié)構(gòu),但下面這篇論文提出了轉(zhuǎn)換的創(chuàng)建,轉(zhuǎn)換是指可應(yīng)用于轉(zhuǎn)移到其他目標(biāo)檢測數(shù)據(jù)集的對(duì)象檢測數(shù)據(jù)集。轉(zhuǎn)換通常應(yīng)用在訓(xùn)練中。
在此模型中,增廣策略被定義為在訓(xùn)練過程中隨機(jī)選擇的一組n個(gè)策略,在此模型中應(yīng)用的一些操作包括顏色通道畸變,幾何圖像畸變,以及僅邊界框注釋中的像素畸變。對(duì)COCO數(shù)據(jù)集的實(shí)驗(yàn)表明,優(yōu)化數(shù)據(jù)增強(qiáng)策略能夠?qū)z測精度提高超過+2.3平均精度,這允許單個(gè)推理模型實(shí)現(xiàn)50.7平均精度的準(zhǔn)確度。
相關(guān)論文參考鏈接:
https://arxiv.org/abs/1906.11172v1?source=post_page
總結(jié)
我們現(xiàn)在應(yīng)該跟上一些最常見的——以及一些最近在各種環(huán)境中應(yīng)用的目標(biāo)檢測技術(shù)。上面提到并鏈接到的論文/摘要也包含其代碼實(shí)現(xiàn)的鏈接。不要自我設(shè)限,目標(biāo)檢測也可以存在于智能手機(jī)內(nèi)部,總之,需要我們不停地探索學(xué)習(xí)。
相關(guān)報(bào)道:
https://heartbeat.fritz.ai/a-2019-guide-to-object-detection-9509987954c3
https://www.toutiao.com/a6720074844945252867/
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。