溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

2019 年的目標(biāo)檢測(cè)指南

發(fā)布時(shí)間:2020-08-10 18:35:47 來(lái)源:ITPUB博客 閱讀:116 作者:dicksonjyl560101 欄目:互聯(lián)網(wǎng)科技


2019 年的目標(biāo)檢測(cè)指南

目標(biāo)檢測(cè)在視頻監(jiān)控、自動(dòng)駕駛汽車(chē)、目標(biāo)/人跟蹤等領(lǐng)域得到了廣泛的應(yīng)用。在本文中,我們將了解目標(biāo)檢測(cè)的基礎(chǔ)知識(shí),并回顧一些最常用的算法和一些全新的方法。

原標(biāo)題 | A 2019 Guide to Object Detection

作 者 | Derrick Mwiti

翻 譯 | 林肯二百一十三(西安交通大學(xué))、陳華Mark(武漢大學(xué))、BBuf(西南科技大學(xué))

編 輯 | Pita

目標(biāo)檢測(cè)是一種為了檢測(cè)汽車(chē)、建筑物和人類(lèi)等目標(biāo)對(duì)象的計(jì)算機(jī)視覺(jué)技術(shù),這些對(duì)象通常可以通過(guò)圖片或視頻來(lái)識(shí)別。

目標(biāo)檢測(cè)在視頻監(jiān)控、自動(dòng)駕駛汽車(chē)、目標(biāo)/人跟蹤等領(lǐng)域得到了廣泛的應(yīng)用。在本文中,我們將了解目標(biāo)檢測(cè)的基礎(chǔ)知識(shí),并回顧一些最常用的算法和一些全新的方法。

目標(biāo)檢測(cè)的工作原理

目標(biāo)檢測(cè)會(huì)定位圖像中的對(duì)象,并在該對(duì)象周?chē)L制一個(gè)包圍框。這過(guò)程通常分為兩步:目標(biāo)分類(lèi)并確定類(lèi)型,然后在該對(duì)象周?chē)L制一個(gè)框。我們之前已經(jīng)討論過(guò)圖像分類(lèi),現(xiàn)在讓我們來(lái)回顧一些用于目標(biāo)檢測(cè)的常見(jiàn)模型架構(gòu):

  • R-CNN

  • Fast R-CNN

  • Faster R-CNN

  • Mask R-CNN

  • SSD(單點(diǎn)多框檢測(cè)器)

  • YOLO (You Only Look Once)

  • 將目標(biāo)視作一個(gè)點(diǎn)

  • 用于目標(biāo)檢測(cè)的數(shù)據(jù)增強(qiáng)策略

R-CNN 模型

該技術(shù) 結(jié)合 了兩種主要方法:將大容量卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于自底向上的區(qū)域方案中,對(duì)目標(biāo)進(jìn)行定位和分割;有監(jiān)督的預(yù)訓(xùn)練。

查看論文: 特征層次結(jié)構(gòu)豐富,可以精確的進(jìn)行目標(biāo)檢測(cè)和語(yǔ)義分割 (https://arxiv.org/abs/1311.2524)

這是通過(guò) domain-specific fine-tuning 來(lái)獲得高性能提升。由于將區(qū)域(Regional)劃分的 建議 與卷積神經(jīng)網(wǎng)絡(luò)相 結(jié)合 ,這篇論文的作者將該算法命名為 R-CNN (具有 CNN 特征的區(qū)域)。

2019 年的目標(biāo)檢測(cè)指南

論文鏈接:https://arxiv.org/pdf/1311.2524.pdf

該模型先基于圖片提取出大約2000個(gè)自底向上的候選區(qū)域。然后使用一個(gè)大型CNN模型計(jì)算每個(gè)候選區(qū)域的特征向量。最后利用線性支持向量機(jī) (SVMs)對(duì)每個(gè)區(qū)域進(jìn)行分類(lèi)。該模型在PASCAL VOC 2010( http ://host.robots.ox.ac.uk/pascal/VOC/voc2010/index.html)上的平均精度達(dá)到53.7%。

該模型的目標(biāo)檢測(cè)系統(tǒng)實(shí)現(xiàn)由三個(gè)模塊組成。第一個(gè)模塊負(fù)責(zé)生成分類(lèi)獨(dú)立的候選區(qū)域,這些區(qū)域是檢測(cè)可用的候選數(shù)據(jù)集。第二個(gè)模塊是一個(gè)大型卷積神經(jīng)網(wǎng)絡(luò)CNN模型,負(fù)責(zé)從每個(gè)區(qū)域提取固定長(zhǎng)度的特征向量。第三個(gè)模塊是多類(lèi)別SVM分類(lèi)器 。

2019 年的目標(biāo)檢測(cè)指南

論文鏈接:https://arxiv.org/pdf/1311.2524.pdf

該模型使用selective search方法來(lái)生成候選區(qū)域集。根據(jù)顏色、紋理、形狀和大小選擇 搜索 相似的區(qū)域。在特征提取方面,該模型采用4096維特征向量,并將Caffe CNN實(shí)現(xiàn)應(yīng)用于每個(gè)區(qū)域提案。將227×227 RGB圖像通過(guò)5個(gè)卷積層和2個(gè)完全連通層進(jìn)行正向傳播,計(jì)算特征。本文所詮釋的模型與之前PASCAL VOC 2012的結(jié)果相比,取得了 30 %相關(guān)的效果改進(jìn)。

R-CNN的一些缺點(diǎn):

  • 訓(xùn)練是一個(gè)多階段的流程。對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo) 建議 優(yōu)化,將svm與ConvNet特征進(jìn)行擬合,最后學(xué)習(xí)邊界框回歸器。

  • 模型訓(xùn)練在空間占用和時(shí)間消耗上代價(jià)都很高昂,因?yàn)閂GG16這樣的深度網(wǎng)絡(luò)占用了大量的空間。

  • 對(duì)象檢測(cè)比較慢,因?yàn)樗鼘?duì)每個(gè)對(duì)象 建議 執(zhí)行一個(gè)ConvNet轉(zhuǎn)發(fā)。

Fast R-CNN

下文提出了一種基于區(qū)域卷積網(wǎng)絡(luò)的快速目標(biāo)檢測(cè)方法(Fast R-CNN)。

查看論文: 快速R-CNN (https://arxiv.org/abs/1504.08083)

它是用Caffe通過(guò)Python和c++(https://github .com /rbgirshick/fast-rcnn)實(shí)現(xiàn)的。該模型在PASCAL VOC 2012上的平均精度為66%,而R-CNN的平均精度為62%。

2019 年的目標(biāo)檢測(cè)指南

論文鏈接:https://arxiv.org/pdf/1504.08083.pdf

與R-CNN相比,F(xiàn)ast R-CNN具有:更高的平均精度值,單階段訓(xùn)練特性,可更新所有網(wǎng)絡(luò)層訓(xùn)練的特性,并且它也不需要磁盤(pán)存儲(chǔ)來(lái)進(jìn)行特征緩存。

在其架構(gòu)中,一個(gè) Fast R-CNN接收的圖像既作為輸入也作為一組目標(biāo) 建議 集。模型對(duì)圖像進(jìn)行卷積和最大池化處理,生成卷積特征圖,通過(guò)針對(duì)每個(gè)區(qū)域 建議 的興趣池層區(qū)域從每個(gè)特征圖中提取出固定層的特征向量。

接下來(lái),將特征向量提供給完全連接的層,這些將分支成兩個(gè)輸出層,其中一個(gè)為多個(gè)對(duì)象類(lèi)生成softmax概率估計(jì),而另一個(gè)為每個(gè)對(duì)象類(lèi)生成四個(gè)實(shí)值數(shù)字,而這4個(gè)數(shù)字就代表了每個(gè)對(duì)象包圍框的位置。

Faster R-CNN

查看論文: 更快的 R-CNN:利用區(qū)域 建議 網(wǎng)絡(luò)實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測(cè) (https://arxiv.org/abs/1506.01497)

本文提出了一種訓(xùn)練機(jī)制,該機(jī)制可交替進(jìn)行區(qū)域 建議 任務(wù)的微調(diào)和目標(biāo)檢測(cè)的微調(diào)。

2019 年的目標(biāo)檢測(cè)指南

source:https://arxiv.org/pdf/1506.01497.pdf

Faster R-CNN模型由兩個(gè)模塊組成:負(fù)責(zé)區(qū)域候選框生成的的深度卷積網(wǎng)絡(luò)和使用產(chǎn)生的候選框的R-CNN檢測(cè)器。區(qū)域 建議 網(wǎng)絡(luò)以圖像為輸入,產(chǎn)生一系列矩形目標(biāo)候選框。每個(gè)矩形目標(biāo)框都有屬于某個(gè)類(lèi)別的分?jǐn)?shù)。

2019 年的目標(biāo)檢測(cè)指南

source:https://arxiv.org/pdf/1506.01497.pdf

Mask R-CNN

查看論文: Mask R-CNN (https://arxiv.org/abs/1703.06870)

本文提出的模型是上述Faster R-CNN體系結(jié)構(gòu)的擴(kuò)展,它還可以對(duì)人體姿勢(shì)進(jìn)行估計(jì)。

2019 年的目標(biāo)檢測(cè)指南

圖源:https://arxiv.org/pdf/1703.06870.pdf

在這個(gè)模型中,目標(biāo)通過(guò)標(biāo)注的目標(biāo)框和一個(gè)標(biāo)注相同類(lèi)別的像素集合的語(yǔ)義分割標(biāo)簽來(lái)對(duì)目標(biāo)進(jìn)行分類(lèi)和定位。這個(gè)模型在Faster R-CNN的基礎(chǔ)上對(duì)每個(gè)感興趣區(qū)域添加了對(duì)分割掩膜的預(yù)測(cè)。Mask R-CNN產(chǎn)生兩個(gè)輸出:一個(gè)分類(lèi)標(biāo)簽和一個(gè)目標(biāo)框。

SSD: 單點(diǎn)多框檢測(cè)器

這篇論文 (https://arxiv.org/abs/1512.02325)提出了使用單個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)圖像中的目標(biāo)進(jìn)行檢測(cè)的模型。該網(wǎng)絡(luò)使用了應(yīng)用于特征映射的小卷積核為每個(gè)目標(biāo)出現(xiàn)的區(qū)域進(jìn)行打分。

2019 年的目標(biāo)檢測(cè)指南

來(lái)源:https://arxiv.org/pdf/1512.02325.pdf

這種方法使用一個(gè)前饋式卷積神經(jīng)網(wǎng)絡(luò),產(chǎn)生了一個(gè)邊界框的集合以及對(duì)每個(gè)邊界框所屬類(lèi)別進(jìn)行打分。增加了卷積特征層以允許網(wǎng)絡(luò)能在多個(gè)尺度上進(jìn)行特征檢測(cè)。在這個(gè)網(wǎng)絡(luò)模型中,每個(gè)特征圖都和一組目標(biāo)候選框相關(guān)聯(lián)。下面的圖像展示了SSD512的模型在動(dòng)物,交通工具和家具數(shù)據(jù)上進(jìn)行目標(biāo)檢測(cè)的表現(xiàn)。

2019 年的目標(biāo)檢測(cè)指南

來(lái)源:https://arxiv.org/pdf/1512.02325.pdf

YOLO (You Only Look Once)

You only look once,顧名思義,你只看一遍。這篇文章提出了一種使用單個(gè)神經(jīng)網(wǎng)絡(luò)一次運(yùn)行即可預(yù)測(cè)物體邊框與類(lèi)別概率的方法,是單階段目標(biāo)檢測(cè)模型的代表之一(與Faster R-CNN為代表的兩階段目標(biāo)檢測(cè)方法的區(qū)別)。

論文地址: You Only Look Once: Unified, Real-Time Object  Detection(https://arxiv.org/abs/1506.02640)

YOLO 模型可以跑到每秒鐘45幀的實(shí)時(shí)速度。YOLO 把圖像目標(biāo)檢測(cè)視作回歸問(wèn)題,這使得它處理圖像的流水線相當(dāng)簡(jiǎn)單,這也是它速度很快的主要原因。

YOLO 可以在不超過(guò)25秒延遲下實(shí)時(shí)處理視頻流。在訓(xùn)練過(guò)程中,YOLO看到的是整張圖像,因此在目標(biāo)檢測(cè)時(shí)可以考慮上下文信息。

2019 年的目標(biāo)檢測(cè)指南

在YOLO中,每個(gè)物體邊框是使用整個(gè)圖像的特征預(yù)測(cè)出來(lái)的。每一個(gè)邊框的預(yù)測(cè)值有5個(gè):x、y、w、h和置信度(confidence)。(x, y)代表邊框中心相對(duì)于每個(gè)網(wǎng)格的位置偏移,w和h代表物體相對(duì)于整張圖片的相對(duì)寬度和高度。

YOLO模型是使用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)并在PASCAL VOC目標(biāo)檢測(cè)數(shù)據(jù)集上進(jìn)行訓(xùn)練的。網(wǎng)絡(luò)的卷積層用來(lái)提取特征,之后的全連接層用于預(yù)測(cè)邊框坐標(biāo)和物體屬于各個(gè)類(lèi)別的概率。

2019 年的目標(biāo)檢測(cè)指南

YOLO網(wǎng)絡(luò)的架構(gòu)設(shè)計(jì)受到了用于圖像分類(lèi)的GoogLeNet(https://ai.google/research/pubs/pub4 30 22)的啟發(fā)。網(wǎng)絡(luò)又24個(gè)卷積層和兩個(gè)全連接層。YOLO模型的主要問(wèn)題是它對(duì)每個(gè)網(wǎng)格僅能夠預(yù)測(cè)一個(gè)類(lèi)別的物體,而且對(duì)較小的目標(biāo)(比如鳥(niǎo))的檢測(cè)效果較差。

2019 年的目標(biāo)檢測(cè)指南

譯者注 1: 很多朋友對(duì)YOLO“劃分網(wǎng)格”的操作不是很理解。請(qǐng)看上圖最右的一個(gè)方塊,這就是YOLO模型輸出的原始結(jié)果——一個(gè)shape為7×7× 30 的特征圖。7×7是原始的416×416尺寸的圖像通過(guò)經(jīng)過(guò)一系列的卷積、下采樣和padding后得到的尺寸。換句話說(shuō),這7×7個(gè)網(wǎng)格各自對(duì)應(yīng)著原圖中的某一個(gè)區(qū)域。卷積層的通道數(shù)為 30 意味著每一個(gè)網(wǎng)格被預(yù)測(cè)出了 30 個(gè)數(shù)值,這三十個(gè)數(shù)值分別是這個(gè)網(wǎng)格內(nèi)預(yù)測(cè)的兩個(gè)候選框的(x, y, w, h, confidence)以及網(wǎng)格內(nèi)物體可能屬于的20個(gè)類(lèi)(PASCAL VOC數(shù)據(jù)集包含20個(gè)類(lèi)別的物體)。讀者可能會(huì)疑惑:為什么預(yù)測(cè)了兩個(gè)候選框卻只預(yù)測(cè)了一次類(lèi)別概率呢?這也就是我們上文提到的YOLO的缺點(diǎn)了:它對(duì)每個(gè)網(wǎng)格,確實(shí)只能預(yù)測(cè)一個(gè)類(lèi)別的物體。

YOLO在PASCAL VOC數(shù)據(jù)集上達(dá)到了63.4%的mAP,并且作者在原文中還提出了更小的版本——Fast YOLO。Fast YOLO在當(dāng)時(shí)PASCAL數(shù)據(jù)集上最快的通用目標(biāo)檢測(cè)器,而且達(dá)到了52.7%的mAP指標(biāo)。

2019 年的目標(biāo)檢測(cè)指南

譯者注 2: 截至2019年7月,YOLO的作者還提出了兩個(gè)后續(xù)升級(jí)版本:YOLO9000(又稱(chēng)YOLOv2)和YOLOv3。YOLO9000將網(wǎng)絡(luò)主干改為更快速的全卷積網(wǎng)絡(luò)DarkNet-19,并引入了Faster R-CNN的anchor機(jī)制使得檢測(cè)效果更佳。YOLOv3改進(jìn)了損失函數(shù)計(jì)算方式、引入了特征金字塔并提出了高效的主干網(wǎng)絡(luò)DarkNet-53。目前YOLOv3已成為目標(biāo)檢測(cè)最常用的算法之一。

論文地址:YOLO9000: Better, Faster, Stronger(https://arxiv.org/abs/1612.08242)

YOLOv3: An Incremental Improvement(https://pjreddie .com /media/files/papers/YOLOv3.pdf)

CenterNet:將目標(biāo)視作點(diǎn)

論文地址: Objects as Points (https://arxiv.org/abs/1904.07850v2)

這篇論文提出了一種將物體視作一個(gè)點(diǎn)的建模方式。它使用關(guān)鍵點(diǎn)估計(jì)來(lái)檢測(cè)物體的中心點(diǎn),并對(duì)物體的其他屬性進(jìn)行回歸。這些屬性包括:3D位置,人體姿勢(shì),朝向,尺寸等等。也就是說(shuō)——使用CenterNet,物體的各種屬性也作為網(wǎng)絡(luò)的輸出被一并回歸出來(lái)。CenterNet成為了一種更快、更準(zhǔn)確的基于邊框回歸的目標(biāo)檢測(cè)器。

譯者注 3: 有另一篇目標(biāo)檢測(cè)論文與該論文幾乎同時(shí)發(fā)布:CenterNet: Keypoint Triplets for Object Detection,其簡(jiǎn)稱(chēng)也是CenterNet。但本文提到的CenterNet都是指Objects as Points這篇工作。

2019 年的目標(biāo)檢測(cè)指南

那么這些屬性究竟是如何回歸得到的呢?在CenterNet模型中,原始圖像被輸入網(wǎng)絡(luò)并得到一個(gè)熱圖(置信圖),這個(gè)熱圖表示了可能存在物體中心的位置(熱值的峰極有可能是出現(xiàn)物體中心點(diǎn)的位置)。除了這個(gè)熱圖以外,CenterNet模型的輸出還有一些其他的通道,從各個(gè)通道取出置信圖的峰值處的值,即可得到網(wǎng)絡(luò)對(duì)這個(gè)物體各種屬性值的預(yù)測(cè)。

CenterNet在COCO將目標(biāo)檢測(cè)數(shù)據(jù)集上達(dá)到了45.1%的AP和1.4 fps的速度。下表為CenterNet與其他目標(biāo)檢測(cè)器的效果對(duì)比。

2019 年的目標(biāo)檢測(cè)指南

用于目標(biāo)檢測(cè)的數(shù)據(jù)增強(qiáng)策略

數(shù)據(jù)增強(qiáng),即通過(guò)操作原始圖像(如旋轉(zhuǎn)、縮放等)來(lái)獲得新的圖像數(shù)據(jù)的過(guò)程。通過(guò)數(shù)據(jù)增強(qiáng),往往可以達(dá)到更好的訓(xùn)練效果。

論文地址: Learning Data Augmentation Strategies for Object Detection (https://arxiv.org/abs/1906.11172v1)

這篇論文沒(méi)有提出新的模型結(jié)構(gòu),而是提出了一些可以遷移到其他目標(biāo)檢測(cè)數(shù)據(jù)集上的圖像變換策略,這些策略經(jīng)常被用在目標(biāo)檢測(cè)網(wǎng)絡(luò)的訓(xùn)練中。

2019 年的目標(biāo)檢測(cè)指南

在該論文的模型中,訓(xùn)練時(shí)的增強(qiáng)策略包含N種操作。作者在模型中使用的增強(qiáng)方法包括改變顏色通道值、幾何變換或僅改變標(biāo)注的物體邊框中的像素。

通過(guò)在COCO數(shù)據(jù)集上的實(shí)驗(yàn),作者發(fā)現(xiàn)使用優(yōu)化的數(shù)據(jù)增強(qiáng)策略可以在mAP指標(biāo)(mean average precision)上得到2.3%的提升,使得單模型可以達(dá)到50.7%的mAP。

結(jié)論

通過(guò)閱讀本文,你應(yīng)該已經(jīng)對(duì)最近最常見(jiàn)的一般場(chǎng)景目標(biāo)檢測(cè)方法有所了解了。

本文提到的一些論文中也包括他們的代碼實(shí)現(xiàn)。各位不妨自己測(cè)試一下看看效果如何。

https://www.toutiao.com/i6723778178361328136/

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI