<tt id="9cnxo"><listing id="9cnxo"><cite id="9cnxo"></cite></listing></tt>

<var id="9cnxo"><tbody id="9cnxo"></tbody></var>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

發(fā)布時(shí)間：2020-08-10 21:22:06 來源：ITPUB博客閱讀：200 作者：dicksonjyl560101 欄目：互聯(lián)網(wǎng)科技

2019-08-01 14:02:31

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

大數(shù)據(jù)文摘出品

編譯：張睿毅、寧靜

計(jì)算機(jī)視覺是一門研究如何對(duì)數(shù)字圖像或視頻進(jìn)行高層語義理解的交叉學(xué)科，它賦予機(jī)器“看”的智能，需要實(shí)現(xiàn)人的大腦中（主要是視覺皮層區(qū)）的視覺能力。

想象一下，如果我們想為盲人設(shè)計(jì)一款導(dǎo)盲產(chǎn)品，盲人過馬路時(shí)系統(tǒng)攝像機(jī)拍到了如下的圖像，那么需要完成那些視覺任務(wù)呢？

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

圖像分類：為圖片中出現(xiàn)的物體目標(biāo)分類出其所屬類別的標(biāo)簽，如畫面中的人、樓房、街道、車輛數(shù)目等；
目標(biāo)檢測：將圖片或者視頻中感興趣的目標(biāo)提取出來，對(duì)于導(dǎo)盲系統(tǒng)來說，各類的車輛、行人、交通標(biāo)識(shí)、紅綠燈都是需要關(guān)注的對(duì)象；
圖像語義分割：將視野中的車輛和道路勾勒出來是必要的，這需要圖像語義分割技術(shù)做為支撐，勾勒出圖像物體中的前景物體的輪廓；
場景文字識(shí)別：道路名、綠燈倒計(jì)時(shí)秒數(shù)、商店名稱等，這些文字對(duì)于導(dǎo)盲功能的實(shí)現(xiàn)也是至關(guān)重要的。

以上已經(jīng)囊括了計(jì)算機(jī)視覺（CV）領(lǐng)域的四大任務(wù)，在CV領(lǐng)域主要有八項(xiàng)任務(wù)，其他四大任務(wù)包括：圖像生成、人體關(guān)鍵點(diǎn)檢測、視頻分類、度量學(xué)習(xí)等。

目標(biāo)檢測作為CV的一大任務(wù)之一，其對(duì)于圖片的理解也發(fā)揮著重要的作用，在本文中，我們將介紹目標(biāo)檢測的基礎(chǔ)知識(shí)，并回顧一些最常用的算法和一些全新的方法。（注：每個(gè)小節(jié)展示的論文圖片，均在節(jié)末給出了具體的鏈接）

目標(biāo)檢測如何運(yùn)作

目標(biāo)檢測定位圖像中物體的位置，并在該物體周圍繪制邊界框，這通常涉及兩個(gè)過程，分類物體類型，然后在該對(duì)象周圍繪制一個(gè)框?，F(xiàn)在讓我們回顧一下用于目標(biāo)檢測的一些常見模型架構(gòu)：

R-CNN
Fast R-CNN
Faster R-CNN
Mask R-CNN
SSD (Single Shot MultiBox Defender)
YOLO (You Only Look Once)

R-CNN

該技術(shù)結(jié)合了兩種主要方法：將高容量卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于自下而上的候選區(qū)域，以便對(duì)物體進(jìn)行局部化和分割，并監(jiān)督輔助任務(wù)的預(yù)訓(xùn)練。接下來是特定領(lǐng)域的微調(diào)，從而產(chǎn)生高性能提升。論文的作者將算法命名為R-CNN（具有CNN特征的區(qū)域），因?yàn)樗鼘⒑蜻x區(qū)域與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

模型接收圖像并提取約2000個(gè)自下而上的候選區(qū)域，然后，它使用大型CNN計(jì)算每個(gè)候選區(qū)域的特征，此后，它使用特定類的線性支持向量機(jī)（SVM）對(duì)每個(gè)區(qū)域進(jìn)行分類，該模型在PASCAL VOC 2010上實(shí)現(xiàn)了53.7％的平均精度。

模型中的物體檢測系統(tǒng)有三個(gè)模塊：第一個(gè)負(fù)責(zé)生成與類別無關(guān)的候選區(qū)域，這些候選區(qū)域定義了模型檢測器可用的候選檢測器集；第二個(gè)模塊是一個(gè)大型卷積神經(jīng)網(wǎng)絡(luò)，負(fù)責(zé)從每個(gè)區(qū)域提取固定長度的特征向量；第三個(gè)模塊由一類支持向量機(jī)組成。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

模型內(nèi)部使用選擇性搜索來生成區(qū)域類別，選擇性搜索根據(jù)顏色、紋理、形狀和大小對(duì)相似的區(qū)域進(jìn)行分組。對(duì)于特征提取，該模型通過在每個(gè)候選區(qū)域上應(yīng)用Caffe CNN（卷積神經(jīng)網(wǎng)絡(luò)）得到4096維特征向量，227×227 的RGB圖像，通過五個(gè)卷積層和兩個(gè)全連接層前向傳播來計(jì)算特征，節(jié)末鏈接中的論文解釋的模型相對(duì)于PASCAL VOC 2012的先前結(jié)果實(shí)現(xiàn)了30％的改進(jìn)。

R-CNN的一些缺點(diǎn)是：

訓(xùn)練是一個(gè)多階段的任務(wù)，調(diào)整物體區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)，使SVM（支持向量機(jī)）適應(yīng)ConvNet（卷積網(wǎng)絡(luò)）功能，最后學(xué)習(xí)邊界框回歸；
訓(xùn)練在空間和時(shí)間上都很昂貴，因?yàn)閂GG16是占用大量空間的深層網(wǎng)絡(luò)；
目標(biāo)檢測很慢，因?yàn)樗鼮槊總€(gè)候選區(qū)域都要執(zhí)行ConvNet前向傳播。

相關(guān)論文和參考內(nèi)容鏈接：

https://arxiv.org/abs/1311.2524?source=post_page

http://host.robots.ox.ac.uk/pascal/VOC/voc2010/index.html?source=post_page

https://heartbeat.fritz.ai/a-beginners-guide-to-convolutional-neural-networks-cnn-cf26c5ee17ed?source=post_page

Fast R-CNN

下圖中展示的論文提出了一種基于快速區(qū)域的卷積網(wǎng)絡(luò)方法（Fast R-CNN）進(jìn)行目標(biāo)檢測，它在Caffe（使用Python和C ++）中實(shí)現(xiàn)，該模型在PASCAL VOC 2012上實(shí)現(xiàn)了66％的平均精度，而R-CNN則為62％。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

與R-CNN相比，F(xiàn)ast R-CNN具有更高的平均精度，單階段訓(xùn)練，更新所有網(wǎng)絡(luò)層的訓(xùn)練，以及特征緩存不需要磁盤存儲(chǔ)。

在其結(jié)構(gòu)中，F(xiàn)ast R-CNN將圖像作為輸入同時(shí)獲得候選區(qū)域集，然后，它使用卷積和最大池化圖層處理圖像，以生成卷積特征圖，在每個(gè)特征圖中，對(duì)每個(gè)候選區(qū)域的感興趣區(qū)域（ROI）池化層提取固定大小的特征向量。

這些特征向量之后將送到全連接層，然后它們分支成兩個(gè)輸出層，一個(gè)產(chǎn)生幾個(gè)對(duì)象類softmax概率估計(jì)，而另一個(gè)產(chǎn)生每個(gè)對(duì)象類的四個(gè)實(shí)數(shù)值，這4個(gè)數(shù)字表示每個(gè)對(duì)象的邊界框的位置。

相關(guān)內(nèi)容參考鏈接：

https://github.com/rbgirshick/fast-rcnn?source=post_page

Faster R-CNN

Faster R-CNN：利用候選區(qū)域網(wǎng)絡(luò)實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測，提出了一種訓(xùn)練機(jī)制，可以對(duì)候選區(qū)域任務(wù)進(jìn)行微調(diào)，并對(duì)目標(biāo)檢測進(jìn)行微調(diào)。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

Faster R-CNN模型由兩個(gè)模塊組成：提取候選區(qū)域的深度卷積網(wǎng)絡(luò)，以及使用這些區(qū)域FastR-CNN檢測器， Region Proposal Network將圖像作為輸入并生成矩形候選區(qū)域的輸出，每個(gè)矩形都具有檢測得分。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

相關(guān)論文參考鏈接：

https://arxiv.org/abs/1506.01497?source=post_page

Mask R-CNN

下面論文中提出的模型是上述Faster R-CNN架構(gòu)的擴(kuò)展，它還能夠估計(jì)人體姿勢。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

在此模型中，物體通過邊界框和語義分割實(shí)現(xiàn)分類和局部化，語義分割是將圖片中每個(gè)像素分類。該模型通過在每個(gè)感興趣區(qū)域（ROI）添加分割掩模的預(yù)測來擴(kuò)展Faster R-CNN， Mask R-CNN產(chǎn)生兩個(gè)輸出，類標(biāo)簽和邊界框。

相關(guān)論文參考鏈接：

https://arxiv.org/abs/1703.06870?source=post_page

SSD: Single Shot MultiBox Detectorz

下面的論文提出了一種使用單個(gè)深度神經(jīng)網(wǎng)絡(luò)預(yù)測圖像中物體的模型。網(wǎng)絡(luò)使用特征圖的小卷積濾波器為每個(gè)對(duì)象類別生成分?jǐn)?shù)。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

該方法使用前饋卷積神經(jīng)網(wǎng)絡(luò)，產(chǎn)生特定目標(biāo)的一組邊界框和分?jǐn)?shù)，添加了卷積特征圖層，允許在多個(gè)尺度上進(jìn)行特征檢測，在此模型中，每個(gè)特征圖單元格都關(guān)聯(lián)到一組默認(rèn)邊界框，下圖顯示了SSD512模型在動(dòng)物，車輛和家具上的表現(xiàn)。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

相關(guān)內(nèi)容參考鏈接：

https://arxiv.org/abs/1512.02325?source=post_page

You Only Look Once (YOLO)

下圖中展示的文章提出了一種單一的神經(jīng)網(wǎng)絡(luò)，可以在單次評(píng)估中預(yù)測圖像中的邊界框和類概率。

YOLO模型實(shí)時(shí)處理每秒45幀，YOLO將圖像檢測視為回歸問題，這使得其管道非常簡單因此該模型非?？?。

它可以實(shí)時(shí)處理流視頻，延遲小于25秒，在訓(xùn)練過程中，YOLO可以看到整個(gè)圖像，因此能夠在目標(biāo)檢測中包含上下文。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

在YOLO中，每個(gè)邊界框都是通過整個(gè)圖像的特征來預(yù)測的，每個(gè)邊界框有5個(gè)預(yù)測，x，y，w，h和置信度，（x，y）表示相對(duì)于網(wǎng)格單元邊界的邊界框中心， w和h是整個(gè)圖像的預(yù)測寬度和高度。

該模型通過卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)，并在PASCAL VOC檢測數(shù)據(jù)集上進(jìn)行評(píng)估。網(wǎng)絡(luò)的卷積層負(fù)責(zé)提取特征，而全連接的層預(yù)測坐標(biāo)和輸出概率。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

該模型的網(wǎng)絡(luò)架構(gòu)受到用于圖像分類的GoogLeNet模型的啟發(fā)，網(wǎng)絡(luò)有24個(gè)卷積層和2個(gè)完全連接的層，模型的主要挑戰(zhàn)是它只能預(yù)測一個(gè)類，并且它在諸如鳥類之類的小物體上表現(xiàn)不佳。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

此模型的平均AP精度為52.7％，但能夠達(dá)到63.4％。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

參考鏈接：

https://arxiv.org/abs/1506.02640?source=post_page

將目標(biāo)看做點(diǎn)

下圖中的論文提出將對(duì)象建模為單點(diǎn)，它使用關(guān)鍵點(diǎn)估計(jì)來查找中心點(diǎn)，并回歸到所有其它對(duì)象屬性。

這些屬性包括3D位置，姿勢方向和大小。它使用CenterNet，這是一種基于中心點(diǎn)的方法，與其它邊界框檢測器相比，它更快，更準(zhǔn)確。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

對(duì)象大小和姿勢等屬性根據(jù)中心位置的圖像特征進(jìn)行回歸，在該模型中，圖像被送到卷積神經(jīng)網(wǎng)絡(luò)中生成熱力圖，這些熱力圖中的最大值表示圖像中對(duì)象的中心。為了估計(jì)人體姿勢，該模型檢查2D關(guān)節(jié)位置并在中心點(diǎn)位置對(duì)它們進(jìn)行回歸。

此模型以每秒1.4幀的速度實(shí)現(xiàn)了45.1％的COCO平均精度，下圖顯示了這與其他研究論文中的結(jié)果進(jìn)行比較的結(jié)果。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

論文參考鏈接：

https://arxiv.org/abs/1904.07850v2?source=post_page

用于目標(biāo)檢測的數(shù)據(jù)增強(qiáng)策略

數(shù)據(jù)增強(qiáng)通過旋轉(zhuǎn)和調(diào)整原始圖片大小等方式來創(chuàng)建新圖像數(shù)據(jù)。

雖然該策略本身不是模型結(jié)構(gòu)，但下面這篇論文提出了轉(zhuǎn)換的創(chuàng)建，轉(zhuǎn)換是指可應(yīng)用于轉(zhuǎn)移到其他目標(biāo)檢測數(shù)據(jù)集的對(duì)象檢測數(shù)據(jù)集。轉(zhuǎn)換通常應(yīng)用在訓(xùn)練中。

做目標(biāo)檢測，這一篇就夠了！2019最全目標(biāo)檢測指南

在此模型中，增廣策略被定義為在訓(xùn)練過程中隨機(jī)選擇的一組n個(gè)策略，在此模型中應(yīng)用的一些操作包括顏色通道畸變，幾何圖像畸變，以及僅邊界框注釋中的像素畸變。對(duì)COCO數(shù)據(jù)集的實(shí)驗(yàn)表明，優(yōu)化數(shù)據(jù)增強(qiáng)策略能夠?qū)z測精度提高超過+2.3平均精度，這允許單個(gè)推理模型實(shí)現(xiàn)50.7平均精度的準(zhǔn)確度。

相關(guān)論文參考鏈接：

https://arxiv.org/abs/1906.11172v1?source=post_page

總結(jié)

我們現(xiàn)在應(yīng)該跟上一些最常見的——以及一些最近在各種環(huán)境中應(yīng)用的目標(biāo)檢測技術(shù)。上面提到并鏈接到的論文/摘要也包含其代碼實(shí)現(xiàn)的鏈接。不要自我設(shè)限，目標(biāo)檢測也可以存在于智能手機(jī)內(nèi)部，總之，需要我們不停地探索學(xué)習(xí)。

相關(guān)報(bào)道：

https://heartbeat.fritz.ai/a-2019-guide-to-object-detection-9509987954c3

https://www.toutiao.com/a6720074844945252867/

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
催米科技AI智能語音助力疫情抗擊，服務(wù)企業(yè)，關(guān)注民生
下一篇新聞：
小C的MySQL學(xué)習(xí)筆記（一）：MySQL的安裝部署

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<var id="tkupp"></var>

<tt id="tkupp"></tt>