如何改進(jìn)YOLOv3進(jìn)行紅外小目標(biāo)檢測(cè)

發(fā)布時(shí)間：2021-12-23 09:39:32 來(lái)源：億速云閱讀：226 作者：柒染欄目：大數(shù)據(jù)

這篇文章給大家介紹如何改進(jìn)YOLOv3進(jìn)行紅外小目標(biāo)檢測(cè)，內(nèi)容非常詳細(xì)，感興趣的小伙伴們可以參考借鑒，希望對(duì)大家能有所幫助。

1. 紅外小目標(biāo)檢測(cè)

紅外小目標(biāo)檢測(cè)的目標(biāo)比較小，目標(biāo)極其容易和其他物體混淆，有一定的挑戰(zhàn)性。

另外，這本質(zhì)上也是一個(gè)小目標(biāo)領(lǐng)域的問(wèn)題，很多適用于小目標(biāo)的創(chuàng)新點(diǎn)也會(huì)被借鑒進(jìn)來(lái)。

如何改進(jìn)YOLOv3進(jìn)行紅外小目標(biāo)檢測(cè) — 數(shù)據(jù)來(lái)源自@小武

此外，該數(shù)據(jù)集還有一個(gè)特點(diǎn)，就是分背景，雖然同樣是檢測(cè)紅外小目標(biāo)，區(qū)別是背景的不同，我們對(duì)數(shù)據(jù)集進(jìn)行了統(tǒng)計(jì)以及通過(guò)人工翻看的方式總結(jié)了其特點(diǎn)，如下表所示：

背景類(lèi)別	數(shù)量	特點(diǎn)	數(shù)據(jù)難度	測(cè)試mAP+F1	建議
trees	581	背景干凈，目標(biāo)明顯，數(shù)量較多	低	0.99+0.97	無(wú)
cloudless_sky	1320	背景干凈，目標(biāo)明顯，數(shù)量多	低	0.98+0.99	無(wú)
architecture	506	背景變化較大，目標(biāo)形態(tài)變化較大，數(shù)量較多	一般	0.92+0.96	focal loss
continuous_cloud_sky	878	背景干凈，目標(biāo)形態(tài)變化不大，但個(gè)別目標(biāo)容易會(huì)發(fā)生和背景中的云混淆	一般	0.93+0.95	focal loss
complex_cloud	561	目標(biāo)形態(tài)基本無(wú)變化，但背景對(duì)目標(biāo)的定位影響巨大	較難	0.85+0.89	focal loss
sea	17	背景干凈，目標(biāo)明顯，數(shù)量極少	一般	0.87+0.88	生成高質(zhì)量新樣本，可以讓其轉(zhuǎn)為簡(jiǎn)單樣本（Mixup）
sea_sky	45	背景變化較大，且單張圖像中目標(biāo)個(gè)數(shù)差異變化大，有密集的難點(diǎn)，且數(shù)量少	困難	0.68+0.77	paste策略

通過(guò)以上結(jié)果，可以看出背景的不同對(duì)結(jié)果影響還是蠻大的，最后一列也給出了針對(duì)性的建議，打算后續(xù)實(shí)施。

2. 實(shí)驗(yàn)過(guò)程

首先，我們使用的是U版的yolov3: https://github.com/ultralytics/yolov3，那時(shí)候YOLOv4/5、PPYOLO還都沒(méi)出，當(dāng)時(shí)出了一個(gè)《從零開(kāi)始學(xué)習(xí)YOLOv3》就是做項(xiàng)目的時(shí)候?qū)懙碾娮訒?shū)，其中的在YOLOv3中添加注意力機(jī)制那篇很受歡迎（可以水很多文章出來(lái)，畢業(yè)要緊:）

我們項(xiàng)目的代碼以及修改情況可以查看：https://github.com/GiantPandaCV/yolov3-point

將數(shù)據(jù)集轉(zhuǎn)成VOC格式的數(shù)據(jù)集，之前文章有詳細(xì)講述如何轉(zhuǎn)化為標(biāo)準(zhǔn)的VOC數(shù)據(jù)集，以及如何將VOC格式數(shù)據(jù)集轉(zhuǎn)化為U版的講解。當(dāng)時(shí)接觸到幾個(gè)項(xiàng)目，都需要用YOLOv3，由于每次都需要轉(zhuǎn)化，大概分別調(diào)用4、5個(gè)腳本吧，感覺(jué)很累，所以當(dāng)時(shí)花了一段時(shí)間構(gòu)建了一個(gè)一鍵從VOC轉(zhuǎn)U版YOLOv3格式的腳本庫(kù): https://github.com/pprp/voc2007_for_yolo_torch。

到此時(shí)為止，我們項(xiàng)目就已經(jīng)可以運(yùn)行了，然后就是很多細(xì)節(jié)調(diào)整了。

2.1 修改Anchor

紅外小目標(biāo)的Anchor和COCO等數(shù)據(jù)集的Anchor是差距很大的，為了更好更快速的收斂，采用了BBuf總結(jié)的一套專(zhuān)門(mén)計(jì)算Anchor的腳本：

#coding=utf-8
import xml.etree.ElementTree as ET
import numpy as np

 
def iou(box, clusters):
    """
    計(jì)算一個(gè)ground truth邊界盒和k個(gè)先驗(yàn)框(Anchor)的交并比(IOU)值。
    參數(shù)box: 元組或者數(shù)據(jù)，代表ground truth的長(zhǎng)寬。
    參數(shù)clusters: 形如(k,2)的numpy數(shù)組，其中k是聚類(lèi)Anchor框的個(gè)數(shù)
    返回：ground truth和每個(gè)Anchor框的交并比。
    """
    x = np.minimum(clusters[:, 0], box[0])
    y = np.minimum(clusters[:, 1], box[1])
    if np.count_nonzero(x == 0) > 0 or np.count_nonzero(y == 0) > 0:
        raise ValueError("Box has no area")
    intersection = x * y
    box_area = box[0] * box[1]
    cluster_area = clusters[:, 0] * clusters[:, 1]
    iou_ = intersection / (box_area + cluster_area - intersection)
    return iou_


def avg_iou(boxes, clusters):
    """
    計(jì)算一個(gè)ground truth和k個(gè)Anchor的交并比的均值。
    """
    return np.mean([np.max(iou(boxes[i], clusters)) for i in range(boxes.shape[0])])

def kmeans(boxes, k, dist=np.median):
    """
    利用IOU值進(jìn)行K-means聚類(lèi)
    參數(shù)boxes: 形狀為(r, 2)的ground truth框，其中r是ground truth的個(gè)數(shù)
    參數(shù)k: Anchor的個(gè)數(shù)
    參數(shù)dist: 距離函數(shù)
    返回值：形狀為(k, 2)的k個(gè)Anchor框
    """
    # 即是上面提到的r
    rows = boxes.shape[0]
    # 距離數(shù)組，計(jì)算每個(gè)ground truth和k個(gè)Anchor的距離
    distances = np.empty((rows, k))
    # 上一次每個(gè)ground truth"距離"最近的Anchor索引
    last_clusters = np.zeros((rows,))
    # 設(shè)置隨機(jī)數(shù)種子
    np.random.seed()

    # 初始化聚類(lèi)中心，k個(gè)簇，從r個(gè)ground truth隨機(jī)選k個(gè)
    clusters = boxes[np.random.choice(rows, k, replace=False)]
    # 開(kāi)始聚類(lèi)
    while True:
        # 計(jì)算每個(gè)ground truth和k個(gè)Anchor的距離，用1-IOU(box,anchor)來(lái)計(jì)算
        for row in range(rows):
            distances[row] = 1 - iou(boxes[row], clusters)
        # 對(duì)每個(gè)ground truth，選取距離最小的那個(gè)Anchor，并存下索引
        nearest_clusters = np.argmin(distances, axis=1)
        # 如果當(dāng)前每個(gè)ground truth"距離"最近的Anchor索引和上一次一樣，聚類(lèi)結(jié)束
        if (last_clusters == nearest_clusters).all():
            break
        # 更新簇中心為簇里面所有的ground truth框的均值
        for cluster in range(k):
            clusters[cluster] = dist(boxes[nearest_clusters == cluster], axis=0)
        # 更新每個(gè)ground truth"距離"最近的Anchor索引
        last_clusters = nearest_clusters

    return clusters

# 加載自己的數(shù)據(jù)集，只需要所有l(wèi)abelimg標(biāo)注出來(lái)的xml文件即可
def load_dataset(path):
    dataset = []
    for xml_file in glob.glob("{}/*xml".format(path)):
        tree = ET.parse(xml_file)
        # 圖片高度
        height = int(tree.findtext("./size/height"))
        # 圖片寬度
        width = int(tree.findtext("./size/width"))
        
        for obj in tree.iter("object"):
            # 偏移量
            xmin = int(obj.findtext("bndbox/xmin")) / width
            ymin = int(obj.findtext("bndbox/ymin")) / height
            xmax = int(obj.findtext("bndbox/xmax")) / width
            ymax = int(obj.findtext("bndbox/ymax")) / height
            xmin = np.float64(xmin)
            ymin = np.float64(ymin)
            xmax = np.float64(xmax)
            ymax = np.float64(ymax)
            if xmax == xmin or ymax == ymin:
                print(xml_file)
            # 將Anchor的長(zhǎng)寬放入dateset，運(yùn)行kmeans獲得Anchor
            dataset.append([xmax - xmin, ymax - ymin])
    return np.array(dataset)
 
if __name__ == '__main__':
    
    ANNOTATIONS_PATH = "F:\Annotations" #xml文件所在文件夾
    CLUSTERS = 9 #聚類(lèi)數(shù)量，anchor數(shù)量
    INPUTDIM = 416 #輸入網(wǎng)絡(luò)大小
 
    data = load_dataset(ANNOTATIONS_PATH)
    out = kmeans(data, k=CLUSTERS)
    print('Boxes:')
    print(np.array(out)*INPUTDIM)    
    print("Accuracy: {:.2f}%".format(avg_iou(data, out) * 100))       
    final_anchors = np.around(out[:, 0] / out[:, 1], decimals=2).tolist()
    print("Before Sort Ratios:\n {}".format(final_anchors))
    print("After Sort Ratios:\n {}".format(sorted(final_anchors)))

通過(guò)瀏覽腳本就可以知道，Anchor和圖片的輸入分辨率有沒(méi)有關(guān)系 這個(gè)問(wèn)題了，當(dāng)時(shí)這個(gè)問(wèn)題有很多群友都在問(wèn)。通過(guò)kmeans函數(shù)得到的結(jié)果實(shí)際上是歸一化到0-1之間的，然后Anchor的輸出是在此基礎(chǔ)上乘以輸入分辨率的大小。所以個(gè)人認(rèn)為Anchor和圖片的輸入分辨率是有關(guān)系的。

此外，U版也提供了Anchor計(jì)算，如下：

def kmean_anchors(path='./2007_train.txt', n=5, img_size=(416, 416)):
    # from utils.utils import *; _ = kmean_anchors()
    # Produces a list of target kmeans suitable for use in *.cfg files
    from utils.datasets import LoadImagesAndLabels
    thr = 0.20  # IoU threshold

    def print_results(thr, wh, k):
        k = k[np.argsort(k.prod(1))]  # sort small to large
        iou = wh_iou(torch.Tensor(wh), torch.Tensor(k))
        max_iou, min_iou = iou.max(1)[0], iou.min(1)[0]
        bpr, aat = (max_iou > thr).float().mean(), (
            iou > thr).float().mean() * n  # best possible recall, anch > thr
        print('%.2f iou_thr: %.3f best possible recall, %.2f anchors > thr' %
              (thr, bpr, aat))
        print(
            'kmeans anchors (n=%g, img_size=%s, IoU=%.3f/%.3f/%.3f-min/mean/best): '
            % (n, img_size, min_iou.mean(), iou.mean(), max_iou.mean()),
            end='')
        for i, x in enumerate(k):
            print('%i,%i' % (round(x[0]), round(x[1])),
                  end=',  ' if i < len(k) - 1 else '\n')  # use in *.cfg
        return k

    def fitness(thr, wh, k):  # mutation fitness
        iou = wh_iou(wh, torch.Tensor(k)).max(1)[0]  # max iou
        bpr = (iou > thr).float().mean()  # best possible recall
        return iou.mean() * bpr  # product

    # Get label wh
    wh = []
    dataset = LoadImagesAndLabels(path,
                                  augment=True,
                                  rect=True,
                                  cache_labels=True)
    nr = 1 if img_size[0] == img_size[1] else 10  # number augmentation repetitions
    for s, l in zip(dataset.shapes, dataset.labels):
        wh.append(l[:, 3:5] *
                  (s / s.max()))  # image normalized to letterbox normalized wh
    wh = np.concatenate(wh, 0).repeat(nr, axis=0)  # augment 10x
    wh *= np.random.uniform(img_size[0], img_size[1],
                            size=(wh.shape[0],
                                  1))  # normalized to pixels (multi-scale)

    # Darknet yolov3.cfg anchors
    use_darknet = False
    if use_darknet:
        k = np.array([[10, 13], [16, 30], [33, 23], [30, 61], [62, 45],
                      [59, 119], [116, 90], [156, 198], [373, 326]])
    else:
        # Kmeans calculation
        from scipy.cluster.vq import kmeans
        print('Running kmeans for %g anchors on %g points...' % (n, len(wh)))
        s = wh.std(0)  # sigmas for whitening
        k, dist = kmeans(wh / s, n, iter=30)  # points, mean distance
        k *= s
    k = print_results(thr, wh, k)
    # Evolve
    wh = torch.Tensor(wh)
    f, ng = fitness(thr, wh, k), 2000  # fitness, generations
    for _ in tqdm(range(ng), desc='Evolving anchors'):
        kg = (
            k.copy() *
            (1 + np.random.random() * np.random.randn(*k.shape) * 0.30)).clip(
                min=2.0)
        fg = fitness(thr, wh, kg)
        if fg > f:
            f, k = fg, kg.copy()
            print_results(thr, wh, k)
    k = print_results(thr, wh, k)

    return k

這個(gè)和超參數(shù)搜索那篇采用的方法類(lèi)似，也是一種類(lèi)似遺傳算法的方法，通過(guò)一代一代的篩選找到合適的Anchor。以上兩種方法筆者并沒(méi)有對(duì)比，有興趣可以試試這兩種方法，對(duì)比看看。

Anchor這方面設(shè)置了三個(gè)不同的數(shù)量進(jìn)行聚類(lèi)：

3 anchor:

13, 18, 16, 22, 19, 25

6 anchor:

12,17, 14,17, 15,19, 15,21, 13,20, 19,24

9 anchor:

10,16, 12,17, 13,20, 13,22, 15,18, 15,20, 15,23, 18,23, 21,26

2.2 構(gòu)建Baseline

由于數(shù)據(jù)集是單類(lèi)的，并且相對(duì)VOC等數(shù)據(jù)集來(lái)看，比較單一，所以不打算使用Darknet53這樣的深度神經(jīng)網(wǎng)絡(luò)，采用的Baseline是YOLOv3-tiny模型，在使用原始Anchor的情況下，該模型可以在驗(yàn)證集上達(dá)到mAP@0.5=93.2%，在測(cè)試集上達(dá)到mAP@0.5=0.869的結(jié)果。

那接下來(lái)?yè)QAnchor，用上一節(jié)得到的新Anchor替換掉原來(lái)的Anchor，該改掉的模型為yolov3-tiny-6a:

Epoch	Model	P	R	mAP@0.5	F1	dataset
baseline	yolov3-tiny原版	0.982	0.939	0.932	0.96	valid
baseline	yolov3-tiny原版	0.96	0.873	0.869	0.914	test
6a	yolov3-tiny-6a	0.973	0.98	0.984	0.977	valid
6a	yolov3-tiny-6a	0.936	0.925	0.915	0.931	test

可以看到幾乎所有的指標(biāo)都提升了，這說(shuō)明Anchor先驗(yàn)的引入是很有必要的。

2.3 數(shù)據(jù)集部分改進(jìn)

上邊已經(jīng)分析過(guò)了，背景對(duì)目標(biāo)檢測(cè)的結(jié)果還是有一定影響的，所以我們先后使用了幾種方法進(jìn)行改進(jìn)。

第一個(gè)：過(guò)采樣

通過(guò)統(tǒng)計(jì)不同背景的圖像的數(shù)量，比如以sea為背景的圖像只有17張，而最多的cloudless_sky為背景的圖像有1300+張，這就產(chǎn)生了嚴(yán)重的不平衡性。顯然cloudless_sky為背景的很簡(jiǎn)單，sea為背景的難度更大，這樣由于數(shù)據(jù)不平衡的原因，訓(xùn)練得到的模型很可能也會(huì)在cloudless_sky這類(lèi)圖片上效果很好，在其他背景下效果一般。

所以首先要采用過(guò)采樣的方法，這里的過(guò)采樣可能和別的地方的不太一樣，這里指的是將某些背景數(shù)量小的圖片通過(guò)復(fù)制的方式擴(kuò)充。

Epoch	Model	P	R	mAP@0.5	F1	dataset
baseline(os)	yolov3-tiny原版	0.985	0.971	0.973	0.978	valid
baseline(os)	yolov3-tiny原版	0.936	0.871	0.86	0.902	test
baseline	yolov3-tiny原版	0.982	0.939	0.932	0.96	valid
baseline	yolov3-tiny原版	0.96	0.873	0.869	0.914	test

:( 可惜實(shí)驗(yàn)結(jié)果不支持想法，一起分析一下。ps:os代表over sample

然后進(jìn)行分背景測(cè)試，結(jié)果如下：

均衡后的分背景測(cè)試

data	num	model	P	R	mAP	F1
trees	506	yolov3-tiny-6a	0.924	0.996	0.981	0.959
sea_sky	495	yolov3-tiny-6a	0.927	0.978	0.771	0.85
sea	510	yolov3-tiny-6a	0.923	0.935	0.893	0.929
continuous_cloud_sky	878	yolov3-tiny-6a	0.957	0.95	0.933	0.953
complex_cloud	561	yolov3-tiny-6a	0.943	0.833	0.831	0.885
cloudless_sky	1320	yolov3-tiny-6a	0.993	0.981	0.984	0.987
architecture	506	yolov3-tiny-6a	0.959	0.952	0.941	0.955

從分背景結(jié)果來(lái)看，確實(shí)sea訓(xùn)練數(shù)據(jù)很少的結(jié)果很好，mAP提高了2個(gè)點(diǎn)，但是complex_cloud等mAP有所下降。總結(jié)一下就是對(duì)于訓(xùn)練集中數(shù)據(jù)很少的背景類(lèi)mAP有提升，但是其他本身數(shù)量就很多的背景mAP略微下降或者保持。

第二個(gè)：在圖片中任意位置復(fù)制小目標(biāo)

修改后的版本地址：https://github.com/pprp/SimpleCVReproduction/tree/master/SmallObjectAugmentation

具體實(shí)現(xiàn)思路就是，先將所有小目標(biāo)摳出來(lái)備用。然后在圖像上復(fù)制這些小目標(biāo)，要求兩兩之間重合率不能達(dá)到一個(gè)閾值并且復(fù)制的位置不能超出圖像邊界。

效果如下：（這個(gè)是示意圖，比較夸張，復(fù)制的個(gè)數(shù)比較多

這種做法來(lái)自當(dāng)時(shí)比較新的論文《Augmentation for small object detection》,文中最好的結(jié)果是復(fù)制了1-2次。實(shí)際我們項(xiàng)目中也試過(guò)1次、2次、3次到多次的結(jié)果，都不盡如人意，結(jié)果太差就沒(méi)有記錄下來(lái)。。（話(huà)說(shuō)論文中展示的效果最佳組合是原圖+增強(qiáng)后的圖，并且最好的結(jié)果也就提高了1個(gè)百分點(diǎn)）╮(╯﹏╰）╭

2.4 修改Backbone

修改Backbone經(jīng)常被群友問(wèn)到這樣一件事，修改骨干網(wǎng)絡(luò)以后無(wú)法加載預(yù)訓(xùn)練權(quán)重了，怎么辦？

有以下幾個(gè)辦法：

干脆不加載，從頭訓(xùn)練，簡(jiǎn)單問(wèn)題（比如紅外小目標(biāo)）從頭收斂效果也不次于有預(yù)訓(xùn)練權(quán)重的。
不想改代碼的話(huà)，可以選擇修改Backbone之后、YOLO Head之前的部分（比如SPP的位置屬于這種情況）
能力比較強(qiáng)的，可以改一下模型加載部分代碼，跳過(guò)你新加入的模塊，這樣也能加載（筆者沒(méi)試過(guò)，別找我）。

修改Backbone我們也從幾個(gè)方向入的手，分為注意力模塊、即插即用模塊、修改FPN、修改激活函數(shù)、用成熟的網(wǎng)絡(luò)替換backbone和SPP系列。

1. 注意力模塊

這個(gè)項(xiàng)目中使用的注意力模塊，大部分都在公號(hào)上寫(xiě)過(guò)代碼解析，感興趣的可以翻看一下。筆者前一段時(shí)間公布了一個(gè)電子書(shū)《卷積神經(jīng)網(wǎng)絡(luò)中的即插即用模塊》也是因?yàn)檫@個(gè)項(xiàng)目中總結(jié)了很多注意力模塊，所以開(kāi)始整理得到的結(jié)果。具體模塊還在繼續(xù)更新：https://github.com/pprp/SimpleCVReproduction

當(dāng)時(shí)實(shí)驗(yàn)的模塊有：SE、CBAM等，由于當(dāng)時(shí)Baseline有點(diǎn)高，效果并不十分理想。（注意力模塊插進(jìn)來(lái)不可能按照預(yù)期一下就提高多少百分點(diǎn)，需要多調(diào)參才有可能超過(guò)原來(lái)的百分點(diǎn)）根據(jù)群友反饋，SE直接插入成功率比較高。筆者在一個(gè)目標(biāo)檢測(cè)比賽中見(jiàn)到有一個(gè)大佬是在YOLOv3的FPN的三個(gè)分支上各加了一個(gè)CBAM，最終超過(guò)Cascade R-CNN等模型奪得冠軍。

2. 即插即用模塊

注意力模塊也屬于即插即用模塊，這部分就說(shuō)的是非注意力模塊的部分如 FFM、ASPP、PPM、Dilated Conv、SPP、FRB、CorNerPool、DwConv、ACNet等，效果還可以，但是沒(méi)有超過(guò)當(dāng)前最好的結(jié)果。

3. 修改FPN

FPN這方面花了老久時(shí)間，參考了好多版本才搞出了一個(gè)dt-6a-bifpn(dt代表dim target紅外目標(biāo)；6a代表6個(gè)anchor)，令人失望的是，這個(gè)BiFPN效果并不好，測(cè)試集上效果更差了?？赡苁且?yàn)閷?shí)現(xiàn)的cfg有問(wèn)題，歡迎反饋。

大家都知道通過(guò)改cfg的方式改網(wǎng)絡(luò)結(jié)構(gòu)是一件很痛苦的事情，推薦一個(gè)可視化工具：

https://lutzroeder.github.io/netron/

除此以外，為了方便查找行數(shù)，筆者寫(xiě)了一個(gè)簡(jiǎn)單腳本用于查找行數(shù)（獻(xiàn)丑了

import os
import shutil
cfg_path = "./cfg/yolov3-dwconv-cbam.cfg"
save_path = "./cfg/preprocess_cfg/"
new_save_name = os.path.join(save_path,os.path.basename(cfg_path))

f = open(cfg_path, 'r')
lines = f.readlines()

# 去除以#開(kāi)頭的，屬于注釋部分的內(nèi)容
# lines = [x for x in lines if x and not x.startswith('#')]
# lines = [x.rstrip().lstrip() for x in lines]

lines_nums = []
layers_nums = []

layer_cnt = -1

for num, line in enumerate(lines):
    if line.startswith('['):
        layer_cnt += 1
        layers_nums.append(layer_cnt)
        lines_nums.append(num+layer_cnt)
        print(line)
        # s = s.join("")
    # s = s.join(line)
for i,num in enumerate(layers_nums):
    print(lines_nums[i], num)
    lines.insert(lines_nums[i]-1, '# layer-%d\n' % (num-1))
fo = open(new_save_name, 'w')
fo.write(''.join(lines))
fo.close()
f.close()

我們也嘗試了只用一個(gè)、兩個(gè)和三個(gè)YOLO Head的情況，結(jié)果是3>2>1，但是用3個(gè)和2個(gè)效果幾乎一樣，差異不大小數(shù)點(diǎn)后3位的差異，所以還是選用兩個(gè)YOLO Head。

4. 修改激活函數(shù)

YOLO默認(rèn)使用的激活函數(shù)是leaky relu,激活函數(shù)方面使用了mish。效果并沒(méi)有提升，所以無(wú)疾而終了。

5. 用成熟的網(wǎng)絡(luò)替換backbone

這里使用了ResNet10(第三方實(shí)現(xiàn))、DenseNet、BBuf修改的DenseNet、ENet、VOVNet(自己改的)、csresnext50-panet(當(dāng)時(shí)AB版darknet提供的)、PRN(作用不大)等網(wǎng)絡(luò)結(jié)構(gòu)。

當(dāng)前最強(qiáng)的網(wǎng)絡(luò)是dense-v3-tiny-spp，也就是BBuf修改的Backbone+原汁原味的SPP組合的結(jié)構(gòu)完虐了其他模型，在測(cè)試集上達(dá)到了mAP@0.5=0.932、F1=0.951的結(jié)果。

6. SPP系列

這個(gè)得好好說(shuō)說(shuō)，我們?nèi)苏{(diào)研了好多論文、參考了好多trick，大部分都無(wú)效，其中從來(lái)不會(huì)讓人失望的模塊就是SPP。我們對(duì)SPP進(jìn)行了深入研究，在《卷積神經(jīng)網(wǎng)絡(luò)中的各種池化操作》中提到過(guò)。

SPP是在SPPNet中提出的，SPPNet提出比較早，在RCNN之后提出的，用于解決重復(fù)卷積計(jì)算和固定輸出的兩個(gè)問(wèn)題，具體方法如下圖所示：

在feature map上通過(guò)selective search獲得窗口，然后將這些區(qū)域輸入到CNN中，然后進(jìn)行分類(lèi)。

實(shí)際上SPP就是多個(gè)空間池化的組合，對(duì)不同輸出尺度采用不同的劃窗大小和步長(zhǎng)以確保輸出尺度相同，同時(shí)能夠融合金字塔提取出的多種尺度特征，能夠提取更豐富的語(yǔ)義信息。常用于多尺度訓(xùn)練和目標(biāo)檢測(cè)中的RPN網(wǎng)絡(luò)。

在YOLOv3中有一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)叫yolov3-spp.cfg, 這個(gè)網(wǎng)絡(luò)往往能達(dá)到比yolov3.cfg本身更高的準(zhǔn)確率，具體cfg如下：

### SPP ###
[maxpool]
stride=1
size=5

[route]
layers=-2

[maxpool]
stride=1
size=9

[route]
layers=-4

[maxpool]
stride=1
size=13

[route]
layers=-1,-3,-5,-6

### End SPP ###

這里的SPP相當(dāng)于是原來(lái)的SPPNet的變體，通過(guò)使用多個(gè)kernel size的maxpool，最終將所有feature map進(jìn)行concate，得到新的特征組合。

再來(lái)看一下官方提供的yolov3和yolov3-spp在COCO數(shù)據(jù)集上的對(duì)比：

可以看到，在幾乎不增加FLOPS的情況下，YOLOv3-SPP要比YOLOv3-608mAP高接近3個(gè)百分點(diǎn)。

分析一下SPP有效的原因：

從感受野角度來(lái)講，之前計(jì)算感受野的時(shí)候可以明顯發(fā)現(xiàn)，maxpool的操作對(duì)感受野的影響非常大，其中主要取決于kernel size大小。在SPP中，使用了kernel size非常大的maxpool會(huì)極大提高模型的感受野，筆者沒(méi)有詳細(xì)計(jì)算過(guò)darknet53這個(gè)backbone的感受野，在COCO上有效很可能是因?yàn)閎ackbone的感受野還不夠大。
第二個(gè)角度是從Attention的角度考慮，這一點(diǎn)啟發(fā)自CSDN@小楞，他在文章中這樣講：

出現(xiàn)檢測(cè)效果提升的原因：通過(guò)spp模塊實(shí)現(xiàn)局部特征和全局特征（所以空間金字塔池化結(jié)構(gòu)的最大的池化核要盡可能的接近等于需要池化的featherMap的大?。┑膄eatherMap級(jí)別的融合，豐富最終特征圖的表達(dá)能力，從而提高M(jìn)AP。

Attention機(jī)制很多都是為了解決遠(yuǎn)距離依賴(lài)問(wèn)題，通過(guò)使用kernel size接近特征圖的size可以以比較小的計(jì)算代價(jià)解決這個(gè)問(wèn)題。另外就是如果使用了SPP模塊，就沒(méi)有必要在SPP后繼續(xù)使用其他空間注意力模塊比如SK block，因?yàn)樗麄冏饔孟嗨?，可能?huì)有一定冗余。

在本實(shí)驗(yàn)中，確實(shí)也得到了一個(gè)很重要的結(jié)論，那就是：

SPP是有效的，其中size的設(shè)置應(yīng)該接近這一層的feature map的大小

口說(shuō)無(wú)憑，看一下實(shí)驗(yàn)結(jié)果：

SPP系列實(shí)驗(yàn)

Epoch	Model	P	R	mAP	F1	dataset
baseline	dt-6a-spp	0.99	0.983	0.984	0.987	valid
baseline	dt-6a-spp	0.955	0.948	0.929	0.951	test
直連+5x5	dt-6a-spp-5	0.978	0.983	0.981	0.98	valid
直連+5x5	dt-6a-spp-5	0.933	0.93	0.914	0.932	test
直連+9x9	dt-6a-spp-9	0.99	0.983	0.982	0.987	valid
直連+9x9	dt-6a-spp-9	0.939	0.923	0.904	0.931	test
直連+13x13	dt-6a-spp-13	0.995	0.983	0.983	0.989	valid
直連+13x13	dt-6a-spp-13	0.959	0.941	0.93	0.95	test
直連+5x5+9x9	dt-6a-spp-5-9	0.988	0.988	0.981	0.988	valid
直連+5x5+9x9	dt-6a-spp-5-9	0.937	0.936	0.91	0.936	test
直連+5x5+13x13	dt-6a-spp-5-13	0.993	0.988	0.985	0.99	valid
直連+5x5+13x13	dt-6a-spp-5-13	0.936	0.939	0.91	0.938	test
直連+9x9+13x13	dt-6a-spp-9-13	0.981	0.985	0.983	0.983	valid
直連+9x9+13x13	dt-6a-spp-9-13	0.925	0.934	0.907	0.93	test

當(dāng)前的feature map大小就是13x13，實(shí)驗(yàn)結(jié)果表示，直接使用13x13的效果和SPP的幾乎一樣，運(yùn)算量還減少了。

2.5 修改Loss

loss方面嘗試了focal loss，但是經(jīng)過(guò)調(diào)整alpha和beta兩個(gè)參數(shù)，不管用默認(rèn)的還是自己慢慢調(diào)參，網(wǎng)絡(luò)都無(wú)法收斂，所以當(dāng)時(shí)給作者提了一個(gè)issue: https://github.com/ultralytics/yolov3/issues/811

glenn-jocher說(shuō)效果不好就別用:(

BBuf也研究了好長(zhǎng)時(shí)間，發(fā)現(xiàn)focal loss在Darknet中可以用，但是效果也一般般。最終focal loss也是無(wú)疾而終。此外還試著調(diào)整了ignore thresh，來(lái)配合focal loss，實(shí)驗(yàn)結(jié)果如下（在AB版Darknet下完成實(shí)驗(yàn)）：

state	model	P	R	mAP	F1	data
ignore=0.7	dt-6a-spp-fl	0.97	0.97	0.9755	0.97	valid
ignore=0.7	dt-6a-spp-fl	0.96	0.93	0.9294	0.94	test
ignore=0.3	dt-6a-spp-fl	0.95	0.99	0.9874	0.97	valid
ignore=0.3	dt-6a-spp-fl	0.89	0.92	0.9103	0.90	test

3. 經(jīng)驗(yàn)性總結(jié)

在這個(gè)實(shí)驗(yàn)過(guò)程中，和BBuf討論有了很多啟發(fā)，也進(jìn)行了總結(jié)，在這里公開(kāi)出來(lái)，（可能部分結(jié)論不夠嚴(yán)謹(jǐn)，沒(méi)有經(jīng)過(guò)嚴(yán)格對(duì)比實(shí)驗(yàn)，感興趣的話(huà)可以做一下對(duì)比實(shí)驗(yàn)）。

SPP層是有效的，Size設(shè)置接近feature map的時(shí)候效果更好。
YOLOv3、YOLOv3-SPP、YOLOv3-tiny三者在檢測(cè)同一個(gè)物體的情況下，YOLOv3-tiny給的該物體的置信度相比其他兩個(gè)模型低。（其實(shí)也可以形象化理解，YOLOv3-tiny的腦容量比較小，所以唯唯諾諾不敢確定）
個(gè)人感覺(jué)Concate的方法要比Add的方法更柔和，對(duì)小目標(biāo)效果更好。本實(shí)驗(yàn)結(jié)果上是DenseNet作為Backbone的時(shí)候效果是最佳的。
多尺度訓(xùn)練問(wèn)題，這個(gè)文中沒(méi)提。多尺度訓(xùn)練對(duì)于尺度分布比較廣泛的問(wèn)題效果明顯，比如VOC這類(lèi)數(shù)據(jù)集。但是對(duì)于尺度單一的數(shù)據(jù)集反而有反作用，比如紅外小目標(biāo)數(shù)據(jù)集目標(biāo)尺度比較統(tǒng)一，都很小。
Anchor對(duì)模型影響比較大，Anchor先驗(yàn)不合理會(huì)導(dǎo)致更多的失配，從而降低Recall。
當(dāng)時(shí)跟群友討論的時(shí)候就提到一個(gè)想法，對(duì)于小目標(biāo)來(lái)說(shuō)，淺層的信息更加有用，那么進(jìn)行FPN的時(shí)候，不應(yīng)該單純將兩者進(jìn)行Add或者Concate，而是應(yīng)該以一定的比例完成，比如對(duì)于小目標(biāo)來(lái)說(shuō)，引入更多的淺層信息，讓淺層網(wǎng)絡(luò)權(quán)重增大；大目標(biāo)則相反。后邊通過(guò)閱讀發(fā)現(xiàn)，這個(gè)想法被ASFF實(shí)現(xiàn)了，而且想法比較完善。
PyTorch中的Upsample層是不可復(fù)現(xiàn)的。
有卡可以嘗試一下超參數(shù)進(jìn)化方法。

以上是整個(gè)實(shí)驗(yàn)過(guò)程的一部分，后邊階段我們還遇到了很多困難，想將項(xiàng)目往輕量化的方向進(jìn)行，由于種種原因，最終沒(méi)有繼續(xù)下去，在這個(gè)過(guò)程中，總結(jié)一下教訓(xùn)，實(shí)驗(yàn)說(shuō)明和備份要做好，修改的數(shù)據(jù)集、訓(xùn)練得到的權(quán)重、當(dāng)時(shí)的改動(dòng)點(diǎn)要做好備份?，F(xiàn)在回看之前的實(shí)驗(yàn)記錄和cfg文件都有點(diǎn)想不起來(lái)某些模型的改動(dòng)點(diǎn)在哪里了，還是整理的不夠詳細(xì)，實(shí)驗(yàn)記錄太亂。

關(guān)于如何改進(jìn)YOLOv3進(jìn)行紅外小目標(biāo)檢測(cè)就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò)，可以把它分享出去讓更多的人看到。

向AI問(wèn)一下細(xì)節(jié)

如何改進(jìn)YOLOv3進(jìn)行紅外小目標(biāo)檢測(cè)

1. 紅外小目標(biāo)檢測(cè)

2. 實(shí)驗(yàn)過(guò)程

2.1 修改Anchor

2.2 構(gòu)建Baseline

2.3 數(shù)據(jù)集部分改進(jìn)

2.4 修改Backbone

2.5 修改Loss

3. 經(jīng)驗(yàn)性總結(jié)

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽