<menu id="sqxf6"></menu>

<th id="sqxf6"><delect id="sqxf6"><dfn id="sqxf6"></dfn></delect></th>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點(diǎn)擊重新獲取二維碼

計(jì)算機(jī)視覺中的注意力機(jī)制

發(fā)布時間：2020-08-10 16:58:18 來源：ITPUB博客閱讀：247 作者：騰訊技術(shù)工程欄目：互聯(lián)網(wǎng)科技

引言：在機(jī)器翻譯（Machine Translation）或者自然語言處理（Natural Language Processing）領(lǐng)域，以前都是使用數(shù)理統(tǒng)計(jì)的方法來進(jìn)行分析和處理。近些年來，隨著 AlphaGo 的興起，除了在游戲AI領(lǐng)域，深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域，機(jī)器翻譯和自然語言處理領(lǐng)域也有著巨大的用武之地。在 2014 年，隨著深度學(xué)習(xí)的進(jìn)一步發(fā)展，seq2seq 的訓(xùn)練模式和翻譯模式已經(jīng)開始進(jìn)入人們的視野。除此之外，在端到端的訓(xùn)練方法中，除了需要海量的業(yè)務(wù)數(shù)據(jù)之外，在網(wǎng)絡(luò)結(jié)構(gòu)中加入一些重要的模塊也是非常必要的。在此情形下，基于循環(huán)神經(jīng)網(wǎng)咯（Recurrent Neural Network）的注意力機(jī)制（Attention Mechanism）進(jìn)入了人們的視野。除了之前提到的機(jī)器翻譯和自然語言處理領(lǐng)域之外，計(jì)算機(jī)視覺中的注意力機(jī)制也是十分有趣的，本文將會簡要介紹一下計(jì)算機(jī)視覺領(lǐng)域中的注意力方法。在此事先聲明一下，筆者并不是從事這幾個領(lǐng)域的，可能在撰寫文章的過程中會有些理解不到位的地方，請各位讀者指出其中的不足。

計(jì)算機(jī)視覺中的注意力機(jī)制

注意力機(jī)制

顧名思義，注意力機(jī)制是本質(zhì)上是為了模仿人類觀察物品的方式。通常來說，人們在看一張圖片的時候，除了從整體把握一幅圖片之外，也會更加關(guān)注圖片的某個局部信息，例如局部桌子的位置，商品的種類等等。在翻譯領(lǐng)域，每次人們翻譯一段話的時候，通常都是從句子入手，但是在閱讀整個句子的時候，肯定就需要關(guān)注詞語本身的信息，以及詞語前后關(guān)系的信息和上下文的信息。在自然語言處理方向，如果要進(jìn)行情感分類的話，在某個句子里面，肯定會涉及到表達(dá)情感的詞語，包括但不限于“高興”，“沮喪”，“開心”等關(guān)鍵詞。而這些句子里面的其他詞語，則是上下文的關(guān)系，并不是它們沒有用，而是它們所起的作用沒有那些表達(dá)情感的關(guān)鍵詞大。

在以上描述下，注意力機(jī)制其實(shí)包含兩個部分：

注意力機(jī)制需要決定整段輸入的哪個部分需要更加關(guān)注；
從關(guān)鍵的部分進(jìn)行特征提取，得到重要的信息。

通常來說，在機(jī)器翻譯或者自然語言處理領(lǐng)域，人們閱讀和理解一句話或者一段話其實(shí)是有著一定的先后順序的，并且按照語言學(xué)的語法規(guī)則來進(jìn)行閱讀理解。在圖片分類領(lǐng)域，人們看一幅圖也是按照先整體再局部，或者先局部再整體來看的。再看局部的時候，尤其是手寫的手機(jī)號，門牌號等信息，都是有先后順序的。為了模擬人腦的思維方式和理解模式，循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）在處理這種具有明顯先后順序的問題上有著獨(dú)特的優(yōu)勢，因此，Attention 機(jī)制通常都會應(yīng)用在循環(huán)神經(jīng)網(wǎng)絡(luò)上面。

雖然，按照上面的描述，機(jī)器翻譯，自然語言處理，計(jì)算機(jī)視覺領(lǐng)域的注意力機(jī)制差不多，但是其實(shí)仔細(xì)推敲起來，這三者的注意力機(jī)制是有明顯區(qū)別的。

在機(jī)器翻譯領(lǐng)域，翻譯人員需要把已有的一句話翻譯成另外一種語言的一句話。例如把一句話從英文翻譯到中文，把中文翻譯到法語。在這種情況下，輸入語言和輸出語言的詞語之間的先后順序其實(shí)是相對固定的，是具有一定的語法規(guī)則的；
在視頻分類或者情感識別領(lǐng)域，視頻的先后順序是由時間戳和相應(yīng)的片段組成的，輸入的就是一段視頻里面的關(guān)鍵片段，也就是一系列具有先后順序的圖片的組合。NLP 中的情感識別問題也是一樣的，語言本身就具有先后順序的特點(diǎn)；
圖像識別，物體檢測領(lǐng)域與前面兩個有本質(zhì)的不同。因?yàn)槲矬w檢測其實(shí)是在一幅圖里面挖掘出必要的物體結(jié)構(gòu)或者位置信息，在這種情況下，它的輸入就是一幅圖片，并沒有非常明顯的先后順序，而且從人腦的角度來看，由于個體的差異性，很難找到一個通用的觀察圖片的方法。由于每個人都有著自己觀察的先后順序，因此很難統(tǒng)一成一個整體。

在這種情況下，機(jī)器翻譯和自然語言處理領(lǐng)域使用基于 RNN 的 Attention 機(jī)制就變得相對自然，而計(jì)算機(jī)視覺領(lǐng)域領(lǐng)域則需要必要的改造才能夠使用 Attention 機(jī)制。

計(jì)算機(jī)視覺中的注意力機(jī)制

基于 RNN 的注意力機(jī)制

通常來說，RNN 等深度神經(jīng)網(wǎng)絡(luò)可以進(jìn)行端到端的訓(xùn)練和預(yù)測，在機(jī)器翻譯領(lǐng)域和或者文本識別領(lǐng)域有著獨(dú)特的優(yōu)勢。對于端到端的 RNN 來說，有一個更簡潔的名字叫做 sequence to sequence，簡寫就是 seq2seq。顧名思義，輸入層是一句話，輸出層是另外一句話，中間層包括編碼和解碼兩個步驟。

而基于 RNN 的注意力機(jī)制指的是，對于 seq2seq 的諸多問題，在輸入層和輸出層之間，也就是詞語（Items）與詞語之間，存在著某種隱含的聯(lián)系。例如：“中國” -> “China”，“Excellent” -> “優(yōu)秀的”。在這種情況下，每次進(jìn)行機(jī)器翻譯的時候，模型需要了解當(dāng)前更加關(guān)注某個詞語或者某幾個詞語，只有這樣才能夠在整句話中進(jìn)行必要的提煉。在這些初步的思考下，基于 RNN 的 Attention 機(jī)制就是：

建立一個編碼（Encoder）和解碼（Decoder）的非線性模型，神經(jīng)網(wǎng)絡(luò)的參數(shù)足夠多，能夠存儲足夠的信息；
除了關(guān)注句子的整體信息之外，每次翻譯下一個詞語的時候，需要對不同的詞語賦予不同的權(quán)重，在這種情況下，再解碼的時候，就可以同時考慮到整體的信息和局部的信息。

計(jì)算機(jī)視覺中的注意力機(jī)制

注意力機(jī)制的種類

從初步的調(diào)研情況來看，注意力機(jī)制有兩種方法，一種是基于強(qiáng)化學(xué)習(xí)（Reinforcement Learning）來做的，另外一種是基于梯度下降（Gradient Decent）來做的。強(qiáng)化學(xué)習(xí)的機(jī)制是通過收益函數(shù)（Reward）來激勵，讓模型更加關(guān)注到某個局部的細(xì)節(jié)。梯度下降法是通過目標(biāo)函數(shù)以及相應(yīng)的優(yōu)化函數(shù)來做的。無論是 NLP 還是 CV 領(lǐng)域，都可以考慮這些方法來添加注意力機(jī)制。

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺領(lǐng)域的 Attention 部分論文整理

下面將會簡單的介紹幾篇近期閱讀的計(jì)算機(jī)視覺領(lǐng)域的關(guān)于注意力機(jī)制的文章。

Look Closer to See Better：Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition

在圖像識別領(lǐng)域，通常都會遇到給圖片中的鳥類進(jìn)行分類，包括種類的識別，屬性的識別等內(nèi)容。為了區(qū)分不同的鳥，除了從整體來對圖片把握之外，更加關(guān)注的是一個局部的信息，也就是鳥的樣子，包括頭部，身體，腳，顏色等內(nèi)容。至于周邊信息，例如花花草草之類的，則顯得沒有那么重要，它們只能作為一些參照物。因?yàn)椴煌镍B類會停留在樹木上，草地上，關(guān)注樹木和草地的信息對鳥類的識別并不能夠起到至關(guān)重要的作用。所以，在圖像識別領(lǐng)域引入注意力機(jī)制就是一個非常關(guān)鍵的技術(shù)，讓深度學(xué)習(xí)模型更加關(guān)注某個局部的信息。

計(jì)算機(jī)視覺中的注意力機(jī)制

在這篇文章里面，作者們提出了一個基于 CNN 的注意力機(jī)制，叫做 recurrent attention convolutional neural network（RA-CNN），該模型遞歸地分析局部信息，從局部的信息中提取必要的特征。同時，在 RA-CNN 中的子網(wǎng)絡(luò)（sub-network）中存在分類結(jié)構(gòu)，也就是說從不同區(qū)域的圖片里面，都能夠得到一個對鳥類種類劃分的概率。除此之外，還引入了 attention 機(jī)制，讓整個網(wǎng)絡(luò)結(jié)構(gòu)不僅關(guān)注整體信息，還關(guān)注局部信息，也就是所謂的 Attention Proposal Sub-Network（APN）。這個 APN 結(jié)構(gòu)是從整個圖片（full-image）出發(fā)，迭代式地生成子區(qū)域，并且對這些子區(qū)域進(jìn)行必要的預(yù)測，并將子區(qū)域所得到的預(yù)測結(jié)果進(jìn)行必要的整合，從而得到整張圖片的分類預(yù)測概率。

計(jì)算機(jī)視覺中的注意力機(jī)制

RA-CNN 的特點(diǎn)是進(jìn)行一個端到端的優(yōu)化，并不需要提前標(biāo)注 box，區(qū)域等信息就能夠進(jìn)行鳥類的識別和圖像種類的劃分。在數(shù)據(jù)集上面，該論文不僅在鳥類數(shù)據(jù)集（CUB Birds）上面進(jìn)行了實(shí)驗(yàn)，也在狗類識別（Stanford Dogs）和車輛識別（Stanford Cars）上進(jìn)行了實(shí)驗(yàn)，并且都取得了不錯的效果。

計(jì)算機(jī)視覺中的注意力機(jī)制

從深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)來看，RA-CNN 的輸入時是整幅圖片（Full Image），輸出的時候就是分類的概率。而提取圖片特征的方法通常來說都是使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）的結(jié)構(gòu)，然后把 Attention 機(jī)制加入到整個網(wǎng)絡(luò)結(jié)構(gòu)中。從下圖來看，一開始，整幅圖片從上方輸入，然后判斷出一個分類概率；然后中間層輸出一個坐標(biāo)值和尺寸大小，其中坐標(biāo)值表示的是子圖的中心點(diǎn)，尺寸大小表示子圖的尺寸。在這種基礎(chǔ)上，下一幅子圖就是從坐標(biāo)值和尺寸大小得到的圖片，第二個網(wǎng)絡(luò)就是在這種基礎(chǔ)上構(gòu)建的；再迭代持續(xù)放大圖片，從而不停地聚焦在圖片中的某些關(guān)鍵位置。不同尺寸的圖片都能夠輸出不同的分類概率，再將其分類概率進(jìn)行必要的融合，最終的到對整幅圖片的鳥類識別概率。

因此，在整篇論文中，有幾個關(guān)鍵點(diǎn)需要注意：

分類概率的計(jì)算，也就是最終的 loss 函數(shù)的設(shè)計(jì)；
從上一幅圖片到下一幅圖片的坐標(biāo)值和尺寸大小。

只要獲得了這些指標(biāo)，就可以把整個 RA-CNN 網(wǎng)絡(luò)搭建起來。

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制

RA-CNN 的實(shí)驗(yàn)效果如下：

計(jì)算機(jī)視覺中的注意力機(jī)制

Multiple Granularity Descriptors for Fine-grained Categorization

這篇文中同樣做了鳥類的分類工作，與 RA-CNN 不同之處在于它使用了層次的結(jié)構(gòu)，因?yàn)轼B類的區(qū)分是按照一定的層次關(guān)系來進(jìn)行的，粗糙來看，有科 -> 屬 -> 種三個層次結(jié)構(gòu)。

計(jì)算機(jī)視覺中的注意力機(jī)制

因此，在設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)的過程中，需要有并行的網(wǎng)絡(luò)結(jié)構(gòu)，分別對應(yīng)科，屬，種三個層次。從前往后的順序是檢測網(wǎng)絡(luò)（Detection Network），區(qū)域發(fā)現(xiàn)（Region Discovery），描述網(wǎng)絡(luò)（Description Network）。并行的結(jié)構(gòu)是 Family-grained CNN + Family-grained Descriptor，Genus-grained CNN + Genus-grained Descriptor，Species-grained CNN + Species-grained Descriptor。而在區(qū)域發(fā)現(xiàn)的地方，作者使用了 energy 的思想，讓神經(jīng)網(wǎng)絡(luò)分別聚焦在圖片中的不同部分，最終的到鳥類的預(yù)測結(jié)果。

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制

Recurrent Models of Visual Attention

在計(jì)算機(jī)視覺中引入注意力機(jī)制，DeepMind 的這篇文章 recurrent models of visual attention 發(fā)表于 2014 年。在這篇文章中，作者使用了基于強(qiáng)化學(xué)習(xí)方法的注意力機(jī)制，并且使用收益函數(shù)來進(jìn)行模型的訓(xùn)練。從網(wǎng)絡(luò)結(jié)構(gòu)來看，不僅從整體來觀察圖片，也從局部來提取必要的信息。

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制

整體來看，其網(wǎng)絡(luò)結(jié)構(gòu)是 RNN，上一個階段得到的信息和坐標(biāo)會被傳遞到下一個階段。這個網(wǎng)絡(luò)只在最后一步進(jìn)行分類的概率判斷，這是與 RA-CNN 不同之處。這是為了模擬人類看物品的方式，人類并非會一直把注意力放在整張圖片上，而是按照某種潛在的順序?qū)D像進(jìn)行掃描。Recurrent Models of Visual Attention 本質(zhì)上是把圖片按照某種時間序列的形式進(jìn)行輸入，一次處理原始圖片的一部分信息，并且在處理信息的過程中，需要根據(jù)過去的信息和任務(wù)選擇下一個合適的位置進(jìn)行處理。這樣就可以不需要進(jìn)行事先的位置標(biāo)記和物品定位了。

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制

Multiple Object Recognition with Visual Attention

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制

在門牌識別里面，該網(wǎng)絡(luò)是按照從左到右的順序來進(jìn)行圖片掃描的，這與人類識別物品的方式極其相似。除了門牌識別之外，該論文也對手寫字體進(jìn)行了識別，同樣取得了不錯的效果。

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制

實(shí)驗(yàn)效果如下：

計(jì)算機(jī)視覺中的注意力機(jī)制

總結(jié)

本篇文章初步介紹了計(jì)算機(jī)視覺中的 Attention 機(jī)制，除了這些方法之外，應(yīng)該還有一些更巧妙的方法，希望各位讀者多多指教。

參考文獻(xiàn)

Look Closer to See Better：Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition，CVPR，2017.
Recurrent Models of Visual Attention，NIPS，2014
GitHub 代碼：Recurrent-Attention-CNN，github.com/Jianlong-Fu/
Multiple Granularity Descriptors for Fine-grained Categorization，ICCV，2015
Multiple Object Recognition with Visual Attention，ICRL，2015
Understanding LSTM Networks，Colah's Blog，2015，colah.github.io/posts/2
Survey on the attention based RNN model and its applications in computer vision，2016

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
DB2,PostgreSQL & MySQL
下一篇新聞：
Linux服務(wù)器安裝redis數(shù)據(jù)庫

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼