溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

更細粒度表情運動單元檢測:來自物體檢測的啟示

發(fā)布時間:2020-08-06 19:39:07 來源:ITPUB博客 閱讀:240 作者:AIBigbull2050 欄目:互聯(lián)網科技
2020-04-13 21:14:56
更細粒度表情運動單元檢測:來自物體檢測的啟示

作者 | 馬晨

編輯 | 賈偉

本文解讀清華大學馬晨等人發(fā)表的人臉表情運動單元檢測的論文:《AU R-CNN:將專家先驗知識融合進R-CNN模型進行表情運動單元的檢測》。

這篇論文率先利用先驗知識和物體檢測技術做Action Unit人臉表情識別,在BP4D和DISFA兩個數(shù)據(jù)庫達到了SOTA的實驗結果:在F1 score這個benchmark下BP4D數(shù)據(jù)庫達到了63%的最佳成績。

更細粒度表情運動單元檢測:來自物體檢測的啟示

論文鏈接:https://arxiv.org/abs/1812.05788

代碼鏈接:https://github.com/sharpstill/AU_R-CNN

FACS(Facial Action Coding System)是人臉國際標準組織定義的44種人臉運動單元(AU),這些運動單元可以組合表示人臉表情所有可能的表情(包含皺眉,抿嘴等),AU是組成人臉表情的基石。

本論文中所謂的人臉AU檢測的任務是指:識別一段視頻中每一幀圖像的人臉上出現(xiàn)哪些AU。因為AU只是面部肌肉的細微運動,而且不同的面部肌肉運動幅度大小不同,所以AU檢測任務具有挑戰(zhàn)性。AU 檢測在測謊儀、汽車駕駛輔助系統(tǒng)(探測是否駕駛員瞌睡)等有重要應用。

更細粒度表情運動單元檢測:來自物體檢測的啟示

圖 1. Action Unit 的例子

圖1是Action Unit的例子,關于Action Unit的表情到底定義了怎樣的細微的面部表情。

https://imotions.com/blog/facial-action-coding-system/ 提供了動畫演示,讀者可以自行觀看。

總結一下已有方法的缺點:

1、已有的方法雖然提出了AU center的概念作為AU發(fā)生的重要區(qū)域,并被定義為人臉關鍵點的附近,這種定義粗糙而位置不精確。AU發(fā)生在人臉肌肉運動的特定區(qū)域,但不一定是某個landmark附近。

2、已有的研究使用CNN去識別整張臉的圖像,而非局部區(qū)域的AU。

3、人臉AU識別是一個多l(xiāng)abel的分類問題,這種多l(xiāng)abel的約束可以被限制在更細的粒度上:人臉的局部區(qū)域上,從而達到更高的精度。

1 方 法

AU R-CNN的方法框架如圖2所示,AU檢測最困難之處在于人臉的五官大小不定,每個人長相不同,而且發(fā)出的表情的位置也不相同,這種充滿挑戰(zhàn)性的難題如何檢測呢?本文站在前人的肩膀上,利用人臉關鍵點!人臉關鍵點提供了豐富的人臉位置信息,若能充分利用,則消除了五官的差異,更能細微精確地檢測AU。所以該框架首先將人臉劃分成不同的區(qū)域,每個區(qū)域獨立地進行檢測,如圖2所示:

更細粒度表情運動單元檢測:來自物體檢測的啟示

圖 2. AU R-CNN方法的整體框架概覽,首先用landmark將人臉的68個關鍵點定位,再依照不同區(qū)域ROI獨立檢測,最后將每個ROI的檢測匯總,便得到了全臉的檢測結果!

更細粒度表情運動單元檢測:來自物體檢測的啟示

圖 3. 關鍵點和面部分割圖

為了利用這些關鍵點的信息和AU的定義,本文引入了專家先驗知識的概念,AU R-CNN方法將AU與其相關的人臉區(qū)域的劃分定義為專家知識,提出了AU partition rule的規(guī)則。該規(guī)則如表1所示:

更細粒度表情運動單元檢測:來自物體檢測的啟示

表1. AU partition rule(也即專家先驗知識)

AU partition rule將不同的AU分組,同一個位置區(qū)域發(fā)生的AU被分為一組,比如都是眼睛部位的AU,所以誕生了AU group的概念(表1左)。由此全臉被劃分成九個區(qū)域,每個區(qū)域是一組ROI表示,最后本文使用該ROI的最小外包矩形來表示該AU group區(qū)域,如圖4所示。

更細粒度表情運動單元檢測:來自物體檢測的啟示

圖4. AU group和其外包矩形,之后這些矩形被送入R-CNN的檢測頭

另外一個難題在于即使同一個區(qū)域也可能發(fā)生多個AU的表情出現(xiàn),因此本文使用了sigmoid cross entropy的損失函數(shù)來計算損失并反向傳播優(yōu)化網絡參數(shù):

更細粒度表情運動單元檢測:來自物體檢測的啟示
更細粒度表情運動單元檢測:來自物體檢測的啟示

圖 5. AU R-CNN整體網絡結構圖,左側由先驗知識截取出不同區(qū)域的bounding box,右側是檢測頭去分別檢測,與此同時,ground-truth label也被按照不同區(qū)域分割了,最后計算sigmoid cross entropy損失。

2

AU R-CNN擴展

AU R-CNN可以被作為一個基礎框架產生出來很多擴展和變種,這是由于視頻的先后幀之間有時間順序關系,所以可以使用ConvLSTM建模先后幀之間的關系。如下圖所示,每個部位的小box被單獨的時間軸建模,用一個獨立的ConvLSTM去建模并學習。

更細粒度表情運動單元檢測:來自物體檢測的啟示

圖 6. AU R-CNN的ConvLSTM擴展,這種擴展模型可以學習并建模視頻的先后幀關系

但是在具體實驗中,作者發(fā)現(xiàn)這種利用上下幀的建模方法效果不是很好,甚至總體的平均F 1 score不如單幀檢測。作者在實驗部分也分析了其中的原因。

另外除了ConvLSTM這種時空卷積,還可以使用雙流法等其他方法進行擴展,總體如下表:

更細粒度表情運動單元檢測:來自物體檢測的啟示

3

實 驗

實驗在BP4D和DISFA兩個數(shù)據(jù)庫上進行,該文的實驗部分值得稱道的一點是,作者采用了標準的AU R-CNN,并在ResNet-101和VGG-16、VGG-19幾個網絡上進行測試:

實驗結果如下,可以看到AU R-CNN結合ResNet-101的backbone取得最佳的實驗結果:

更細粒度表情運動單元檢測:來自物體檢測的啟示
更細粒度表情運動單元檢測:來自物體檢測的啟示

剝離實驗中,主要探究這種局部檢測到底比標準的CNN那種全臉檢測效果好多少,所以在不同分辨率下與標準CNN也進行了比較:

更細粒度表情運動單元檢測:來自物體檢測的啟示

DISFA數(shù)據(jù)庫都是連續(xù)的表情視頻,實驗結果如下:

更細粒度表情運動單元檢測:來自物體檢測的啟示
更細粒度表情運動單元檢測:來自物體檢測的啟示

最后,作者總結了不同的AU R-CNN擴展及其適用范圍:

更細粒度表情運動單元檢測:來自物體檢測的啟示

4

總 結

在本文中,作者研究了如何將先驗知識融合進R-CNN這種物體檢測框架,并使用RoI pooling層在每個位置分別檢測,豐富的實驗證明了該做法的有效性,也取得了State-of-the-art的實驗結果。

2020-04-13 21:14:56
更細粒度表情運動單元檢測:來自物體檢測的啟示

作者 | 馬晨

編輯 | 賈偉

本文解讀清華大學馬晨等人發(fā)表的人臉表情運動單元檢測的論文:《AU R-CNN:將專家先驗知識融合進R-CNN模型進行表情運動單元的檢測》。

這篇論文率先利用先驗知識和物體檢測技術做Action Unit人臉表情識別,在BP4D和DISFA兩個數(shù)據(jù)庫達到了SOTA的實驗結果:在F1 score這個benchmark下BP4D數(shù)據(jù)庫達到了63%的最佳成績。

更細粒度表情運動單元檢測:來自物體檢測的啟示

論文鏈接:https://arxiv.org/abs/1812.05788

代碼鏈接:https://github.com/sharpstill/AU_R-CNN

FACS(Facial Action Coding System)是人臉國際標準組織定義的44種人臉運動單元(AU),這些運動單元可以組合表示人臉表情所有可能的表情(包含皺眉,抿嘴等),AU是組成人臉表情的基石。

本論文中所謂的人臉AU檢測的任務是指:識別一段視頻中每一幀圖像的人臉上出現(xiàn)哪些AU。因為AU只是面部肌肉的細微運動,而且不同的面部肌肉運動幅度大小不同,所以AU檢測任務具有挑戰(zhàn)性。AU 檢測在測謊儀、汽車駕駛輔助系統(tǒng)(探測是否駕駛員瞌睡)等有重要應用。

更細粒度表情運動單元檢測:來自物體檢測的啟示

圖 1. Action Unit 的例子

圖1是Action Unit的例子,關于Action Unit的表情到底定義了怎樣的細微的面部表情。

https://imotions.com/blog/facial-action-coding-system/ 提供了動畫演示,讀者可以自行觀看。

總結一下已有方法的缺點:

1、已有的方法雖然提出了AU center的概念作為AU發(fā)生的重要區(qū)域,并被定義為人臉關鍵點的附近,這種定義粗糙而位置不精確。AU發(fā)生在人臉肌肉運動的特定區(qū)域,但不一定是某個landmark附近。

2、已有的研究使用CNN去識別整張臉的圖像,而非局部區(qū)域的AU。

3、人臉AU識別是一個多l(xiāng)abel的分類問題,這種多l(xiāng)abel的約束可以被限制在更細的粒度上:人臉的局部區(qū)域上,從而達到更高的精度。

1 方 法

AU R-CNN的方法框架如圖2所示,AU檢測最困難之處在于人臉的五官大小不定,每個人長相不同,而且發(fā)出的表情的位置也不相同,這種充滿挑戰(zhàn)性的難題如何檢測呢?本文站在前人的肩膀上,利用人臉關鍵點!人臉關鍵點提供了豐富的人臉位置信息,若能充分利用,則消除了五官的差異,更能細微精確地檢測AU。所以該框架首先將人臉劃分成不同的區(qū)域,每個區(qū)域獨立地進行檢測,如圖2所示:

更細粒度表情運動單元檢測:來自物體檢測的啟示

圖 2. AU R-CNN方法的整體框架概覽,首先用landmark將人臉的68個關鍵點定位,再依照不同區(qū)域ROI獨立檢測,最后將每個ROI的檢測匯總,便得到了全臉的檢測結果!

更細粒度表情運動單元檢測:來自物體檢測的啟示

圖 3. 關鍵點和面部分割圖

為了利用這些關鍵點的信息和AU的定義,本文引入了專家先驗知識的概念,AU R-CNN方法將AU與其相關的人臉區(qū)域的劃分定義為專家知識,提出了AU partition rule的規(guī)則。該規(guī)則如表1所示:

更細粒度表情運動單元檢測:來自物體檢測的啟示

表1. AU partition rule(也即專家先驗知識)

AU partition rule將不同的AU分組,同一個位置區(qū)域發(fā)生的AU被分為一組,比如都是眼睛部位的AU,所以誕生了AU group的概念(表1左)。由此全臉被劃分成九個區(qū)域,每個區(qū)域是一組ROI表示,最后本文使用該ROI的最小外包矩形來表示該AU group區(qū)域,如圖4所示。

更細粒度表情運動單元檢測:來自物體檢測的啟示

圖4. AU group和其外包矩形,之后這些矩形被送入R-CNN的檢測頭

另外一個難題在于即使同一個區(qū)域也可能發(fā)生多個AU的表情出現(xiàn),因此本文使用了sigmoid cross entropy的損失函數(shù)來計算損失并反向傳播優(yōu)化網絡參數(shù):

更細粒度表情運動單元檢測:來自物體檢測的啟示
更細粒度表情運動單元檢測:來自物體檢測的啟示

圖 5. AU R-CNN整體網絡結構圖,左側由先驗知識截取出不同區(qū)域的bounding box,右側是檢測頭去分別檢測,與此同時,ground-truth label也被按照不同區(qū)域分割了,最后計算sigmoid cross entropy損失。

2

AU R-CNN擴展

AU R-CNN可以被作為一個基礎框架產生出來很多擴展和變種,這是由于視頻的先后幀之間有時間順序關系,所以可以使用ConvLSTM建模先后幀之間的關系。如下圖所示,每個部位的小box被單獨的時間軸建模,用一個獨立的ConvLSTM去建模并學習。

更細粒度表情運動單元檢測:來自物體檢測的啟示

圖 6. AU R-CNN的ConvLSTM擴展,這種擴展模型可以學習并建模視頻的先后幀關系

但是在具體實驗中,作者發(fā)現(xiàn)這種利用上下幀的建模方法效果不是很好,甚至總體的平均F 1 score不如單幀檢測。作者在實驗部分也分析了其中的原因。

另外除了ConvLSTM這種時空卷積,還可以使用雙流法等其他方法進行擴展,總體如下表:

更細粒度表情運動單元檢測:來自物體檢測的啟示

3

實 驗

實驗在BP4D和DISFA兩個數(shù)據(jù)庫上進行,該文的實驗部分值得稱道的一點是,作者采用了標準的AU R-CNN,并在ResNet-101和VGG-16、VGG-19幾個網絡上進行測試:

實驗結果如下,可以看到AU R-CNN結合ResNet-101的backbone取得最佳的實驗結果:

更細粒度表情運動單元檢測:來自物體檢測的啟示
更細粒度表情運動單元檢測:來自物體檢測的啟示

剝離實驗中,主要探究這種局部檢測到底比標準的CNN那種全臉檢測效果好多少,所以在不同分辨率下與標準CNN也進行了比較:

更細粒度表情運動單元檢測:來自物體檢測的啟示

DISFA數(shù)據(jù)庫都是連續(xù)的表情視頻,實驗結果如下:

更細粒度表情運動單元檢測:來自物體檢測的啟示
更細粒度表情運動單元檢測:來自物體檢測的啟示

最后,作者總結了不同的AU R-CNN擴展及其適用范圍:

更細粒度表情運動單元檢測:來自物體檢測的啟示

4

總 結

在本文中,作者研究了如何將先驗知識融合進R-CNN這種物體檢測框架,并使用RoI pooling層在每個位置分別檢測,豐富的實驗證明了該做法的有效性,也取得了State-of-the-art的實驗結果。

https://www.toutiao.com/i6815184084155761159/

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經查實,將立刻刪除涉嫌侵權內容。

AI