更細粒度表情運動單元檢測：來自物體檢測的啟示

發(fā)布時間：2020-08-06 19:39:07 來源：ITPUB博客閱讀：240 作者：AIBigbull2050 欄目：互聯(lián)網科技

2020-04-13 21:14:56

作者 | 馬晨

編輯 | 賈偉

本文解讀清華大學馬晨等人發(fā)表的人臉表情運動單元檢測的論文：《AU R-CNN：將專家先驗知識融合進R-CNN模型進行表情運動單元的檢測》。

這篇論文率先利用先驗知識和物體檢測技術做Action Unit人臉表情識別，在BP4D和DISFA兩個數(shù)據(jù)庫達到了SOTA的實驗結果：在F1 score這個benchmark下BP4D數(shù)據(jù)庫達到了63%的最佳成績。

論文鏈接：https://arxiv.org/abs/1812.05788

代碼鏈接：https://github.com/sharpstill/AU_R-CNN

FACS(Facial Action Coding System)是人臉國際標準組織定義的44種人臉運動單元(AU)，這些運動單元可以組合表示人臉表情所有可能的表情（包含皺眉，抿嘴等），AU是組成人臉表情的基石。

本論文中所謂的人臉AU檢測的任務是指：識別一段視頻中每一幀圖像的人臉上出現(xiàn)哪些AU。因為AU只是面部肌肉的細微運動，而且不同的面部肌肉運動幅度大小不同，所以AU檢測任務具有挑戰(zhàn)性。AU 檢測在測謊儀、汽車駕駛輔助系統(tǒng)（探測是否駕駛員瞌睡）等有重要應用。

圖 1. Action Unit 的例子

圖1是Action Unit的例子，關于Action Unit的表情到底定義了怎樣的細微的面部表情。

https://imotions.com/blog/facial-action-coding-system/ 提供了動畫演示，讀者可以自行觀看。

總結一下已有方法的缺點：

1、已有的方法雖然提出了AU center的概念作為AU發(fā)生的重要區(qū)域，并被定義為人臉關鍵點的附近，這種定義粗糙而位置不精確。AU發(fā)生在人臉肌肉運動的特定區(qū)域，但不一定是某個landmark附近。

2、已有的研究使用CNN去識別整張臉的圖像，而非局部區(qū)域的AU。

3、人臉AU識別是一個多l(xiāng)abel的分類問題，這種多l(xiāng)abel的約束可以被限制在更細的粒度上：人臉的局部區(qū)域上，從而達到更高的精度。

1 方法

AU R-CNN的方法框架如圖2所示，AU檢測最困難之處在于人臉的五官大小不定，每個人長相不同，而且發(fā)出的表情的位置也不相同，這種充滿挑戰(zhàn)性的難題如何檢測呢？本文站在前人的肩膀上，利用人臉關鍵點！人臉關鍵點提供了豐富的人臉位置信息，若能充分利用，則消除了五官的差異，更能細微精確地檢測AU。所以該框架首先將人臉劃分成不同的區(qū)域，每個區(qū)域獨立地進行檢測，如圖2所示：

圖 2. AU R-CNN方法的整體框架概覽，首先用landmark將人臉的68個關鍵點定位，再依照不同區(qū)域ROI獨立檢測，最后將每個ROI的檢測匯總，便得到了全臉的檢測結果！

圖 3. 關鍵點和面部分割圖

為了利用這些關鍵點的信息和AU的定義，本文引入了專家先驗知識的概念，AU R-CNN方法將AU與其相關的人臉區(qū)域的劃分定義為專家知識，提出了AU partition rule的規(guī)則。該規(guī)則如表1所示：

表1. AU partition rule(也即專家先驗知識)

AU partition rule將不同的AU分組，同一個位置區(qū)域發(fā)生的AU被分為一組，比如都是眼睛部位的AU，所以誕生了AU group的概念（表1左）。由此全臉被劃分成九個區(qū)域，每個區(qū)域是一組ROI表示，最后本文使用該ROI的最小外包矩形來表示該AU group區(qū)域，如圖4所示。

圖4. AU group和其外包矩形，之后這些矩形被送入R-CNN的檢測頭

另外一個難題在于即使同一個區(qū)域也可能發(fā)生多個AU的表情出現(xiàn)，因此本文使用了sigmoid cross entropy的損失函數(shù)來計算損失并反向傳播優(yōu)化網絡參數(shù)：

圖 5. AU R-CNN整體網絡結構圖，左側由先驗知識截取出不同區(qū)域的bounding box，右側是檢測頭去分別檢測，與此同時，ground-truth label也被按照不同區(qū)域分割了，最后計算sigmoid cross entropy損失。

AU R-CNN擴展

AU R-CNN可以被作為一個基礎框架產生出來很多擴展和變種，這是由于視頻的先后幀之間有時間順序關系，所以可以使用ConvLSTM建模先后幀之間的關系。如下圖所示，每個部位的小box被單獨的時間軸建模，用一個獨立的ConvLSTM去建模并學習。

圖 6. AU R-CNN的ConvLSTM擴展，這種擴展模型可以學習并建模視頻的先后幀關系

但是在具體實驗中，作者發(fā)現(xiàn)這種利用上下幀的建模方法效果不是很好，甚至總體的平均F 1 score不如單幀檢測。作者在實驗部分也分析了其中的原因。

另外除了ConvLSTM這種時空卷積，還可以使用雙流法等其他方法進行擴展，總體如下表：

實驗

實驗在BP4D和DISFA兩個數(shù)據(jù)庫上進行，該文的實驗部分值得稱道的一點是，作者采用了標準的AU R-CNN，并在ResNet-101和VGG-16、VGG-19幾個網絡上進行測試：

實驗結果如下，可以看到AU R-CNN結合ResNet-101的backbone取得最佳的實驗結果：

剝離實驗中，主要探究這種局部檢測到底比標準的CNN那種全臉檢測效果好多少，所以在不同分辨率下與標準CNN也進行了比較：

DISFA數(shù)據(jù)庫都是連續(xù)的表情視頻，實驗結果如下：

最后，作者總結了不同的AU R-CNN擴展及其適用范圍：

總結

在本文中，作者研究了如何將先驗知識融合進R-CNN這種物體檢測框架，并使用RoI pooling層在每個位置分別檢測，豐富的實驗證明了該做法的有效性，也取得了State-of-the-art的實驗結果。

2020-04-13 21:14:56

作者 | 馬晨

編輯 | 賈偉

本文解讀清華大學馬晨等人發(fā)表的人臉表情運動單元檢測的論文：《AU R-CNN：將專家先驗知識融合進R-CNN模型進行表情運動單元的檢測》。

論文鏈接：https://arxiv.org/abs/1812.05788

代碼鏈接：https://github.com/sharpstill/AU_R-CNN

圖 1. Action Unit 的例子

圖1是Action Unit的例子，關于Action Unit的表情到底定義了怎樣的細微的面部表情。

https://imotions.com/blog/facial-action-coding-system/ 提供了動畫演示，讀者可以自行觀看。

總結一下已有方法的缺點：

2、已有的研究使用CNN去識別整張臉的圖像，而非局部區(qū)域的AU。

3、人臉AU識別是一個多l(xiāng)abel的分類問題，這種多l(xiāng)abel的約束可以被限制在更細的粒度上：人臉的局部區(qū)域上，從而達到更高的精度。

1 方法

圖 3. 關鍵點和面部分割圖

表1. AU partition rule(也即專家先驗知識)

圖4. AU group和其外包矩形，之后這些矩形被送入R-CNN的檢測頭

AU R-CNN擴展

圖 6. AU R-CNN的ConvLSTM擴展，這種擴展模型可以學習并建模視頻的先后幀關系

另外除了ConvLSTM這種時空卷積，還可以使用雙流法等其他方法進行擴展，總體如下表：

實驗

實驗結果如下，可以看到AU R-CNN結合ResNet-101的backbone取得最佳的實驗結果：

剝離實驗中，主要探究這種局部檢測到底比標準的CNN那種全臉檢測效果好多少，所以在不同分辨率下與標準CNN也進行了比較：

DISFA數(shù)據(jù)庫都是連續(xù)的表情視頻，實驗結果如下：

最后，作者總結了不同的AU R-CNN擴展及其適用范圍：

總結

https://www.toutiao.com/i6815184084155761159/

向AI問一下細節(jié)

更細粒度表情運動單元檢測：來自物體檢測的啟示

作者 | 馬晨

作者 | 馬晨

猜你喜歡

最新資訊

相關推薦

相關標簽