溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

發(fā)布時(shí)間:2020-04-10 04:25:27 來源:網(wǎng)絡(luò) 閱讀:30958 作者:wx5ab20aeb8bf48 欄目:web開發(fā)

作者介紹:姜生,PP云高級(jí)技術(shù)經(jīng)理,10余年視頻編解碼算法設(shè)計(jì)優(yōu)化,流媒體應(yīng)用等領(lǐng)域開發(fā)經(jīng)驗(yàn)。

一 、VMAF 技術(shù)介紹:

VMAF 的全稱是:Visual Multimethod Assessment Fusion,視頻質(zhì)量多方法評(píng)價(jià)融合。這項(xiàng)技術(shù)是由美國Netflix公司開發(fā)的一套主觀視頻質(zhì)量評(píng)價(jià)體系。2016年1月,VMAF 正式開源;

下載地址:

https://github.com/Netflix/vmaf

二 、通行視頻質(zhì)量評(píng)價(jià)方法的局限:

評(píng)價(jià)一個(gè)編碼后的視頻流與壓縮前的視頻流質(zhì)量對(duì)比值,通行的方法是PSNR(峰值信噪比),或者SSIM(結(jié)構(gòu)相似度)。這些是客觀評(píng)價(jià)方法。這些方法評(píng)價(jià)的結(jié)果與主觀的感受有時(shí)候相差很大,請(qǐng)看下圖(來自Netflix 的官網(wǎng)):

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

圖一

上面四幅圖,取自4幅靜態(tài)畫面,畸變程度不一樣。用PSNR指標(biāo)來評(píng)分,上面兩幅圖的PSNR值大約為31dB, 下方兩個(gè)的PSNR值約為34dB,這表明上面兩幅圖PNSR 值相當(dāng),下面兩幅圖的PSNR值也相當(dāng)。如果讓人眼來主觀評(píng)價(jià)呢,對(duì)于左側(cè)上下兩幅“人群”圖片,很難察覺有何差異,但是右側(cè)兩幅“狐貍”視頻的差異就很明顯了。Netflix綜合不同觀眾的評(píng)價(jià),對(duì)上下兩個(gè)“人群”給出的主觀分?jǐn)?shù)是82(上方)和96(下方),而兩個(gè)“狐貍”的分?jǐn)?shù)分別是27(上方)和58(下方)。

上面的示例說明PSNR一類的客觀評(píng)價(jià)與實(shí)際的主觀感受相差較大。這說明這種方法不足以全面正確的評(píng)價(jià)視頻的質(zhì)量,為此Netflix 決定尋找新的方法。

三、Neflix對(duì)視頻源特性的分析:

  1. 收集與用例密切相關(guān)的數(shù)據(jù)集:

雖然針對(duì)視頻質(zhì)量指標(biāo)的設(shè)計(jì)和測(cè)試已經(jīng)有可以公開使用的數(shù)據(jù)庫,但這些數(shù)據(jù)庫的內(nèi)容缺乏多樣性。而多樣性正是流媒體服務(wù)的最大特點(diǎn)。由于視頻質(zhì)量的評(píng)估遠(yuǎn)不僅僅是壓縮失真的評(píng)估,所以應(yīng)該考慮更廣范圍的畫質(zhì)損失,不僅有壓縮導(dǎo)致的損失,還有傳輸過程中的損失、隨機(jī)噪聲,以及幾何變形等情況。

  1. 視頻源的特性:

作為流媒體公司, Netflix 提供了適合各類人群觀看的大量影視內(nèi)容,例如兒童內(nèi)容、動(dòng)漫、動(dòng)作片、紀(jì)錄片,視頻講座等. 另外這些內(nèi)容還包含各種底層源素材特征,例如膠片顆粒、傳感器噪聲、計(jì)算機(jī)生成的材質(zhì)、始終暗淡的場(chǎng)景或非常明亮的色彩等。過去通行的質(zhì)量指標(biāo)并沒有考慮不同類型的源內(nèi)容,如動(dòng)漫或者視頻講座一類,也未考慮膠片顆粒,而在專業(yè)娛樂內(nèi)容中這些都是非常普遍的信號(hào)特征。

  1. 失真的來源:

一般而言,流播視頻是通過TCP傳輸?shù)模瑏G包和誤碼絕對(duì)不會(huì)導(dǎo)致視覺損失。這就使得編碼過程中的兩類失真最終影響到觀眾所感受到的體驗(yàn)質(zhì)量(QoE):壓縮失真以及縮放失真。

為了針對(duì)不同的用例構(gòu)建數(shù)據(jù)集,Netflix選擇了34個(gè)源短片作為樣本(參考視頻),每個(gè)短片長(zhǎng)度是6秒,主要來自于流行的電視劇和電影。源短片包含具備各種高級(jí)特征的內(nèi)容(動(dòng)漫、室內(nèi)/室外、鏡頭搖移、面部拉近、人物、水面、顯著的物體、多個(gè)物體)以及各種底層特性(膠片噪聲、亮度、對(duì)比度、材質(zhì)、活動(dòng)、顏色變化、色澤濃郁度、銳度)。將這些源短片編碼為H.264/AVC格式的視頻流,分辨率介于384x288到1920x1080之間,碼率介于375kbps到20,000kbps之間,最終獲得了大約300個(gè)畸變(Distorted)視頻。這些視頻涵蓋了很大范圍的視頻碼率和分辨率,足以反映實(shí)際生活中多種多樣的網(wǎng)絡(luò)環(huán)境。

接著,通過主觀測(cè)試確定非專業(yè)觀察者對(duì)于源短片編碼后視頻畫質(zhì)損失的評(píng)價(jià)。參考視頻和畸變視頻將按順序顯示在家用級(jí)別的電視機(jī)上。如果畸變視頻編碼后的分辨率小于參考視頻,則會(huì)首先放大至源分辨率隨后才顯示在電視上。將所有觀察者針對(duì)每個(gè)畸變視頻的分?jǐn)?shù)匯總在一起計(jì)算出微分平均意見分?jǐn)?shù)(Differential Mean Opinion Score)即DMOS,并換算成0-100的標(biāo)準(zhǔn)分,其中100分是指參考視頻的分?jǐn)?shù)。

四、評(píng)價(jià)的結(jié)果:

Netflix 推出了二維散點(diǎn)圖來說明上面分析的結(jié)果,我從中選取四幅有代表性的散點(diǎn)圖。

散點(diǎn)圖中,橫軸對(duì)應(yīng)了觀察者給出的DMOS分?jǐn)?shù),縱軸對(duì)應(yīng)了不同質(zhì)量指標(biāo)預(yù)測(cè)的分?jǐn)?shù)。每一個(gè)點(diǎn)代表了一個(gè)畸變視頻。我們?yōu)橄铝兴膫€(gè)指標(biāo)繪制了散點(diǎn)圖:

  • PSNR亮度分量(Luminancecomponent)

  • SSIM

  • Multiscale FastSSIM

  • PSNR-HVS

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

圖二

注意:相同顏色的點(diǎn)對(duì)應(yīng)了畸變視頻和相應(yīng)參考視頻的結(jié)果。從圖中可以看出,這些指標(biāo)的分?jǐn)?shù)與觀察者給出的DMOS分?jǐn)?shù)并非始終一致。以左上角的PSNR圖為例,PSNR值約為35dB,而“人工校正”的DMOS值的范圍介于10(存在惱人的畫質(zhì)損失)到100(畫質(zhì)損失幾乎不可察覺)之間。

上圖中的專有名詞:

斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman’srank correlation coefficient,SRCC)

皮爾森積差相關(guān)系數(shù)(Pearsonproduct-moment correlation coefficient,PCC)

上面的SRCC, PCC屬于概率統(tǒng)計(jì)的概念,可以參考相關(guān)文檔,這兩個(gè)值越大越好。

為了找到一個(gè)有效的評(píng)價(jià)標(biāo)準(zhǔn),必須選定一個(gè)有效的指標(biāo),指標(biāo)必須呈現(xiàn)與DMOS 有限的單調(diào)性。下圖中選定了三個(gè)典型的參考視頻:一個(gè)高噪聲視頻,一個(gè)CG動(dòng)漫,一個(gè)電視劇,并用每個(gè)視頻的不同畸變版本的預(yù)測(cè)分?jǐn)?shù)與DMOS分?jǐn)?shù)創(chuàng)建散點(diǎn)圖。為了獲得有效的相對(duì)質(zhì)量分?jǐn)?shù),我們希望不同視頻短片在質(zhì)量曲線的相同范圍內(nèi)可以實(shí)現(xiàn)一致的斜率(Slope)。

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

PSNR散點(diǎn)圖中,在34dB到36dB的范圍內(nèi),電視劇PSNR數(shù)值大約2dB的變化對(duì)應(yīng)的DMOS數(shù)值變化約為50(50到100),但CG動(dòng)漫同樣范圍內(nèi)類似的2dB數(shù)值變化對(duì)應(yīng)的DMOS數(shù)值變化低于20(40到60)。雖然CG動(dòng)漫和電視劇短片的SSIM和FastSSIM體現(xiàn)出更為一致的斜率但表現(xiàn)依然不夠理想。

簡(jiǎn)單總結(jié)來說,傳統(tǒng)指標(biāo)不適合用來評(píng)價(jià)視頻質(zhì)量。為了解決這一問題,我們使用了一種基于機(jī)器學(xué)習(xí)的模型設(shè)計(jì)能真實(shí)反映人對(duì)視頻質(zhì)量感知情況的指標(biāo)。下文將介紹這一指標(biāo)。

五、 VMAF 方法:

基本想法:

面對(duì)不同特征的源內(nèi)容、失真類型,以及扭曲程度,每個(gè)基本指標(biāo)各有優(yōu)劣。通過使用機(jī)器學(xué)習(xí)算法(支持向量機(jī)(Support Vector Machine,SVM)回歸因子)將基本指標(biāo)“融合”為一個(gè)最終指標(biāo),可以為每個(gè)基本指標(biāo)分配一定的權(quán)重,這樣最終得到的指標(biāo)就可以保留每個(gè)基本指標(biāo)的所有優(yōu)勢(shì),借此可得出更精確的最終分?jǐn)?shù)。我們還使用主觀實(shí)驗(yàn)中獲得的意見分?jǐn)?shù)對(duì)這個(gè)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練和測(cè)試。

VMAF可在支持向量機(jī)(SVM)回歸因子中使用下列基本指標(biāo)進(jìn)行融合:

  1. 視覺信息保真度(Visual Information Fidelity,VIF):

VIF是一種獲得廣泛使用的圖像質(zhì)量指標(biāo),在最初的形式中,VIF分?jǐn)?shù)是通過將四個(gè)尺度(Scale)下保真度的丟失情況結(jié)合在一起衡量的。在VMAF中我們使用了一種改進(jìn)版的VIF,將每個(gè)尺度下保真度的丟失看作一種基本指標(biāo)。

  1. 細(xì)節(jié)丟失指標(biāo)(Detail LossMetric,DLM):

LM是一種圖像質(zhì)量指標(biāo),其基本原理在于:分別衡量可能影響到內(nèi)容可見性的細(xì)節(jié)丟失情況,以及可能分散觀眾注意力的不必要損失。這個(gè)指標(biāo)最初會(huì)將DLM和Additive Impairment Measure(AIM)結(jié)合在一起算出最終分?jǐn)?shù)。

  1. 運(yùn)動(dòng):

這是一種衡量相鄰幀之間時(shí)域差分的有效措施。計(jì)算像素亮度分量的均值反差即可得到該值。

下列散點(diǎn)圖對(duì)所選參考短片(高噪聲視頻、CG動(dòng)漫、電視?。┑贸龅腣MAF指標(biāo)分?jǐn)?shù)。為了方便對(duì)比,我們也附上了上文提到的結(jié)果最理想的PSNR-HVS指標(biāo)散點(diǎn)圖。無疑VMAF的效果更好。

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

六 總結(jié):

改善視頻壓縮標(biāo)準(zhǔn),以更智能的方式確定最實(shí)用的編碼系統(tǒng)和編碼一整套參數(shù),這些要求在當(dāng)今的互聯(lián)網(wǎng)大環(huán)境中十分重要。我們認(rèn)為,使用傳統(tǒng)的指標(biāo)會(huì)妨礙到視頻編碼技術(shù)領(lǐng)域的技術(shù)進(jìn)步,然而單純依賴人工視覺測(cè)試在很多情況下并不可行。因此我們希望VMAF能解決這一問題,使用來自我們內(nèi)容中的樣本幫助大家設(shè)計(jì)和驗(yàn)證算法。

七 、拓展:

  1. per title 編碼:

我們希望能利用VMAF 繪制每一個(gè)clip 的不同分辨率下的bitrate vs MOS 的曲線圖,并保存這個(gè)曲線圖。在實(shí)際點(diǎn)播的時(shí)候,根據(jù)resolution,MOS 選擇一個(gè)最佳的bitrate,來編碼:

下面是我繪制的Bkimono_1920x1080_8_24_240.yuv 的散點(diǎn)圖:

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

設(shè)置編碼參數(shù)時(shí),如果需要達(dá)到MOS=80的清晰度,bitrate 可以選擇2.0MB. 可以看出當(dāng)bitrate 超過3MB 后,MOS 值變化非常緩慢,對(duì)于指定的MOS 值,我們可以選擇一個(gè)bitrate 下降20%甚至更多的bitrate的編碼參數(shù),但是MOS 不會(huì)下降1%。

這中方法相比單純通過優(yōu)化編碼器的方法,效果要明顯很多,智能很多,同時(shí)實(shí)現(xiàn)起來要容易。應(yīng)該就是當(dāng)前窄帶高清的理念了。

  1. per trunk 編碼:

對(duì)于每一個(gè)clip 而言,不同的gop,或者不同的時(shí)間段,視頻流的細(xì)節(jié)和運(yùn)動(dòng)特點(diǎn)不一樣,可以用VMAF 的方法為每一個(gè)時(shí)間段做評(píng)價(jià),進(jìn)而實(shí)時(shí)調(diào)整編碼參數(shù),在同樣的質(zhì)量前提下,盡量降低碼率。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI