溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

發(fā)布時(shí)間：2020-04-10 04:25:27 來源：網(wǎng)絡(luò) 閱讀：30958 作者：wx5ab20aeb8bf48 欄目：web開發(fā)

作者介紹：姜生，PP云高級(jí)技術(shù)經(jīng)理，10余年視頻編解碼算法設(shè)計(jì)優(yōu)化，流媒體應(yīng)用等領(lǐng)域開發(fā)經(jīng)驗(yàn)。

一、VMAF 技術(shù)介紹：

VMAF 的全稱是：Visual Multimethod Assessment Fusion，視頻質(zhì)量多方法評(píng)價(jià)融合。這項(xiàng)技術(shù)是由美國Netflix公司開發(fā)的一套主觀視頻質(zhì)量評(píng)價(jià)體系。2016年1月，VMAF 正式開源；

下載地址：

https://github.com/Netflix/vmaf

二、通行視頻質(zhì)量評(píng)價(jià)方法的局限：

評(píng)價(jià)一個(gè)編碼后的視頻流與壓縮前的視頻流質(zhì)量對(duì)比值，通行的方法是PSNR(峰值信噪比)，或者SSIM(結(jié)構(gòu)相似度)。這些是客觀評(píng)價(jià)方法。這些方法評(píng)價(jià)的結(jié)果與主觀的感受有時(shí)候相差很大，請(qǐng)看下圖(來自Netflix 的官網(wǎng))：

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

圖一

上面四幅圖，取自4幅靜態(tài)畫面，畸變程度不一樣。用PSNR指標(biāo)來評(píng)分，上面兩幅圖的PSNR值大約為31dB, 下方兩個(gè)的PSNR值約為34dB，這表明上面兩幅圖PNSR 值相當(dāng)，下面兩幅圖的PSNR值也相當(dāng)。如果讓人眼來主觀評(píng)價(jià)呢，對(duì)于左側(cè)上下兩幅“人群”圖片，很難察覺有何差異，但是右側(cè)兩幅“狐貍”視頻的差異就很明顯了。Netflix綜合不同觀眾的評(píng)價(jià)，對(duì)上下兩個(gè)“人群”給出的主觀分?jǐn)?shù)是82(上方)和96(下方)，而兩個(gè)“狐貍”的分?jǐn)?shù)分別是27(上方)和58(下方)。

上面的示例說明PSNR一類的客觀評(píng)價(jià)與實(shí)際的主觀感受相差較大。這說明這種方法不足以全面正確的評(píng)價(jià)視頻的質(zhì)量，為此Netflix 決定尋找新的方法。

三、Neflix對(duì)視頻源特性的分析：

收集與用例密切相關(guān)的數(shù)據(jù)集：

雖然針對(duì)視頻質(zhì)量指標(biāo)的設(shè)計(jì)和測(cè)試已經(jīng)有可以公開使用的數(shù)據(jù)庫，但這些數(shù)據(jù)庫的內(nèi)容缺乏多樣性。而多樣性正是流媒體服務(wù)的最大特點(diǎn)。由于視頻質(zhì)量的評(píng)估遠(yuǎn)不僅僅是壓縮失真的評(píng)估，所以應(yīng)該考慮更廣范圍的畫質(zhì)損失，不僅有壓縮導(dǎo)致的損失，還有傳輸過程中的損失、隨機(jī)噪聲，以及幾何變形等情況。

視頻源的特性：

作為流媒體公司， Netflix 提供了適合各類人群觀看的大量影視內(nèi)容，例如兒童內(nèi)容、動(dòng)漫、動(dòng)作片、紀(jì)錄片，視頻講座等. 另外這些內(nèi)容還包含各種底層源素材特征，例如膠片顆粒、傳感器噪聲、計(jì)算機(jī)生成的材質(zhì)、始終暗淡的場(chǎng)景或非常明亮的色彩等。過去通行的質(zhì)量指標(biāo)并沒有考慮不同類型的源內(nèi)容，如動(dòng)漫或者視頻講座一類，也未考慮膠片顆粒，而在專業(yè)娛樂內(nèi)容中這些都是非常普遍的信號(hào)特征。

失真的來源：

一般而言，流播視頻是通過TCP傳輸?shù)模瑏G包和誤碼絕對(duì)不會(huì)導(dǎo)致視覺損失。這就使得編碼過程中的兩類失真最終影響到觀眾所感受到的體驗(yàn)質(zhì)量（QoE）：壓縮失真以及縮放失真。

為了針對(duì)不同的用例構(gòu)建數(shù)據(jù)集，Netflix選擇了34個(gè)源短片作為樣本(參考視頻)，每個(gè)短片長(zhǎng)度是6秒，主要來自于流行的電視劇和電影。源短片包含具備各種高級(jí)特征的內(nèi)容（動(dòng)漫、室內(nèi)/室外、鏡頭搖移、面部拉近、人物、水面、顯著的物體、多個(gè)物體）以及各種底層特性（膠片噪聲、亮度、對(duì)比度、材質(zhì)、活動(dòng)、顏色變化、色澤濃郁度、銳度）。將這些源短片編碼為H.264/AVC格式的視頻流，分辨率介于384x288到1920x1080之間，碼率介于375kbps到20,000kbps之間，最終獲得了大約300個(gè)畸變（Distorted）視頻。這些視頻涵蓋了很大范圍的視頻碼率和分辨率，足以反映實(shí)際生活中多種多樣的網(wǎng)絡(luò)環(huán)境。

接著，通過主觀測(cè)試確定非專業(yè)觀察者對(duì)于源短片編碼后視頻畫質(zhì)損失的評(píng)價(jià)。參考視頻和畸變視頻將按順序顯示在家用級(jí)別的電視機(jī)上。如果畸變視頻編碼后的分辨率小于參考視頻，則會(huì)首先放大至源分辨率隨后才顯示在電視上。將所有觀察者針對(duì)每個(gè)畸變視頻的分?jǐn)?shù)匯總在一起計(jì)算出微分平均意見分?jǐn)?shù)（Differential Mean Opinion Score）即DMOS，并換算成0-100的標(biāo)準(zhǔn)分，其中100分是指參考視頻的分?jǐn)?shù)。

四、評(píng)價(jià)的結(jié)果：

Netflix 推出了二維散點(diǎn)圖來說明上面分析的結(jié)果，我從中選取四幅有代表性的散點(diǎn)圖。

散點(diǎn)圖中，橫軸對(duì)應(yīng)了觀察者給出的DMOS分?jǐn)?shù)，縱軸對(duì)應(yīng)了不同質(zhì)量指標(biāo)預(yù)測(cè)的分?jǐn)?shù)。每一個(gè)點(diǎn)代表了一個(gè)畸變視頻。我們?yōu)橄铝兴膫€(gè)指標(biāo)繪制了散點(diǎn)圖：

PSNR亮度分量（Luminancecomponent）
SSIM
Multiscale FastSSIM
PSNR-HVS

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

圖二

注意：相同顏色的點(diǎn)對(duì)應(yīng)了畸變視頻和相應(yīng)參考視頻的結(jié)果。從圖中可以看出，這些指標(biāo)的分?jǐn)?shù)與觀察者給出的DMOS分?jǐn)?shù)并非始終一致。以左上角的PSNR圖為例，PSNR值約為35dB，而“人工校正”的DMOS值的范圍介于10（存在惱人的畫質(zhì)損失）到100（畫質(zhì)損失幾乎不可察覺）之間。

上圖中的專有名詞：

斯皮爾曼等級(jí)相關(guān)系數(shù)（Spearman’srank correlation coefficient，SRCC）

皮爾森積差相關(guān)系數(shù)（Pearsonproduct-moment correlation coefficient，PCC）

上面的SRCC, PCC屬于概率統(tǒng)計(jì)的概念，可以參考相關(guān)文檔，這兩個(gè)值越大越好。

為了找到一個(gè)有效的評(píng)價(jià)標(biāo)準(zhǔn)，必須選定一個(gè)有效的指標(biāo)，指標(biāo)必須呈現(xiàn)與DMOS 有限的單調(diào)性。下圖中選定了三個(gè)典型的參考視頻：一個(gè)高噪聲視頻，一個(gè)CG動(dòng)漫，一個(gè)電視劇，并用每個(gè)視頻的不同畸變版本的預(yù)測(cè)分?jǐn)?shù)與DMOS分?jǐn)?shù)創(chuàng)建散點(diǎn)圖。為了獲得有效的相對(duì)質(zhì)量分?jǐn)?shù)，我們希望不同視頻短片在質(zhì)量曲線的相同范圍內(nèi)可以實(shí)現(xiàn)一致的斜率（Slope）。

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

PSNR散點(diǎn)圖中，在34dB到36dB的范圍內(nèi)，電視劇PSNR數(shù)值大約2dB的變化對(duì)應(yīng)的DMOS數(shù)值變化約為50（50到100），但CG動(dòng)漫同樣范圍內(nèi)類似的2dB數(shù)值變化對(duì)應(yīng)的DMOS數(shù)值變化低于20（40到60）。雖然CG動(dòng)漫和電視劇短片的SSIM和FastSSIM體現(xiàn)出更為一致的斜率但表現(xiàn)依然不夠理想。

簡(jiǎn)單總結(jié)來說，傳統(tǒng)指標(biāo)不適合用來評(píng)價(jià)視頻質(zhì)量。為了解決這一問題，我們使用了一種基于機(jī)器學(xué)習(xí)的模型設(shè)計(jì)能真實(shí)反映人對(duì)視頻質(zhì)量感知情況的指標(biāo)。下文將介紹這一指標(biāo)。

五、 VMAF 方法：

基本想法：

面對(duì)不同特征的源內(nèi)容、失真類型，以及扭曲程度，每個(gè)基本指標(biāo)各有優(yōu)劣。通過使用機(jī)器學(xué)習(xí)算法（支持向量機(jī)（Support Vector Machine，SVM）回歸因子）將基本指標(biāo)“融合”為一個(gè)最終指標(biāo)，可以為每個(gè)基本指標(biāo)分配一定的權(quán)重，這樣最終得到的指標(biāo)就可以保留每個(gè)基本指標(biāo)的所有優(yōu)勢(shì)，借此可得出更精確的最終分?jǐn)?shù)。我們還使用主觀實(shí)驗(yàn)中獲得的意見分?jǐn)?shù)對(duì)這個(gè)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練和測(cè)試。

VMAF可在支持向量機(jī)（SVM）回歸因子中使用下列基本指標(biāo)進(jìn)行融合：

視覺信息保真度（Visual Information Fidelity，VIF）：

VIF是一種獲得廣泛使用的圖像質(zhì)量指標(biāo)，在最初的形式中，VIF分?jǐn)?shù)是通過將四個(gè)尺度（Scale）下保真度的丟失情況結(jié)合在一起衡量的。在VMAF中我們使用了一種改進(jìn)版的VIF，將每個(gè)尺度下保真度的丟失看作一種基本指標(biāo)。

細(xì)節(jié)丟失指標(biāo)（Detail LossMetric，DLM）：

LM是一種圖像質(zhì)量指標(biāo)，其基本原理在于：分別衡量可能影響到內(nèi)容可見性的細(xì)節(jié)丟失情況，以及可能分散觀眾注意力的不必要損失。這個(gè)指標(biāo)最初會(huì)將DLM和Additive Impairment Measure（AIM）結(jié)合在一起算出最終分?jǐn)?shù)。

運(yùn)動(dòng)：

這是一種衡量相鄰幀之間時(shí)域差分的有效措施。計(jì)算像素亮度分量的均值反差即可得到該值。

下列散點(diǎn)圖對(duì)所選參考短片（高噪聲視頻、CG動(dòng)漫、電視?。┑贸龅腣MAF指標(biāo)分?jǐn)?shù)。為了方便對(duì)比，我們也附上了上文提到的結(jié)果最理想的PSNR-HVS指標(biāo)散點(diǎn)圖。無疑VMAF的效果更好。

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

六總結(jié)：

改善視頻壓縮標(biāo)準(zhǔn)，以更智能的方式確定最實(shí)用的編碼系統(tǒng)和編碼一整套參數(shù)，這些要求在當(dāng)今的互聯(lián)網(wǎng)大環(huán)境中十分重要。我們認(rèn)為，使用傳統(tǒng)的指標(biāo)會(huì)妨礙到視頻編碼技術(shù)領(lǐng)域的技術(shù)進(jìn)步，然而單純依賴人工視覺測(cè)試在很多情況下并不可行。因此我們希望VMAF能解決這一問題，使用來自我們內(nèi)容中的樣本幫助大家設(shè)計(jì)和驗(yàn)證算法。

七、拓展：

per title 編碼：

我們希望能利用VMAF 繪制每一個(gè)clip 的不同分辨率下的bitrate vs MOS 的曲線圖，并保存這個(gè)曲線圖。在實(shí)際點(diǎn)播的時(shí)候，根據(jù)resolution，MOS 選擇一個(gè)最佳的bitrate，來編碼：

下面是我繪制的Bkimono_1920x1080_8_24_240.yuv 的散點(diǎn)圖：

干貨 | VMAF視頻質(zhì)量評(píng)估在視頻云轉(zhuǎn)碼中的應(yīng)用

設(shè)置編碼參數(shù)時(shí)，如果需要達(dá)到MOS=80的清晰度，bitrate 可以選擇2.0MB. 可以看出當(dāng)bitrate 超過3MB 后，MOS 值變化非常緩慢，對(duì)于指定的MOS 值，我們可以選擇一個(gè)bitrate 下降20%甚至更多的bitrate的編碼參數(shù)，但是MOS 不會(huì)下降1%。

這中方法相比單純通過優(yōu)化編碼器的方法，效果要明顯很多，智能很多，同時(shí)實(shí)現(xiàn)起來要容易。應(yīng)該就是當(dāng)前窄帶高清的理念了。

per trunk 編碼：

對(duì)于每一個(gè)clip 而言，不同的gop，或者不同的時(shí)間段，視頻流的細(xì)節(jié)和運(yùn)動(dòng)特點(diǎn)不一樣，可以用VMAF 的方法為每一個(gè)時(shí)間段做評(píng)價(jià)，進(jìn)而實(shí)時(shí)調(diào)整編碼參數(shù)，在同樣的質(zhì)量前提下，盡量降低碼率。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
mysql中創(chuàng)建用戶自定義函數(shù)
下一篇新聞：
Dnscrypt_wrapper 服務(wù)端的安裝與配置

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼