您好,登錄后才能下訂單哦!
人貨場的思路是整個(gè)新零售數(shù)字化鏈路的核心,人是整個(gè)業(yè)務(wù)生命周期的起始點(diǎn),圖像算法的首要目標(biāo)就是從圖像中得到“人” 。前一篇我們主要講了Face ID的發(fā)展,F(xiàn)ace ID幫助商家賦能了線下用戶畫像,把視覺計(jì)算的熱情帶到支付、安防等各行各業(yè)。
誠然,分析人的方式多種多樣,各種分析行人的算法中,F(xiàn)ace算法在其中有著得天獨(dú)厚的優(yōu)勢,它在驗(yàn)證身份方面是最精準(zhǔn)的(可以精確到支付驗(yàn)證),但Face算法在數(shù)量統(tǒng)計(jì)的準(zhǔn)確度肯定不是最優(yōu)的。因?yàn)楹芏鄨鼍跋碌腇ace ID受到了光照遮擋的影響,質(zhì)量參差不齊,所以基于行人身體的識別訴求便越來越強(qiáng)。
我們常說一套算法系統(tǒng)是一個(gè)此消彼長,魚和熊掌不能完美兼得的,這里的魚指的是準(zhǔn)確率--精確的識別人(face技術(shù)),熊掌指的是召回率--全面抓到行人(body技術(shù))。只有當(dāng)face技術(shù)和body技術(shù)緊密結(jié)合時(shí),我們整個(gè)場景人的分析才能全面覆蓋,人這個(gè)維度分析才能更有價(jià)值。那么下面我將著重講講整個(gè)行人識別的整體技術(shù)鏈路。
通過計(jì)算機(jī)視覺信號對人的相關(guān)信息進(jìn)行結(jié)構(gòu)化提取,第一步通常是人體檢測。由于奇點(diǎn)云商業(yè)賦能的相關(guān)產(chǎn)品和系統(tǒng)在廣泛的商業(yè)場景中大量鋪開,所以對人體檢測的魯棒性提出了較高的要求。在無約束的視覺場景下,人體檢測主要碰到的問題有:
尺度變化大:人的身材大小不一,大人和小孩的比列會相差很大。行人距離攝像頭的遠(yuǎn)近也會造成很大的尺度變化。尤其是這兩種尺度問題疊加,造成的困難就更大了。
人體姿態(tài)變化大:直立行走、彎腰勞動(dòng)、坐著休息、三五結(jié)伴等等,都會帶來人體形態(tài)的巨大變化。
攝像頭造成的畸變:目前行人檢測所賦能的場景和商業(yè)盈利的要求,都對行人檢測相關(guān)硬件的成本做出了比較大的限制。所以,由于攝像頭本身成像質(zhì)量和部署所帶來的圖像畸變是很常見的,而這對人體檢測又帶來了很大干擾。
影像模糊:行人檢測訓(xùn)練中,由于行人所在的場景及其廣泛,作為負(fù)樣本的背景常帶有形狀、紋理、外觀等于人體相像的景狀物,加上光照角度等影響,使得一些負(fù)樣本可以以假亂真。
遮擋:在行人密集的場景中,行人之間會互相遮擋,在不同的場景中穿梭,也常常使得部署位置固定的攝像頭無法完整地檢測到人體,這也對人體檢測帶來了很大困難。
StartDT AI Lab針對以上的一系列問題,展開了針對性的攻堅(jiān)工作:
?在數(shù)據(jù)準(zhǔn)備上,下了很大的成本,通過自行標(biāo)注整理,形成了百萬級的數(shù)據(jù)樣本庫,尤其在零售商業(yè)場景下的行人標(biāo)注,積累十分豐富。
?在模型算法方面,充分借鑒了目前主流的鋪設(shè)錨點(diǎn)框和新近取得較大突破的關(guān)鍵點(diǎn)檢測類的方法。通過不斷的迭代和實(shí)驗(yàn),目前算法在準(zhǔn)確率和召回率方面都已經(jīng)可以充分滿足當(dāng)前業(yè)務(wù)場景下的人體檢測任務(wù)。
?在模型推斷速度的提升方面,StartDT AI Lab主要從兩方面入手來壓縮模型計(jì)算復(fù)雜性。一方面,壓縮backbone神經(jīng)網(wǎng)絡(luò),在盡可能不降低特征提取性能的前提下,減小backbone尺寸。另一方面,優(yōu)化檢測頭模塊,保障檢測器整體性能不降低。通過不斷的版本迭代,目前模型尺寸已經(jīng)只有第一代模型的十分之一以下,在同等計(jì)算資源下,模型的處理效率有了巨大的提升。
行人重識別的技術(shù)本身是從度量學(xué)習(xí)這個(gè)大類脫胎而來,和人臉識別要解決的是一類問題——檢索。通過檢索,我們希望行人的空間信息和時(shí)間信息能夠關(guān)聯(lián)和聚類到一起,那么重識別就很容易理解了,在一個(gè)攝像頭出現(xiàn)的某個(gè)行人,如果我們可以找出在其他攝像頭中出現(xiàn)的蹤跡,那么就完成了一次跨境追蹤。
試想這樣的場景如果在迪斯尼樂園/機(jī)場/大學(xué)校園里和孩子走散了,除了廣播“xx小朋友你的家長在廣播室等你”的被動(dòng)方式。我們可以翻開實(shí)點(diǎn)圖就找到熊孩子。而實(shí)點(diǎn)圖就可以通過重識別來實(shí)現(xiàn):主動(dòng)輸入小朋友的照片,檢索多個(gè)不同位置的攝像頭下的當(dāng)前幀,找到熊孩子的出現(xiàn)攝像頭。最后聯(lián)系攝像頭的位置,就可以定位孩子了。這個(gè)應(yīng)用同樣也可以用來找小偷/保護(hù)vip等等。這樣的想象空間確實(shí)給人以極大的振奮,但如此具有未來感的畫面也不是一蹴而就的。StartDT AI Lab背后大量的技術(shù)支撐才能有讓行人重識別技術(shù)發(fā)揮其應(yīng)有的作用:
1.Body-Tracking機(jī)制:在視頻結(jié)構(gòu)中的行人追蹤可以規(guī)約為多目標(biāo)跟蹤問題,我們主要通過濾波和貪心算法結(jié)合的手段整合每個(gè)行人ID所關(guān)聯(lián)的信息,在短時(shí)間的范圍內(nèi),追蹤可以將某個(gè)行人的行人框根據(jù)前后幀的關(guān)聯(lián)性,快速匹配,這樣的好處有兩點(diǎn):一個(gè)是增加空間的連續(xù)性,在一段視頻幀中前后幀之間有著行人的空間信息,追蹤就可以將它們的空間信息統(tǒng)一在一起;二是節(jié)約了計(jì)算成本,在整個(gè)追蹤過程中只需有代表性的分析某幀數(shù)據(jù),便可以對整體信息有一個(gè)較高維度的把控。
2.人體骨骼點(diǎn)分析:對于行人重識別來說,通過計(jì)算機(jī)視覺技術(shù),獲取人體的骨骼點(diǎn),這些關(guān)鍵點(diǎn)能為行人重識別提供關(guān)鍵先驗(yàn)知識。首先,不是所有檢測出的行人都適合去做重識別,其中不完整的行人,分辨率過低的行人對模型會產(chǎn)生一定的影響,為了避免這些臟數(shù)據(jù)的影響,骨骼點(diǎn)就可以提供一定過濾作用,通過骨骼點(diǎn)數(shù)量我們對行人的完整度有一個(gè)定性的評估。同時(shí),骨骼的位置信息也是我們行人對齊的關(guān)鍵所在,不同的行人的姿態(tài)和位置是需要通過骨骼關(guān)鍵點(diǎn)來完成對齊的,通過對齊行人特征,減少身體部件錯(cuò)位對結(jié)果產(chǎn)生較大影響。
3.Person Re-identification:行人重識別是通過在監(jiān)控視頻中,用Re-ID模型對行人的圖片進(jìn)行特征抽取,這個(gè)特征所呈現(xiàn)的特點(diǎn)是相似的行人距離較近,不同的行人距離較遠(yuǎn),這個(gè)高維度embedding的特征就可以幫助我們找到不同攝像頭下,相同的行人。雖然技術(shù)很新很先進(jìn),但在實(shí)際場景中,我們分析行人圖片時(shí),無法避免的產(chǎn)生了行人不完整的現(xiàn)象,如果我們直接過濾掉這些行人,那么在更高層的數(shù)據(jù)統(tǒng)計(jì)維度產(chǎn)生的系統(tǒng)誤差將為對召回率產(chǎn)生較大影響,在行人不完整時(shí),我們被業(yè)務(wù)倒逼去使用殘缺人體進(jìn)行比對。我們有意在模型訓(xùn)練時(shí)增加這樣的噪音數(shù)據(jù),同時(shí)通過無監(jiān)督的方式對身體特征對齊,提高了算法對不完整行人的魯棒性。
數(shù)據(jù)樣本是人工智能技術(shù)的基礎(chǔ),然而數(shù)據(jù)的積累是極其費(fèi)時(shí)、費(fèi)力又費(fèi)錢的一項(xiàng)工作,盡管當(dāng)前存在一些數(shù)據(jù)可觀的公開數(shù)據(jù)集,然而這些數(shù)據(jù)集本身存在樣本分布不均衡,樣本多樣性差等問題。另外不同應(yīng)用場景下的數(shù)據(jù)分布之間存在一定的區(qū)別,導(dǎo)致模型的泛化能力會嚴(yán)重降低,因此就必須進(jìn)行實(shí)地?cái)?shù)據(jù)標(biāo)注,Re-ID樣本的標(biāo)注尤為困難。
在項(xiàng)目中,由于現(xiàn)場攝像頭畫面的行人數(shù)據(jù)分布與公開數(shù)據(jù)集之間存在巨大domain差異,因此采用公開數(shù)據(jù)集訓(xùn)練的Re-ID模型在該場景下的準(zhǔn)確率較低,無法滿足實(shí)際需求。針對此問題,我們采用生成對抗網(wǎng)絡(luò)(GAN)將公開數(shù)據(jù)集中的行人轉(zhuǎn)化成實(shí)際場景下的圖像風(fēng)格,重新進(jìn)行訓(xùn)練后,模型準(zhǔn)確率提升了50%以上。此外,我們還通過GAN的方式實(shí)現(xiàn)行人姿態(tài)的變化,以提高數(shù)據(jù)集的多樣性;通過注意力機(jī)制,強(qiáng)化學(xué)習(xí)行人除衣著之外的特征(頭部,四肢等),以解決行人換衣導(dǎo)致的準(zhǔn)確率下降的問題。
風(fēng)格遷移:
風(fēng)格遷移前
風(fēng)格遷移后
行人服裝更換:
通過以上技術(shù)展示,讀者對于行人重識別(Re-ID)這項(xiàng)技術(shù)有了全面的了解,也對奇點(diǎn)云對于技術(shù)的極致追求有了新的認(rèn)識。游離在VIP體系之外的稀疏用戶行為,正是通過行人識別技術(shù),將其落袋到整個(gè)客流畫像之中,為動(dòng)線分析,熱力分析提供了可能性。同時(shí)也彌補(bǔ)了Face ID無法作用于廣義統(tǒng)計(jì)維度的短板,StartDT AI Lab通過各種算法相互協(xié)同并取長補(bǔ)短,產(chǎn)生了微妙的化學(xué)反應(yīng),最終重新定義了客流系統(tǒng),將商家的分析維度達(dá)到了新的高度。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。