您好,登錄后才能下訂單哦!
2020-03-13 09:21 |
隨著科技的發(fā)展,現(xiàn)在人們可以隨時(shí)隨地用手機(jī)等設(shè)備拍照記錄自己喜歡的瞬間??赡懿簧偃硕枷脒^,假如出現(xiàn)一種黑科技,讓我們拍攝的平面 2D 照片變成立體的 3D 照片......
Facebook 也早就想到了這個(gè)問題。為改善用戶體驗(yàn),2018 年,F(xiàn)acebook 就推出了 3D 照片功能。這是一種全新的沉浸式格式,你可以用它與朋友、家人分享照片。但是,這項(xiàng)功能依賴于高端智能手機(jī)才具備的雙鏡頭「肖像模式」功能,無法在尋常的移動(dòng)設(shè)備上使用。
為了讓更多人體驗(yàn)到這種新的視覺格式,F(xiàn)acebook 利用機(jī)器學(xué)習(xí)開發(fā)了一個(gè)系統(tǒng)。這個(gè)系統(tǒng)可以推斷出任何圖像的 3D 結(jié)構(gòu),任何設(shè)備、任何時(shí)間拍攝的圖像都可以被轉(zhuǎn)換成 3D 形式。這就可以讓人們輕松使用 3D 照片技術(shù)。
不僅如此,它還可以處理幾十年前的家庭照片和其它珍貴圖像。任何擁有 iPhone7 及以上版本,或中端以上 Android 設(shè)備的人,現(xiàn)在都可以在 Facebook 應(yīng)用程序中嘗試這個(gè)功能。
估計(jì) 2D 圖像不同區(qū)域的深度,以創(chuàng)建 3D 圖像
構(gòu)建這種增強(qiáng)的 3D 圖片需要克服不少技術(shù)挑戰(zhàn),例如,要訓(xùn)練一個(gè)能夠正確推斷各種主題 3D 位置的模型,并優(yōu)化系統(tǒng),使其能夠在 1 秒鐘內(nèi)運(yùn)行在典型的移動(dòng)處理器設(shè)備上。為了克服這些挑戰(zhàn),F(xiàn)acebook 在數(shù)百萬公共 3D 圖像及其附帶的深度圖上訓(xùn)練了卷積神經(jīng)網(wǎng)絡(luò)(CNN),并利用 Facebook AI 之前開發(fā)的各種移動(dòng)優(yōu)化技術(shù),如 FBNet 和 ChamNet。團(tuán)隊(duì)最近也討論了 3D 理解的 相關(guān)研究。
現(xiàn)在,所有使用 Facebook 的人都可以使用這個(gè)功能,那么,它究竟是如何構(gòu)建的?我們可以一起來看看其中的技術(shù)細(xì)節(jié)。
小狗的原始照片是用單鏡頭相機(jī)拍攝的,沒有任何深度圖數(shù)據(jù),系統(tǒng)將其轉(zhuǎn)換成了上圖顯示的 3D 圖像
在移動(dòng)設(shè)備上提供高效性能
給定一個(gè)標(biāo)準(zhǔn)的 RGB 圖像,3D Photos CNN(3D 照片卷積神經(jīng)網(wǎng)絡(luò))可以估計(jì)每個(gè)像素與攝像機(jī)的距離。研究人員通過四種方式實(shí)現(xiàn)了這一目標(biāo):
使用一組可參數(shù)化、可移動(dòng)優(yōu)化的神經(jīng)構(gòu)建塊構(gòu)建網(wǎng)絡(luò)架構(gòu);
自動(dòng)化架構(gòu)搜索,以找到這些塊的有效配置,使系統(tǒng)能夠在不到 1 秒鐘的時(shí)間內(nèi)在各種設(shè)備上執(zhí)行任務(wù);
量化感知訓(xùn)練,在移動(dòng)設(shè)備上利用高性能 INT8 量化,同時(shí)使量化過程中的性能下降最小化;
從公開的 3D 照片獲取大量的訓(xùn)練數(shù)據(jù)。
神經(jīng)構(gòu)建塊
Facebook 的架構(gòu)使用受 FBNet 的構(gòu)建塊啟發(fā)。FBNet 是一個(gè)為移動(dòng)設(shè)備等資源受限的設(shè)備優(yōu)化 ConvNet 架構(gòu)的框架。一個(gè)構(gòu)建塊由逐點(diǎn)卷積(pointwise convolution)、可選的上采樣、kxk 深度卷積和附加的點(diǎn)逐點(diǎn)卷積組成。Facebook 實(shí)現(xiàn)了一個(gè) U-net 風(fēng)格的架構(gòu),該架構(gòu)已被修改為沿著跳過連接放置 FBNet 構(gòu)建塊。U-net 編碼器和解碼器各包含 5 個(gè)階段,每個(gè)階段對(duì)應(yīng)不同的空間分辨率。
網(wǎng)絡(luò)架構(gòu)概述:一個(gè) U-net 沿著跳過的連接放置額外的宏級(jí)構(gòu)建塊
自動(dòng)化架構(gòu)搜索
為了找到一個(gè)有效的架構(gòu)配置,F(xiàn)acebook AI 開發(fā)的 ChamNet 算法自動(dòng)完成搜索過程。ChamNet 算法不斷從搜索空間中抽取點(diǎn)來訓(xùn)練精度預(yù)測(cè)器。該精度預(yù)測(cè)器用于加速遺傳搜索,以找到在滿足特定資源約束的情況下,使預(yù)測(cè)精度最大化的模型。
這個(gè)設(shè)置中使用了一個(gè)搜索空間,它可以改變通道擴(kuò)展因子和每個(gè)塊的輸出通道數(shù),從而產(chǎn)生 3.4x1022 種可能的體系結(jié)構(gòu)。然后,F(xiàn)acebook 使用 800 Tesla V100 GPU 在大約三天內(nèi)完成搜索,設(shè)置并調(diào)整模型架構(gòu)上的 FLOP 約束,以實(shí)現(xiàn)不同的操作點(diǎn)。
量化感知訓(xùn)練
默認(rèn)情況下,其模型使用單精度浮點(diǎn)權(quán)值和激活進(jìn)行訓(xùn)練,但研究人員發(fā)現(xiàn),將權(quán)值和激活量化為 8 位具有顯著的優(yōu)勢(shì)。尤其是,int8 權(quán)重只需要 float32 權(quán)重所需存儲(chǔ)量的四分之一,從而減少首次使用時(shí)必須傳輸?shù)皆O(shè)備的字節(jié)數(shù)。
每幅圖像都是從一個(gè)規(guī)則的 2D 圖像開始,然后用深度估計(jì)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換成 3D 圖像
與基于 float32 的運(yùn)算符相比,基于 Int8 的運(yùn)算符的吞吐量也要高得多,這要?dú)w功于 Facebook AI 的 QNNPACK 等經(jīng)過優(yōu)化的庫,后者已經(jīng)集成到 PyTorch 中。我們使用量化感知訓(xùn)練(QAT)來避免量化導(dǎo)致的質(zhì)量下降。QAT 現(xiàn)在是 PyTorch 的一部分,它在訓(xùn)練期間模擬量化并支持反向傳播,從而消除了訓(xùn)練和生產(chǎn)性能之間的差距。
神經(jīng)網(wǎng)絡(luò)處理各種內(nèi)容,包括繪畫和復(fù)雜場(chǎng)景的圖像
尋找創(chuàng)造 3D 體驗(yàn)的新方法
除了改進(jìn)深度估計(jì)算法之外,研究人員還致力于為移動(dòng)設(shè)備拍攝的視頻提供高質(zhì)量的深度估計(jì)。
由于每個(gè)幀的深度必須與下一幀一致,視頻處理技術(shù)具有一定挑戰(zhàn)性,但它也是一個(gè)提高性能的機(jī)會(huì)。對(duì)同一物體進(jìn)行多次觀測(cè),可以為高精度的深度估計(jì)提供額外的信號(hào)。隨著 Facebook 神經(jīng)網(wǎng)絡(luò)性能的不斷提高,團(tuán)隊(duì)還將探索在實(shí)時(shí)應(yīng)用(如增強(qiáng)現(xiàn)實(shí))中利用深度估計(jì)、曲面法向估計(jì)和空間推理等技術(shù)。
除了這些潛在的新經(jīng)驗(yàn),這項(xiàng)工作將幫助研究人員更好地理解 2D 圖像的內(nèi)容。更好地理解 3D 場(chǎng)景還可以幫助機(jī)器人導(dǎo)航以及與物理世界互動(dòng)。Facebook 希望通過分享 3D 圖片系統(tǒng)的細(xì)節(jié),幫助人工智能社區(qū)在這些領(lǐng)域取得進(jìn)展,并創(chuàng)造利用先進(jìn)的 3D 新體驗(yàn)。
via: https://ai.facebook.com/blog/-powered-by-ai-turning-any-2d-photo-into-3d-using-convolutional-neural-nets/
https://www.leiphone.com/news/202003/CVEKRbNuCKTGR5Xw.html
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。