溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

計(jì)算機(jī)視覺(jué)應(yīng)用:深度學(xué)習(xí)的力量和局限性

發(fā)布時(shí)間:2020-08-18 19:00:57 來(lái)源:ITPUB博客 閱讀:163 作者:AIBigbull2050 欄目:互聯(lián)網(wǎng)科技

2020 年 1 月 20 日 15:14

從人工智能發(fā)展的早期開(kāi)始,計(jì)算機(jī)科學(xué)家就一直夢(mèng)想著創(chuàng)造出能像我們一樣看世界和理解世界的機(jī)器,這些努力推動(dòng)了計(jì)算機(jī)視覺(jué)的出現(xiàn)。
本文最初發(fā)布于 TechTalks 博客,經(jīng)原作者授權(quán)由 InfoQ 中文站翻譯并分享。

計(jì)算機(jī)視覺(jué)應(yīng)用:深度學(xué)習(xí)的力量和局限性

圖片提供:Depositphotos

本文是“ 解密人工智能 ”系列文章的一部分。該系列文章(試圖)消除有關(guān)人工智能的術(shù)語(yǔ)和傳說(shuō)的歧義。

從人工智能發(fā)展的早期開(kāi)始,計(jì)算機(jī)科學(xué)家就一直夢(mèng)想著創(chuàng)造出能像我們一樣看世界和理解世界的機(jī)器。這些努力導(dǎo)致了 計(jì)算機(jī)視覺(jué) 的出現(xiàn),這是人工智能和處理視覺(jué)數(shù)據(jù)內(nèi)容的計(jì)算機(jī)科學(xué)的一個(gè)巨大的子領(lǐng)域。

近年來(lái),由于 深度學(xué)習(xí) 和人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)了飛躍。深度學(xué)習(xí)是人工智能的一個(gè)分支,尤其適合處理圖像和視頻等非結(jié)構(gòu)化數(shù)據(jù)。

這些進(jìn)展為促進(jìn)計(jì)算機(jī)視覺(jué)在現(xiàn)有領(lǐng)域的應(yīng)用和將其引入新領(lǐng)域鋪平了道路。在許多情況下,計(jì)算機(jī)視覺(jué)算法已經(jīng)成為我們?nèi)粘J褂玫膽?yīng)用程序的一個(gè)非常重要的組成部分。

關(guān)于計(jì)算機(jī)視覺(jué)現(xiàn)狀的一些說(shuō)明

先不要對(duì)計(jì)算機(jī)視覺(jué)的進(jìn)步過(guò)于興奮,讓我們了解下當(dāng)前人工智能技術(shù)的局限性,這很重要。雖然有了顯著的改進(jìn),但距離有能像人類(lèi)那樣理解照片和視頻的計(jì)算機(jī)視覺(jué)算法,我們還有很長(zhǎng)的路要走。

目前, 深度神經(jīng)網(wǎng)絡(luò) (計(jì)算機(jī)視覺(jué)系統(tǒng)的核心)非常擅長(zhǎng)像素級(jí)模式匹配。它們?cè)趫D像分類(lèi)和對(duì)象定位方面特別有效。但是,當(dāng)涉及到理解可視化數(shù)據(jù)的上下文和描述不同對(duì)象之間的關(guān)系時(shí),它們常常失效。

該領(lǐng)域的最新工作 顯示,計(jì)算機(jī)視覺(jué)算法存在局限性,而且需要新的評(píng)估方法。盡管如此,目前計(jì)算機(jī)視覺(jué)的應(yīng)用表明,僅通過(guò)模式匹配就可以完成很多工作。在這篇文章中,我們將探索其中的一些應(yīng)用程序,但是我們也將討論它們的局限性。

計(jì)算機(jī)視覺(jué)的商業(yè)應(yīng)用

你每天都在使用計(jì)算機(jī)視覺(jué)應(yīng)用程序,只是在某些情況下可能沒(méi)有注意到。以下是計(jì)算機(jī)視覺(jué)的一些實(shí)用的流行應(yīng)用,它們使生活變得有趣和方便。

圖像搜索

在圖像分類(lèi)和目標(biāo)檢測(cè)方面,計(jì)算機(jī)視覺(jué)已經(jīng)取得了很大的進(jìn)展。如果標(biāo)記數(shù)據(jù)足夠多,那么訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)將能夠以令人印象深刻的準(zhǔn)確性檢測(cè)和突出顯示許多各種不同的物體。

很少有公司能有谷歌那樣海量的用戶(hù)數(shù)據(jù)。該公司一直在利用其幾乎無(wú)限(且不斷增長(zhǎng))的用戶(hù)數(shù)據(jù)開(kāi)發(fā)一些最高效的人工智能模型。當(dāng)你在谷歌照片中上傳照片時(shí),它使用其計(jì)算機(jī)視覺(jué)算法用關(guān)于場(chǎng)景、對(duì)象和人員的內(nèi)容信息來(lái)標(biāo)注照片。然后,你可以根據(jù)這些信息搜索圖像。

例如,如果搜索“dog”,谷歌將自動(dòng)返回庫(kù)中包含 dog 的所有圖像。

計(jì)算機(jī)視覺(jué)應(yīng)用:深度學(xué)習(xí)的力量和局限性

谷歌使用機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)來(lái)搜索圖像的內(nèi)容,即使你沒(méi)有標(biāo)記它們。

然而,谷歌的圖像識(shí)別并不完美。有一次,計(jì)算機(jī)視覺(jué)算法錯(cuò)誤地 將兩名深色皮膚的人的照片標(biāo)記為“大猩猩” ,使公司很尷尬。

谷歌還使用計(jì)算機(jī)視覺(jué)從庫(kù)、驅(qū)動(dòng)器和 Gmail 附件中的圖像中提取文本。例如,當(dāng)你在收件箱中搜索某個(gè)術(shù)語(yǔ)時(shí),Gmail 還會(huì)查看圖像中的文本。不久前,我在 Gmail 中搜索我的家庭地址,我收到一封帶有圖片附件的電子郵件,其中包含一個(gè)有我地址的 Amazon 程序包。

圖像編輯和增強(qiáng)

許多公司現(xiàn)在都使用 機(jī)器學(xué)習(xí) 來(lái)自動(dòng)增強(qiáng)照片。谷歌的 Pixel 系列手機(jī)就使用設(shè)備上的神經(jīng)網(wǎng)絡(luò)進(jìn)行自動(dòng)增強(qiáng),如白平衡,并添加 模糊背景 等效果。

計(jì)算機(jī)視覺(jué)的發(fā)展帶來(lái)的另一個(gè)顯著的進(jìn)步是智能縮放。傳統(tǒng)的縮放功能通常會(huì)使圖像變得模糊,因?yàn)樗鼈兺ㄟ^(guò)在像素之間插值來(lái)填充放大的區(qū)域。與放大像素不同,基于計(jì)算機(jī)視覺(jué)的縮放側(cè)重于邊緣、模式等特征。這種方法可以得到更清晰的圖像。

許多初創(chuàng)公司和歷史悠久的圖形公司已經(jīng)轉(zhuǎn)向使用深度學(xué)習(xí)來(lái)增強(qiáng)圖像和視頻。Adobe 的 增強(qiáng)細(xì)節(jié)技術(shù) (以 Lightroom CC 為特色)使用機(jī)器學(xué)習(xí)來(lái)創(chuàng)建更清晰的縮放圖像。

計(jì)算機(jī)視覺(jué)應(yīng)用:深度學(xué)習(xí)的力量和局限性

Adobe 使用深度學(xué)習(xí)來(lái)增強(qiáng)縮放圖像的細(xì)節(jié)。

圖像編輯工具 Pixelmator Pro 提供了  ML 超分辨率 特性,它使用卷積神經(jīng)網(wǎng)絡(luò)提供清晰的縮放和增強(qiáng)。

面部識(shí)別應(yīng)用

直到不久前,面部識(shí)別還是一項(xiàng)笨拙且成本高昂的技術(shù),僅限于警察研究實(shí)驗(yàn)室。但近年來(lái),由于計(jì)算機(jī)視覺(jué)算法的進(jìn)步,面部識(shí)別已經(jīng)進(jìn)入了各種計(jì)算設(shè)備。

iPhone X 引入了 FaceID,這是一種 身份驗(yàn)證系統(tǒng) ,當(dāng)手機(jī)看到主人的臉時(shí),它會(huì)利用設(shè)備上的神經(jīng)網(wǎng)絡(luò)解鎖手機(jī)。在設(shè)置過(guò)程中,F(xiàn)aceID 使用主人的面部圖像訓(xùn)練它的人工智能模型,并且,即使照明條件、面部毛發(fā)、發(fā)型、帽子和眼鏡等方面存在差異,它也可以很好地工作。

在中國(guó),許多商店現(xiàn)在使用面部識(shí)別技術(shù)為顧客 提供更流暢的支付體驗(yàn) (但代價(jià)是他們的隱私)。顧客無(wú)需使用信用卡或移動(dòng)支付應(yīng)用,只需面對(duì)裝有電腦視覺(jué)系統(tǒng)的攝像頭即可。

然而,盡管有這些進(jìn)步,目前的面部識(shí)別并不完美。人工智能和安全研究人員已經(jīng)發(fā)現(xiàn)了許多導(dǎo)致面部識(shí)別系統(tǒng)出錯(cuò)的方法。有這樣一個(gè)案例, 卡內(nèi)基梅隆大學(xué)的研究人員 發(fā)現(xiàn),他們可以通過(guò)佩戴特制的眼鏡欺騙面部識(shí)別系統(tǒng),讓它們誤以為自己是名人。

計(jì)算機(jī)視覺(jué)應(yīng)用:深度學(xué)習(xí)的力量和局限性

卡內(nèi)基梅隆大學(xué)的研究人員發(fā)現(xiàn),通過(guò)戴上特殊的眼鏡,他們可以欺騙面部識(shí)別算法,讓它們誤以為自己是名人(圖片來(lái)源:  ww.cs.cmu.edu ))。

數(shù)據(jù)高效的家居安全

隨著 物聯(lián)網(wǎng)(IoT) 的無(wú)序發(fā)展,連接到互聯(lián)網(wǎng)的家居安全攝像頭越來(lái)越受歡迎。你現(xiàn)在可以很容易地安裝安全攝像頭,并隨時(shí)在線(xiàn)監(jiān)控你的家。

每個(gè)攝像頭都向云發(fā)送大量的數(shù)據(jù)。但是,安全攝像頭記錄的大部分畫(huà)面都無(wú)關(guān)痛癢,這造成了 大量的網(wǎng)絡(luò)、存儲(chǔ)和電力資源的浪費(fèi) 。計(jì)算機(jī)視覺(jué)算法可以使家居安全攝像頭更有效地利用這些資源。

智能相機(jī)一直處于閑置狀態(tài),直到它們?cè)诩磿r(shí)影像中檢測(cè)到一個(gè)物體或移動(dòng),然后它們就可以開(kāi)始向云發(fā)送數(shù)據(jù)或向相機(jī)的所有者發(fā)送警報(bào)。然而,請(qǐng)注意,計(jì)算機(jī)視覺(jué)在理解上下文方面效果仍然不是很好。所以,不要指望它能區(qū)分善意的舉動(dòng)(如一個(gè)球滾過(guò)房間)和需要你注意的事情(如一個(gè)小偷闖入你家)。

與真實(shí)世界互動(dòng)

增強(qiáng)現(xiàn)實(shí) 技術(shù)是一種將真實(shí)世界的視頻和圖像與虛擬物體疊加在一起的技術(shù),在過(guò)去幾年里,它已經(jīng)成為一個(gè)不斷增長(zhǎng)的市場(chǎng)。增強(qiáng)現(xiàn)實(shí)技術(shù)的發(fā)展在很大程度上歸功于計(jì)算機(jī)視覺(jué)算法的進(jìn)步。AR 應(yīng)用程序使用機(jī)器學(xué)習(xí)來(lái)檢測(cè)和跟蹤目標(biāo)位置和對(duì)象,并據(jù)此放置虛擬對(duì)象。你可以在很多應(yīng)用中看到AR 和計(jì)算機(jī)視覺(jué)的結(jié)合,比如  Snapchat 的濾鏡 和 Warby Parker 的 Virtual Try-On。

計(jì)算機(jī)視覺(jué)還能讓你通過(guò)手機(jī)攝像頭的鏡頭從現(xiàn)實(shí)世界中提取信息。一個(gè)非常顯著的例子是谷歌 Lens,它使用計(jì)算機(jī)視覺(jué)算法來(lái)執(zhí)行各種任務(wù),比如讀取名片、檢測(cè)家具和衣服的風(fēng)格、翻譯路牌,以及根據(jù)路由器標(biāo)簽 將手機(jī)連接到 wi-fi 網(wǎng)絡(luò) 。

計(jì)算機(jī)視覺(jué)的高級(jí)應(yīng)用

由于深度學(xué)習(xí)的進(jìn)步,計(jì)算機(jī)視覺(jué)正在解決以前計(jì)算機(jī)很難甚至不可能解決的問(wèn)題。在某些情況下,經(jīng)過(guò)良好訓(xùn)練的計(jì)算機(jī)視覺(jué)算法可以與擁有多年經(jīng)驗(yàn)及經(jīng)過(guò)相應(yīng)訓(xùn)練的人類(lèi)相媲美。

醫(yī)學(xué)圖像處理

在深度學(xué)習(xí)出現(xiàn)之前,創(chuàng)建能夠處理醫(yī)學(xué)圖像的計(jì)算機(jī)視覺(jué)算法需要軟件工程師和主題專(zhuān)家做大量的工作。他們必須合作開(kāi)發(fā)從放射圖像中提取相關(guān)特征的代碼,然后檢查它們以進(jìn)行診斷。(人工智能研究員 Jeremy Howard 對(duì)此進(jìn)行了 有趣的討論 。)

深度學(xué)習(xí)算法提供了端到端的解決方案,使這個(gè)過(guò)程非常簡(jiǎn)單。工程師們建立了恰當(dāng)?shù)纳窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu),然后用 X 光片、核磁共振成像(MRI)圖像或 CT 掃描圖像對(duì)其進(jìn)行訓(xùn)練,并標(biāo)注結(jié)果。然后,神經(jīng)網(wǎng)絡(luò)會(huì)找出與每個(gè)結(jié)果相關(guān)的特征,這樣就可以診斷未來(lái)的圖像,其準(zhǔn)確性令人印象深刻。

計(jì)算機(jī)視覺(jué)已經(jīng)在許多醫(yī)學(xué)領(lǐng)域找到了合適的應(yīng)用場(chǎng)景,包括 癌癥檢測(cè)和預(yù)測(cè) 、放射學(xué)、 糖尿病性視網(wǎng)膜病

一些人工智能研究人員甚至 表示 ,深度學(xué)習(xí)將很快取代放射學(xué)家。但那些在這一領(lǐng)域有豐富經(jīng)驗(yàn)的人 并不認(rèn)同 。診斷和治療疾病所要做的工作遠(yuǎn)遠(yuǎn)超出查看幻燈片和圖像。我們不要忘記,深度學(xué)習(xí)是從像素中提取模式——它不能復(fù)制人類(lèi)醫(yī)生的所有職責(zé)。

玩游戲

教電腦玩游戲 一直是人工智能研究的一個(gè)熱點(diǎn)領(lǐng)域。大多數(shù)游戲程序都使用 強(qiáng)化學(xué)習(xí) ,這是一種人工智能技術(shù),通過(guò)反復(fù)試驗(yàn)來(lái)改進(jìn)自己的行為。

計(jì)算機(jī)視覺(jué)算法在幫助這些程序解析游戲圖形內(nèi)容方面起著重要的作用。然而,需要注意的一點(diǎn)是,在許多情況下,為了使神經(jīng)網(wǎng)絡(luò)更容易理解它們,這些圖形被“簡(jiǎn)化”了。此外,目前的人工智能算法需要大量的數(shù)據(jù)來(lái)學(xué)習(xí)游戲。例如,  OpenAI 的 Dota 游戲 AI  使用 4.5 萬(wàn)年的游戲數(shù)據(jù)訓(xùn)練才能達(dá)到冠軍級(jí)別。

無(wú)人零售商店

2016 年, 亞馬遜推出了 Go  ,你可以走進(jìn)這家商店,拿起你想要的任何東西,然后離開(kāi),不會(huì)因?yàn)槿氲晷懈`而被逮捕。Go 使用了各種人工智能系統(tǒng)來(lái)消除對(duì)收銀員的需求。

當(dāng)顧客在店內(nèi)走動(dòng)時(shí),裝有先進(jìn)計(jì)算機(jī)視覺(jué)算法的攝像頭會(huì)監(jiān)控他們的行為,并跟蹤他們挑選或放回貨架的商品。當(dāng)他們離開(kāi)商店時(shí),他們的購(gòu)物車(chē)會(huì)自動(dòng)記入他們的亞馬遜賬戶(hù)。

三年后,亞馬遜又新開(kāi)了 18 家 Go 商店,而這項(xiàng)工作仍在進(jìn)行中。但有跡象表明,計(jì)算機(jī)視覺(jué)(在其他技術(shù)的幫助下)總有一天會(huì)讓排隊(duì)結(jié)賬成為過(guò)去時(shí)。

自動(dòng)駕駛汽車(chē)

無(wú)人駕駛汽車(chē)一直是人工智能領(lǐng)域最長(zhǎng)久的夢(mèng)想和最大的挑戰(zhàn)之一。今天,我們距離能夠在各種照明和天氣條件下在任何道路上行駛的 自動(dòng)駕駛汽車(chē) 還有很長(zhǎng)的路要走。但由于深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,我們已經(jīng)取得了很多進(jìn)展。

創(chuàng)造自動(dòng)駕駛汽車(chē)的 最大挑戰(zhàn)之一 是使它們能夠理解周?chē)沫h(huán)境。雖然不同的公司正以不同的方式解決這個(gè)問(wèn)題,但有一件事是不變的,那就是計(jì)算機(jī)視覺(jué)技術(shù)。

安裝在汽車(chē)周?chē)臄z像頭監(jiān)控著汽車(chē)的環(huán)境。深度神經(jīng)網(wǎng)絡(luò)分析視頻片段,并提取周?chē)矬w和人的信息。這些信息與來(lái)自激光雷達(dá)等其他設(shè)備的數(shù)據(jù)相結(jié)合,形成該地區(qū)的地圖,幫助汽車(chē)導(dǎo)航并避免碰撞。

令人毛骨悚然的計(jì)算機(jī)視覺(jué)應(yīng)用

像所有其他技術(shù)一樣,人工智能并非方方面面都令人愉悅。先進(jìn)的計(jì)算機(jī)視覺(jué)算法可以增強(qiáng)惡意應(yīng)用。下面是一些引起關(guān)注的計(jì)算機(jī)視覺(jué)應(yīng)用。

監(jiān)控

對(duì)面部識(shí)別技術(shù)感興趣的不僅僅是手機(jī)和電腦制造商。事實(shí)上,面部識(shí)別技術(shù)的最大客戶(hù)是政府機(jī)構(gòu),他們對(duì)利用這項(xiàng)技術(shù)在監(jiān)控錄像中自動(dòng)識(shí)別罪犯有著濃厚的興趣。

但問(wèn)題是,在國(guó)家安全和公民隱私之間,你在哪劃線(xiàn)?若前者太多而后者太少,就會(huì)導(dǎo)致一種監(jiān)控狀態(tài),讓政府獲得太多控制權(quán)。以面部識(shí)別技術(shù)為基礎(chǔ)的安全攝像頭的廣泛使用使政府能夠密切跟蹤數(shù)百萬(wàn)公民的行動(dòng),無(wú)論他們是否是犯罪嫌疑人。

在美國(guó)和歐洲,情況比較復(fù)雜。在向執(zhí)法部門(mén)提供面部識(shí)別技術(shù)方面,科技公司會(huì)遭到員工和數(shù)字維權(quán)人士的 抵制 。美國(guó)的一些州和城市已經(jīng) 禁止面部識(shí)別技術(shù)的公共使用 。

自主武器

計(jì)算機(jī)視覺(jué)也能給武器裝上眼睛。軍用無(wú)人機(jī)可以使用人工智能算法來(lái)識(shí)別物體和挑選目標(biāo)。在過(guò)去的幾年里,軍方使用人工智能引發(fā)了很多爭(zhēng)議。因?yàn)槊媾R著來(lái)自員工的批評(píng),谷歌不得不 取消與國(guó)防部續(xù)簽 計(jì)算機(jī)視覺(jué)技術(shù)開(kāi)發(fā)合同。

目前還沒(méi)有自主武器。大多數(shù)軍事機(jī)構(gòu)在使用人工智能和計(jì)算機(jī)視覺(jué)系統(tǒng)時(shí)都有人的干預(yù)。

但人們擔(dān)心,隨著計(jì)算機(jī)視覺(jué)的進(jìn)步和軍事部門(mén)的進(jìn)一步介入,我們遲早會(huì)擁有自主選擇目標(biāo)并扣動(dòng)扳機(jī)的武器,而不需要人類(lèi)來(lái)做決定。

著名計(jì)算機(jī)科學(xué)家和人工智能研究員 Stuart Russell 成立了一個(gè)組織,致力于 阻止自主武器的發(fā)展

查看英文原文  Computer vision applications: The power and limits of deep learning

https://www.infoq.cn/article/wLSpoj2eOQF7ujcHZqzf

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI