溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

用戶(hù)登錄×

賬戶(hù)密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

計(jì)算機(jī)視覺(jué)應(yīng)用：深度學(xué)習(xí)的力量和局限性

發(fā)布時(shí)間：2020-08-18 19:00:57 來(lái)源：ITPUB博客閱讀：163 作者：AIBigbull2050 欄目：互聯(lián)網(wǎng)科技

2020 年 1 月 20 日 15:14

從人工智能發(fā)展的早期開(kāi)始，計(jì)算機(jī)科學(xué)家就一直夢(mèng)想著創(chuàng)造出能像我們一樣看世界和理解世界的機(jī)器，這些努力推動(dòng)了計(jì)算機(jī)視覺(jué)的出現(xiàn)。
本文最初發(fā)布于 TechTalks 博客，經(jīng)原作者授權(quán)由 InfoQ 中文站翻譯并分享。

計(jì)算機(jī)視覺(jué)應(yīng)用：深度學(xué)習(xí)的力量和局限性

圖片提供：Depositphotos

本文是“ 解密人工智能 ”系列文章的一部分。該系列文章（試圖）消除有關(guān)人工智能的術(shù)語(yǔ)和傳說(shuō)的歧義。

從人工智能發(fā)展的早期開(kāi)始，計(jì)算機(jī)科學(xué)家就一直夢(mèng)想著創(chuàng)造出能像我們一樣看世界和理解世界的機(jī)器。這些努力導(dǎo)致了計(jì)算機(jī)視覺(jué) 的出現(xiàn)，這是人工智能和處理視覺(jué)數(shù)據(jù)內(nèi)容的計(jì)算機(jī)科學(xué)的一個(gè)巨大的子領(lǐng)域。

近年來(lái)，由于深度學(xué)習(xí) 和人工神經(jīng)網(wǎng)絡(luò)的發(fā)展，計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)了飛躍。深度學(xué)習(xí)是人工智能的一個(gè)分支，尤其適合處理圖像和視頻等非結(jié)構(gòu)化數(shù)據(jù)。

這些進(jìn)展為促進(jìn)計(jì)算機(jī)視覺(jué)在現(xiàn)有領(lǐng)域的應(yīng)用和將其引入新領(lǐng)域鋪平了道路。在許多情況下，計(jì)算機(jī)視覺(jué)算法已經(jīng)成為我們?nèi)粘Ｊ褂玫膽?yīng)用程序的一個(gè)非常重要的組成部分。

關(guān)于計(jì)算機(jī)視覺(jué)現(xiàn)狀的一些說(shuō)明

先不要對(duì)計(jì)算機(jī)視覺(jué)的進(jìn)步過(guò)于興奮，讓我們了解下當(dāng)前人工智能技術(shù)的局限性，這很重要。雖然有了顯著的改進(jìn)，但距離有能像人類(lèi)那樣理解照片和視頻的計(jì)算機(jī)視覺(jué)算法，我們還有很長(zhǎng)的路要走。

目前，深度神經(jīng)網(wǎng)絡(luò) （計(jì)算機(jī)視覺(jué)系統(tǒng)的核心）非常擅長(zhǎng)像素級(jí)模式匹配。它們?cè)趫D像分類(lèi)和對(duì)象定位方面特別有效。但是，當(dāng)涉及到理解可視化數(shù)據(jù)的上下文和描述不同對(duì)象之間的關(guān)系時(shí)，它們常常失效。

該領(lǐng)域的最新工作顯示，計(jì)算機(jī)視覺(jué)算法存在局限性，而且需要新的評(píng)估方法。盡管如此，目前計(jì)算機(jī)視覺(jué)的應(yīng)用表明，僅通過(guò)模式匹配就可以完成很多工作。在這篇文章中，我們將探索其中的一些應(yīng)用程序，但是我們也將討論它們的局限性。

計(jì)算機(jī)視覺(jué)的商業(yè)應(yīng)用

你每天都在使用計(jì)算機(jī)視覺(jué)應(yīng)用程序，只是在某些情況下可能沒(méi)有注意到。以下是計(jì)算機(jī)視覺(jué)的一些實(shí)用的流行應(yīng)用，它們使生活變得有趣和方便。

圖像搜索

在圖像分類(lèi)和目標(biāo)檢測(cè)方面，計(jì)算機(jī)視覺(jué)已經(jīng)取得了很大的進(jìn)展。如果標(biāo)記數(shù)據(jù)足夠多，那么訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)將能夠以令人印象深刻的準(zhǔn)確性檢測(cè)和突出顯示許多各種不同的物體。

很少有公司能有谷歌那樣海量的用戶(hù)數(shù)據(jù)。該公司一直在利用其幾乎無(wú)限（且不斷增長(zhǎng)）的用戶(hù)數(shù)據(jù)開(kāi)發(fā)一些最高效的人工智能模型。當(dāng)你在谷歌照片中上傳照片時(shí)，它使用其計(jì)算機(jī)視覺(jué)算法用關(guān)于場(chǎng)景、對(duì)象和人員的內(nèi)容信息來(lái)標(biāo)注照片。然后，你可以根據(jù)這些信息搜索圖像。

例如，如果搜索“dog”，谷歌將自動(dòng)返回庫(kù)中包含 dog 的所有圖像。

計(jì)算機(jī)視覺(jué)應(yīng)用：深度學(xué)習(xí)的力量和局限性

谷歌使用機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)來(lái)搜索圖像的內(nèi)容，即使你沒(méi)有標(biāo)記它們。

然而，谷歌的圖像識(shí)別并不完美。有一次，計(jì)算機(jī)視覺(jué)算法錯(cuò)誤地將兩名深色皮膚的人的照片標(biāo)記為“大猩猩” ，使公司很尷尬。

谷歌還使用計(jì)算機(jī)視覺(jué)從庫(kù)、驅(qū)動(dòng)器和 Gmail 附件中的圖像中提取文本。例如，當(dāng)你在收件箱中搜索某個(gè)術(shù)語(yǔ)時(shí)，Gmail 還會(huì)查看圖像中的文本。不久前，我在 Gmail 中搜索我的家庭地址，我收到一封帶有圖片附件的電子郵件，其中包含一個(gè)有我地址的 Amazon 程序包。

圖像編輯和增強(qiáng)

許多公司現(xiàn)在都使用機(jī)器學(xué)習(xí) 來(lái)自動(dòng)增強(qiáng)照片。谷歌的 Pixel 系列手機(jī)就使用設(shè)備上的神經(jīng)網(wǎng)絡(luò)進(jìn)行自動(dòng)增強(qiáng)，如白平衡，并添加模糊背景等效果。

計(jì)算機(jī)視覺(jué)的發(fā)展帶來(lái)的另一個(gè)顯著的進(jìn)步是智能縮放。傳統(tǒng)的縮放功能通常會(huì)使圖像變得模糊，因?yàn)樗鼈兺ㄟ^(guò)在像素之間插值來(lái)填充放大的區(qū)域。與放大像素不同，基于計(jì)算機(jī)視覺(jué)的縮放側(cè)重于邊緣、模式等特征。這種方法可以得到更清晰的圖像。

許多初創(chuàng)公司和歷史悠久的圖形公司已經(jīng)轉(zhuǎn)向使用深度學(xué)習(xí)來(lái)增強(qiáng)圖像和視頻。Adobe 的增強(qiáng)細(xì)節(jié)技術(shù) （以 Lightroom CC 為特色）使用機(jī)器學(xué)習(xí)來(lái)創(chuàng)建更清晰的縮放圖像。

計(jì)算機(jī)視覺(jué)應(yīng)用：深度學(xué)習(xí)的力量和局限性

Adobe 使用深度學(xué)習(xí)來(lái)增強(qiáng)縮放圖像的細(xì)節(jié)。

圖像編輯工具 Pixelmator Pro 提供了 ML 超分辨率特性，它使用卷積神經(jīng)網(wǎng)絡(luò)提供清晰的縮放和增強(qiáng)。

面部識(shí)別應(yīng)用

直到不久前，面部識(shí)別還是一項(xiàng)笨拙且成本高昂的技術(shù)，僅限于警察研究實(shí)驗(yàn)室。但近年來(lái)，由于計(jì)算機(jī)視覺(jué)算法的進(jìn)步，面部識(shí)別已經(jīng)進(jìn)入了各種計(jì)算設(shè)備。

iPhone X 引入了 FaceID，這是一種身份驗(yàn)證系統(tǒng) ，當(dāng)手機(jī)看到主人的臉時(shí)，它會(huì)利用設(shè)備上的神經(jīng)網(wǎng)絡(luò)解鎖手機(jī)。在設(shè)置過(guò)程中，F(xiàn)aceID 使用主人的面部圖像訓(xùn)練它的人工智能模型，并且，即使照明條件、面部毛發(fā)、發(fā)型、帽子和眼鏡等方面存在差異，它也可以很好地工作。

在中國(guó)，許多商店現(xiàn)在使用面部識(shí)別技術(shù)為顧客提供更流暢的支付體驗(yàn) （但代價(jià)是他們的隱私）。顧客無(wú)需使用信用卡或移動(dòng)支付應(yīng)用，只需面對(duì)裝有電腦視覺(jué)系統(tǒng)的攝像頭即可。

然而，盡管有這些進(jìn)步，目前的面部識(shí)別并不完美。人工智能和安全研究人員已經(jīng)發(fā)現(xiàn)了許多導(dǎo)致面部識(shí)別系統(tǒng)出錯(cuò)的方法。有這樣一個(gè)案例，卡內(nèi)基梅隆大學(xué)的研究人員發(fā)現(xiàn)，他們可以通過(guò)佩戴特制的眼鏡欺騙面部識(shí)別系統(tǒng)，讓它們誤以為自己是名人。

計(jì)算機(jī)視覺(jué)應(yīng)用：深度學(xué)習(xí)的力量和局限性

卡內(nèi)基梅隆大學(xué)的研究人員發(fā)現(xiàn)，通過(guò)戴上特殊的眼鏡，他們可以欺騙面部識(shí)別算法，讓它們誤以為自己是名人（圖片來(lái)源： ww.cs.cmu.edu )）。

數(shù)據(jù)高效的家居安全

隨著物聯(lián)網(wǎng)（IoT）的無(wú)序發(fā)展，連接到互聯(lián)網(wǎng)的家居安全攝像頭越來(lái)越受歡迎。你現(xiàn)在可以很容易地安裝安全攝像頭，并隨時(shí)在線(xiàn)監(jiān)控你的家。

每個(gè)攝像頭都向云發(fā)送大量的數(shù)據(jù)。但是，安全攝像頭記錄的大部分畫(huà)面都無(wú)關(guān)痛癢，這造成了大量的網(wǎng)絡(luò)、存儲(chǔ)和電力資源的浪費(fèi) 。計(jì)算機(jī)視覺(jué)算法可以使家居安全攝像頭更有效地利用這些資源。

智能相機(jī)一直處于閑置狀態(tài)，直到它們?cè)诩磿r(shí)影像中檢測(cè)到一個(gè)物體或移動(dòng)，然后它們就可以開(kāi)始向云發(fā)送數(shù)據(jù)或向相機(jī)的所有者發(fā)送警報(bào)。然而，請(qǐng)注意，計(jì)算機(jī)視覺(jué)在理解上下文方面效果仍然不是很好。所以，不要指望它能區(qū)分善意的舉動(dòng)（如一個(gè)球滾過(guò)房間）和需要你注意的事情（如一個(gè)小偷闖入你家）。

與真實(shí)世界互動(dòng)

增強(qiáng)現(xiàn)實(shí) 技術(shù)是一種將真實(shí)世界的視頻和圖像與虛擬物體疊加在一起的技術(shù)，在過(guò)去幾年里，它已經(jīng)成為一個(gè)不斷增長(zhǎng)的市場(chǎng)。增強(qiáng)現(xiàn)實(shí)技術(shù)的發(fā)展在很大程度上歸功于計(jì)算機(jī)視覺(jué)算法的進(jìn)步。AR 應(yīng)用程序使用機(jī)器學(xué)習(xí)來(lái)檢測(cè)和跟蹤目標(biāo)位置和對(duì)象，并據(jù)此放置虛擬對(duì)象。你可以在很多應(yīng)用中看到AR 和計(jì)算機(jī)視覺(jué)的結(jié)合，比如 Snapchat 的濾鏡和 Warby Parker 的 Virtual Try-On。

計(jì)算機(jī)視覺(jué)還能讓你通過(guò)手機(jī)攝像頭的鏡頭從現(xiàn)實(shí)世界中提取信息。一個(gè)非常顯著的例子是谷歌 Lens，它使用計(jì)算機(jī)視覺(jué)算法來(lái)執(zhí)行各種任務(wù)，比如讀取名片、檢測(cè)家具和衣服的風(fēng)格、翻譯路牌，以及根據(jù)路由器標(biāo)簽將手機(jī)連接到 wi-fi 網(wǎng)絡(luò) 。

計(jì)算機(jī)視覺(jué)的高級(jí)應(yīng)用

由于深度學(xué)習(xí)的進(jìn)步，計(jì)算機(jī)視覺(jué)正在解決以前計(jì)算機(jī)很難甚至不可能解決的問(wèn)題。在某些情況下，經(jīng)過(guò)良好訓(xùn)練的計(jì)算機(jī)視覺(jué)算法可以與擁有多年經(jīng)驗(yàn)及經(jīng)過(guò)相應(yīng)訓(xùn)練的人類(lèi)相媲美。

醫(yī)學(xué)圖像處理

在深度學(xué)習(xí)出現(xiàn)之前，創(chuàng)建能夠處理醫(yī)學(xué)圖像的計(jì)算機(jī)視覺(jué)算法需要軟件工程師和主題專(zhuān)家做大量的工作。他們必須合作開(kāi)發(fā)從放射圖像中提取相關(guān)特征的代碼，然后檢查它們以進(jìn)行診斷。（人工智能研究員 Jeremy Howard 對(duì)此進(jìn)行了有趣的討論。）

深度學(xué)習(xí)算法提供了端到端的解決方案，使這個(gè)過(guò)程非常簡(jiǎn)單。工程師們建立了恰當(dāng)?shù)纳窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu)，然后用 X 光片、核磁共振成像（MRI）圖像或 CT 掃描圖像對(duì)其進(jìn)行訓(xùn)練，并標(biāo)注結(jié)果。然后，神經(jīng)網(wǎng)絡(luò)會(huì)找出與每個(gè)結(jié)果相關(guān)的特征，這樣就可以診斷未來(lái)的圖像，其準(zhǔn)確性令人印象深刻。

計(jì)算機(jī)視覺(jué)已經(jīng)在許多醫(yī)學(xué)領(lǐng)域找到了合適的應(yīng)用場(chǎng)景，包括癌癥檢測(cè)和預(yù)測(cè) 、放射學(xué)、糖尿病性視網(wǎng)膜病。

一些人工智能研究人員甚至表示，深度學(xué)習(xí)將很快取代放射學(xué)家。但那些在這一領(lǐng)域有豐富經(jīng)驗(yàn)的人并不認(rèn)同。診斷和治療疾病所要做的工作遠(yuǎn)遠(yuǎn)超出查看幻燈片和圖像。我們不要忘記，深度學(xué)習(xí)是從像素中提取模式——它不能復(fù)制人類(lèi)醫(yī)生的所有職責(zé)。

玩游戲

教電腦玩游戲一直是人工智能研究的一個(gè)熱點(diǎn)領(lǐng)域。大多數(shù)游戲程序都使用強(qiáng)化學(xué)習(xí) ，這是一種人工智能技術(shù)，通過(guò)反復(fù)試驗(yàn)來(lái)改進(jìn)自己的行為。

計(jì)算機(jī)視覺(jué)算法在幫助這些程序解析游戲圖形內(nèi)容方面起著重要的作用。然而，需要注意的一點(diǎn)是，在許多情況下，為了使神經(jīng)網(wǎng)絡(luò)更容易理解它們，這些圖形被“簡(jiǎn)化”了。此外，目前的人工智能算法需要大量的數(shù)據(jù)來(lái)學(xué)習(xí)游戲。例如， OpenAI 的 Dota 游戲 AI 使用 4.5 萬(wàn)年的游戲數(shù)據(jù)訓(xùn)練才能達(dá)到冠軍級(jí)別。

無(wú)人零售商店

2016 年，亞馬遜推出了 Go ，你可以走進(jìn)這家商店，拿起你想要的任何東西，然后離開(kāi)，不會(huì)因?yàn)槿氲晷懈`而被逮捕。Go 使用了各種人工智能系統(tǒng)來(lái)消除對(duì)收銀員的需求。

當(dāng)顧客在店內(nèi)走動(dòng)時(shí)，裝有先進(jìn)計(jì)算機(jī)視覺(jué)算法的攝像頭會(huì)監(jiān)控他們的行為，并跟蹤他們挑選或放回貨架的商品。當(dāng)他們離開(kāi)商店時(shí)，他們的購(gòu)物車(chē)會(huì)自動(dòng)記入他們的亞馬遜賬戶(hù)。

三年后，亞馬遜又新開(kāi)了 18 家 Go 商店，而這項(xiàng)工作仍在進(jìn)行中。但有跡象表明，計(jì)算機(jī)視覺(jué)（在其他技術(shù)的幫助下）總有一天會(huì)讓排隊(duì)結(jié)賬成為過(guò)去時(shí)。

自動(dòng)駕駛汽車(chē)

無(wú)人駕駛汽車(chē)一直是人工智能領(lǐng)域最長(zhǎng)久的夢(mèng)想和最大的挑戰(zhàn)之一。今天，我們距離能夠在各種照明和天氣條件下在任何道路上行駛的自動(dòng)駕駛汽車(chē) 還有很長(zhǎng)的路要走。但由于深度神經(jīng)網(wǎng)絡(luò)的發(fā)展，我們已經(jīng)取得了很多進(jìn)展。

創(chuàng)造自動(dòng)駕駛汽車(chē)的最大挑戰(zhàn)之一是使它們能夠理解周?chē)沫h(huán)境。雖然不同的公司正以不同的方式解決這個(gè)問(wèn)題，但有一件事是不變的，那就是計(jì)算機(jī)視覺(jué)技術(shù)。

安裝在汽車(chē)周?chē)臄z像頭監(jiān)控著汽車(chē)的環(huán)境。深度神經(jīng)網(wǎng)絡(luò)分析視頻片段，并提取周?chē)矬w和人的信息。這些信息與來(lái)自激光雷達(dá)等其他設(shè)備的數(shù)據(jù)相結(jié)合，形成該地區(qū)的地圖，幫助汽車(chē)導(dǎo)航并避免碰撞。

令人毛骨悚然的計(jì)算機(jī)視覺(jué)應(yīng)用

像所有其他技術(shù)一樣，人工智能并非方方面面都令人愉悅。先進(jìn)的計(jì)算機(jī)視覺(jué)算法可以增強(qiáng)惡意應(yīng)用。下面是一些引起關(guān)注的計(jì)算機(jī)視覺(jué)應(yīng)用。

監(jiān)控

對(duì)面部識(shí)別技術(shù)感興趣的不僅僅是手機(jī)和電腦制造商。事實(shí)上，面部識(shí)別技術(shù)的最大客戶(hù)是政府機(jī)構(gòu)，他們對(duì)利用這項(xiàng)技術(shù)在監(jiān)控錄像中自動(dòng)識(shí)別罪犯有著濃厚的興趣。

但問(wèn)題是，在國(guó)家安全和公民隱私之間，你在哪劃線(xiàn)？若前者太多而后者太少，就會(huì)導(dǎo)致一種監(jiān)控狀態(tài)，讓政府獲得太多控制權(quán)。以面部識(shí)別技術(shù)為基礎(chǔ)的安全攝像頭的廣泛使用使政府能夠密切跟蹤數(shù)百萬(wàn)公民的行動(dòng)，無(wú)論他們是否是犯罪嫌疑人。

在美國(guó)和歐洲，情況比較復(fù)雜。在向執(zhí)法部門(mén)提供面部識(shí)別技術(shù)方面，科技公司會(huì)遭到員工和數(shù)字維權(quán)人士的抵制。美國(guó)的一些州和城市已經(jīng) 禁止面部識(shí)別技術(shù)的公共使用。

自主武器

計(jì)算機(jī)視覺(jué)也能給武器裝上眼睛。軍用無(wú)人機(jī)可以使用人工智能算法來(lái)識(shí)別物體和挑選目標(biāo)。在過(guò)去的幾年里，軍方使用人工智能引發(fā)了很多爭(zhēng)議。因?yàn)槊媾R著來(lái)自員工的批評(píng)，谷歌不得不取消與國(guó)防部續(xù)簽計(jì)算機(jī)視覺(jué)技術(shù)開(kāi)發(fā)合同。

目前還沒(méi)有自主武器。大多數(shù)軍事機(jī)構(gòu)在使用人工智能和計(jì)算機(jī)視覺(jué)系統(tǒng)時(shí)都有人的干預(yù)。

但人們擔(dān)心，隨著計(jì)算機(jī)視覺(jué)的進(jìn)步和軍事部門(mén)的進(jìn)一步介入，我們遲早會(huì)擁有自主選擇目標(biāo)并扣動(dòng)扳機(jī)的武器，而不需要人類(lèi)來(lái)做決定。

著名計(jì)算機(jī)科學(xué)家和人工智能研究員 Stuart Russell 成立了一個(gè)組織，致力于阻止自主武器的發(fā)展。

查看英文原文： Computer vision applications: The power and limits of deep learning

https://www.infoq.cn/article/wLSpoj2eOQF7ujcHZqzf

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
red hat linux 安裝 ruby on rails
下一篇新聞：
吐血整理 | 1000行MySQL學(xué)習(xí)筆記，不怕你不會(huì)，就怕你不學(xué)！

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專(zhuān)題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢(xún)

7*24小時(shí)在線(xiàn)電話(huà)：400-100-2938

7*24小時(shí)在線(xiàn) QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<noframes id="3mie0">

<option id="3mie0"></option>

<th id="3mie0"><rp id="3mie0"><tr id="3mie0"></tr></rp></th>

<th id="3mie0"></th><legend id="3mie0"></legend>