溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

使用卷積神經(jīng)網(wǎng)絡(luò)怎么實現(xiàn)人臉識別

發(fā)布時間：2021-05-07 15:18:39 來源：億速云閱讀：244 作者：Leah 欄目：開發(fā)技術(shù)

使用卷積神經(jīng)網(wǎng)絡(luò)怎么實現(xiàn)人臉識別？相信很多沒有經(jīng)驗的人對此束手無策，為此本文總結(jié)了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個問題。

卷積神經(jīng)網(wǎng)絡(luò)（CNN）的前級包含了卷積和池化操作，可以實現(xiàn)圖片的特征提取和降維，最近幾年由于計算機算力的提升，很多人都開始轉(zhuǎn)向這個方向，所以我這次打算使用它來試試效果。

老規(guī)矩，先配置下編程的環(huán)境：

系統(tǒng)：windows / linux
解釋器：python 3.6
依賴庫：numpy、opencv-python 3、tensorflow、keras、scikit-learn

pip3 install numpy
pip3 install opencv-python
pip3 install keras
pip3 install scikit-learn
pip3 install tensorflow

如果手中有一塊支持Cuda加速的GPU建議安裝GPU版本：

pip3 install tensorflow-gpu

上次文章有位讀者評論說：

使用卷積神經(jīng)網(wǎng)絡(luò)怎么實現(xiàn)人臉識別

所以，為了照顧初學(xué)者，這里簡單介紹下Anaconda的安裝方法，Anaconda是一個開源的Python發(fā)行版本，其包含了Conda、Python等180多個科學(xué)包及其依賴項。因為包含了大量的科學(xué)包，Anaconda 的下載文件比較大，所以有python包安裝基礎(chǔ)的人還是建議通過pip來安裝所需的依賴。

首先進入Anaconda下載頁（https://www.anaconda.com/download/）：

使用卷積神經(jīng)網(wǎng)絡(luò)怎么實現(xiàn)人臉識別

這里根據(jù)自己的電腦系統(tǒng)來選擇相應(yīng)的系統(tǒng)選項，至于是64位還是32位要根據(jù)自己電腦的內(nèi)存大小和系統(tǒng)位數(shù)來選擇，python版本選擇3.6。

下載完成安裝，打開程序，切換左側(cè)菜單到Environment，選擇all,輸入想要安裝的模塊并搜索，選中后點擊右下角的Apply就開始安裝了。

使用卷積神經(jīng)網(wǎng)絡(luò)怎么實現(xiàn)人臉識別

基本思路：

我的設(shè)計思路是這樣的，先用上節(jié)講到的人臉檢測方法來檢測出人臉位置，然后根據(jù)返回的坐標(biāo)、尺寸把臉用數(shù)組切片的方法截取下來，然后把截取的小圖片送進訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型，得出人臉的分類結(jié)果，最后在原圖片上打上包圍框并且把結(jié)果寫在包圍框的上端：

使用卷積神經(jīng)網(wǎng)絡(luò)怎么實現(xiàn)人臉識別

原諒我拙劣的繪畫技巧

當(dāng)然了，實現(xiàn)這一步驟的前提就是要有一個訓(xùn)練好的可以做人臉識別的模型，所以本文的主要內(nèi)容都會放在訓(xùn)練上面。

深度學(xué)習(xí)框架的選擇：

卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)在圖像方面的應(yīng)用，所以最高效的方法就是選擇合適的深度學(xué)習(xí)框架來實現(xiàn)它，現(xiàn)在市面上有很多深度學(xué)習(xí)框架可供選擇，比如基于 C++ 的 Caffe 、基于 Python 的TensorFlow、Pytorch、Theano、CNTK 以及前兩天一個好友提到的她正在用來做推薦算法的 MXNET 。

使用卷積神經(jīng)網(wǎng)絡(luò)怎么實現(xiàn)人臉識別

這些都是搭建深度學(xué)習(xí)框架不錯的選擇，不過搭建的步驟會比較繁瑣，會讓很多初學(xué)者瞬間放棄，還好世界上出現(xiàn)了Keras，它可以使用TensorFlow、Theano、CNTK作為后端運算引擎，提供了高層的，更易于使用的函數(shù)，可以讓不太了解深度學(xué)習(xí)原理的人也能快速上手，用通俗的話說就是：“ Keras是為人類而不是天頂星人設(shè)計的API ”。

使用卷積神經(jīng)網(wǎng)絡(luò)怎么實現(xiàn)人臉識別

本文所使用后端運算引擎為TensorFlow，簡稱 TF (掏糞)。

使用卷積神經(jīng)網(wǎng)絡(luò)怎么實現(xiàn)人臉識別

人臉收集：

我的目的是希望在很多人中可以識別出自己的臉，所以對這個系統(tǒng)的要求是：

不能把別人識別成我
要能在我出現(xiàn)的時候識別出我

使用卷積神經(jīng)網(wǎng)絡(luò)怎么實現(xiàn)人臉識別

于是我需要自己的一些圖照片，來教會神經(jīng)網(wǎng)絡(luò)，這個就是我，以及一堆其他人的照片來告訴它，這些不是我，或者說這些人分別是誰。

現(xiàn)在需要去采集一些其他人的圖片，這些數(shù)據(jù)集可以自己用相機照、或者寫個爬蟲腳本去網(wǎng)上爬，不過由于人臉識別早在幾十年前就一直有前輩在研究，很多大學(xué)和研究機構(gòu)都采集并公布了一些人臉數(shù)據(jù)集專門用作圖像識別算法的研究和驗證用，像耶魯大學(xué)的Yale人臉庫，劍橋大學(xué)的ORL人臉庫以及美國國防部的FERET人臉庫等，我在這里用了耶魯大學(xué)的Yale人臉庫，里面包含15個人，每人11張照片，主要包括光照條件的變化，表情的變化，接下來我會把自己的幾張照片混進去，看看訓(xùn)練過后能不能被神經(jīng)網(wǎng)絡(luò)良好的識別。

頭像提?。?/strong>

提取自己照片使用的是上篇文章提到的方法：

獲取文件夾下所有圖片文件 -> 檢測人臉位置 -> 根據(jù)人臉位置及尺寸剪裁出人臉 -> 保存。

這是我的目錄結(jié)構(gòu)：

代碼：

# _*_ coding:utf-8 _*_
import cv2
import os

CASE_PATH = "haarcascade_frontalface_default.xml"
RAW_IMAGE_DIR = 'me/'
DATASET_DIR = 'jm/'

face_cascade = cv2.CascadeClassifier(CASE_PATH)

def save_feces(img, name,x, y, width, height):
    image = img[y:y+height, x:x+width]
    cv2.imwrite(name, image)

image_list = os.listdir(RAW_IMAGE_DIR) #列出文件夾下所有的目錄與文件
count = 166
for image_path in image_list:
    image = cv2.imread(RAW_IMAGE_DIR + image_path)
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    faces = face_cascade.detectMultiScale(gray,
                                         scaleFactor=1.2,
                                         minNeighbors=5,
                                         minSize=(5, 5), )
    for (x, y, width, height) in faces:
        save_feces(image, '%ss%d.bmp' % (DATASET_DIR, count), x, y - 30, width, height+30)
    count += 1

得到了還蠻不錯的效果：

尺寸變換：

現(xiàn)在有了所有的圖片，可以開始訓(xùn)練了，不過Yale人臉庫里面所有照片都是100*100的尺寸，所以將要構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)的輸入就是100*100，而我新生成的圖片樣本形狀都是不規(guī)則的，為了使它可以順利進入卷積層，第一步就要對圖片做尺寸變換，當(dāng)然不能暴力的resize成100*100，否則會引起圖片的變形，所以這里采用了一種數(shù)字圖像處理中常用的手段，就是將較短的一側(cè)涂黑，使它變成和目標(biāo)圖像相同的比例，然后再resize，這樣既可以保留原圖的人臉信息，又可以防止圖像形變：

def resize_without_deformation(image, size = (100, 100)):
    height, width, _ = image.shape
    longest_edge = max(height, width)
    top, bottom, left, right = 0, 0, 0, 0
    if height < longest_edge:
        height_diff = longest_edge - height
        top = int(height_diff / 2)
        bottom = height_diff - top
    elif width < longest_edge:
        width_diff = longest_edge - width
        left = int(width_diff / 2)
        right = width_diff - left

    image_with_border = cv2.copyMakeBorder(image, top , bottom, left, right, cv2.BORDER_CONSTANT, value = [0, 0, 0])

    resized_image = cv2.resize(image_with_border, size)

    return resized_image

調(diào)用了該函數(shù)出現(xiàn)了下面的效果：

下面是讀取照片的函數(shù)，可以傳入尺寸，默認(rèn)尺寸是100*100，返回了兩個列表，第一個列表中每一個元素都是一張圖片，第二個列表中則對應(yīng)存儲了圖片的標(biāo)簽，這里用1、2、3.......來指代，因為我根本不知道這些人的名字是什么:

def read_image(size = None):
    data_x, data_y = [], []
    for i in range(1,177):
        try:
            im = cv2.imread('jm/s%s.bmp' % str(i))
            #im = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
            if size is None:
                size = (100, 100)
            im = resize_without_deformation(im, size)
            data_x.append(np.asarray(im, dtype = np.int8))
            data_y.append(str(int((i-1)/11.0)))
        except IOError as e:
           print(e)
        except:
            print('Unknown Error!')

    return data_x, data_y

訓(xùn)練：

接下來就是最重要的一步了，訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，訓(xùn)練的好壞會直接影響識別的準(zhǔn)確度。

引進卷積和池化層，卷積類似于圖像處理中的特征提取操作，池化則很類似于降維,常用的有最大池化和平均池化：

from keras.layers import Conv2D, MaxPooling2D

引入全連接層、Dropout、Flatten。

全連接層就是經(jīng)典的神經(jīng)網(wǎng)絡(luò)全連接。

Dropout用來在訓(xùn)練時按一定概率隨機丟棄一些神經(jīng)元，以獲得更高的訓(xùn)練速度以及防止過擬合。

Flatten用于卷積層與全連接層之間，把卷積輸出的多維數(shù)據(jù)拍扁成一維數(shù)據(jù)送進全連接層（類似shape方法）：

from keras.layers import Dense, Dropout, Flatten

引入SGD（梯度下降優(yōu)化器）來使損失函數(shù)最小化，常用的優(yōu)化器還有Adam：

from keras.optimizers import SGD

讀入所有圖像及標(biāo)簽:

IMAGE_SIZE = 100
raw_images, raw_labels = read_image(size=(IMAGE_SIZE, IMAGE_SIZE))
raw_images, raw_labels = np.asarray(raw_images, dtype = np.float32), np.asarray(raw_labels, dtype = np.int32) #把圖像轉(zhuǎn)換為float類型，方便歸一化

神經(jīng)網(wǎng)絡(luò)需要數(shù)值進行計算，需要對字符型類別標(biāo)簽進行編碼，最容易想到的就是把他們編碼成1、2、3.......這種，但是這樣也就出現(xiàn)了強行給它們定義了大小的問題，因為如果一個類別是2，一個是4，他們之間就會有兩倍的關(guān)系，但是實際上他們之間并沒有直接的倍數(shù)關(guān)系，所以這里使用one-hot編碼規(guī)則，做到所有標(biāo)簽的平等化。on-hot編碼：

from keras.utils import np_utils
ont_hot_labels = np_utils.to_categorical(raw_labels)

在所有讀入的圖像和標(biāo)簽中，需要劃分一部分用來訓(xùn)練，一部分用來測試，這里使用了sklearn中的train_test_split方法，不僅可以分割數(shù)據(jù)，還可以把數(shù)據(jù)打亂，訓(xùn)練集：測試集 = 7 : 3 ：

from sklearn.model_selection import  train_test_split
train_input, valid_input, train_output, valid_output =train_test_split(raw_images, 
                  ont_hot_labels,
                  test_size = 0.3)

數(shù)據(jù)歸一化，圖像數(shù)據(jù)只需要每個像素除以255就可以：

train_input /= 255.0
valid_input /= 255.0

構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)的每一層：

添加卷積層，32個卷積核，每個卷積核是3 * 3，邊緣不補充，卷積步長向右、向下都為1, 后端運算使用 tf , 圖片輸入尺寸是（100，100， 3），使用relu作為激活函數(shù)，也可以用sigmoid函數(shù)等，relu收斂速度比較快：

face_recognition_model = keras.Sequential()
 
face_recognition_model.add(Conv2D(32, 3, 3, border_mode='valid',
                                  subsample = (1, 1),
                                  dim_ordering = 'tf',
                                  input_shape = (IMAGE_SIZE, IMAGE_SIZE, 3),
                                  activation='relu'))
 
face_recognition_model.add(Conv2D(32, 3, 3,border_mode='valid',
                                  subsample = (1, 1),
                                  dim_ordering = 'tf',
                                  activation = 'relu'))

池化層，過濾器尺寸是2 * 2：

face_recognition_model.add(MaxPooling2D(pool_size=(2, 2)))

Dropout層：

face_recognition_model.add(Dropout(0.2))

face_recognition_model.add(Conv2D(64, 3, 3, border_mode='valid',
                                  subsample = (1, 1),
                                  dim_ordering = 'tf',
                                  activation = 'relu'))
 
face_recognition_model.add(Conv2D(64, 3, 3, border_mode='valid',
                                  subsample = (1, 1),
                                  dim_ordering = 'tf',
                                  activation = 'relu'))
 
face_recognition_model.add(MaxPooling2D(pool_size=(2, 2)))
face_recognition_model.add(Dropout(0.2))

Flatten層，處于卷積層與Dense（全連層）之間，將圖片的卷積輸出壓扁成一個一維向量：

face_recognition_model.add(Flatten())

全連接層, 經(jīng)典的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，512個神經(jīng)元：

face_recognition_model.add(Dense(512, activation = 'relu'))

face_recognition_model.add(Dropout(0.4))

輸出層，神經(jīng)元數(shù)是標(biāo)簽種類數(shù)，使用sigmoid激活函數(shù)，輸出最終結(jié)果：

face_recognition_model.add(Dense(len(ont_hot_labels[0]), activation = 'sigmoid'))

有點不放心，把神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)打印出來看一下：

face_recognition_model.summary()

看起來沒什么問題。

使用SGD作為反向傳播的優(yōu)化器，來使損失函數(shù)最小化，學(xué)習(xí)率(learning_rate)是0.01，學(xué)習(xí)率衰減因子(decay)用來隨著迭代次數(shù)不斷減小學(xué)習(xí)率，防止出現(xiàn)震蕩。引入沖量(momentum),不僅可以在學(xué)習(xí)率較小的時候加速學(xué)習(xí)，又可以在學(xué)習(xí)率較大的時候減速，使用nesterov：

learning_rate = 0.01
decay = 1e-6
momentum = 0.8
nesterov = True
sgd_optimizer = SGD(lr = learning_rate, decay = decay,
                    momentum = momentum, nesterov = nesterov)

編譯模型，損失函數(shù)使用交叉熵，交叉熵函數(shù)隨著輸出和期望的差距越來越大，輸出曲線會越來越陡峭，對權(quán)值的懲罰力度也會增大，如果其他的損失函數(shù)，如均方差可以可以的，各有優(yōu)劣：

face_recognition_model.compile(loss = 'categorical_crossentropy',
                               optimizer = sgd_optimizer,
                               metrics = ['accuracy'])

開始訓(xùn)練，訓(xùn)練100次（epochs），每次訓(xùn)練分幾個批次，每批（batch_size）20個，shuffle用來打亂樣本順序：

batch_size = 20 #每批訓(xùn)練數(shù)據(jù)量的大小
epochs = 100
face_recognition_model.fit(train_input, train_output,
                           epochs = epochs,
                           batch_size = batch_size, 
                           shuffle = True,
                           validation_data = (valid_input, valid_output))

現(xiàn)在離開座位，找一個西瓜，慢慢吃，一定要慢，因為訓(xùn)練的時間著實太長，配上薯片會更好。

訓(xùn)練完成后在測試集上評估結(jié)果并保存模型供以后加載使用：

print(face_recognition_model.evaluate(valid_input, valid_output, verbose=0))
MODEL_PATH = 'face_model.h6'
face_recognition_model.save(MODEL_PATH)

識別：

要開始寫在識別時正式運行的程序了：

import cv2
import numpy as np
import keras
from keras.models import load_model

加載級聯(lián)分類器模型：

CASE_PATH = "haarcascade_frontalface_default.xml"
face_cascade = cv2.CascadeClassifier(CASE_PATH)

加載卷積神經(jīng)網(wǎng)絡(luò)模型：

face_recognition_model = keras.Sequential()
MODEL_PATH = 'face_model.h6'
face_recognition_model = load_model(MODEL_PATH)

打開攝像頭，獲取圖片并灰度化：

cap = cv2.VideoCapture(0) 
ret, image = cap.read()
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

人臉檢測：

faces = faceCascade.detectMultiScale(gray, scaleFactor=1.2,
                minNeighbors=5, minSize=(30, 30),)

根據(jù)檢測到的坐標(biāo)及尺寸裁剪、無形變resize、并送入模型運算，得到結(jié)果后在人臉上打上矩形框并在矩形框上方寫上識別結(jié)果：

for (x, y, width, height) in faces:
    img = image[y:y+height, x:x+width]
    img = resize_without_deformation(img)
 
    img = img.reshape((1, 100, 100, 3))
    img = np.asarray(img, dtype = np.float32)
    img /= 255.0
 
    result = face_recognition_model.predict_classes(img)
 
    cv2.rectangle(image, (x, y), (x + width, y + height), (0, 255, 0), 2)
    font = cv2.FONT_HERSHEY_SIMPLEX
    if result[0] == 15:
        cv2.putText(image, 'kangChi', (x, y-2), font, 0.7, (0, 255, 0), 2)
    else:
        cv2.putText(image, 'No.%d' % result[0], (x, y-2), font, 0.7, (0, 255, 0), 2)
        
cv2.imshow('', image)
cv2.waitKey(0)

看效果：

當(dāng)然了，識別的效果還是取決于訓(xùn)練好的模型的質(zhì)量，我差不多用了吃2/3個西瓜的時間來訓(xùn)練，還是有一些誤識別的情況出現(xiàn)：

看完上述內(nèi)容，你們掌握使用卷積神經(jīng)網(wǎng)絡(luò)怎么實現(xiàn)人臉識別的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注億速云行業(yè)資訊頻道，感謝各位的閱讀！

向AI問一下細節(jié)

推薦閱讀：

如何使用Tensorflow實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)

TensorFlow實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

卷積神經(jīng)網(wǎng)絡(luò)

上一篇新聞：
如何在C#中讀取匿名對象屬性值

下一篇新聞：
使用asp.net怎么遍歷Request信息

猜你喜歡

俄羅斯云vps有哪用途

破解js域名授權(quán)有哪些問題

游戲主機的優(yōu)勢有哪些

云主機控制面板怎么打開

海外主機托管怎么收費

日本輕量云服務(wù)器怎么用

日本輕量云服務(wù)器租用有哪些優(yōu)勢

css線性漸變的關(guān)鍵字是什么

怎么租用便宜的國外虛擬主機

服務(wù)器讀取失敗請更換ip使用怎么解決

最新資訊

PHP日志記錄如何避免Log4j類似漏洞

PHP日志管理策略調(diào)整防范Log4j風(fēng)險

Log4j事件對PHP日志安全的影響分析

PHP日志系統(tǒng)如何預(yù)防遠程代碼執(zhí)行

PHP日志處理Log4j之外的安心之選

Log4j漏洞后PHP日志審計要點

PHP日志管理新方向：后Log4j時代

PHP項目如何確保日志安全非Log4j

PHP日志記錄策略調(diào)整應(yīng)對Log4j

Log4j漏洞啟示：PHP日志安全加固

相關(guān)推薦

使用TensorFlow怎么實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)

TensorFlow實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)CNN

java如何實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)CupCnn

如何使用python實現(xiàn)人臉識別

Python中如何實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)

Python人臉識別怎么實現(xiàn)

Pytorch怎么實現(xiàn)人臉識別

NodeJS中如何使用API實現(xiàn)人臉識別

NodeJS如何實現(xiàn)人臉識別

Python怎么實現(xiàn)人臉識別

相關(guān)標(biāo)簽

python java tensorflow html 數(shù)據(jù) 3d 卷積機器學(xué)習(xí) pytorch alexnet 深度學(xué)習(xí) cnn 特征 d3 提取 mnist te 目標(biāo)檢測滑動窗口

AI
助
手

產(chǎn)品服務(wù)

云服務(wù)器

高防服務(wù)器

高防IP

裸金屬服務(wù)器

機柜租用

SSL證書

高防CDN

彈性IP

地區(qū)劃分

中國香港服務(wù)器

美國服務(wù)器

德國服務(wù)器

日本服務(wù)器

韓國服務(wù)器

新加坡服務(wù)器

專題活動

控制臺

應(yīng)用市場

最新活動

九馬智能直播

幫助支持

幫助中心

網(wǎng)站備案

法律條款

全國服務(wù)

安全漏洞

主題地圖

關(guān)于我們

關(guān)于億速云

客戶案例

新聞資訊

資訊地圖

問答地圖

聯(lián)系我們

人才招聘

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

Copyright ? Yisu Cloud Ltd. All Rights Reserved. 2018 版權(quán)所有

廣州億速云計算有限公司粵ICP備17096448號-1 粵公網(wǎng)安備 44010402001142號增值電信業(yè)務(wù)經(jīng)營許可證編號：B1-20181529

感谢您访问我们的网站，您可能还对以下资源感兴趣：
被侍卫玩的丫鬟高h