【摘 要】本文提出了一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)算法,對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了改進(jìn),同時(shí)利用圖像的全局和局部特征來(lái)進(jìn)行人臉檢測(cè)。仿真實(shí)驗(yàn)表明,本文所提出的人臉檢測(cè)算法取得了良好的檢測(cè)效果。

【關(guān)鍵詞】人臉檢測(cè) 深度學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò) 局部特征 全局特征

基金項(xiàng)目:西安市科技計(jì)劃項(xiàng)目,項(xiàng)目名稱:公路視頻測(cè)速中的距離自動(dòng)標(biāo)定與測(cè)距關(guān)鍵技術(shù)研究,項(xiàng)目編號(hào):CXY1701(5)。

文獻(xiàn)標(biāo)識(shí)碼:A 中圖分類號(hào):TP391.4

作為近年來(lái)最為流行的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)可以從海量數(shù)據(jù)中自動(dòng)學(xué)習(xí)出表達(dá)和區(qū)分能力更強(qiáng)的特征,能更準(zhǔn)確地表征真實(shí)人臉外觀。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)算法的一種,其在圖像識(shí)別與分析等計(jì)算機(jī)視覺(jué)領(lǐng)域中獲得了最為廣泛的應(yīng)用。本文提出了一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)算法,對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了改進(jìn),并提取圖像的全局和局部特征進(jìn)行人臉檢測(cè)。

基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)

深度學(xué)習(xí)利用建立好的模擬人腦分析學(xué)習(xí)機(jī)制的神經(jīng)網(wǎng)絡(luò)來(lái)解釋圖像、聲音和文本等數(shù)據(jù),通過(guò)對(duì)低層特征進(jìn)行組合形成更抽象的高層特征,從而得到數(shù)據(jù)的分布式特征。

卷積神經(jīng)網(wǎng)絡(luò)是在計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用最為廣泛的深度學(xué)習(xí)模型,其基本結(jié)構(gòu)包括卷積層和池化層,卷積層利用卷積核提取特征,卷積層通過(guò)局部感知和權(quán)值共享來(lái)減少權(quán)值參數(shù)數(shù)量,池化層利用池化核來(lái)對(duì)卷積層提取出的特征進(jìn)行統(tǒng)計(jì)操作。

人類識(shí)別人臉時(shí)在考慮人臉的局部特征的同時(shí),也會(huì)考慮人臉的全局特征。為此,本文對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了改進(jìn),改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)由3個(gè)卷積層、4個(gè)池化層、引入層和3個(gè)全連接層組成,各網(wǎng)絡(luò)層的具體參數(shù)如表1所示。

表1 改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)

改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò)中有3個(gè)卷積層,卷積層的具體參數(shù)如表1所示,第一個(gè)卷積層參數(shù)中96×96×3為待處理圖像的尺寸,卷積核通過(guò)滑窗的方式對(duì)輸入圖進(jìn)行卷積,每個(gè)卷積核對(duì)應(yīng)一種特征提取的方式,卷積操作后得到一個(gè)特征圖,88×88×32中88×88為卷積操作后特征圖尺寸,32為卷積核個(gè)數(shù),9×9×3為卷積核尺寸。其他卷積層的參數(shù)與此類似。

卷積運(yùn)算如下式所示:

(1)

其中,[xlj]為卷積神經(jīng)網(wǎng)絡(luò)第[l]層的第[j]個(gè)神經(jīng)元,[k]表示卷積核,本文所有卷積核的步長(zhǎng)均為1×1,[Mj]為與神經(jīng)元[xlj]對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)第[l-1]層核尺寸區(qū)域內(nèi)的神經(jīng)元集合,[blj]為神經(jīng)元的偏置,[f]為激活函數(shù),本文采用防過(guò)擬合能力強(qiáng)的修正線性單元(ReLU)作為激活函數(shù)[1]。

(2)

改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)共包含4個(gè)池化層,為有效提取圖像全局和局部特征,本文對(duì)前三個(gè)池化層和最后一個(gè)池化層分別采用最大池化和平均池化方法,最大池化方法適合用于提取圖像局部紋理信息,平均池化適合用于提取圖像全局信息,最大池化和平均池化方法如(3)和(4)式所示,所有池化核步長(zhǎng)本文均設(shè)置為1×1。

(3) (4)

其中,[xlj]為卷積神經(jīng)網(wǎng)絡(luò)第[l]層的第[j]個(gè)神經(jīng)元,[Mjl-1]為神經(jīng)元[xlj]對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)第[l-1]層一個(gè)核尺寸區(qū)域內(nèi)的神經(jīng)元集合。

改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò)中有3個(gè)全連接層,層中神經(jīng)元與上一層所有神經(jīng)元相連。全連接層的前面是引入層,引入層沒(méi)有信息處理能力,只是將對(duì)應(yīng)圖像塊局部特征的最后一個(gè)卷積層和對(duì)應(yīng)圖像全局特征的最后一個(gè)池化層神經(jīng)元引入全連接層。全連接層中前兩層中的神經(jīng)元的激活函數(shù)采用修正線性單元(ReLU),最后一層神經(jīng)元的激活函數(shù)采用logistic回歸函數(shù),輸出為人臉檢測(cè)標(biāo)簽。

(5)

本文改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法采用隨機(jī)梯度下降算法,目標(biāo)函數(shù)設(shè)置為:

(6)

其中,[N]為樣本個(gè)數(shù),[fi(W)]為卷積神經(jīng)網(wǎng)絡(luò)輸出,[di]為樣本的分類標(biāo)簽,正負(fù)樣本分別為1和0。

仿真實(shí)驗(yàn)及分析

本文分別采用AFLW數(shù)據(jù)集和FDDB數(shù)據(jù)集作為訓(xùn)練圖像集和測(cè)試圖像集。AFLW數(shù)據(jù)集由32203圖片中的393703張人臉圖片組成,F(xiàn)DDB數(shù)據(jù)集由2845圖片中的5171張人臉圖片組成,是學(xué)術(shù)界評(píng)價(jià)人臉檢測(cè)和識(shí)別性能時(shí)應(yīng)用非常廣泛的測(cè)試數(shù)據(jù)集。

在構(gòu)造人臉正負(fù)樣本時(shí),由于不同訓(xùn)練圖片中人臉尺寸并不一致,本文將從訓(xùn)練圖片中剪切并歸一化為96×96像素大小的人臉圖片作為正樣本,將從訓(xùn)練圖像中隨機(jī)剪切出的同樣大小的圖像塊作為負(fù)樣本。

表2給出了本文算法和現(xiàn)有部分現(xiàn)有人臉檢測(cè)算法的檢測(cè)準(zhǔn)確度比較結(jié)果。其中,“全局”表示僅利用圖片的全局特征時(shí)的人臉檢測(cè)算法;“局部”表示僅利用圖片的局部特征時(shí)的人臉檢測(cè)算法;“全局+局部”表示本文所提出的同時(shí)利用圖片全局和局部特征的人臉檢測(cè)算法。從表中可以看出,當(dāng)僅利用圖像全局特征時(shí),人臉檢測(cè)效果很低;當(dāng)僅利用圖像局部特征時(shí),人臉檢測(cè)效果提升并不明顯,而當(dāng)同時(shí)利用圖像全局和局部特征時(shí),人臉檢測(cè)效果得到了進(jìn)一步的提升。

表2 人臉檢測(cè)檢測(cè)準(zhǔn)確度比較

圖1給出了本文人臉檢測(cè)算法對(duì)FDDB數(shù)據(jù)集中幾幅測(cè)試圖片的檢測(cè)結(jié)果。從圖中可以看出,本文所提人臉檢測(cè)算法成功檢測(cè)出了背景和光照條件不同的圖片中的人臉,而且人臉的角度也不盡相同。

本文主要研究了如何利用深度學(xué)習(xí)進(jìn)行人臉檢測(cè),提出了一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)算法,同時(shí)利用圖像全局和局部特征來(lái)檢測(cè)人臉。如何進(jìn)一步改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)將是今后的研究?jī)?nèi)容。

參考文獻(xiàn):

[1]Glorot X,Bordes A,Bengio Y.,“Deep sparse rectifier neural networks”(2011 International Conference on Artificial Intelligence and Statistics, Lauderdale:IEEE Press,2011:315-326).

[2] Jain V Learned-Miller E.,“Online Domain Adaptation of a Pre-Trained Cascade of Classifiers”(2011 IEEE Conference on Computer Vision and Pattern Recognition. Washington:IEEE,2011:577-584).

[3]Yang S,Luo P,Loy C C, et al.,“From facial parts responses to face detection: a deep learning approach”(2015 IEEE International Conference on Computer Vision. Washington:IEEE,2015:3676-3684).