777精品久无码人妻蜜桃-欧美在线观看视频一区-99精品网-伊人网中文字幕-99福利网-国产精品99久久久久久武松影视-日本黄色片免费看-免费观看高清在线观看-人妻少妇被粗大爽9797pw-日韩国产在线播放-国产日产成人免费视频在线观看-一区二区人妻-午夜看毛片-国产精品s-午夜免费av-国产精品色情国产三级在-国产精品资源在线

基于ResNet-50改進(jìn)的Faster R-CNN手勢識別算法

來源:期刊VIP網(wǎng)所屬分類:計算機(jī)信息管理時間:瀏覽:次

  摘 要: 為了解決不同識別環(huán)境下光照強(qiáng)度的變化對手勢識別準(zhǔn)確率影響的問題,提出了基于ResNet-50殘差網(wǎng)絡(luò)的改進(jìn)Faster R-CNN手勢識別算法。相較于普通的Faster R-CNN算法,該算法用了ResNet-50網(wǎng)絡(luò),提高網(wǎng)絡(luò)特征的學(xué)習(xí)能力,并在ResNet-50中加入了實(shí)例批處理標(biāo)準(zhǔn)化(IBN)方法用于對單個圖片的表征內(nèi)容學(xué)習(xí),適應(yīng)不同的識別環(huán)境。實(shí)驗(yàn)結(jié)果表明,該算法在測試集上的識別率高達(dá)98.7%,相較于常用手勢識別算法,有效性更高,魯棒性更好。

  關(guān)鍵詞: 手勢識別; Faster R-CNN; ResNet-50; 實(shí)例批處理標(biāo)準(zhǔn)化

電子政務(wù)

  推薦閱讀:《市場與電腦》是由國內(nèi)貿(mào)易局技術(shù)開發(fā)中心中國計算機(jī)用戶協(xié)會MO分會主辦、CCID北京天利電子出版技術(shù)公司編輯出版,中國流通領(lǐng)域信息化主導(dǎo)刊物,帶給讀者最新的電腦業(yè)界動態(tài)。

  0 引言

  人機(jī)交互方式逐漸趨于簡便化、智能化,讓基于計算機(jī)視覺的手勢識別的人機(jī)交互逐漸成為現(xiàn)實(shí)。手勢識別發(fā)展到現(xiàn)在,主要是基于傳統(tǒng)檢測識別算法和深度學(xué)習(xí)算法。傳統(tǒng)的檢測識別算法是利用人體手部區(qū)域的顏色特征來實(shí)現(xiàn),即YCbCr[1]、HSV[2]、YUV[3],以及其他人為選出的特征來進(jìn)行判別。這種識別算法容易受光照強(qiáng)度變化、肢體遮擋及其他復(fù)雜環(huán)境因素影響,所以魯棒性低。

  基于深度學(xué)習(xí)的目標(biāo)檢測[4]是目前在圖像處理上較為流行的方法,深度學(xué)習(xí)主要是利用卷積神經(jīng)網(wǎng)絡(luò)[5]對大量圖像多次訓(xùn)練學(xué)習(xí),通過深層卷積自動計算提取目標(biāo)圖像中的特征。深度學(xué)習(xí)相比于傳統(tǒng)的檢測識別算法具有識別速度快,精度高[6]的優(yōu)點(diǎn)。

  目前用于目標(biāo)檢測的深度學(xué)習(xí)算法有Faster R-CNN[7]、SSD[8]等;Faster R-CNN使用區(qū)域建議網(wǎng)絡(luò)[9](Region Proposal Net-work,RPN)逐個檢測每一個對象,再綜合提取信息,最終對手勢所處的位置和類別進(jìn)行確定。但是該方法仍然沒能克服光照強(qiáng)度變化和網(wǎng)絡(luò)深度不能加深的問題。

  手勢識別的研究工作主要是手勢的檢測和識別。本文的手勢識別算法是在Faster R-CNN基礎(chǔ)上使用殘差網(wǎng)絡(luò)ResNet-50來優(yōu)化網(wǎng)絡(luò)深度,加深特征學(xué)習(xí),將 IBN結(jié)構(gòu)用于深度卷積網(wǎng)絡(luò)實(shí)現(xiàn)對單個圖片表征(光照、顏色等)的多樣性學(xué)習(xí),克服因不同環(huán)境下光照強(qiáng)度變化產(chǎn)生的漏檢、錯檢的問題。

  1 Faster R-CNN算法介紹

  Faster R-CNN算法模型主要包含了以下三個部分:CNN共享卷積、RPN區(qū)域建議網(wǎng)絡(luò)和感興趣區(qū)域池化[10](Region of Interest Pooling,ROI池化)檢測網(wǎng)絡(luò)。

  1.1 共享卷積

  共享卷積CNN作為Fast R-CNN和RPN的前端網(wǎng)絡(luò),通過深度卷積計算來獲取輸入圖像的特征圖,通常使用ImageNet[11]數(shù)據(jù)集來多次訓(xùn)練和微調(diào)CNN網(wǎng)絡(luò)使其達(dá)到最優(yōu)。目前使用的主流網(wǎng)絡(luò)有VGG16[12]和ResNet[13]。

  1.2 區(qū)域建議網(wǎng)絡(luò)

  Faster R-CNN的分類檢測是利用RPN在網(wǎng)絡(luò)的內(nèi)部計算,產(chǎn)生高質(zhì)量區(qū)域建議框,用于后續(xù)的處理分類。

  其中,包圍盒為([x,y,w,h]),候選框的中心坐標(biāo)、寬和高為([x1,y1,w1,h1])。則參考標(biāo)準(zhǔn)為GT (Ground-Truth):設(shè)標(biāo)記的矩形框G的真實(shí)中心坐標(biāo)、寬和高為([x*,y*,w*,h*]),預(yù)測候選區(qū)域坐標(biāo)向量[ ti],[t*i]是真實(shí)目標(biāo)框的坐標(biāo)向量.如式(1)、(2)。

  [tx=x-x1w1;ty=y-y1w1;tw=log2ww1;th=log2hh1.] (1)

  [t*x=x*-x1w1;t*y=y*-y1h1;t*w=log2w*w1;t*h=log2h*h1.] (2)

  本文采用的損失函數(shù)是[Smooth L1]函數(shù):

  [Smooth L1x0.5x2,x≤1x-0.5,otherwise] (3)

  1.3 感興趣池化網(wǎng)絡(luò)

  Faster R-CNN算法是基于SPP-Net算法[14]改進(jìn)的,在此基礎(chǔ)上提出感興趣區(qū)域池,感興趣區(qū)域池化是SPP-Net的一個簡化版本,因?yàn)橹贿x取了其中一層金字塔,也就是感興趣區(qū)域池化中只含有一種尺度,實(shí)驗(yàn)證明,加入ROI池化進(jìn)行圖像處理,使其運(yùn)算速度加快數(shù)十倍。

  2 本文算法

  2.1 殘差網(wǎng)絡(luò)

  ResNet主要是利用殘差原理來實(shí)現(xiàn)網(wǎng)絡(luò)的加深,以此避免梯度的消失和爆炸問題.本文采用殘差網(wǎng)絡(luò)來解決目前手勢識別網(wǎng)絡(luò)深度不能加深的問題。

  殘差網(wǎng)絡(luò)以高速路網(wǎng)絡(luò)的跨層鏈接思想為基礎(chǔ)對其改進(jìn):利用“shortcut connections(捷徑連接)”的方法,會把輸入[x]直接傳到輸出作為初始結(jié)果輸入到下方,輸出結(jié)果為:

  [Hx=Fx+x] (4)

  當(dāng)[Fx=0]時,則有[Hx=x],這就是前面所提到的恒等映射(identity)。在此基礎(chǔ)上,改變ResNet學(xué)習(xí)目標(biāo),不再是通過層層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)完整的特征輸出,而是學(xué)習(xí)目標(biāo)值[H(x)]和x的差值,其殘差為:

  [Fx=Hx-x] (5)

  本文采用的是ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)。但仍然無法克服因光照強(qiáng)度變化造成的圖片色度變化而識別不準(zhǔn)確這一缺點(diǎn)。為克服此缺點(diǎn),本文對原有的ResNet-50進(jìn)行改進(jìn),在卷積層輸出后加入實(shí)例標(biāo)準(zhǔn)化[15](Instance Normalization,IN)和批量標(biāo)準(zhǔn)化(Batch Normalization,BN)作用。

  2.2 IBN算法

  在深度學(xué)習(xí)實(shí)驗(yàn)中常用的標(biāo)準(zhǔn)化方法為BN,主要用來提高特征層對圖像的敏感度,降低風(fēng)格類變化的魯棒性,即對圖像色調(diào)變化,敏感變化的魯棒性,IN方法提高對風(fēng)格類變化的魯棒性。在圖2、圖3中可以看到IN和BN共同作用于ResNet。這是因?yàn)樵贑NN層中,表征多樣性的學(xué)習(xí)往往在網(wǎng)絡(luò)淺層,而內(nèi)容特征的學(xué)習(xí)往往在模型深層,故據(jù)此提出如圖3的IBN結(jié)構(gòu)。在淺層中BN和IN同時使用,保證了表征的多樣性和內(nèi)容信息的學(xué)習(xí),最后經(jīng)過IN是為了保留深層網(wǎng)絡(luò)中圖像表征的識別信息。

  從式(6)、式(7)中可以看出,BN是對同一個Batch作用,而IN是對單個圖像進(jìn)行作用,有效的保證了圖像表征的多樣性,其中BN函數(shù)為:

  [ytijk=xtijk-μiσ2i+ε;μi=1HWTt=1Tl=1Wm=1Hxtilm;σ2i=1HWTt=1Tl=1Wm=1Hxtilm-mμi2.] ⑹

  其中IN函數(shù)為:

  [ytijk=xtijk-μiσ2i+ε;μi=1HWt=1Tl=1Wm=1Hxtilm;σ2i=1HWl=1Wm=1H(xtilm-mμti)2.] ⑺

  式中的T為Batch的數(shù)量,[xtijk]表示第 tijk個元素,k和j是跨空間維度,i是特征通道(如果為RGB圖像就是顏色通道)t是圖像在Batch中的索引,W表示輸入特征圖的寬,H為輸入特定的通道數(shù),其中[μi]為均值,[σ2i]為平方差。

  3 實(shí)驗(yàn)分析

  實(shí)驗(yàn)的訓(xùn)練樣本來自于NUS Hand Posture,對數(shù)據(jù)集用LabelImg進(jìn)行標(biāo)定,選取訓(xùn)練集手勢為2512個,測試集手勢為528個,并進(jìn)行遷移學(xué)習(xí)。

  表1可以得到,在測試集上的識別率,ResNet-50和ResNet-101性能不相上下,但考慮到ResNet-101在識別率沒有較大提高的前提下,耗時卻多出45%,由此選擇ResNet-50作為基礎(chǔ)網(wǎng)絡(luò)。

  由圖3、圖4、表2可以看出,本文算法無論是在訓(xùn)練時Loss收斂的速度還是在識別率上,都超過了SSD和Faster R-CNN模型,并且本文算法的召回率提升了3.8%,平均識別率提升了2%達(dá)到98.7%,檢測耗時上幾乎沒有變化。

  實(shí)驗(yàn)中用不同光照強(qiáng)度進(jìn)行測試,在 ResNet-50網(wǎng)絡(luò)下,利用背后窗簾打開大小來控制光照強(qiáng)度,實(shí)驗(yàn)中處于光線比較均勻的條件下所得到的手勢照片較為清晰,都實(shí)時地識別出常用的10種手勢。當(dāng)在光照不均勻或者光照較為強(qiáng)烈的環(huán)境下,手勢的識別效率會降低。當(dāng)采用傳統(tǒng)的Faster R-CNN識別檢測,可以看見如圖6中(a)、(b)所示,對少數(shù)手勢會出現(xiàn)漏識,錯識。在Faster R-CNN加入了IBN后手勢識別檢測的正確率有所提高,如圖6(a)所示。

石城县| 宜君县| 晴隆县| 方正县| 阳新县| 青海省| 临沭县| 齐齐哈尔市| 浦北县| 贺州市| 眉山市| 连州市| 台州市| 永定县| 金乡县| 綦江县| 教育| 江孜县| 阜宁县| 宁蒗| 中西区| 肃北| 理塘县| 丹江口市| 临湘市| 西峡县| 岳普湖县| 牟定县| 建始县| 谷城县| 通海县| 克什克腾旗| 青阳县| 揭阳市| 湟源县| 多伦县| 乐平市| 澄迈县| 潢川县| 玉林市| 定日县|