基于深度學(xué)習(xí)的人體行為識別算法研究

中國水利水電出版社

【作者】陳華鋒著

【I S B N 】978-7-5226-2834-9

【責(zé)任編輯】賈潤姿

【適用讀者群】本專通用

【出版時間】2024-12-11

【開本】16開

【裝幀信息】平裝（光膜）

【版次】第1版第1次印刷

【頁數(shù)】164

【千字?jǐn)?shù)】193

【印張】10.25

【定價】￥62

【叢書】

【備注信息】

圖書詳情

簡介

本書特色

前言

章節(jié)列表

精彩閱讀

下載資源

相關(guān)圖書

視頻人體行為識別技術(shù)可滿足網(wǎng)絡(luò)視頻檢索與分析、智能視頻監(jiān)控分析、智能視頻監(jiān)護(hù)等應(yīng)用領(lǐng)域?qū)ψ詣臃治黾爸悄芑男枨螅饘W(xué)術(shù)界的廣泛關(guān)注。雖然目前國內(nèi)外學(xué)者在行為識別領(lǐng)域已取得一定研究成果，但由于人體行為在動作速率、相機(jī)視角、運(yùn)動場景等方面存在多樣性，基于視頻的人體行為識別仍是一個極具挑戰(zhàn)性的研究課題。本書對人體行為識別技術(shù)進(jìn)行了綜述，介紹了幾種人體行為識別方法，并對此進(jìn)行了總結(jié)。

人體行為識別是計(jì)算機(jī)視覺與模式識別領(lǐng)域中的一項(xiàng)重要研究課題。在智能監(jiān)控領(lǐng)域，行為識別技術(shù)可以幫助監(jiān)控系統(tǒng)自動識別和分析異常行為，提高監(jiān)控效率和準(zhǔn)確性；在智能交通領(lǐng)域，該技術(shù)可以識別和分析交通參與者的行為，為交通管理提供有力支持；在健康監(jiān)測領(lǐng)域，該技術(shù)可以實(shí)時監(jiān)測和分析人的行為模式，為個性化健康監(jiān)護(hù)服務(wù)提供數(shù)據(jù)支持；此外，該技術(shù)還在虛擬現(xiàn)實(shí)、人機(jī)交互、環(huán)境控制和監(jiān)測等多個領(lǐng)域中發(fā)揮著重要作用。隨著智能監(jiān)控、智能交通、健康監(jiān)測等應(yīng)用場景的不斷發(fā)展，如何有效地識別人類行為，已經(jīng)成為學(xué)術(shù)界與工業(yè)界共同關(guān)注的焦點(diǎn)。在深度學(xué)習(xí)技術(shù)迅猛發(fā)展的背景下，基于深度學(xué)習(xí)的行為識別方法顯示出了強(qiáng)大的潛力和廣泛的應(yīng)用前景。

本書從傳統(tǒng)的手工特征到現(xiàn)代的深度學(xué)習(xí)特征，從行為數(shù)據(jù)集的選擇到算法的設(shè)計(jì)與優(yōu)化，綜述了人體行為識別領(lǐng)域的技術(shù)演進(jìn)與發(fā)展趨勢，并介紹了幾種基于深度學(xué)習(xí)的人體行為識別算法。

本書主要研究內(nèi)容包括：

（1）基于動作分解的行為識別。針對人體行為時間尺度的魯棒性問題，分析了動作與視頻幀相似性之間的關(guān)系，介紹了通過動作分解將視頻分解為多個視頻子段的方法，并提出了視頻子段中代表幀采樣的數(shù)據(jù)模型，給出了代表幀的卷積特征學(xué)習(xí)過程及特征融合方法。然后介紹了基于LSTM網(wǎng)絡(luò)的行為時序特征學(xué)習(xí)過程，最后結(jié)合實(shí)驗(yàn)分析了所提算法的有效性。

（2）基于運(yùn)動顯著性的行為識別。針對現(xiàn)在圖像采樣方法不能聚焦行為運(yùn)動問題，介紹了視頻中運(yùn)動顯著性檢測算法，并給出了多個運(yùn)動顯著區(qū)域合成方法。然后提出了基于運(yùn)動顯著區(qū)域的圖像塊采樣方法。最后在行為識別數(shù)據(jù)集上對所提算法進(jìn)行實(shí)驗(yàn)驗(yàn)證。

（3）基于多模態(tài)特征的行為識別。研究了運(yùn)動邊界卷積特征和梯度邊界卷積特征的提取方法。然后介紹了幾種多模態(tài)特征的融合方法，最后通過實(shí)驗(yàn)驗(yàn)證了運(yùn)動邊界卷積特征和梯度邊界卷積特征的有效性，并比較了幾種多模態(tài)特征融合方法對人體識別率的影響。

（4）基于實(shí)時全局運(yùn)動補(bǔ)償?shù)男袨樽R別。針對傳統(tǒng)實(shí)時行為識別算法中沒有區(qū)分運(yùn)動矢量中的全局運(yùn)動信息和人體行為信息的問題，提出了基于運(yùn)動矢量的實(shí)時全局運(yùn)動參數(shù)估計(jì)方法，然后參照估計(jì)的全局運(yùn)動參數(shù)進(jìn)行運(yùn)動補(bǔ)償。最后通過實(shí)驗(yàn)證明了基于全局運(yùn)動補(bǔ)償?shù)男袨樽R別算法能夠滿足行為識別的實(shí)時性要求，在識別性能方面較MF和EMV-CNN算法有明顯提升。

（5）基于局部最大池化特征時空向量的行為識別。為了有效解決視頻理解中的一個重要問題：如何構(gòu)建一個視頻表示（其中包含整個視頻上的CNN特征），我們提出了局部最大池化特征時空向量（ST-VLMPF）的超向量編碼方法，用于人體行為的局部深度特征編碼。特征分配通過相似性和時空信息在兩個層級上完成。對于每個分配，我們構(gòu)建了一個特定的編碼，專注于深度特征的性質(zhì)，旨在捕獲網(wǎng)絡(luò)最高神經(jīng)元激活的最高特征響應(yīng)。ST-VLMPF明顯比一些廣泛使用且強(qiáng)大的編碼方法（改進(jìn)的Fisher向量和局部聚合描述符向量）擁有更可靠的視頻表示，同時保持了較低的計(jì)算復(fù)雜度。

（6）基于姿態(tài)運(yùn)動表示的行為識別。不少行為識別方法依賴于two-stream結(jié)構(gòu)獨(dú)立處理外觀和運(yùn)動信息。我們將這兩個模態(tài)信息流融合起來為行為識別提供豐富的信息。該方法引入新方法以編碼一些語義關(guān)鍵點(diǎn)的運(yùn)動，我們使用人體關(guān)節(jié)作為這些關(guān)鍵點(diǎn)，并將姿態(tài)運(yùn)動表示稱為PoTion。具體來說，我們首先基于目前效果最好的人體姿態(tài)估計(jì)器在每一幀中提取人體關(guān)節(jié)的熱圖，再通過時間聚合這些概率圖來獲得PoTion表示。這是通過根據(jù)視頻剪輯中幀的相對時間“著色”每個概率圖并對它們進(jìn)行求和來實(shí)現(xiàn)的。這種針對整個視頻剪輯的固定大小表示適合使用淺卷積神經(jīng)網(wǎng)絡(luò)對行為進(jìn)行分類。

（7）基于動態(tài)運(yùn)動表示的行為識別。在許多最近的研究工作中，研究人員使用外觀和運(yùn)動信息作為獨(dú)立的輸入來推斷給出視頻中正在發(fā)生的行為。我們提出了人體行為的最新表示方法，同時從外觀和運(yùn)動信息中獲益，以實(shí)現(xiàn)更好的動作識別性能。我們從姿勢估計(jì)器開始，從每一幀中提取身體關(guān)節(jié)的位置和熱圖，使用動態(tài)編碼器從這些身體關(guān)節(jié)熱圖中生成固定大小的表示。實(shí)驗(yàn)結(jié)果表明，使用動態(tài)運(yùn)動表示訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)優(yōu)于目前最好的行為識別模型。

（8）基于運(yùn)動增強(qiáng)RGB流的人體行為識別。雖然將光流與RGB信息結(jié)合可以提高行為識別性能，但準(zhǔn)確計(jì)算光流的時間成本很高，增加了行為識別的延遲。這限制了在需要低延遲的實(shí)際應(yīng)用中使用two-stream方法。我們給出了兩種學(xué)習(xí)方法來訓(xùn)練一個標(biāo)準(zhǔn)的3D CNN，它在RGB幀上運(yùn)行，模擬了運(yùn)動流，因此避免了在測試階段進(jìn)行光流計(jì)算。首先，將基于特征的損失最小化并與Flow流進(jìn)行比較，所提深度神經(jīng)網(wǎng)絡(luò)以高保真度再現(xiàn)了運(yùn)動流信息。其次，為了有效利用外觀和運(yùn)動信息，我們通過特征損失和標(biāo)準(zhǔn)的交叉熵?fù)p失的線性組合進(jìn)行訓(xùn)練，用于行為識別。

本書研究內(nèi)容是機(jī)器學(xué)習(xí)、深度學(xué)習(xí)與計(jì)算機(jī)視覺等交叉學(xué)科知識在人體行為識別領(lǐng)域的具體應(yīng)用，既適合本領(lǐng)域的研究者了解前沿，也適合人工智能相關(guān)專業(yè)的本科生、研究生作為學(xué)習(xí)參考資料。本書由作者獨(dú)撰，全書約19萬字。本書的編寫得到了湖北省高等學(xué)校優(yōu)秀中青年科技創(chuàng)新團(tuán)隊(duì)計(jì)劃項(xiàng)目“行為識別技術(shù)研究及開發(fā)”（編號：T201923）、荊門市科學(xué)技術(shù)研究與開發(fā)計(jì)劃重點(diǎn)項(xiàng)目“基于視覺引導(dǎo)的焊機(jī)伺服系統(tǒng)關(guān)鍵技術(shù)研發(fā)”（編號：2021ZDYF024）、荊門市重大科技計(jì)劃項(xiàng)目“基于人工智能和邊緣計(jì)算融合的自動化生產(chǎn)線關(guān)鍵技術(shù)研究與應(yīng)用”（編號：2022ZDYF019）和荊楚理工學(xué)院智聯(lián)網(wǎng)應(yīng)用創(chuàng)新研究中心的資助。在此一并表示感謝！

由于作者水平有限，加工時間倉促，書中難免存在疏漏與不妥之處，懇請讀者批評指正。

第1章緒論 1
1.1 研究背景 1
1.2 國內(nèi)外研究現(xiàn)狀 3
1.2.1 手工特征 5
1.2.2 深度特征 11
1.2.3 行為識別數(shù)據(jù)集 16
1.3 存在的問題 19
1.4 行為識別研究內(nèi)容 20
第2章基于動作分解的行為識別 22
2.1 引言 22
2.2 基于動作分解的行為識別框架 23
2.2.1 動作分解與代表幀采樣 23
2.2.2 CNN特征學(xué)習(xí)與融合 25
2.2.3 動作時序建模 27
2.3 實(shí)驗(yàn)及結(jié)果分析 28
2.3.1 實(shí)驗(yàn)數(shù)據(jù)集及設(shè)置 28
2.3.2 算法參數(shù)分析 29
2.3.3 采樣策略比較 30
2.3.4 與前沿算法比較 31
2.4 本章小結(jié) 32
第3章基于運(yùn)動顯著性的行為識別 33
3.1 引言 33
3.2 H-FCN算法及其改進(jìn) 36
3.2.1 全卷積網(wǎng)絡(luò)模型 36
3.2.2 H-FCN算法 37
3.2.3 H-FCN算法改進(jìn) 38
3.3 基于運(yùn)動顯著性的圖像塊采樣 39
3.4 實(shí)驗(yàn)及結(jié)果分析 40
3.4.1 實(shí)驗(yàn)數(shù)據(jù)集及設(shè)置 40
3.4.2 改進(jìn)的H-FCN算法分析 41
3.4.3 圖像塊采樣方法比較 42
3.5 本章小結(jié) 43
第4章基于多模態(tài)特征的行為識別 44
4.1 引言 44
4.2 運(yùn)動邊界CNN特征 46
4.3 梯度邊界CNN特征 47
4.4 多模態(tài)特征融合 49
4.5 實(shí)驗(yàn)結(jié)果及分析 50
4.5.1 實(shí)驗(yàn)數(shù)據(jù)集及設(shè)置 50
4.5.2 多模態(tài)特征比較 51
4.5.3 多模態(tài)特征融合評估 53
4.6 本章小結(jié) 56
第5章基于實(shí)時全局運(yùn)動補(bǔ)償?shù)男袨樽R別 57
5.1 引言 57
5.2 實(shí)時全局運(yùn)動補(bǔ)償算法 59
5.2.1 全局運(yùn)動參數(shù)模型 59
5.2.2 全局運(yùn)動估計(jì) 60
5.2.3 全局運(yùn)動補(bǔ)償 63
5.3 實(shí)驗(yàn)及結(jié)果分析 64
5.3.1 實(shí)驗(yàn)數(shù)據(jù)集及設(shè)置 64
5.3.2 CGME算法評估 64
5.3.3 與前沿算法比較 66
5.4 本章小結(jié) 68
第6章基于局部最大池化特征時空向量的行為識別 69
6.1 引言 69
6.2 特征編碼相關(guān)工作 71
6.3 ST-VLMPF編碼方法 72
6.4 局部深度特征提取 74
6.5 ST-VLMPF算法有效性驗(yàn)證 76
6.5.1 實(shí)驗(yàn)數(shù)據(jù)集 76
6.5.2 實(shí)驗(yàn)設(shè)置 76
6.5.3 參數(shù)調(diào)優(yōu) 77
6.5.4 與其他編碼方法比較 79
6.5.5 融合策略 81
6.5.6 與前沿算法比較 82
6.6 本章小結(jié) 83
第7章基于姿態(tài)運(yùn)動表示的行為識別 84
7.1 引言 84
7.2 與本章相關(guān)的研究現(xiàn)狀 86
7.3 PoTion編碼表示 87
7.3.1 提取人體關(guān)節(jié)熱圖 87
7.3.2 時序依賴的熱圖著色 88
7.3.3 著色熱圖融合 89
7.4 基于PoTion編碼表示運(yùn)行CNN 90
7.4.1 網(wǎng)絡(luò)結(jié)構(gòu) 90
7.4.2 網(wǎng)絡(luò)實(shí)現(xiàn)細(xì)節(jié) 91
7.5 PoTion表示的實(shí)驗(yàn)分析 92
7.5.1 數(shù)據(jù)集與評價標(biāo)準(zhǔn) 92
7.5.2 PoTion編碼表示參數(shù)實(shí)驗(yàn) 92
7.5.3 CNN參數(shù)實(shí)驗(yàn) 93
7.5.4 姿態(tài)估計(jì)算法的影響 95
7.5.5 PoTion與前沿算法比較 95
7.6 本章小結(jié) 99
第8章基于動態(tài)運(yùn)動表示的行為識別 100
8.1 引言 100
8.2 相關(guān)研究工作 101
8.3 動態(tài)運(yùn)動表示（DynaMotion） 103
8.3.1 肢體關(guān)節(jié)提取與熱圖 103
8.3.2 仿射魯棒的運(yùn)動編碼 104
8.3.3 外觀與動態(tài)信息聚合 105
8.4 DynaMotion實(shí)現(xiàn)細(xì)節(jié) 105
8.4.1 動態(tài)編碼 105
8.4.2 網(wǎng)絡(luò)結(jié)構(gòu) 106
8.5 消融實(shí)驗(yàn) 107
8.5.1 數(shù)據(jù)集 107
8.5.2 姿態(tài)編碼 107
8.5.3 動態(tài)運(yùn)動CNN 108
8.5.4 DynaMotion的影響 109
8.5.5 與前沿算法比較 110
8.6 本章小結(jié) 111
第9章基于運(yùn)動增強(qiáng)RGB流的人體行為識別 112
9.1 引言 112
9.2 相關(guān)研究工作 114
9.3 學(xué)習(xí)替代光流 116
9.3.1 MERS算法 116
9.3.2 MARS算法 117
9.4 實(shí)驗(yàn)設(shè)置 118
9.4.1 數(shù)據(jù)集與評價方法 118
9.4.2 算法實(shí)現(xiàn)細(xì)節(jié) 118
9.5 實(shí)驗(yàn)結(jié)果討論 119
9.5.1 運(yùn)動光流 119
9.5.2 行為識別準(zhǔn)確率 121
9.5.3 α對識別準(zhǔn)確率的影響 122
9.5.4 運(yùn)動對識別準(zhǔn)確率的影響 123
9.5.5 與前沿算法比較 124
9.6 本章小結(jié) 126
第10章人體行為識別的進(jìn)一步研究 127
10.1 已取得的研究成果 127
10.2 人體行為識別待研究的問題 129
參考文獻(xiàn) 130

關(guān)閉

打印