深度學習視頻理解

張皓

  • 出版商: 電子工業
  • 出版日期: 2021-10-01
  • 定價: $768
  • 售價: 7.5$576
  • 語言: 簡體中文
  • 頁數: 342
  • 裝訂: 平裝
  • ISBN: 7121419807
  • ISBN-13: 9787121419805
  • 相關分類: DeepLearning
  • 立即出貨

買這商品的人也買了...

相關主題

商品描述

視頻理解是計算機視覺和深度學習的一個重要分支。
本書對視頻理解的3個重要領域進行介紹,對於每個領域,
本書不僅解釋了相關算法的原理,還梳理了算法演進的脈絡。
全書共分6章,
第1章簡要介紹視頻行業的發展歷程;
第2章回顧經典圖像分類模型和RNN;
第3章和第4章介紹動作識別的重要算法;
第5章介紹時序動作定位的重要算法;
第6章介紹視頻Embedding的重要算法。
*後總結了常用的一些視頻處理工具。

作者簡介

張皓

畢業於南京大學計算機系周志華教授領導的機器學習與數據挖掘研究所(LAMDA),
導師為吳建鑫教授,研究方向為深度學習和計算機視覺,曾獲國家獎學金、江蘇省三好學生等榮譽。
發表論文累計被引超過 190 次,合譯《模式識別》一書,曾獲 2016 年 CVPR 視頻表象性格分析競賽世界冠軍。
現任騰訊在線視頻研究員,專注於騰訊視頻等場景下的相關視頻理解任務。
曾任騰訊優圖實驗室研究員,為“微信看一看”等場景提供相關視頻理解能力。
知乎"張皓”關注深度學習和計算機視覺,擔任多個自媒體作者或專欄作者。

目錄大綱

目錄

第1章 緒論 1
1.1 引言 1
1.2 本書內容 5
1.2.1 圖像分類 7
1.2.2 動作識別 9
1.2.3 時序動作定位 12
1.2.4 視頻 Embedding 14
1.3 本章小結 15
第2章 經典網絡結構回顧 16
2.1 經典圖像分類網絡 16
2.1.1 LetNet-5 16
2.1.2 AlexNet 18
2.1.3 VGGNet 22
2.1.4 GoogLeNet 24
2.1.5 Inception V2/V3 27
2.1.6 ResNet 28
2.1.7 preResNet 31
2.1.8 WRN 32
2.1.9 隨機深度網絡 33
2.1.10 DenseNet 35
2.1.11 ResNeXt 36
2.1.12 SENet 39
2.1.13 MobileNet 41
2.1.14 MobileNet V2/V3 44
2.1.15 ShuffleNet 46
2.1.16 ShuffleNet V2 49
2.2 RNN、LSTM和GRU 51
2.2.1 RNN 51
2.2.2 梯度爆炸與梯度消失 52
2.2.3 LSTM 55
2.2.4 GRU 58
2.3 本章小結 60
第3章 基於2D卷積的動作識別 62
3.1 平均匯合 62
3.2 NetVLAD和NeXtVLAD 64
3.2.1 VLAD 65
3.2.2 NetVLAD 66
3.2.3 NeXtVLAD 71
3.2.4 NetFV和其他策略 75
3.3 利用RNN融合各幀特徵 77
3.3.1 2D卷積 + RNN的基本結構 78
3.3.2 對RNN結構進行改造 80
3.4 利用3D卷積融合各幀特徵 81
3.4.1 什麼是3D卷積 82
3.4.2 ECO 85
3.5 雙流法 87
3.5.1 什麼是光流 87
3.5.2 雙流法的基本網絡結構 89
3.5.3 雙流法的網絡結構優化 91
3.6 時序稀疏採樣 95
3.6.1 TSN 95
3.6.2 TSN的實現 98
3.6.3 ActionVLAD 99
3.6.4 StNet 100
3.6.5 TRN 102
3.7 利用iDT軌跡 104
3.7.1 DT和iDT 104
3.7.2 TDD 107
3.8 本章小結 108
第4章 基於3D卷積的動作識別 110
4.1 3D卷積基礎網絡結構 110
4.1.1 C3D 110
4.1.2 Res3D/3D ResNet 113
4.1.3 LTC 116
4.2 I3D 118
4.2.1 5類動作識別網絡 118
4.2.2 2D卷積擴展為3D卷積 119
4.2.3 5類網絡對比 121
4.3 3D卷積的低秩近似 123
4.3.1 低秩近似的基本原理 124
4.3.2 FSTCN 125
4.3.3 P3D 127
4.3.4 R(2+1)D 129
4.3.5 S3D 132
4.4 TSM 135
4.5 3D卷積 + RNN 137
4.6 ARTNet 139
4.7 Non-Local 141
4.7.1 Non-Local 操作 141
4.7.2 Non-Local 動作識別網絡 144
4.8 SlowFast 148
4.8.1 Slow分支和Fast分支 149
4.8.2 網絡結構設計 151
4.9 3D卷積神經網絡超參數設計 152
4.9.1 多網格訓練 152
4.9.2 X3D 154
4.10 本章小結 157
第5章 時序動作定位 159
5.1 基於滑動窗的算法 160
5.1.1 S-CNN 161
5.1.2 TURN 166
5.1.3 CBR 169
5.2 基於候選時序區間的算法 171
5.2.1 Faster R-CNN 回顧 172
5.2.2 R-C3D 175
5.2.3 TAL-Net 178
5.3 自底向上的時序動作定位算法 183
5.3.1 BSN 183
5.3.2 TSA-Net 187
5.3.3 BMN 191
5.4 對時序結構信息建模的算法 197
5.4.1 TAG 候選時序區間生成算法 198
5.4.2 SSN 網絡結構 199
5.5 逐幀預測的算法 202
5.5.1 CDC層 203
5.5.2 CDC 網絡結構 206
5.6 單階段算法 208
5.6.1 SSAD 208
5.6.2 SS-TAD 212
5.6.3 GTAN 214
5.7 本章小結 217
第6章 視頻Embedding 219
6.1 基於視頻內容的無監督 Embedding 220
6.1.1 編碼-解碼網絡 221
6.1.2 視頻序列驗證 222
6.1.3 視頻和音頻信息 224
6.1.4 視頻和文本信息 225
6.2 Word2Vec 229
6.2.1 CBOW和Skip-Gram 229
6.2.2 分層 Softmax 234
6.2.3 負採樣 239
6.3 Item2Vec 247
6.3.1 Item2Vec 基本形式 247
6.3.2 Item2Vec的改進 249
6.4 基於圖的隨機遊走 252
6.4.1 DeepWalk 252
6.4.2 Node2Vec 254
6.5 結合一二階相似度 257
6.5.1 LINE 258
6.5.2 SDNE 262
6.6 基於圖的鄰居結點 265
6.6.1 GCN 265
6.6.2 GraphSAGE 269
6.6.3 GAT 272
6.7 基於多種信息學習視頻Embedding 274
6.7.1 召回模型 276
6.7.2 訓練 278
6.8 本章小結 280
附錄A 視頻處理常用工具 281
A.1 FFmpeg 281
A.2 OpenCV 284
A.3 Decord 291
A.4 Lintel 294
參考文獻 296