深度學習視頻理解

張皓

出版商: 電子工業
出版日期: 2021-10-01
定價: $768
售價: 7.5 折 $576
語言: 簡體中文
頁數: 342
裝訂: 平裝
ISBN: 7121419807
ISBN-13: 9787121419805
相關分類: DeepLearning

立即出貨

買這商品的人也買了...

~~$550~~ $495

高等微積分【解析概論】
~~$580~~ $458

機器學習的數學基礎 : AI、深度學習打底必讀
~~$580~~ $458

深度學習的數學地圖 -- 用 Python 實作神經網路的數學模型 (附數學快查學習地圖)
$301

乙太坊 Solidity 智慧合約開發
$356

機器學習（Python+sklearn+TensorFlow 2.0）-微課視頻版
~~$380~~ $296

行動裝置深度學習
$356

Python 深度學習與項目實戰
~~$1,000~~ $790

核心開發者親授！PyTorch 深度學習攻略 (Deep Learning with Pytorch)
$556

機器學習中的加速一階優化算法
~~$580~~ $435

Python 實戰聖經：用簡單強大的模組套件完成最強應用 (附影音/範例程式)
~~$680~~ $537

機器學習的統計基礎 : 深度學習背後的核心技術
$352

昇騰AI處理器CANN應用與實戰——基於Atlas硬件的人工智能案例開發指南
$374

精通 LevelDB
~~$690~~ $587

AutoML 自動化機器學習：用 AutoKeras 超輕鬆打造高效能 AI 模型 (Automated Machine Learning with AutoKeras: Deep learning made accessible for everyone with just few lines of coding)
~~$880~~ $695

一本書秒殺電腦視覺最新應用：80個 Python 大師級實例
$568

ARM64 體系結構編程與實踐
~~$1,200~~ $948

開發者傳授 PyTorch 秘笈
~~$820~~ $640

圖解 TensorFlow 2 初學篇：實作 tf.keras + Colab 雲端、深度學習、人工智慧、影像辨識
$374

動手學推薦系統 — 基於 PyTorch 的算法實現 (微課視頻版)
~~$720~~ $540

科學方法賺大錢 - Python 進行商品期貨量化交易
~~$414~~ $393

HuggingFace 自然語言處理詳解 — 基於 BERT 中文模型的任務實戰
~~$474~~ $450

交易的密碼：用算法賺取第一桶金
$473

YOLO 目標檢測
~~$880~~ $695

跟 NVIDIA 學深度學習！從基本神經網路到 ......、GPT、BERT...，紮穩機器視覺與大型語言模型 (LLM) 的建模基礎
$422

大模型動力引擎 — PyTorch 性能與顯存優化手冊

商品描述

視頻理解是計算機視覺和深度學習的一個重要分支。
本書對視頻理解的3個重要領域進行介紹，對於每個領域，
本書不僅解釋了相關算法的原理，還梳理了算法演進的脈絡。
全書共分6章，
第1章簡要介紹視頻行業的發展歷程；
第2章回顧經典圖像分類模型和RNN；
第3章和第4章介紹動作識別的重要算法；
第5章介紹時序動作定位的重要算法；
第6章介紹視頻Embedding的重要算法。
*後總結了常用的一些視頻處理工具。

作者簡介

張皓

畢業於南京大學計算機系周志華教授領導的機器學習與數據挖掘研究所（LAMDA），
導師為吳建鑫教授，研究方向為深度學習和計算機視覺，曾獲國家獎學金、江蘇省三好學生等榮譽。
發表論文累計被引超過 190 次，合譯《模式識別》一書，曾獲 2016 年 CVPR 視頻表象性格分析競賽世界冠軍。
現任騰訊在線視頻研究員，專註於騰訊視頻等場景下的相關視頻理解任務。
曾任騰訊優圖實驗室研究員，為“微信看一看”等場景提供相關視頻理解能力。
知乎"張皓”關註深度學習和計算機視覺，擔任多個自媒體作者或專欄作者。

目錄大綱

第1章緒論 1
1.1 引言 1
1.2 本書內容 5
1.2.1 圖像分類 7
1.2.2 動作識別 9
1.2.3 時序動作定位 12
1.2.4 視頻 Embedding 14
1.3 本章小結 15
第2章經典網絡結構回顧 16
2.1 經典圖像分類網絡 16
2.1.1 LetNet-5 16
2.1.2 AlexNet 18
2.1.3 VGGNet 22
2.1.4 GoogLeNet 24
2.1.5 Inception V2/V3 27
2.1.6 ResNet 28
2.1.7 preResNet 31
2.1.8 WRN 32
2.1.9 隨機深度網絡 33
2.1.10 DenseNet 35
2.1.11 ResNeXt 36
2.1.12 SENet 39
2.1.13 MobileNet 41
2.1.14 MobileNet V2/V3 44
2.1.15 ShuffleNet 46
2.1.16 ShuffleNet V2 49
2.2 RNN、LSTM和GRU 51
2.2.1 RNN 51
2.2.2 梯度爆炸與梯度消失 52
2.2.3 LSTM 55
2.2.4 GRU 58
2.3 本章小結 60
第3章基於2D捲積的動作識別 62
3.1 平均匯合 62
3.2 NetVLAD和NeXtVLAD 64
3.2.1 VLAD 65
3.2.2 NetVLAD 66
3.2.3 NeXtVLAD 71
3.2.4 NetFV和其他策略 75
3.3 利用RNN融合各幀特徵 77
3.3.1 2D捲積 + RNN的基本結構 78
3.3.2 對RNN結構進行改造 80
3.4 利用3D捲積融合各幀特徵 81
3.4.1 什麼是3D捲積 82
3.4.2 ECO 85
3.5 雙流法 87
3.5.1 什麼是光流 87
3.5.2 雙流法的基本網絡結構 89
3.5.3 雙流法的網絡結構優化 91
3.6 時序稀疏採樣 95
3.6.1 TSN 95
3.6.2 TSN的實現 98
3.6.3 ActionVLAD 99
3.6.4 StNet 100
3.6.5 TRN 102
3.7 利用iDT軌跡 104
3.7.1 DT和iDT 104
3.7.2 TDD 107
3.8 本章小結 108
第4章基於3D捲積的動作識別 110
4.1 3D捲積基礎網絡結構 110
4.1.1 C3D 110
4.1.2 Res3D/3D ResNet 113
4.1.3 LTC 116
4.2 I3D 118
4.2.1 5類動作識別網絡 118
4.2.2 2D捲積擴展為3D捲積 119
4.2.3 5類網絡對比 121
4.3 3D捲積的低秩近似 123
4.3.1 低秩近似的基本原理 124
4.3.2 FSTCN 125
4.3.3 P3D 127
4.3.4 R(2+1)D 129
4.3.5 S3D 132
4.4 TSM 135
4.5 3D捲積 + RNN 137
4.6 ARTNet 139
4.7 Non-Local 141
4.7.1 Non-Local 操作 141
4.7.2 Non-Local 動作識別網絡 144
4.8 SlowFast 148
4.8.1 Slow分支和Fast分支 149
4.8.2 網絡結構設計 151
4.9 3D捲積神經網絡超參數設計 152
4.9.1 多網格訓練 152
4.9.2 X3D 154
4.10 本章小結 157
第5章時序動作定位 159
5.1 基於滑動窗的算法 160
5.1.1 S-CNN 161
5.1.2 TURN 166
5.1.3 CBR 169
5.2 基於候選時序區間的算法 171
5.2.1 Faster R-CNN 回顧 172
5.2.2 R-C3D 175
5.2.3 TAL-Net 178
5.3 自底向上的時序動作定位算法 183
5.3.1 BSN 183
5.3.2 TSA-Net 187
5.3.3 BMN 191
5.4 對時序結構信息建模的算法 197
5.4.1 TAG 候選時序區間生成算法 198
5.4.2 SSN 網絡結構 199
5.5 逐幀預測的算法 202
5.5.1 CDC層 203
5.5.2 CDC 網絡結構 206
5.6 單階段算法 208
5.6.1 SSAD 208
5.6.2 SS-TAD 212
5.6.3 GTAN 214
5.7 本章小結 217
第6章視頻Embedding 219
6.1 基於視頻內容的無監督 Embedding 220
6.1.1 編碼-解碼網絡 221
6.1.2 視頻序列驗證 222
6.1.3 視頻和音頻信息 224
6.1.4 視頻和文本信息 225
6.2 Word2Vec 229
6.2.1 CBOW和Skip-Gram 229
6.2.2 分層 Softmax 234
6.2.3 負採樣 239
6.3 Item2Vec 247
6.3.1 Item2Vec 基本形式 247
6.3.2 Item2Vec的改進 249
6.4 基於圖的隨機遊走 252
6.4.1 DeepWalk 252
6.4.2 Node2Vec 254
6.5 結合一二階相似度 257
6.5.1 LINE 258
6.5.2 SDNE 262
6.6 基於圖的鄰居結點 265
6.6.1 GCN 265
6.6.2 GraphSAGE 269
6.6.3 GAT 272
6.7 基於多種信息學習視頻Embedding 274
6.7.1 召回模型 276
6.7.2 訓練 278
6.8 本章小結 280
附錄A 視頻處理常用工具 281
A.1 FFmpeg 281
A.2 OpenCV 284
A.3 Decord 291
A.4 Lintel 294
參考文獻 296

深度學習視頻理解

張皓

買這商品的人也買了...

商品描述

作者簡介

目錄大綱

類似商品