動手學電腦視覺
沈為 司翀傑 楊辰 俞勇
- 出版商: 人民郵電
- 出版日期: 2025-02-01
- 定價: $539
- 售價: 8.5 折 $458
- 語言: 簡體中文
- 頁數: 296
- ISBN: 7115635757
- ISBN-13: 9787115635754
-
相關分類:
Computer Vision
下單後立即進貨 (約2週~3週)
商品描述
本書著眼於電腦視覺教學實踐,系統地介紹了電腦視覺的基本內容及其代碼實現。
本書包含4個部分:第一部分為電腦視覺導論,帶領讀者初步瞭解電腦視覺。第二部分為電腦視覺中的圖像處理基礎,介紹了圖像濾波、特徵檢測、圖像拼接、圖像分割等經典的圖像處理算法;第三部分為電腦視覺中的視覺識別方法,主要講解基於深度學習的視覺識別方法,包括基於深度學習的圖像分類、語義分割、目標檢測、動作識別等;第四部分為電腦視覺中的場景重建,主要討論照相機標定、運動場和光流、平行雙目視覺以及三維重建。本書將電腦視覺算法原理與實踐相結合,以大量示例和代碼帶領讀者走進電腦視覺的世界,讓讀者對電腦視覺的研究內容、基本原理有基本認識。
本書適合對電腦視覺感興趣的專業技術人員和研究人員閱讀,同時適合作為人工智能相關專業電腦視覺課程的教材。
作者簡介
沈為,上海交通大學教授,博士生導師,上海交通大學人工智能(卓越人才試點班)電腦視覺課程授課教師。國家自然科學基金優秀青年科學基金獲得者,多次擔任電腦視覺相關領域頂級國際會議(如CVPR、ICCV、NeurIPS)的領域主席。研究領域包括電腦視覺、模式識別與深度學習,以及這些技術在醫學輔助診斷等場景中的應用。
司翀傑,上海交通大學人工智能研究院博士生,研究方向為大模型的高效訓練,並在AAAI、
KDD、ECCV和TKDE等頂級會議或期刊上發表過多篇高水平論文。
俞勇,享受國務院特殊津貼專家,首批“國家高層次人才特殊支持計劃”教學名師,上海交通大學特聘教授,上海交通大學ACM班創始人,APEX數據與知識管理實驗室主任。曾獲得“全國模範教師”“全國師德標兵”“CCF傑出教育獎”“上海市五一勞動獎章”和“上海交通大學校長獎”等榮譽。2018年創辦了伯禹人工智能學院,在上海交通大學ACM班人工智能專業課程體系的基礎上,對人工智能課程體系進行創新,致力於培養卓越的人工智能算法工程師和研究員。
楊辰,上海交通大學人工智能研究院博士生,獲得MICCAI 2023青年科學家獎,研究方向為復雜場景下的三維與四維重建,並在TOG、CVPR、ICCV和TMI等頂級會議或期刊上發表過多篇高水平論文。
目錄大綱
第 一部分 電腦視覺導論
第 1章 初探電腦視覺 2
1.1 什麽是電腦視覺 2
1.2 為什麽需要電腦視覺 3
1.3 電腦視覺的難點與挑戰 3
1.4 電腦視覺的歷史與發展 5
1.5 電腦視覺中變量的數學符號約定 6
1.6 小結 7
第二部分 圖像處理
第 2章 捲積 10
2.1 簡介 10
2.2 一維捲積 11
2.2.1 沖激信號 14
2.2.2 方波信號 15
2.3 二維捲積 16
2.3.1 沖激信號 18
2.3.2 方波信號 20
2.4 小結 21
第3章 圖像濾波 22
3.1 簡介 22
3.2 圖像噪聲 22
3.2.1 椒鹽噪聲 22
3.2.2 高斯噪聲 24
3.3 均值濾波 24
3.4 高斯濾波 27
3.5 雙邊濾波 30
3.6 中值濾波 32
3.7 圖像銳化 34
3.8 小結 35
第4章 模板匹配 37
4.1 簡介 37
4.2 模板匹配的實現 37
4.2.1 匹配步驟 38
4.2.2 相似度度量 38
4.3 多目標模板匹配 42
4.4 小結 45
第5章 邊緣檢測 46
5.1 簡介 46
5.2 邊緣檢測的數學模型 46
5.3 邊緣檢測算法 48
5.3.1 Sobel邊緣檢測算法 48
5.3.2 Canny邊緣檢測算法 51
5.4 小結 62
5.5 參考文獻 62
第6章 角點檢測 63
6.1 簡介 63
6.2 Harris角點檢測算法 64
6.2.1 計算像素值變化量 64
6.2.2 計算角點響應函數 66
6.3 代碼實現 67
6.4 圖像變換對角點檢測的影響 70
6.5 小結 71
第7章 SIFT特徵檢測 72
7.1 塊狀區域檢測與尺度空間 72
7.2 SIFT算法 76
7.2.1 局部極值點檢測 76
7.2.2 特徵點定位與篩選 77
7.2.3 特徵點方向計算 79
7.2.4 特徵點描述 80
7.3 代碼實現 81
7.4 小結 94
7.5 參考文獻 94
第8章 圖像拼接 95
8.1 簡介 95
8.2 圖像變換 96
8.3 圖像拼接算法 97
8.3.1 計算變換矩陣 98
8.3.2 利用RANSAC算法去除誤匹配 99
8.3.3 圖像變換與縫合 101
8.4 代碼實現 101
8.5 小結 106
8.6 拓展閱讀 107
第9章 圖像分割 108
9.1 簡介 108
9.2 圖像分割算法 109
9.2.1 基於k均值聚類的圖像分割算法 109
9.2.2 基於圖切割的圖像分割算法 113
9.3 小結 117
9.4 參考文獻 118
第三部分 視覺識別
第 10章 圖像分類 120
10.1 簡介 120
10.2 數據集和度量 122
10.3 基於視覺詞袋模型的圖像分類算法 122
10.4 基於深度捲積網絡的圖像分類算法 128
10.5 小結 138
10.6 參考文獻 138
第 11章 語義分割 140
11.1 簡介 140
11.2 數據集和度量 141
11.3 全捲積網絡 141
11.3.1 上採樣 143
11.3.2 跳躍連接 145
11.4 FCN代碼實現 149
11.5 小結 156
11.6 參考文獻 156
第 12章 目標檢測 157
12.1 簡介 157
12.2 數據集和度量 158
12.3 目標檢測模型 159
12.3.1 R-CNN 160
12.3.2 Fast R-CNN 162
12.3.3 Faster R-CNN 166
12.4 RPN代碼整體框架 168
12.4.1 訓練模塊 173
12.4.2 head模塊 179
12.4.3 anchor_generator模塊 180
12.4.4 box_coder模塊 184
12.4.5 filter_proposal模塊 188
12.5 代碼運行示例 191
12.6 小結 194
12.7 參考文獻 194
第 13章 實例分割 195
13.1 簡介 195
13.2 數據集和度量 196
13.3 Mask R-CNN 196
13.3.1 特徵金字塔網絡 197
13.3.2 感興趣區域對齊 200
13.4 代碼運行示例 205
13.5 小結 208
13.6 參考文獻 209
第 14章 人體姿態估計 210
14.1 簡介 210
14.2 數據集和度量 211
14.2.1 數據集 211
14.2.2 評測指標 211
14.3 人體姿態估計模型——DeepPose 212
14.3.1 基於深度神經網絡的人體姿態估計 212
14.3.2 級聯回歸 213
14.4 DeepPose代碼實現 215
14.5 小結 217
14.6 參考文獻 218
第 15章 動作識別 219
15.1 簡介 219
15.2 數據集和度量 220
15.2.1 數據集 220
15.2.2 評測指標 220
15.3 動作識別模型——C3D 220
15.3.1 三維捲積 221
15.3.2 C3D模型 223
15.4 C3D代碼實現 224
15.5 小結 225
15.6 參考文獻 226
第四部分 場景重建
第 16章 照相機標定 228
16.1 簡介 228
16.2 照相機成像原理 228
16.2.1 照相機模型 229
16.2.2 坐標系的定義 229
16.2.3 照相機外參 229
16.2.4 照相機內參 230
16.2.5 投影矩陣 232
16.2.6 畸變 233
16.3 照相機標定的實現 235
16.3.1 標定板 235
16.3.2 標定流程 236
16.3.3 代碼實現 238
16.4 小結 247
第 17章 運動場和光流 248
17.1 簡介 248
17.2 運動場 249
17.3 光流 250
17.3.1 特徵點法 250
17.3.2 直接法 250
17.3.3 Lucas-Kanade光流法 251
17.3.4 Lucas-Kanade光流法的改進 252
17.4 代碼實現 253
17.5 小結 261
17.6 參考文獻 261
第 18章 平行雙目視覺 262
18.1 簡介 262
18.2 平行雙目照相機 262
18.2.1 概念定義 262
18.2.2 視差 263
18.2.3 雙目特徵匹配 264
18.2.4 全局優化 265
18.3 代碼實現 266
18.4 小結 270
18.5 參考文獻 271
第 19章 三維重建 272
19.1 簡介 272
19.2 對極幾何 273
19.2.1 數學定義 273
19.2.2 本質矩陣 275
19.2.3 利用八點法求解基礎矩陣 277
19.2.4 通過本質矩陣求解照相機位姿 278
19.3 三角測量 278
19.4 代碼實現 280
19.5 小結 290
總結與展望 291
中英文術語對照表 293