深度學習圖像搜索與識別
潘攀
- 出版商: 電子工業
- 出版日期: 2021-03-01
- 定價: $654
- 售價: 7.5 折 $491
- 語言: 簡體中文
- 頁數: 228
- 裝訂: 平裝
- ISBN: 7121407493
- ISBN-13: 9787121407499
-
相關分類:
DeepLearning
立即出貨
買這商品的人也買了...
-
$294$279 -
$480$379 -
$403PyTorch 生成對抗網絡編程
-
$403機器學習中的概率統計:Python 語言描述
-
$556$523 -
$356Python趣味創意編程
-
$403圖神經網絡:基礎與前沿
-
$980$774 -
$1,000$790 -
$594$564 -
$505神經網絡與深度學習案例與實踐
-
$458BERT 基礎教程:Transformer 大模型實戰
-
$594$564 -
$454Scikit-learn機器學習高級進階
-
$750$593 -
$594$564 -
$407深度學在自然語言處理中的應用 : 從詞表徵到 ChatGPT
-
$403情感分析進階
-
$479$455 -
$454從零開始大模型開發與微調:基於 PyTorch 與 ChatGLM
-
$556大規模語言模型:從理論到實踐
-
$422ChatGLM3大模型本地化部署、應用開發與微調
-
$500進化深度學習
-
$458大模型應用開發 : 動手做 AI Agent
-
$662深度學習高手筆記 捲2:經典應用
相關主題
商品描述
圖像搜索和識別是電腦視覺領域一個非常重要且基礎的題目。本書對構成圖像搜索和識別系統的各個算法基礎模塊一一做了介紹,並在最後一章以拍立淘為例說明瞭各個模塊是怎樣一起工作的。針對每個算法模塊,本書不僅深入淺出地解釋了算法的工作原理,還對算法背後的演進機理和不同方法的特點進行了說明,在第2至第8章最後均提供了經典算法的PyTorch代碼和相關參考資料。本書既適合圖像搜索和識別領域的初學者,也適合在某個單一任務方面有經驗但是想擴充知識面的讀者。
作者簡介
潘攀,花名啟磐。
阿里巴巴集團資深算法專家,達摩院視覺理解&互動視覺負責人,負責電商領域的視覺技術研發。
拍立淘以圖搜圖的負責人和創始人之一,為拍立淘、淘寶直播&短視頻、虛擬主播、閒魚等業務提供核心技術。
博士畢業於美國伊利諾伊大學芝加哥分校,研究領域包括深度學習和計算機視覺等。
曾先後在美國三菱研究院和北京富士通研發中心從事視覺技術研發工作。
已發表20餘篇論文,擁有10餘授權專利,並獲得WebVision分類,COCO檢測,DAVIS分割等國際計算機視覺競賽冠軍。
目錄大綱
1概述1
1.1圖像搜索與識別概述1
1.2圖像搜索與識別技術的發展和應用3
1.3深度學習與圖像搜索和識別4
1.4本書結構6
2深度卷積神經網絡8
2.1概述8
2.1.1深度學習背景8
2.1.2深度卷積神經網絡9
2.2 CNN基礎操作11
2.2.1卷積操作11
2.2.2池化操作12
2.2.3全連接層13
2.2.4激活層14
2.2.5批歸一化層14
2.2.6小結16
2.3常見的CNN模型結構16
2.3.1網絡結構超參數17
2.3.2單分支網絡結構19
2.3.3多分支網絡結構24
2.3.4小結38
2.4常見目標損失函數38
2.5本章總結40
2.6參考資料40
3圖像分類43
3.1概述43
3.2單標記分類44
3.2.1常用數據集及評價指標44
3.2.2損失函數45
3.2.3提升分類精度的實用技巧47
3 .2.4基於搜索的圖像分類50
3.3細粒度圖像分類51
3.3.1概述51
3.3.2基於部件對齊的細粒度分類方法52
3.3.3基於高階特徵池化的細粒度分類方法55
3.3.4小結56
3.4多標記圖像分類56
3.4.1概述56
3.4.2 baseline:一階方法58
3.4.3標記關係建模59
3.4.4小結60
3.5代碼實踐61
3.6本章總結63
3.7參考資料63
4目標檢測66
4.1概述66
4.2兩階段目標檢測算法68
4.2.1候選框生成69
4.2.2特徵抽取71
4.2.3訓練策略73
4 .2.4小結76
4.3單階段目標檢測算法76
4.3.1 YOLO算法76
4.3.2 SSD算法78
4.3.3 RetinaNet算法81
4.3.4無錨點框檢測算法83
4.3.5小結87
4.4代碼實踐88
4.5本章總結91
4.6參考資料92
5圖像分割95
5.1概述95
5.2語義分割96
5.2.1概述96
5.2.2全卷積神經網絡97
5.2.3空洞卷積99
5.2.4 U-Net結構100
5.2.5條件隨機場關係建模101
5.2.6 Look Wider to See Better 103
5.2.7 Atrous Spatial Pyramid Pooling算法104
5.2.8 Context Encoding for Semantic Segmentation 104
5.2.9多卡同步批歸一化107
5.2.10小結107
5.3實例分割108
5.3.1概述108
5.3.2 FCIS 109
5.3.3 Mask R-CNN 111
5.3.4 Hybrid Task Cascade框架113
5.3.5小結115
5.4代碼實踐115
5. 5本章總結120
5.6參考資料120
6特徵學習124
6.1概述124
6.2基於分類識別的特徵訓練126
6.2.1 Sigmoid函數127
6.2.2 Softmax函數128
6.2.3 Weighted Softmax函數129
6.2.4 Large-Margin Softmax函數130
6.2.5 ArcFace函數132
6.2.6小結133
6.3基於度量學習的特徵訓練134
6.3.1 Contrastive損失函數135
6.3.2 Triplet損失函數137
6.3.3三元組損失函數在行人再識別中的應用139
6.3.4 Quadruplet損失函數140
6.3.5 Listwise Learning 141
6.3.6組合損失函數142
6.3.7小結142
6.4代碼實踐143
6.5本章總結143
6. 6參考資料144
7向量檢索147
7.1概述147
7.2局部敏感哈希算法149
7.2.1預處理150
7.2.2搜索151
7.2.3小結152
7.3乘積量化系列算法152
7.3.1 PQ算法153
7.3.2 IVFPQ算法155
7.3.3 OPQ算法156
7.3.4小結157
7.4圖搜索算法157
7.4.1 NSW算法158
7. 4.2 Kgraph算法161
7.4.3 HNSW算法163
7.4.4圖搜索算法實驗對比165
7.4.5小結165
7.5代碼實踐166
7.6本章總結167
7.7參考資料168
8圖文理解171
8.1概述171
8.2圖文識別172
8.2.1概述172
8.2.2數據集和評測標準174
8.2.3特徵融合方法176
8.2.4小結182
8.3圖文搜索182
8.3.1概述182
8.3.2數據集和評測標準184
8.3.3 Dual Attention Networks 185
8.3.4 Bottom-Up Attention 187
8.3.5圖文搜索的損失函數189
8.3.6小結190
8.4代碼實踐191
8.5本章總結194
8.6參考資料194
9阿里巴巴圖像搜索識別系統197
9.1概述197
9.2背景介紹198
9.3圖像搜索架構200
9.3.1類目預測模塊200
9.3.2目標檢測和特徵聯合學習201
9. 3.3圖像索引和檢索205
9.4實驗和結果分析207
9.5本章總結210
9.6參考資料211