視覺問答:理論與實踐 Visual Question Answering: From Theory to Application

Qi Wu,Peng Wang,Xin Wang,Xiaodong He,Wenwu Zhu

商品描述

視覺問答任務要求機器根據指定的視覺圖像內容, 對單輪或多輪的自然語言問題進行作答。其本質上是一個多學科的研究問題,涉及電腦視覺、自然語言處理、知識表示與推理等。本書共5 部分,第1 部分介紹在電腦視覺和自然語言處理領域廣泛使用的基本方法和技術,包括捲積神經網絡、序列建模和註意力機制等。本書將視覺問答分為圖像和視頻方法。第2 部分將圖像視覺問答進一步分為五類,即聯合嵌入、註意力機制、記憶網絡、組合推理和圖神經網絡。此外,概述基於圖像的其他視覺問答任務,例如基於知識的視覺問答、視覺問答的視覺和語言預訓練。第3 部分討論基於視頻的視覺問答及其相關模型。第4 部分討論與視覺問答相關的高級任務,包括具身視覺問答、醫學視覺問答、基於文本的視覺問答、視覺問題生成、視覺對話和指代表達理解,它們是視覺問答任務的擴展。第5 部分對該領域進行總結和展望,討論視覺問答領域的未來研究方向。

目錄大綱

目錄
第1 章簡介..................................................................1
1.1 視覺問答的動機........................................................1
1.2 人工智能任務中的視覺問答...........................................4
1.3 視覺問答類別..........................................................5
1.3.1 數據分類驅動......................................................6
1.3.2 任務分類驅動......................................................7
1.3.3 其他..............................................................7
參考文獻.....................................................................8

第1 部分基礎理論
第2 章深度學習基礎......................................................15
2.1 神經網絡...............................................................15
2.2 捲積神經網絡..........................................................17
2.3 循環神經網絡及變體...................................................18
2.4 編碼器-解碼器結構....................................................20
2.5 註意力機制.............................................................20
2.6 記憶網絡...............................................................21
2.7 Transformer 網絡和BERT............................................22
2.8 圖神經網絡.............................................................24
參考文獻.....................................................................25

第3 章問答基礎知識......................................................27
3.1 基於規則的方法........................................................27
3.2 基於信息檢索的方法...................................................28
3.3 問答的神經語義解析...................................................29
3.4 問答知識庫.............................................................29
參考文獻.....................................................................30

第2 部分圖像視覺問答
第4 章經典視覺問答......................................................35
4.1 簡介....................................................................35
4.2 數據集..................................................................36
4.3 生成與分類:兩種回答策略...........................................40
4.4 聯合嵌入...............................................................40
4.4.1 序列到序列編碼器-解碼器模型......................................40
4.4.2 雙線性編碼模型....................................................43
4.5 註意力機制.............................................................45
4.5.1 堆疊註意力網絡....................................................45
4.5.2 分層問題-圖像協同註意力..........................................47
4.5.3 自底向上和自頂向下的註意力.......................................49
4.6 記憶網絡...............................................................51
4.6.1 改進的動態記憶網絡...............................................51
4.6.2 記憶增強網絡......................................................52
4.7 組合推理...............................................................54
4.7.1 神經模塊網絡......................................................55
4.7.2 動態神經模塊網絡..................................................56
4.8 圖神經網絡.............................................................58
4.8.1 圖捲積網絡........................................................58
4.8.2 圖註意力網絡......................................................60
4.8.3 視覺問答圖捲積網絡...............................................62
4.8.4 視覺問答圖註意力網絡.............................................63
參考文獻.....................................................................66

第5 章基於知識的視覺問答..............................................71
5.1 簡介....................................................................71
5.2 數據集..................................................................72
5.3 知識庫..................................................................74
5.3.1 數據庫百科........................................................74
5.3.2 ConceptNet........................................................74
5.4 知識嵌入...............................................................75
5.4.1 文字對矢量表示法..................................................75
5.4.2 基於BERT 的表徵.................................................78
5.5 問題-查詢轉換.........................................................79
5.5.1 基於查詢映射的方法...............................................79
5.5.2 基於學習的方法....................................................81
5.6 查詢知識庫的方法.....................................................82
5.6.1 RDF ..............................................................82
5.6.2 記憶網查詢........................................................83
參考文獻.....................................................................84

第6 章視覺問答的視覺和語言預訓練..................................88
6.1 簡介....................................................................88
6.2 常規預訓練模型........................................................89
6.2.1 ELMo .............................................................89
6.2.2 GPT ..............................................................89
6.2.3 MLM .............................................................90
6.3 視覺和語言預訓練的常用方法.........................................93
6.3.1 單流方法..........................................................94
6.3.2 雙流方法..........................................................96
6.4 視覺問答及其下游任務微調...........................................98
參考文獻.....................................................................101

第3 部分視頻視覺問答
第7 章視頻表徵學習.....................................................·105
7.1 人工標註的局部視頻描述符...........................................105
7.2 數據驅動的深度學習的視頻特徵表示.................................107
7.3 視頻表徵的自監督學習................................................109
參考文獻.....................................................................110

第8 章視頻問答...........................................................·112
8.1 簡介....................................................................112
8.2 數據集..................................................................112
8.2.1 多步推理數據集....................................................113
8.2.2 單步推理數據集....................................................116
8.3 使用編碼器-解碼器結構的傳統視頻時空推理.........................118
參考文獻.....................................................................123

第9 章視頻問答的高級模型.............................................·126
9.1 時空特徵註意力........................................................126
9.2 記憶網絡...............................................................129
9.3 時空圖神經網絡........................................................130
參考文獻.....................................................................132

第4 部分視覺問答高級任務
第10 章具身視覺問答...................................................·137
10.1 簡介...................................................................137
10.2 模擬器、數據集和評估標準..........................................138
10.2.1 模擬器...........................................................138
10.2.2 數據集...........................................................140
10.2.3 評估指標.........................................................141
10.3 語言引導的視覺導航.................................................142
10.3.1 視覺和語言導航...................................................142
10.3.2 遠程對象定位.....................................................147
10.4 具身問答..............................................................148
10.5 交互式問答............................................................150
參考文獻.....................................................................151

第11 章醫學視覺問答...................................................·153
11.1 簡介...................................................................153
11.2 數據集.................................................................154
11.3 醫學視覺問答的經典方法............................................156
11.4 醫學視覺問答的元學習方法..........................................159
11.5 基於BERT 的醫學視覺問答方法....................................160
參考文獻.....................................................................162

第12 章基於文本的視覺問答...........................................·165
12.1 簡介...................................................................165
12.2 數據集.................................................................166
12.2.1 TextVQA.........................................................166
12.2.2 ST-VQA .........................................................167
12.2.3 OCR-VQA .......................................................168
12.3 OCR 標記表示........................................................168
12.4 簡單融合模型.........................................................169
12.5 基於Transformer 的模型............................................170
12.6 圖模型.................................................................172
參考文獻.....................................................................173

第13 章視覺問題生成...................................................·176
13.1 簡介...................................................................176
13.2 數據融合中的視覺問題生成..........................................176
13.2.1 從答案生成問題...................................................177
13.2.2 從圖像生成問題...................................................178
13.2.3 對抗學習.........................................................179
13.3 作為視覺理解問題的視覺問題生成..................................180
參考文獻.....................................................................182

第14 章視覺對話.........................................................·185
14.1 簡介...................................................................185
14.2 數據集.................................................................186
14.3 註意力機制............................................................187
14.3.1 具有註意力的分層循環編碼器和記憶網絡...........................187
14.3.2 歷史條件圖像註意力編碼器........................................188
14.3.3 序列協同註意力生成模型..........................................190
14.3.4 協同網絡.........................................................192
14.4 視覺指代表達理解....................................................194
14.5 基於圖的方法.........................................................195
14.5.1 視覺表示的場景圖................................................196
14.5.2 用於視覺和對話表示的圖捲積網絡.................................197
14.6 預訓練模型............................................................199
14.6.1 VD-BERT ........................................................200
14.6.2 Visual-Dialog BERT ..............................................201
參考文獻.....................................................................202

第15 章指代表達理解...................................................·204
15.1 簡介...................................................................204
15.2 數據集.................................................................205
15.3 二階段模型............................................................206
15.3.1 聯合嵌入.........................................................206
15.3.2 協同註意力模型...................................................208
15.3.3 圖模型...........................................................209
15.4 一階段模型............................................................211
15.5 推理過程理解.........................................................212
參考文獻.....................................................................213

第5 部分總結與展望
第16 章總結與展望......................................................·219
16.1 總結...................................................................219
16.2 展望...................................................................219
16.2.1 視覺問答的可解釋性..............................................219
16.2.2 消除偏見.........................................................220
16.2.3 附加設置及應用...................................................221
參考文獻.....................................................................221