破解深度學習:模型算法與實現(核心篇)
瞿煒
- 出版商: 人民郵電
- 出版日期: 2024-10-01
- 定價: $659
- 售價: 8.5 折 $560
- 語言: 簡體中文
- 頁數: 248
- ISBN: 7115651035
- ISBN-13: 9787115651037
-
相關分類:
DeepLearning
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書旨在採用一種符合讀者認知角度且能提升其學習效率的方式來講解深度學習背後的核心知識、原理和內在邏輯。
經過基礎篇的學習,想必你已經對深度學習的總體框架有了初步的瞭解和認識,掌握了深度神經網絡從核心概念、常見問題到典型網絡的基本知識。本書為核心篇,將帶領讀者實現從入門到進階、從理論到實戰的跨越。全書共7章,前三章包括復雜CNN、RNN和註意力機制網絡,深入詳解各類主流模型及其變體;第4章介紹這三類基礎模型的組合體,即概率生成模型;第5章和第6章著重介紹這些復雜模型在電腦視覺和自然語言處理兩大最常見領域的應用;第7章講解生成式大語言模型的內在原理並對其發展趨勢予以展望。
本書系統全面,深入淺出,且輔以生活中的案例進行類比,以此降低學習難度,能夠幫助讀者迅速掌握深度學習的基礎知識。本書適合有志於投身人工智能領域的人員閱讀,也適合作為高等院校人工智能相關專業的教學用書。
作者簡介
·瞿炜,美国伊利诺伊大学人工智能博士,哈佛大学、京都大学客座教授;前中国科学院大学教授、模式识别国家重点实验室客座研究员;国家部委特聘专家、重点实验室学术委员会委员;国际期刊编委,多个学术期刊审稿人及国际学术会议委员。在人工智能业界拥有二十余年的技术积累和实践经验,曾先后在互联网、医疗、安防、教育等行业的多家世界 500 强企业担任高管。他是授业解惑科技有限公司的创始人,以及多家人工智能、金融公司的联合创始人,还是一名天使投资人。凭借多年的专业积淀和卓越的行业洞察力,瞿炜博士近年来致力于人工智能教育事业的发展。作为教育博主,他擅长用通俗易懂的表达方式结合直观生动的模型动画,讲述复杂的人工智能理论与算法;创作的人工智能系列视频和课程在 B 站(账号:梗直哥丶)/知乎/GZH/视频号(账号:梗直哥丶)等平台深受学生们的欢迎和认可,累计访问量超数千万人次。
·李力,人工智能专家,长期致力于计算机视觉和强化学习领域的研究与实践。曾在多家科技企业担任资深算法工程师,拥有十余年行业经验,具备丰富的技术能力和深厚的理论知识。在他的职业生涯中,李力参与并领导了众多深度学习和强化学习的核心技术项目,有效地应用先进模型解决图像识别、目标检测、自然语言处理、机器人研发等多个领域的实际问题。
·杨洁,人工智能和自然语言处理领域资深应用专家,在自然语言理解、基于知识的智能服务、跨模态语言智能、智能问答系统等技术领域具有深厚的实战背景。她曾在教育、医疗等行业的企业担任关键职位,拥有十年以上的行业管理经验,成功领导并实施了多个创新项目,擅长引领团队将复杂的理论转化为实际应用,解决行业中的关键问题。
目錄大綱
第 1章 復雜捲積神經網絡:捕獲精細特徵 1
1.1 AlexNet 2
1.1.1 AlexNet簡介 2
1.1.2 代碼實現 3
1.1.3 模型訓練 6
1.1.4 小結 10
1.2 VGGNet 10
1.2.1 VGGNet簡介 10
1.2.2 代碼實現 13
1.2.3 模型訓練 15
1.2.4 小結 16
1.3 批歸一化方法 16
1.3.1 批歸一化簡介 16
1.3.2 代碼實現 17
1.3.3 模型訓練 19
1.3.4 小結 20
1.4 GoogLeNet 20
1.4.1 GoogLeNet簡介 20
1.4.2 Inception結構 20
1.4.3 GoogLeNet的模型結構 21
1.4.4 代碼實現 22
1.4.5 模型訓練 25
1.4.6 小結 26
1.5 ResNet 26
1.5.1 ResNet簡介 26
1.5.2 殘差結構 27
1.5.3 ResNet模型結構 28
1.5.4 代碼實現 30
1.5.5 模型訓練 35
1.5.6 小結 36
1.6 DenseNet 36
1.6.1 DenseNet簡介 36
1.6.2 代碼實現 39
1.6.3 模型訓練 44
1.6.4 小結 44
第 2章 復雜循環神經網絡:為記憶插上翅膀 46
2.1 雙向RNN和深度RNN 47
2.1.1 雙向RNN 47
2.1.2 深度RNN 48
2.1.3 小結 51
2.2 RNN長期依賴問題 51
2.2.1 什麽是長期依賴 52
2.2.2 長期記憶失效原因 52
2.2.3 截斷時間步 53
2.2.4 小結 54
2.3 長短期記憶網絡及其變體 54
2.3.1 核心思想 54
2.3.2 網絡結構 55
2.3.3 遺忘門 56
2.3.4 輸入門 56
2.3.5 輸出門 57
2.3.6 門控循環單元 57
2.3.7 小結 60
2.4 四種RNN代碼實現 60
2.4.1 模型定義 60
2.4.2 模型實驗 63
2.4.3 效果對比 66
2.4.4 小結 67
第3章 復雜註意力神經網絡:大模型的力量 68
3.1 BERT模型 68
3.1.1 3種模型結構 69
3.1.2 詞嵌入 70
3.1.3 預訓練:掩碼語言模型 70
3.1.4 預訓練:下一句預測 71
3.1.5 微調 72
3.1.6 優缺點 73
3.1.7 小結 74
3.2 GPT系列模型 74
3.2.1 GPT-1模型思想和結構 75
3.2.2 GPT-1無監督預訓練和監督微調 76
3.2.3 GPT-1數據集和性能特點 77
3.2.4 GPT-2模型思想和結構 78
3.2.5 GPT-2 數據集和性能特點 79
3.2.6 GPT-3 模型思想和結構 80
3.2.7 基於情景學習的對話模式 80
3.2.8 GPT-3 數據集和性能特點 83
3.2.9 小結 84
3.3 T5模型 84
3.3.1 基本思想 84
3.3.2 詞表示發展史 85
3.3.3 模型結構 86
3.3.4 預訓練流程 87
3.3.5 預訓練數據集 88
3.3.6 模型版本 89
3.3.7 小結 89
3.4 ViT模型 90
3.4.1 Transformer的好處 90
3.4.2 模型結構 90
3.4.3 數據預處理 91
3.4.4 圖片塊和位置嵌入 91
3.4.5 Transformer編碼器 92
3.4.6 MLP頭 93
3.4.7 性能對比 93
3.4.8 小結 94
3.5 Swin Transformer模型 94
3.5.1 要解決的問題 95
3.5.2 模型結構 95
3.5.3 輸入預處理 97
3.5.4 四個階段 97
3.5.5 Swin Transformer塊 98
3.5.6 窗口註意力 98
3.5.7 計算復雜度分析 98
3.5.8 移動窗口多頭自註意力機制 99
3.5.9 特徵圖循環移位計算 99
3.5.10 masked MSA操作 100
3.5.11 小結 101
第4章 深度生成模型:不確定性的妙用 102
4.1 蒙特卡洛方法 103
4.1.1 採樣 104
4.1.2 重要性採樣 105
4.1.3 馬爾可夫鏈蒙特卡洛方法 105
4.1.4 小結 106
4.2 變分推斷方法 106
4.2.1 參數估計 107
4.2.2 問題定義 108
4.2.3 算法思路 108
4.2.4 KL散度 109
4.2.5 公式推導 109
4.2.6 高斯混合模型實例 110
4.2.7 與MCMC方法對比 111
4.2.8 小結 111
4.3 變分自編碼器 112
4.3.1 降維思想 112
4.3.2 自編碼器 112
4.3.3 VAE基本思想 114
4.3.4 隱空間可視化 117
4.3.5 神經網絡實現 117
4.3.6 重新參數化技巧 118
4.3.7 小結 119
4.4 生成對抗網絡 119
4.4.1 什麽是對抗生成思想 119
4.4.2 模型結構 120
4.4.3 判別器 121
4.4.4 生成器 121
4.4.5 訓練流程 121
4.4.6 損失函數 123
4.4.7 小結 123
4.5 擴散模型 123
4.5.1 模型對比 124
4.5.2 基本思想 124
4.5.3 前向過程 125
4.5.4 逆向過程 126
4.5.5 損失函數 128
4.5.6 損失函數的參數化 129
4.5.7 訓練流程 130
4.5.8 小結 130
4.6 深度生成模型項目實戰 131
4.6.1 代碼實現 131
4.6.2 VAE模型 132
4.6.3 GAN模型 136
4.6.4 小結 140
第5章 電腦視覺:讓智慧可見 141
5.1 自定義數據加載 141
5.1.1 數據加載 141
5.1.2 數據準備 142
5.1.3 ImageFolder方法 142
5.1.4 自定義數據集示例1 145
5.1.5 自定義數據集示例2 147
5.1.6 小結 150
5.2 圖像數據增強 150
5.2.1 數據增強簡介 150
5.2.2 代碼準備 150
5.2.3 常見圖像數據增強方法 153
5.2.4 小結 159
5.3 遷移學習 160
5.3.1 遷移學習簡介 160
5.3.2 ResNet預訓練模型 160
5.3.3 ViT預訓練模型 163
5.3.4 小結 165
5.4 經典電腦視覺數據集 165
5.4.1 數據集簡介 165
5.4.2 小結 169
5.5 項目實戰:貓狗大戰 170
5.5.1 項目簡介 170
5.5.2 數據準備 170
5.5.3 模型訓練 175
5.5.4 模型預測 178
5.5.5 小結 180
第6章 自然語言處理:人機交互懂你所說 181
6.1 詞嵌入和Word2Vec 181
6.1.1 獨熱編碼 181
6.1.2 Word2Vec 182
6.1.3 Gensim代碼實現 185
6.1.4 小結 186
6.2 詞義搜索和句義表示 186
6.2.1 文本搜索方法 186
6.2.2 正則搜索 187
6.2.3 詞義搜索 188
6.2.4 距離計算方法 189
6.2.5 句子向量 189
6.2.6 代碼實現 190
6.2.7 常見應用 192
6.2.8 小結 192
6.3 預訓練模型 193
6.3.1 預訓練和遷移學習 193
6.3.2 遷移學習族譜 194
6.3.3 大語言模型 194
6.3.4 LLM進化方向 196
6.3.5 BERT系列進化 197
6.3.6 GPT系列進化 197
6.3.7 多模態模型 199
6.3.8 存在的問題 200
6.3.9 小結 200
6.4 Hugging Face庫介紹 200
6.4.1 核心庫 200
6.4.2 官網介紹 201
6.4.3 代碼調用 204
6.4.4 小結 207
6.5 NLP數據集 207
6.5.1 預訓練數據集 208
6.5.2 下游任務數據集 209
6.5.3 數據集使用 211
6.5.4 小結 213
6.6 項目實戰:電影評論情感分析 213
6.6.1 Pipeline 213
6.6.2 模型實戰 214
6.6.3 直接微調 219
6.6.4 小結 221
第7章 多模態生成式人工智能:引領智能新時代 222
7.1 CLIP模型 222
7.1.1 電腦視覺研究新範式 223
7.1.2 對比學習預訓練 223
7.1.3 圖像編碼器 224
7.1.4 文本編碼器 224
7.1.5 數據收集 224
7.1.6 圖像分類 225
7.1.7 模型訓練和優缺點分析 226
7.1.8 小結 227
7.2 DALL·E系列模型 227
7.2.1 初代模型結構 227
7.2.2 dVAE模塊 228
7.2.3 Transformer模塊 229
7.2.4 圖像生成過程 230
7.2.5 DALL·E 2 模型結構 230
7.2.6 CLIP模塊 231
7.2.7 prior模塊 232
7.2.8 decoder模塊 232
7.2.9 DALL·E 2 推理過程 233
7.2.10 模型效果 233
7.2.11 局限分析 233
7.2.12 小結 234
7.3 InstructGPT模型 235
7.3.1 GPT系列回顧 235
7.3.2 指示學習和提示學習 235
7.3.3 人工反饋強化學習 236
7.3.4 訓練流程 237
7.3.5 數據集採集 238
7.3.6 監督微調 239
7.3.7 獎勵模型 239
7.3.8 強化學習 239
7.3.9 優缺點分析 240
7.3.10 小結 240
7.4 深度學習最新發展趨勢分析 240
7.4.1 趨勢1:多模態融合 241
7.4.2 趨勢2:AIGC大爆發 242
7.4.3 趨勢3:大小模型分化 243
7.4.4 趨勢4:概率分佈模型的大發展 244
7.4.5 趨勢5:深度強化學習的春天 244
7.4.6 更多展望 245
7.5 下一步學習的建議 245
7.5.1 動手實踐 245
7.5.2 PyTorch官方文檔和課程 246
7.5.3 推薦網站 246
7.5.4 多讀論文 247
7.5.5 關於強化學習 247
7.5.6 繼續加油 248