機器學習方法

李航

  • 機器學習方法-preview-1
  • 機器學習方法-preview-2
  • 機器學習方法-preview-3
機器學習方法-preview-1

買這商品的人也買了...

相關主題

商品描述

機器學習是以概率論、統計學、信息論、**化理論、計算理論等為基礎的電腦應用理論學科,也是人工智能、數據挖掘等領域的基礎學科。《機器學習方法》全面系統地介紹了機器學習的主要方法,共分三篇。第一篇介紹監督學習的主要方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦回歸與**熵模型、支持向量機、Boosting、EM算法、隱馬爾可夫模型、條件隨機場等;第二篇介紹無監督學習的主要方法,包括聚類、奇異值分解、主成分分析、潛在語義分析、概率潛在語義分析、馬爾可夫鏈蒙特卡羅法、潛在狄利克雷分配、PageRank算法等。第三篇介紹深度學習的主要方法,包括前饋神經網絡、捲積神經網絡、循環神經網絡、序列到序列模型、預訓練語言模型、生成對抗網絡等。書中每章介紹一兩種機器學習方法,詳細敘述各個方法的模型、策略和算法。從具體例子入手,由淺入深,幫助讀者直觀地理解基本思路,同時從理論角度出發,給出嚴格的數學推導,嚴謹詳實,讓讀者更好地掌握基本原理和概念。目的是使讀者能學會和使用這些機器學習的基本技術。為滿足讀者進一步學習的需要,書中還對各個方法的要點進行了總結,給出了一些習題,並列出了主要參考文獻。 《機器學習方法》是機器學習及相關課程的教學參考書,適合人工智能、數據挖掘等專業的本科生、研究生使用,也供電腦各個領域的專業研發人員參考。

目錄大綱

目錄

第1篇 監 督 學 習

第1章   機器學習及監督學習概論 ................................................................................3 

1.1機器學習 .......................................................................................................3 

1.2機器學習的分類 .............................................................................................5 

1.2.1基本分類 ............................................................................................5 

1.2.2按模型分類 ....................................................................................... 10 

1.2.3按算法分類 ....................................................................................... 11 

1.2.4按技巧分類 ....................................................................................... 12 

1.3機器學習方法三要素 .................................................................................... 13 

1.3.1模型 ................................................................................................. 13 

1.3.2策略 ................................................................................................. 14 

1.3.3算法 ................................................................................................. 16 

1.4模型評估與模型選擇 .................................................................................... 17 

1.4.1訓練誤差與測試誤差 .......................................................................... 17 

1.4.2過擬合與模型選擇 ............................................................................. 18 

1.5正則化與交叉驗證 ........................................................................................ 20 

1.5.1正則化 .............................................................................................. 20 

1.5.2交叉驗證 .......................................................................................... 20 

1.6泛化能力 ..................................................................................................... 21 

1.6.1泛化誤差 .......................................................................................... 21 

1.6.2泛化誤差上界 .................................................................................... 22 

1.7生成模型與判別模型 .................................................................................... 24 

1.8監督學習應用 .............................................................................................. 24 

1.8.1分類問題 .......................................................................................... 24 

1.8.2標註問題 .......................................................................................... 26 

1.8.3回歸問題 .......................................................................................... 27 本章概要 .............................................................................................................28 繼續閱讀 .............................................................................................................29 習題 ...................................................................................................................29 參考文獻 .............................................................................................................29 

VIII機器學習方法

第 2章感知機......................................................................................................... 30 

2.1感知機模型 .................................................................................................. 30 

2.2感知機學習策略 ........................................................................................... 31 

2.2.1數據集的線性可分性 .......................................................................... 31 

2.2.2感知機學習策略 ................................................................................ 31 

2.3感知機學習算法 ........................................................................................... 32 

2.3.1感知機學習算法的原始形式 ................................................................33 

2.3.2算法的收斂性 .................................................................................... 35 

2.3.3感知機學習算法的對偶形式 ................................................................37 本章概要 .............................................................................................................39 繼續閱讀 .............................................................................................................40 習題 ...................................................................................................................40 參考文獻 .............................................................................................................40

第 3章 k近鄰法 ..................................................................................................... 41 

3.1 k近鄰算法 .................................................................................................. 41 

3.2 k近鄰模型 .................................................................................................. 42 

3.2.1模型 ................................................................................................. 42 

3.2.2距離度量 .......................................................................................... 42 

3.2.3 k值的選擇 ....................................................................................... 43 

3.2.4分類決策規則 .................................................................................... 44 

3.3 k近鄰法的實現:kd樹 ................................................................................. 44 

3.3.1構造 kd樹 ........................................................................................ 45 

3.3.2搜索 kd樹 ........................................................................................ 46 本章概要 .............................................................................................................48 繼續閱讀 .............................................................................................................48 習題 ...................................................................................................................48 參考文獻 .............................................................................................................49

第 4章樸素貝葉斯法............................................................................................... 50 

4.1樸素貝葉斯法的學習與分類 .......................................................................... 50 

4.1.1基本方法 .......................................................................................... 50 

4.1.2後驗概率最大化的含義 ......................................................................51 

4.2樸素貝葉斯法的參數估計 .............................................................................. 52 

4.2.1極大似然估計 .................................................................................... 52 

4.2.2學習與分類算法 ................................................................................ 53 

4.2.3貝葉斯估計 ....................................................................................... 54 本章概要 .............................................................................................................55 繼續閱讀 .............................................................................................................56 

目錄 IX

習題 ...................................................................................................................56 參考文獻 .............................................................................................................56

第 5章決策樹......................................................................................................... 57 

5.1決策樹模型與學習 ........................................................................................ 57 

5.1.1決策樹模型 ....................................................................................... 57 

5.1.2決策樹與 if-then規則 ........................................................................ 58 

5.1.3決策樹與條件概率分佈 ......................................................................58 

5.1.4決策樹學習 ....................................................................................... 58 

5.2特徵選擇 ..................................................................................................... 60 

5.2.1特徵選擇問題 .................................................................................... 60 

5.2.2信息增益 .......................................................................................... 61 

5.2.3信息增益比 ....................................................................................... 64 

5.3決策樹的生成 .............................................................................................. 64 

5.3.1 ID3算法 ........................................................................................... 65 

5.3.2 C4.5的生成算法 ............................................................................... 66 

5.4決策樹的剪枝 .............................................................................................. 66 

5.5 CART算法 ................................................................................................. 68 

5.5.1 CART生成 ...................................................................................... 69 

5.5.2 CART剪枝 ...................................................................................... 72 本章概要 .............................................................................................................74 繼續閱讀 .............................................................................................................75 習題 ...................................................................................................................75 參考文獻 .............................................................................................................75

第 6章邏輯斯諦回歸與最大熵模型........................................................................... 77 

6.1邏輯斯諦回歸模型 ........................................................................................ 77 

6.1.1邏輯斯諦分佈 .................................................................................... 77 

6.1.2二項邏輯斯諦回歸模型 ......................................................................78 

6.1.3模型參數估計 .................................................................................... 79 

6.1.4多項邏輯斯諦回歸 ............................................................................. 79 

6.2最大熵模型 .................................................................................................. 80 

6.2.1最大熵原理 ....................................................................................... 80 

6.2.2最大熵模型的定義 ............................................................................. 82 

6.2.3最大熵模型的學習 ............................................................................. 83 

6.2.4極大似然估計 .................................................................................... 86 

6.3模型學習的最優化算法 ................................................................................. 87 

6.3.1改進的迭代尺度法 ............................................................................. 87 

6.3.2擬牛頓法 .......................................................................................... 90 

機器學習方法

本章概要 .............................................................................................................91 繼續閱讀 .............................................................................................................92 習題 ...................................................................................................................92 參考文獻 .............................................................................................................93

第 7章支持向量機 .................................................................................................. 94 

7.1線性可分支持向量機與硬間隔最大化 .............................................................94 

7.1.1線性可分支持向量機 .......................................................................... 94 

7.1.2函數間隔和幾何間隔 .......................................................................... 96 

7.1.3間隔最大化 ....................................................................................... 97 

7.1.4學習的對偶算法 .............................................................................. 101 

7.2線性支持向量機與軟間隔最大化 .................................................................. 106 

7.2.1線性支持向量機 .............................................................................. 106 

7.2.2學習的對偶算法 .............................................................................. 107 

7.2.3支持向量 ........................................................................................ 110 

7.2.4合頁損失函數 .................................................................................. 111 

7.3非線性支持向量機與核函數 ........................................................................ 112 

7.3.1核技巧 ............................................................................................ 112 

7.3.2正定核 ............................................................................................ 115 

7.3.3常用核函數 ..................................................................................... 118 

7.3.4非線性支持向量分類機 .................................................................... 120 

7.4序列最小最優化算法 .................................................................................. 121 

7.4.1兩個變量二次規劃的求解方法 .......................................................... 122 

7.4.2變量的選擇方法 .............................................................................. 124 

7.4.3 SMO算法 ...................................................................................... 126 本章概要 ........................................................................................................... 127 繼續閱讀 ........................................................................................................... 129 習題 ................................................................................................................. 129 參考文獻 ........................................................................................................... 129

第 8章 Boosting .................................................................................................. 131 

8.1 AdaBoost算法 .......................................................................................... 131 

8.1.1 Boosting的基本思路 ....................................................................... 131 

8.1.2 AdaBoost算法 ................................................................................ 132 

8.1.3 AdaBoost的例子 ............................................................................ 134 

8.2 AdaBoost算法的訓練誤差分析 ................................................................... 135 

8.3 AdaBoost算法的解釋 ................................................................................ 137 

8.3.1前向分步算法 .................................................................................. 137 

8.3.2前向分步算法與 AdaBoost ................................................................ 138 

目錄 XI 

8.4提升樹 ...................................................................................................... 140 

8.4.1提升樹模型 ..................................................................................... 140 

8.4.2提升樹算法 ..................................................................................... 140 

8.4.3梯度提升 ........................................................................................ 144 本章概要 ........................................................................................................... 145 繼續閱讀 ........................................................................................................... 146 習題 ................................................................................................................. 146 參考文獻 ........................................................................................................... 146

第 9章 EM算法及其推廣 ..................................................................................... 148 

9.1 EM算法的引入 ......................................................................................... 148 

9.1.1 EM算法 ......................................................................................... 148 

9.1.2 EM算法的導出 ............................................................................... 151 

9.1.3 EM算法在無監督學習中的應用 ....................................................... 153 

9.2 EM算法的收斂性 ...................................................................................... 153 

9.3 EM算法在高斯混合模型學習中的應用 ........................................................ 154 

9.3.1高斯混合模型 .................................................................................. 155 

9.3.2高斯混合模型參數估計的 EM算法 ................................................... 155 

9.4 EM算法的推廣 ......................................................................................... 158 

9.4.1 F函數的極大-極大算法 ................................................................... 158 

9.4.2 GEM算法 ...................................................................................... 160 本章概要 ........................................................................................................... 161 繼續閱讀 ........................................................................................................... 162 習題 ................................................................................................................. 162 參考文獻 ........................................................................................................... 162

第 10章隱馬爾可夫模型........................................................................................ 163 

10.1隱馬爾可夫模型的基本概念 ....................................................................... 163 

10.1.1隱馬爾可夫模型的定義 ................................................................. 163 

10.1.2觀測序列的生成過程 ..................................................................... 166 

10.1.3隱馬爾可夫模型的 3個基本問題 .................................................... 166 

10.2概率計算算法 ........................................................................................... 166 

10.2.1直接計算法 .................................................................................. 166 

10.2.2前向算法 ..................................................................................... 167 

10.2.3後向算法 ..................................................................................... 169 

10.2.4一些概率與期望值的計算 .............................................................. 170 

10.3學習算法 ................................................................................................. 172 

10.3.1監督學習方法 ............................................................................... 172 

10.3.2 Baum-Welch算法 ........................................................................ 172 

XII機器學習方法 

10.3.3 Baum-Welch模型參數估計公式 .................................................... 174 

10.4預測算法 ................................................................................................. 175 

10.4.1近似算法 ..................................................................................... 175 

10.4.2維特比算法 .................................................................................. 176 本章概要 ........................................................................................................... 179 繼續閱讀 ........................................................................................................... 179 習題 ................................................................................................................. 180 參考文獻 ........................................................................................................... 180

第 11章條件隨機場 .............................................................................................. 181 

11.1概率無向圖模型 ....................................................................................... 181 

11.1.1模型定義 ..................................................................................... 181 

11.1.2概率無向圖模型的因子分解 ........................................................... 183 

11.2條件隨機場的定義與形式 .......................................................................... 184 

11.2.1條件隨機場的定義 ........................................................................ 184 

11.2.2條件隨機場的參數化形式 .............................................................. 185 

11.2.3條件隨機場的簡化形式 ................................................................. 186 

11.2.4條件隨機場的矩陣形式 ................................................................. 187 

11.3條件隨機場的概率計算問題 ....................................................................... 189 

11.3.1前向-後向算法 .............................................................................. 189 

11.3.2概率計算 ..................................................................................... 189 

11.3.3期望值的計算 ............................................................................... 190 

11.4條件隨機場的學習算法 ............................................................................. 191 

11.4.1改進的迭代尺度法 ........................................................................ 191 

11.4.2擬牛頓法 ..................................................................................... 194 

11.5條件隨機場的預測算法 ............................................................................. 195 本章概要 ........................................................................................................... 197 繼續閱讀 ........................................................................................................... 198 習題 ................................................................................................................. 198 參考文獻 ........................................................................................................... 199

第 12章監督學習方法總結 .................................................................................... 200

第 

2篇

無監學習

第 13章無監督學習概論........................................................................................ 207 

13.1無監督學習基本原理 ................................................................................. 207 

13.2基本問題 ................................................................................................. 208 

13.3機器學習三要素 ....................................................................................... 210 

13.4無監督學習方法 ....................................................................................... 210 

目錄 XIII

本章概要 ........................................................................................................... 214 繼續閱讀 ........................................................................................................... 215 參考文獻 ........................................................................................................... 215

第 14章聚類方法.................................................................................................. 216 

14.1聚類的基本概念 ....................................................................................... 216 

14.1.1相似度或距離 ............................................................................... 216 

14.1.2類或簇 ......................................................................................... 219 

14.1.3類與類之間的距離 ........................................................................ 220 

14.2層次聚類 ................................................................................................. 220 

14.3 k均值聚類 .............................................................................................. 222 

14.3.1模型 ............................................................................................ 222 

14.3.2策略 ............................................................................................ 223 

14.3.3算法 ............................................................................................ 224 

14.3.4算法特性 ..................................................................................... 225 本章概要 ........................................................................................................... 226 繼續閱讀 ........................................................................................................... 227 習題 ................................................................................................................. 227 參考文獻 ........................................................................................................... 227

第 15章奇異值分解 .............................................................................................. 229 

15.1奇異值分解的定義與性質 .......................................................................... 229 

15.1.1定義與定理 .................................................................................. 229 

15.1.2緊奇異值分解與截斷奇異值分解 .................................................... 233 

15.1.3幾何解釋 ..................................................................................... 235 

15.1.4主要性質 ..................................................................................... 237 

15.2奇異值分解的計算 .................................................................................... 238 

15.3奇異值分解與矩陣近似 ............................................................................. 241 

15.3.1弗羅貝尼烏斯範數 ........................................................................ 241 

15.3.2矩陣的最優近似 ........................................................................... 242 

15.3.3矩陣的外積展開式 ........................................................................ 245 本章概要 ........................................................................................................... 247 繼續閱讀 ........................................................................................................... 248 習題 ................................................................................................................. 248 參考文獻 ........................................................................................................... 249

第 16章主成分分析 .............................................................................................. 250 

16.1總體主成分分析 ....................................................................................... 250 

16.1.1基本想法 ..................................................................................... 250 

XIV機器學習方法 

16.1.2定義和導出 .................................................................................. 252 

16.1.3主要性質 ..................................................................................... 253 

16.1.4主成分的個數 ............................................................................... 257 

16.1.5規範化變量的總體主成分 .............................................................. 260 

16.2樣本主成分分析 ....................................................................................... 260 

16.2.1樣本主成分的定義和性質 .............................................................. 261 

16.2.2相關矩陣的特徵值分解算法 ........................................................... 263 

16.2.3數據矩陣的奇異值分解算法 ........................................................... 265 本章概要 ........................................................................................................... 267 繼續閱讀 ........................................................................................................... 269 習題 ................................................................................................................. 269 參考文獻 ........................................................................................................... 269

第 17章潛在語義分析 ........................................................................................... 271 

17.1單詞向量空間與話題向量空間 ................................................................... 271 

17.1.1單詞向量空間 ............................................................................... 271 

17.1.2話題向量空間 ............................................................................... 273 

17.2潛在語義分析算法 .................................................................................... 276 

17.2.1矩陣奇異值分解算法 ..................................................................... 276 

17.2.2例子 ............................................................................................ 278 

17.3非負矩陣分解算法 .................................................................................... 279 

17.3.1非負矩陣分解 ............................................................................... 279 

17.3.2潛在語義分析模型 ........................................................................ 280 

17.3.3非負矩陣分解的形式化 ................................................................. 280 

17.3.4算法 ............................................................................................ 281 本章概要 ........................................................................................................... 283 繼續閱讀 ........................................................................................................... 284 習題 ................................................................................................................. 284 參考文獻 ........................................................................................................... 285

第 18章概率潛在語義分析 .................................................................................... 286 

18.1概率潛在語義分析模型 ............................................................................. 286 

18.1.1基本想法 ..................................................................................... 286 

18.1.2生成模型 ..................................................................................... 287 

18.1.3共現模型 ..................................................................................... 288 

18.1.4模型性質 ..................................................................................... 289 

18.2概率潛在語義分析的算法 .......................................................................... 291 本章概要 ........................................................................................................... 293 繼續閱讀 ........................................................................................................... 294 

目錄 XV

習題 ................................................................................................................. 294 參考文獻 ........................................................................................................... 295

第 19章馬爾可夫鏈蒙特卡羅法.............................................................................. 296 

19.1蒙特卡羅法 .............................................................................................. 296 

19.1.1隨機抽樣 ..................................................................................... 296 

19.1.2數學期望估計 ............................................................................... 297 

19.1.3積分計算 ..................................................................................... 298 

19.2馬爾可夫鏈 .............................................................................................. 299 

19.2.1基本定義 ..................................................................................... 299 

19.2.2離散狀態馬爾可夫鏈 ..................................................................... 300 

19.2.3連續狀態馬爾可夫鏈 ..................................................................... 305 

19.2.4馬爾可夫鏈的性質 ........................................................................ 306 

19.3馬爾可夫鏈蒙特卡羅法 ............................................................................. 310 

19.3.1基本想法 ..................................................................................... 310 

19.3.2基本步驟 ..................................................................................... 311 

19.3.3馬爾可夫鏈蒙特卡羅法與統計學習 ................................................. 311 

19.4 Metropolis-Hastings算法 .......................................................................... 312 

19.4.1基本原理 ..................................................................................... 312 

19.4.2 Metropolis-Hastings算法 .............................................................. 315 

19.4.3單分量 Metropolis-Hastings算法 ................................................... 315 

19.5吉布斯抽樣 .............................................................................................. 316 

19.5.1基本原理 ..................................................................................... 316 

19.5.2吉布斯抽樣算法 ........................................................................... 318 

19.5.3抽樣計算 ..................................................................................... 319 本章概要 ........................................................................................................... 320 繼續閱讀 ........................................................................................................... 321 習題 ................................................................................................................. 321 參考文獻 ........................................................................................................... 322

第 20章潛在狄利克雷分配 .................................................................................... 324 

20.1狄利克雷分佈 ........................................................................................... 324 

20.1.1分佈定義 ..................................................................................... 324 

20.1.2共軛先驗 ..................................................................................... 327 

20.2潛在狄利克雷分配模型 ............................................................................. 328 

20.2.1基本想法 ..................................................................................... 328 

20.2.2模型定義 ..................................................................................... 329 

20.2.3概率圖模型 .................................................................................. 331 

20.2.4隨機變量序列的可交換性 .............................................................. 332 

XVI機器學習方法 

20.2.5概率公式 ..................................................................................... 332 

20.3 LDA的吉布斯抽樣算法 ............................................................................ 333 

20.3.1基本想法 ..................................................................................... 333 

20.3.2算法的主要部分 ........................................................................... 334 

20.3.3算法的後處理 ............................................................................... 336 

20.3.4算法 ............................................................................................ 337 

20.4 LDA的變分 EM算法 ............................................................................... 338 

20.4.1變分推理 ..................................................................................... 338 

20.4.2變分 EM算法 .............................................................................. 339 

20.4.3算法推導 ..................................................................................... 340 

20.4.4算法總結 ..................................................................................... 346 本章概要 ........................................................................................................... 346 繼續閱讀 ........................................................................................................... 348 習題 ................................................................................................................. 348 參考文獻 ........................................................................................................... 348

第 21章 PageRank算法 ...................................................................................... 349 

21.1 PageRank的定義 ..................................................................................... 349 

21.1.1基本想法 ..................................................................................... 349 

21.1.2有向圖和隨機游走模型 ................................................................. 350 

21.1.3 PageRank的基本定義 .................................................................. 352 

21.1.4 PageRank的一般定義 .................................................................. 354 

21.2 PageRank的計算 ..................................................................................... 355 

21.2.1迭代算法 ..................................................................................... 355 

21.2.2冪法 ............................................................................................ 357 

21.2.3代數算法 ..................................................................................... 361 本章概要 ........................................................................................................... 362 繼續閱讀 ........................................................................................................... 363 習題 ................................................................................................................. 363 參考文獻 ........................................................................................................... 364

第 22章無監督學習方法總結 ................................................................................. 365 

22.1無監督學習方法的關系和特點 ................................................................... 365 

22.1.1各種方法之間的關系 ..................................................................... 365 

22.1.2無監督學習方法 ........................................................................... 366 

22.1.3基礎機器學習方法 ........................................................................ 366 

22.2話題模型之間的關系和特點 ....................................................................... 367 參考文獻 ........................................................................................................... 368 

目錄 XVII

第 

3篇

第 23章前饋神經網絡 ........................................................................................... 371 

23.1前饋神經網絡的模型 ................................................................................. 371 

23.1.1前饋神經網絡定義 ........................................................................ 372 

23.1.2前饋神經網絡的例子 ..................................................................... 381 

23.1.3前饋神經網絡的表示能力 .............................................................. 386 

23.2前饋神經網絡的學習算法 .......................................................................... 389 

23.2.1前饋神經網絡學習 ........................................................................ 389 

23.2.2前饋神經網絡學習的優化算法 ....................................................... 391 

23.2.3反向傳播算法 ............................................................................... 393 

23.2.4在計算圖上的實現 ........................................................................ 397 

23.2.5算法的實現技巧 ........................................................................... 401 

23.3前饋神經網絡學習的正則化 ....................................................................... 406 

23.3.1深度學習中的正則化 ..................................................................... 406 

23.3.2早停法 ......................................................................................... 406 

23.3.3暫退法 ......................................................................................... 408 本章概要 ........................................................................................................... 410 繼續閱讀 ........................................................................................................... 413 習題 ................................................................................................................. 413 參考文獻 ........................................................................................................... 414

第 24章捲積神經網絡 ........................................................................................... 415 

24.1捲積神經網絡的模型 ................................................................................. 415 

24.1.1背景 ............................................................................................ 415 

24.1.2捲積 ............................................................................................ 416 

24.1.3匯聚 ............................................................................................ 424 

24.1.4捲積神經網絡 ............................................................................... 427 

24.1.5捲積神經網絡性質 ........................................................................ 430 

24.2捲積神經網絡的學習算法 .......................................................................... 432 

24.2.1捲積導數 ..................................................................................... 432 

24.2.2反向傳播算法 ............................................................................... 433 

24.3圖像分類中的應用 .................................................................................... 436 

24.3.1 AlexNet........................................................................................ 436 

24.3.2殘差網絡 ..................................................................................... 437 本章概要 ........................................................................................................... 441 繼續閱讀 ........................................................................................................... 443 習題 ................................................................................................................. 443 參考文獻 ........................................................................................................... 445 

XVIII機器學習方法

第 25章循環神經網絡 ........................................................................................... 447 

25.1簡單循環神經網絡 .................................................................................... 447 

25.1.1模型 ............................................................................................ 447 

25.1.2學習算法 ..................................................................................... 450 

25.2常用循環神經網絡 .................................................................................... 454 

25.2.1長短期記憶網絡 ........................................................................... 454 

25.2.2門控循環單元網絡 ........................................................................ 457 

25.2.3深度循環神經網絡 ........................................................................ 458 

25.2.4雙向循環神經網絡 ........................................................................ 459 

25.3自然語言生成中的應用 ............................................................................. 460 

25.3.1詞向量 ......................................................................................... 460 

25.3.2語言模型與語言生成 ..................................................................... 463 本章概要 ........................................................................................................... 465 繼續閱讀 ........................................................................................................... 467 習題 ................................................................................................................. 467 參考文獻 ........................................................................................................... 468

第 26章序列到序列模型........................................................................................ 469 

26.1序列到序列基本模型 ................................................................................. 469 

26.1.1序列到序列學習 ........................................................................... 469 

26.1.2基本模型 ..................................................................................... 471 

26.2 RNN Search模型 ..................................................................................... 472 

26.2.1註意力 ......................................................................................... 472 

26.2.2模型定義 ..................................................................................... 474 

26.2.3模型特點 ..................................................................................... 475 

26.3 Transformer模型 ..................................................................................... 475 

26.3.1模型架構 ..................................................................................... 476 

26.3.2模型特點 ..................................................................................... 482 本章概要 ........................................................................................................... 483 繼續閱讀 ........................................................................................................... 486 習題 ................................................................................................................. 486 參考文獻 ........................................................................................................... 486

第 27章預訓練語言模型........................................................................................ 488 

27.1 GPT模型 ................................................................................................ 488 

27.1.1預訓練語言模型 ........................................................................... 488 

27.1.2模型和學習 .................................................................................. 490 

27.2 BERT模型 .............................................................................................. 493 

27.2.1去噪自動編碼器 ........................................................................... 493 

27.2.2模型和學習 .................................................................................. 495 

目錄 XIX 

27.2.3模型特點 ..................................................................................... 499 本章概要 ........................................................................................................... 500 繼續閱讀 ........................................................................................................... 502 習題 ................................................................................................................. 502 參考文獻 ........................................................................................................... 502

第 28章生成對抗網絡 ........................................................................................... 504 

28.1 GAN基本模型 ......................................................................................... 504 

28.1.1模型 ............................................................................................ 504 

28.1.2學習算法 ..................................................................................... 506 

28.1.3理論分析 ..................................................................................... 507 

28.2圖像生成中的應用 .................................................................................... 508 

28.2.1轉置捲積 ..................................................................................... 509 

28.2.2 DCGAN ....................................................................................... 511 本章概要 ........................................................................................................... 513 繼續閱讀 ........................................................................................................... 514 習題 ................................................................................................................. 514 參考文獻 ........................................................................................................... 515

第 29章深度學習方法總結 .................................................................................... 516 

29.1深度學習的模型 ....................................................................................... 516 

29.2深度學習的方法 ....................................................................................... 518 

29.3深度學習的優化算法 ................................................................................. 520 

29.4深度學習的優缺點 .................................................................................... 522 參考文獻 ........................................................................................................... 523

附錄 A梯度下降法 ................................................................................................ 524

附錄 B牛頓法和擬牛頓法....................................................................................... 526

附錄 C拉格朗日對偶性 .......................................................................................... 531

附錄 D矩陣的基本子空間 ...................................................................................... 534

附錄 E KL散度的定義和狄利克雷分佈的性質 ......................................................... 537

附錄 F軟最大化函數的偏導數和交叉熵損失函數的偏導數 ........................................ 539

索引......................................................................................................................... 541