集成學習實戰 Ensemble Methods for Machine Learning

[美] 高塔姆·庫納普利(Gautam Kunapuli)著 郭濤 譯 郭濤 譯

  • 集成學習實戰-preview-1
  • 集成學習實戰-preview-2
  • 集成學習實戰-preview-3
集成學習實戰-preview-1

買這商品的人也買了...

相關主題

商品描述

"集成學習通過自動對比多個模型的輸出,將輸出結合起來,融合成強大的集成模型,得出**結果。集成學習發揮“集體智慧”,結果更準確,剋服了單一模型的局限性。這種創新方法能夠綜合多個視角的響應;即使在沒有大規模數據集的情況下,也能給出可靠的預測結果。 《集成學習實戰》呈現同時應用多種機器學習方法的實用技巧。每章都列舉一個獨特案例(如醫學診斷、情感分析等),展示一個功能完備的集成方法。本書不探討深奧的數學知識,所講內容淺顯易懂,代碼豐富,供你輕松進行實驗! 主要內容 ● Bagging法、提升法和梯度提升法 ● 分類、回歸和檢索方法 ● 集成方法的模型和決策可解釋性 ● 特徵工程和集成多樣性"

目錄大綱

第I部分 集成學習基礎知識

第1章 集成方法:炒作還是福音·      3

1.1 集成方法:集體智慧    4

1.2 關註集成學習原因     6

1.3 單個模型中的擬合度與復雜性    8

1.3.1 決策樹回歸     8

1.3.2 支持向量回歸     12

1.4 第一個集成模型      15

1.5 集成方法的術語和分類      19

1.6 小結      21

第II部分 基本集成方法

第2章 同質並行集成:Bagging法和隨機森林     25

2.1 並行集成      26

2.2 Bagging法:Bootstrap結合算法   27

2.2.1 直覺:重採樣和模型結合     28

2.2.2 實現Bagging法    31

2.2.3 使用scikit-learn實現Bagging法     33

2.2.4 使用並行化進行更快的訓練    35

2.3 隨機森林      36

2.3.1 隨機決策樹      36

2.3.2 使用scikit-learn實現隨機森林   38

2.3.3 特徵重要性      39

2.4 更多同質並行集成·     40

2.4.1 Pasting      40

2.4.2 隨機子空間和random patch法   41

2.4.3 極度隨機樹      42

2.5 案例研究:乳腺癌診斷      43

2.5.1 加載和預處理     43

2.5.2 Bagging法、隨機森林和極度隨機樹    44

2.5.3 隨機森林中的特徵重要性     47

2.6 小結      50

第3章 異質並行集成:結合強學習器      53

3.1 異質集成的基礎估計器      54

3.1.1 擬合基礎估計器      55

3.1.2 基礎估計器的單個預測    58

3.2 通過加權結合預測    60

3.2.1 多數投票     62

3.2.2 準確率加權      63

3.2.3 熵加權法     65

3.2.4 Dempster-Shafer結合      67

3.3 通過元學習結合預測      69

3.3.1 Stacking      70

3.3.2 通過交叉驗證進行Stacking    74

3.4 案例研究:情感分析      77

3.4.1 預處理      78

3.4.2 降低維度     81

3.4.3 blending分類器    82

3.5 小結      85

第4章 順序集成:自適應提升     87

4.1 弱學習器的順序集成      88

4.2 AdaBoost:自適應提升      90

4.2.1 直覺法:使用加權樣本進行學習    90

4.2.2 實現AdaBoost     93

4.2.3 使用scikit-learn的AdaBoost    99

4.3 AdaBoost在實踐中的應用    101

4.3.1 學習率·       102

4.3.2 早停和剪枝     104

4.4 案例研究:手寫數字分類    106

4.4.1 利用 t-SNE降維      107

4.4.2 提升       109

4.5 LogitBoost:使用邏輯損失進行提升    112

4.5.1 邏輯損失函數與指數損失函數    112

4.5.2 將回歸作為分類的弱學習算法    113

4.5.3 實現LogitBoost      113

4.6 小結      116

第5章 順序集成:梯度提升      117

5.1 用梯度下降實現最小化     118

5.1.1 舉例說明梯度下降      119

5.1.2 在損失函數上進行梯度下降訓練     125

5.2 梯度提升:梯度下降+提升     128

5.2.1 直覺:使用殘差學習     128

5.2.2 實現梯度提升    132

5.2.3 使用scikit-learn進行梯度提升     136

5.2.4 基於直方圖的梯度提升     138

5.3 LightGBM:梯度提升框架     140

5.3.1 為何將LightGBM稱為“輕量級”    140

5.3.2 利用LightGBM進行梯度提升     142

5.4 LightGBM在實踐中的應用     143

5.4.1 學習率      143

5.4.2 早停       146

5.4.3 自定義損失函數     148

5.5 案例研究:文檔檢索     151

5.5.1 LETOR數據集      151

5.5.2 使用LightGBM進行文檔檢索     153

5.6 小結      156

第6章 順序集成:牛頓提升      157

6.1 最小化牛頓法      158

6.1.1 舉例說明牛頓法     160

6.1.2 訓練過程中的損失函數的牛頓下降·     165

6.2 牛頓提升:牛頓法+ Boosting    167

6.2.1 直覺:使用加權殘差進行學習    167

6.2.2 直覺:使用正則化損失函數進行學習    170

6.2.3 實現牛頓提升    173

6.3 XGBoost:牛頓提升框架    177

6.3.1 XGBoost的“極端”之處在哪裡?    178

6.3.2 XGBoost的牛頓提升     179

6.4 XGBoost實踐     181

6.4.1 學習率      181

6.4.2 早停       184

6.5 案例研究:文檔檢索     185

6.5.1 LETOR數據集      185

6.5.2 使用XGBoost進行文檔檢索   186

6.6 小結      188

第III部分 集成之外:將集成方法應用於你的數據

第7章 學習連續和計數標簽      193

7.1 回歸的簡要回顧     194

7.1.1 連續標簽的線性回歸     194

7.1.2 用於計數標簽的泊松回歸    200

7.1.3 用於分類標簽的邏輯回歸    203

7.1.4 廣義線性模型    204

7.1.5 非線性回歸     205

7.2 回歸的並行集成     208

7.2.1 隨機森林和極度隨機樹     209

7.2.2 結合回歸模型    212

7.2.3 Stacking回歸模型     213

7.3 用於回歸的順序集成     214

7.3.1 用於回歸的損失和似然函數   216

7.3.2 LightGBM和XGBoost的梯度提升    218

7.4 案例研究:需求預測     221

7.4.1 UCI自行車共享數據集    222

7.4.2 GLM和Stacking·       224

7.4.3 隨機森林和極度隨機樹     227

7.4.4 XGBoost和LightGBM    228

7.5 小結      231

第8章 學習分類特徵      233

8.1 編碼分類特徵      234

8.1.1 分類特徵的類型     235

8.1.2 有序編碼和獨熱編碼     235

8.1.3 使用目標統計信息進行編碼   238

8.1.4 類別編碼器包    244

8.2 CatBoost:有序提升框架    247

8.2.1 有序目標統計和有序提升    247

8.2.2 無意識決策樹    249

8.2.3 CatBoost實踐    250

8.3 案例研究:收入預測     253

8.3.1 adult數據集     254

8.3.2 創建預處理和建模流程     256

8.3.3 類別編碼和集成     259

8.3.4 有序編碼和CatBoost提升    261

8.4 編碼高基數字符串特徵     263

8.5 小結      267

第9章 集成學習可解釋性      269

9.1 可解釋性的含義     270

9.1.1 黑盒與白盒模型     270

9.1.2 決策樹(和決策規則)     273

9.1.3 廣義線性模型    276

9.2 案例研究:數據驅動的營銷    278

9.2.1 銀行營銷數據集     279

9.2.2 訓練集成      281

9.2.3 樹集成中的特徵重要性     282

9.3 全局可解釋性的黑盒方法    283

9.3.1 排列特徵重要性     284

9.3.2 部分依賴圖     286

9.3.3 全局代理模型·     289

9.4 適用於局部可解釋性的黑盒方法    292

9.4.1 借助LIME的局部代理模型    292

9.4.2 借助SHAP的局部可解釋性   296

9.5 白盒集成:訓練解釋性     302

9.5.1 可解釋性提升機     303

9.5.2 EBM實踐      306

9.6 小結      309

結語       311