機器學習全解(R語言版)

黃天元

  • 出版商: 人民郵電
  • 出版日期: 2024-07-01
  • 售價: $419
  • 貴賓價: 9.5$398
  • 語言: 簡體中文
  • 頁數: 200
  • ISBN: 7115641463
  • ISBN-13: 9787115641465
  • 相關分類: R 語言Machine Learning
  • 立即出貨 (庫存 < 4)

  • 機器學習全解(R語言版)-preview-1
  • 機器學習全解(R語言版)-preview-2
機器學習全解(R語言版)-preview-1

相關主題

商品描述

機器學習是近年來非常熱門的學科,R語言經過一段時間的發展也逐漸成為主流的編程語言之一。本書結合機器學習和R語言,面向機器學習實踐,不僅介紹了機器學習和R語言的基礎知識,而且介紹瞭如何借助不同的算法來進行模型分析,以及這些算法在R語言中的實現方式。通過閱讀本書,讀者可以快速瞭解機器學習和R語言的必備知識,掌握機器學習的實現流程。

本書適合程序員、數據分析人員、對算法感興趣的讀者、機器學習領域的從業人員及科研人員閱讀。

作者簡介

黃天元,覆旦大學博士,中國科學院博士後,現任浙江財經大學講師。熱愛數據科學與開源工具,致力於利用數據科學迅速積累行業經驗和探索科學

發現。在 CRAN 上維護4個R 語言包(累計下載量破10萬),著有《R語言數據高效處理指南》《文本數據挖掘:基於R語言》等圖書,並開設知乎專欄《R 語言數據挖掘》。

目錄大綱

第 1章 機器學習概論 1

1.1 機器學習的概念 1

1.2 機器學習的意義 2

1.3 機器學習的種類 3

1.4 機器學習基本流程 3

第 2章 R語言綜合基礎 5

2.1 簡易環境配置 5

2.2 編程保留符號 9

2.3 基本數據類型 9

2.3.1 數值型 10

2.3.2 邏輯型 10

2.3.3 字符型 11

2.3.4 因子型 11

2.3.5 類型判斷與轉換 12

2.4 常用數據結構 12

2.4.1 向量 12

2.4.2 矩陣 13

2.4.3 列表 14

2.4.4 數據框 14

2.5 程序流程控制 15

2.5.1 選擇結構 15

2.5.2 循環結構 16

2.6 函數使用技巧 18

第3章 高效數據操作 19

3.1 R數據操作包簡介 19

3.2 數據讀寫 19

3.3 管道操作符 20

3.4 基本操作 21

3.4.1 篩選列 22

3.4.2 篩選行 28

3.4.3 更新 34

3.4.4 排序 36

3.4.5 匯總 40

3.4.6 分組計算 41

3.4.7 列的重命名 44

3.5 多表連接 45

3.6 長寬轉換 50

3.7 集合運算 53

3.8 缺失值處理 55

3.9 列表列的運用 56

第4章 tidyverse快速入門 59

4.1 數據讀取(readr) 59

4.2 數據整理 61

4.2.1 批處理(purrr) 61

4.2.2 因子操作(forcats) 64

4.2.3 時間操作(lubridate) 67

4.2.4 字符串操作(stringr) 68

4.2.5 數據框清洗(tibble/dplyr/tidyr) 71

4.3 數據可視化(ggplot2) 79

第5章 探索性數據分析 82

5.1 基本概念介紹 82

5.1.1 平均值 82

5.1.2 標準差 83

5.1.3 極值 83

5.1.4 中位數 84

5.1.5 相關系數 84

5.2 探索工具實踐 86

5.2.1 vtree 86

5.2.2 skimr 88

5.2.3 naniar 90

第6章 特徵工程 93

6.1 特徵修飾 93

6.1.1 歸一化 93

6.1.2 數據分箱 94

6.1.3 缺失值填補 101

6.2 特徵構造 107

6.2.1 構造交互項 107

6.2.2 基於降維技術的特徵構造 108

6.2.3 One-Hot編碼 110

6.3 特徵篩選 111

6.3.1 過濾法 111

6.3.2 封裝法 113

6.3.3 嵌入法 114

第7章 重採樣方法 116

7.1 針對模型評估的重採樣 116

7.1.1 交叉驗證 116

7.1.2 自舉法 117

7.2 針對類失衡的重採樣 117

第8章 模型表現的衡量 119

8.1 回歸模型的表現衡量 119

8.2 分類模型的表現衡量 120

第9章 模型選擇 122

9.1 機器學習模型概覽 122

9.1.1 線性回歸 122

9.1.2 K近鄰算法(KNN) 123

9.1.3 樸素貝葉斯方法 123

9.1.4 判別分析 124

9.1.5 支持向量機 124

9.1.6 人工神經網絡 125

9.1.7 決策樹 125

9.1.8 隨機森林 126

9.1.9 梯度下降法 127

9.2 mlr3工作流簡介 127

9.2.1 環境配置 127

9.2.2 任務定義 128

9.2.3 學習器選擇 130

9.2.4 訓練與預測 131

9.3 基於mlr3的模型篩選 134

第 10章 參數調節 136

10.1 指定終止搜索條件 136

10.2 設置指定參數組合 138

10.3 範圍內網格搜索 139

10.4 範圍內隨機搜索 140

第 11章 模型分析 142

11.1 變量重要性評估 142

11.2 變量影響作用分析 146

11.3 基於個案的可加性歸因方法 149

第 12章 集成學習 152

12.1 集成學習的三種策略 152

12.1.1 裝袋法簡介 152

12.1.2 提升法簡介 152

12.1.3 堆疊法簡介 153

12.2 基於caret與caretEnsemble框架的集成學習實現 153

12.2.1 環境部署 153

12.2.2 數據準備 153

12.2.3 裝袋法 154

12.2.4 提升法 155

12.2.5 堆疊 156

第 13章 實踐案例一:基於caret包對泰坦尼克號乘客存活率進行二分類預測 161

13.1 工具簡介 161

13.2 問題背景 162

13.3 數據審視 162

13.4 特徵工程 163

13.5 數據劃分 164

13.6 模型訓練 165

13.7 模型的預測與評估 165

13.8 超參數調節 166

第 14章 實踐案例二:基於mlr框架對波士頓房價進行回歸預測 169

14.1 工具簡介 169

14.2 問題背景 169

14.3 數據審視與預處理 170

14.4 任務定義 174

14.5 建模與調參 174

14.6 模型表現比較 181

14.7 進一步的參數調節 183

14.8 模型解釋 184

第 15章 實踐案例三:基於mlr3框架對皮馬印第安人糖尿病數據集進行特徵篩選 187

15.1 工具簡介 187

15.2 問題背景 187

15.3 去除冗餘特徵 188

15.4 特徵重要性排序 190

15.5 利用封裝法對特徵進行篩選 191

第 16章 實踐案例四:基於tidymodels框架對鳶尾花進行多分類預測 193

16.1 工具簡介 193

16.2 問題背景 193

16.3 數據集劃分 194

16.4 數據預處理 195

16.5 指定重採樣方法 196

16.6 模型定義與調參 197

16.7 觀察模型在測試集的表現 199