機器學習常用算法速查手冊 Machine Learning Pocket Reference

Harrison, Matt 杜春曉譯

買這商品的人也買了...

相關主題

商品描述

本書以詳細的授課筆記、表格和示例,幫助你掌握Python機器學知識,學處理結構化數據。
你參加相關培訓,可將這份寶貴的學作為補充材料,你開始下一個機器學,可將其作為便捷的參考資源。
本書適合程序員、數據科學家和AI工程師,它不僅綜述機器學過程,還帶你了解結構化數據處理的全過程。
從本書中,你將學到分類、回歸、降維和聚類等多個主題的相關方法。
本書涵蓋以下主題:
用泰坦尼克號數據集講解分類。
清洗數據和處理缺失數據。
探索數據分析。
數據預處理的常用方法。
選擇對模型有用的特徵。
模型選擇。
度量標準和分類評估。
多種回歸分析技術。
評估回歸結果的度量標準。
聚類算法。
降維技術。
scikit-learn流水線。

作者簡介

Matt Harrison

经营着一家叫作MetaSnake的公司,为客户提供Python和数据科学培训和咨询服务。
他自2000年起一直使用 Python,期间涉足多个领域:数据科学、BI、存储、
自动化测试、开源软件技术栈管理、金融和搜索。125

目錄大綱

目錄
前言 1
第1 章 機器學習入門 7
本書使用的庫 7
用pip 安裝庫 10
用conda 安裝庫12

第2 章 機器學習流程概覽 15

第3 章 數據分類工作流:泰坦尼克號數據集 17
項目佈局建議 17
導入 18
提出問題 19
數據術語 19
獲取數據 21
清洗數據 22
創建特徵 29
數據採樣 31
數據插值 31
規範數據 32
重構 33
基準模型 35
不同算法族 35
模型堆疊 37
建模 38
評估模型 38
優化模型 40
混淆矩陣 41
ROC 曲線 42
學習曲線 44
部署模型 45

第4 章 數據缺失 47
檢查數據缺失情況 48
刪除缺數據的行或列 52
插值 53
添加標識列 54

第5 章 清洗數據 55
處理列名 55
替換缺失值 56

第6 章 探索數據 59
數據大小 59
匯總統計 60
直方圖 61
散點圖 62
Joint Plot 圖 63
Pair Grid 圖 66
箱形圖和小提琴圖 68
比較兩個序數型特徵 69
相關性 71
RadViz 圖 76
平行坐標圖 78

第7 章 預處理數據 81
標準化 81
調整取值範圍 83
虛擬變量 84
標籤編碼 85
頻數編碼 86
從字符串抽取類別型數據 87
類別型數據的其他編碼方法 89
日期特徵的處理方法 91
添加col_na 特徵 92
特徵工程 93

第8 章 特徵選擇 95
共線列 95
套索回歸 99
遞歸特徵消除 100
互信息 102
主成分分析 103
特徵重要性 103

第9 章 類別不平衡 105
採用不同度量標準 105
樹模型和集成方法 105
懲罰模型 106
對小眾類別上採樣 106
生成小眾數據 107
對大眾類別下採樣 107
先上採樣,再下採樣 109

第10 章 分類 111
對數概率回歸 112
樸素貝葉斯 117
支持向量機 120
k 近鄰 123
決策樹 126
隨機森林 133
XGBoost 138
LightGBM150

TPOT 155
第11 章 模型選擇 161
驗證曲線 161
學習曲線 163

第12 章 度量標準和分類評估 165
混淆矩陣 165
度量標準 168
準確率 170
召回率 171
精准率 171
f1 值 172
分類報告 172
ROC 曲線 173
精准率- 召回率曲線 175
累積增益圖 176
lift 曲線 178
類別平衡 180
類別預測錯誤 181
判別閾值 182

第13 章 解釋模型 185
回歸係數 185
特徵重要性 186
LIME 包186
解釋樹模型 188
部分依賴圖 189
替代模型 193
Shapley 值 194

第14 章 回歸 199
基準模型 201
線性回歸 202
支持向量機 206
k 近鄰 208
決策樹 210
隨機森林 217
XGBoost 回歸 220
LightGBM 回歸 228

第15 章 度量標準和回歸模型的評估 233
度量標準 233
殘差圖 236
異方差性 237
殘差正態性 237
預測誤差圖 239

第16 章 解釋回歸模型 241
Shapley 值 241

第17 章 降維技術 247
PCA 方法 247
UMAP 方法 267
t-SNE 方法 273
PHATE 方法 277

第18 章 聚類 283
k-means 算法 283
層次聚類 290
理解簇 293

第19 章 流水線 299
分類流水線 299
回歸流水線 302
PCA 流水線 303
作者介紹 305
封面介紹 305