特徵工程訓練營

[美]希南·奧茲德米爾（Sinan Ozdemir）著殷海英譯

預覽內頁

出版商: 清華大學
出版日期: 2024-09-01
定價: $419
售價: 8.5 折 $356
語言: 簡體中文
ISBN: 7302669090
ISBN-13: 9787302669098
此書翻譯自: Feature Engineering Bookcamp

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

~~$490~~ $387

電子商務及企業電子化特訓教材, 2/e
~~$690~~ $345

動手做深度強化學習 (Deep Reinforcement Learning Hands-On)
~~$354~~ $336

人工智能算法捲1 基礎算法
~~$520~~ $406

特徵工程不再難：資料科學新手也能輕鬆搞定！ (Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems)
$281

自動化測試主流工具入門與提高
~~$520~~ $411

機器學習｜特徵工程 (Feature Engineering for Machine Learning)
$301

混沌工程實戰手把手教你實現系統穩定性
$403

機器學習中的概率統計：Python 語言描述
~~$414~~ $393

人工智能算法捲2 受大自然啟發的算法
~~$680~~ $537

Code：隱藏在電腦軟硬體底下的秘密 (第二版) (Code: The Hidden Language of Computer Hardware and Software, 2/e)
$454

從零開始大模型開發與微調：基於 PyTorch 與 ChatGLM
~~$774~~ $735

Python 強化學習：演算法、核心技術與產業應用
~~$419~~ $398

強化學習演算法入門
~~$539~~ $512

深度學習的數學——使用Python語言
~~$479~~ $455

漫畫算法與數據結構（大規模數據集）
$449

Node.js從入門到實戰——Web應用開發、項目實戰一本通（視頻 • 彩色版）
~~$560~~ $442

AI 神助攻！程式設計新境界 – GitHub Copilot 開發 Python 如虎添翼 : 提示工程、問題分解、測試案例、除錯
~~$490~~ $387

寫程式前的必學工具：命令列、編輯器、Git/GitHub，軟體開發三本柱一次搞定
~~$594~~ $564

PyTorch 深度學習指南：程式設計基礎卷I
~~$654~~ $621

PyTorch 深度學習指南卷2 電腦視覺
$709

PyTorch 深度學習指南：序列與自然語言處理卷III
~~$650~~ $514

LLM 的大開源時代 - Llama 模型精讀實戰
~~$479~~ $455

零基礎快速入行入職軟件測試工程師（第2版）
~~$479~~ $455

人人都能開發 RPA 機器人：UiPath 從入門到實戰
~~$834~~ $792

金融數據統計分析：基於R語言實例

商品描述

" 《特徵工程訓練營》將列舉6個實踐項目，引導你利用特徵工程優化訓練數據。每章探討一個代碼驅動的新案例，涉及金融、醫療等行業。你將學會清洗和轉換數據，減輕偏見。本書呈現各種性能提升技巧，涵蓋從自然語言處理到時間序列分析等所有主要機器學習子領域。主要內容 ● 識別和實現特徵轉換 ● 用非結構化數據構建ML(機器學習)流程 ● 量化並盡量避免ML流程中的偏見 ● 使用特徵存儲構建實時ML流程 ● 通過操縱輸入數據來增強現有ML流程 "

目錄大綱

第1 章特徵工程簡介 1

1.1 特徵工程是什麽，為什麽它如此重要 2

1.1.1 誰需要特徵工程 4

1.1.2 特徵工程的局限性 4

1.1.3 出色的數據，出色的模型 5

1.2 特徵工程流程 6

1.3 本書的編排方式 10

1.3.1 特徵工程的五種類型 11

1.3.2 本書案例研究的概述 12

1.4 本章小結 14

第2 章特徵工程基礎知識 17

2.1 數據類型 18

2.1.1 結構化數據 18

2.1.2 非結構化數據 18

2.2 數據的四個層次 20

2.2.1 定性數據與定量數據 20

2.2.2 名義層次 21

2.2.3 序數層次 23

2.2.4 區間層次 24

2.2.5 比率層次 26

2.3 特徵工程的類型 31

2.3.1 特徵改進 31

2.3.2 特徵構建 32

2.3.3 特徵選擇 34

2.3.4 特徵提取 35

2.3.5 特徵學習 36

2.4 如何評估特徵工程的成果 38

2.4.1 評估指標1：機器學習度量標準 38

2.4.2 評估指標2：可解釋性 39

2.4.3 評估指標3：公平性和偏見 39

2.4.4 評估指標4：機器學習復雜性和

速度 40

2.5 本章小結 41

第3 章醫療服務：COVID-19的診斷 43

3.1 COVID 流感診斷數據集 45

3.2 探索性數據分析 49

3.3 特徵改進 52

3.3.1 補充缺失的定量數據 52

3.3.2 填充缺失的定性數據 58

3.4 特徵構建 61

3.4.1 數值特徵的轉換 61

3.4.2 構建分類數據 68

3.5 構建特徵工程流程 75

3.6 特徵選擇 84

3.6.1 互信息 84

3.6.2 假設檢驗 85

3.6.3 使用機器學習 87

3.7 練習與答案 90

3.8 本章小結 90

第4 章偏見與公平性：再犯率建模 93

4.1 COMPAS 數據集 93

4.2 探索性數據分析 97

4.3 測量偏見和公平性 101

4.3.1 不同對待與不同影響 102

4.3.2 公平的定義 102

4.4 構建基準模型 105

4.4.1 特徵構建 105

4.4.2 構建基準流程 106

4.4.3 測量基準模型的偏見 108

4.5 偏見緩解 115

4.5.1 模型訓練前 116

4.5.2 模型訓練中 116

4.5.3 模型訓練後 116

4.6 構建偏見感知模型 117

4.6.1 特徵構建：使用Yeo-Johnson 轉換器處理不同的影響 117

4.6.2 特徵提取：使用aif360 學習公平表示實現 123

4.7 練習與答案 129

4.8 本章小結 130

第5 章自然語言處理：社交媒體情感分類 131

5.1 推文情感數據集 134

5.2 文本向量化 138

5.2.1 特徵構建：詞袋模型 138

5.2.2 計數向量化 139

5.2.3 TF-IDF向量化 146

5.3 特徵改進 149

5.3.1 清理文本中的噪聲 150

5.3.2 對token 進行標準化 152

5.4 特徵提取 155

5.5 特徵學習 158

5.5.1 自動編碼器簡介 159

5.5.2 訓練自動編碼器以學習特徵 160

5.5.3 遷移學習簡介·· 165

5.5.4 使用BERT 的遷移學習 166

5.5.5 使用BERT 的預訓練特徵 169

5.6 文本向量化回顧 172

5.7 練習與答案 173

5.8 本章小結 174

第6 章電腦視覺：對象識別 175

6.1 CIFAR-10 數據集 176

6.2 特徵構建：像素作為特徵 178

6.3 特徵提取：梯度方向直方圖 181

6.4 使用VGG-11 進行特徵學習 190

6.4.1 使用預訓練的VGG-11 作為特徵提取器 191

6.4.2 微調VGG-11 196

6.4.3 使用經過微調的VGG-11 特徵進行邏輯回歸 201

6.5 圖像矢量化總結 203

6.6 練習與答案 204

6.7 本章小結 205

第7 章時間序列分析：利用機器學習進行短線交易 207

7.1 TWLO 數據集 208

7.2 特徵構建 213

7.2.1 日期/時間特徵 213

7.2.2 滯後特徵 215

7.2.3 滾動/擴展窗口特徵 216

7.2.4 領域特定特徵 229

7.3 特徵選擇 238

7.3.1 使用機器學習選擇特徵 238

7.3.2 遞歸特徵消除 240

7.4 特徵提取 242

7.5 結論 248

7.6 練習與答案 249

7.7 本章小結 251

第8 章特徵存儲 253

8.1 MLOps 和特徵存儲 254

8.1.1 使用特徵存儲的收益 255

8.1.2 維基百科、MLOps和特徵存儲 260

8.2 使用Hopsworks 設置特徵存儲 262

8.2.1 使用HSFS API 連接到Hopsworks 263

8.2.2 特徵組 265

8.2.3 使用特徵組來選擇數據 273

8.3 在Hopsworks 中創建訓練數據 275

8.3.1 訓練數據集 276

8.3.2 數據溯源 280

8.4 練習與答案 281

8.5 本章小結 281

第9 章匯總 283

9.1 重新審視特徵工程流程 283

9.2 主要收獲 284

9.2.1 特徵工程與機器學習模型的選擇同樣至關重要 285

9.2.2 特徵工程並非一勞永逸的解決方案 286

9.3 特徵工程回顧 286

9.3.1 特徵改進 286

9.3.2 特徵構建 286

9.3.3 特徵選擇 287

9.3.4 特徵提取 287

9.3.5 特徵學習 289

9.4 數據類型特定的特徵工程技術 290

9.4.1 結構化數據 290

9.4.2 非結構化數據 293

9.5 常見問題解答 295

9.5.1 何時應將分類變量進行虛擬化，而不是將它們保留為單獨的列 295

9.5.2 如何確定是否需要處理數據中的偏見 297

9.6 其他特徵工程技術 298

9.6.1 分類虛擬桶化 298

9.6.2 將學到的特徵與傳統特徵結合 300

9.6.3 其他原始數據向量化器 305

9.7 擴展閱讀 306

9.8 本章小結 307

特徵工程訓練營

[美]希南·奧茲德米爾（Sinan Ozdemir）著殷海英譯

買這商品的人也買了...

相關主題

商品描述

目錄大綱

類似商品

特徵工程訓練營

[美]希南·奧茲德米爾（Sinan Ozdemir）著 殷海英 譯

買這商品的人也買了...

相關主題

商品描述

目錄大綱

類似商品

[美]希南·奧茲德米爾（Sinan Ozdemir）著殷海英譯