Spark和Python機器學習實戰：預測分析核心方法（第2版） Machine Learning with Spark and Python: Essential Techniques for Predictive Analytics 2/e

[美]邁克爾·鮑爾斯（Michael Bowles）

Spark和Python機器學習實戰：預測分析核心方法（第2版）

預覽內頁

出版商: 人民郵電
出版日期: 2022-03-01
定價: $599
售價: 7.9 折 $473
語言: 簡體中文
頁數: 314
ISBN: 7115583811
ISBN-13: 9787115583819
相關分類: Spark、Machine Learning
此書翻譯自: Machine Learning with Spark and Python: Essential Techniques for Predictive Analytics 2/e

立即出貨

Spark和Python機器學習實戰：預測分析核心方法（第2版）-preview-1

買這商品的人也買了...

$301

Cloudera Hadoop 大數據平臺實戰指南
$505

WebRTC 技術詳解：從0到1構建多人視頻會議系統
~~$690~~ $538

超大流量系統解決方案 : 大型網站架構師的經驗分享
~~$594~~ $564

基於 Spark 的下一代機器學習：XGBoost、LightGBM、Spark NLP 與 Keras 分佈式深度學習實例
$505

Hadoop + Spark + Python 大數據處理從算法到實戰
$305

Hadoop 大數據開發技術
$301

Hadoop 3 大數據技術快速入門
~~$750~~ $593

Python 網路爬蟲：大數據擷取、清洗、儲存與分析 -- 王者歸來, 2/e
~~$534~~ $507

電商存儲系統實戰 : 架構設計與海量數據處理
~~$620~~ $489

銷售 AI 化！看資料科學家如何思考, 用 Python 打造能賺錢的機器學習模型
~~$750~~ $638

集成式學習：Python 實踐！整合全部技術，打造最強模型 (Hands-On Ensemble Learning with Python: Build highly optimized ensemble machine learning models using scikit-learn and Keras)
~~$588~~ $559

AWS 解決方案架構師學習與備考 (第3版·SAA-C02)
~~$620~~ $489

AWS 職場實戰手冊 - 企業架站、安全防護、費用監控，用最省錢的方式紮實學會！
~~$539~~ $512

持續集成與持續交付實戰：用 Jenkins、Travis CI 和 CircleCI 構建和發布大規模高質量軟件
$352

Hadoop + Spark 大數據分析實戰
~~$880~~ $695

Hey Siri 及 Ok Google原理 - AI語音辨識專案真應用開發
~~$654~~ $621

高並發系統實戰派：集群、Redis 緩存、海量存儲、Elasticsearch、RocketMQ、微服務、持續集成等
~~$650~~ $507

大話 AWS 雲端架構：雲端應用架構圖解輕鬆學, 3/e
~~$620~~ $484

不可不知的 Docker 開發部署實戰筆記：網站工程師一定要會的 8大核心能力
~~$580~~ $458

凡人也能懂的白話人工智慧演算法 (Grokking Artificial Intelligence Algorithms)
~~$780~~ $616

白話機器學習
~~$780~~ $616

Terraform 建置與執行, 3/e (Terraform: Up and Running: Writing Infrastructure as Code, 3/e)
$505

LangChain 入門指南：構建高可復用、可擴展的 LLM 應用程序
~~$790~~ $624

K8S 自學聖經：10大核心模板快速入門【圖解教學】
~~$680~~ $537

LangChain 開發手冊 -- OpenAI × LCEL 表達式 × Agent 自動化流程 × RAG 擴展模型知識 × 圖形資料庫 × LangSmith 除錯工具

商品描述

本書著重介紹可以有效預測結果的兩類核心算法，包括懲罰線性回歸方法和集成方法，然後通過一系列的示例細節來展示針對不同的問題如何使用這些方法。全書分為7章，主要講述算法的選擇、構建預測模型時的要點等內容，並且結合Spark和Python技術，引入岩石與水雷、鮑魚年齡問題、紅酒口感、玻璃分類等經典數據集，將機器學習應用到數據預測分析中，幫助讀者全面系統地掌握利用機器學習進行預測分析的基本過程，並將其應用到實際項目中。

作者簡介

邁克爾·鮑爾斯（Michael Bowles）在加利福尼亞大學伯克利分校、紐黑文大學和硅谷的黑客道場教授機器學習，為機器學習項目提供咨詢，還參與了半導體檢測、藥品設計、金融市場交易與優化等領域許多創業公司的創辦。他在麻省理工學院獲得助理教授職位之後，創辦並經營了兩家硅谷的創業公司，目前這兩家公司已上市。

目錄大綱

目錄

第 1章做預測的兩類核心算法 1

1.1 為什麽這兩類算法如此有用 1

1.2 什麽是懲罰線性回歸方法 5

1.3 什麽是集成方法 7

1.4 算法的選擇 8

1.5 構建預測模型的步驟 10

1.5.1 構造一個機器學習問題 12

1.5.2 特徵提取和特徵工程 13

1.5.3 確定訓練好的模型的性能 14

1.6 各章內容及其依賴關系 14

1.7 小結 16

第 2章通過理解數據來瞭解問題 17

2.1 剖析一個新問題 17

2.1.1 屬性和標簽的不同類型決定模型的選擇 19

2.1.2 新數據集的註意事項 20

2.2 分類問題：用聲吶發現未爆炸的水雷 21

2.2.1 岩石與水雷數據集的物理特性 21

2.2.2 岩石與水雷數據集的統計概要 24

2.2.3 用分位數圖展示異常點 26

2.2.4 類別屬性的統計特徵 28

2.2.5 用Python pandas對岩石與水雷數據集進行統計分析 28

2.3 對岩石與水雷數據集屬性進行可視化 31

2.3.1 用平行坐標圖進行可視化 31

2.3.2 對屬性和標簽間關系進行可視化 33

2.3.3 用熱圖對屬性和標簽的相關性進行可視化 40

2.3.4 對岩石與水雷數據集探究過程的小結 41

2.4 以因素變量進行實數值預測：鮑魚的年齡 41

2.4.1 回歸問題的平行坐標圖——鮑魚年齡問題的屬性關系可視化 47

2.4.2 將相關性熱圖用於回歸問題——鮑魚年齡問題的屬性對相關性的可視化 50

2.5 用實數值屬性進行實數值預測：評估紅酒口感 52

2.6 多類別分類問題：玻璃分類 59

2.7 用PySpark理解大規模數據集 63

2.8 小結 67

第3章構建預測模型：平衡性能、復雜度和大數據 69

3.1 基本問題：理解函數逼近 69

3.1.1 使用訓練數據 70

3.1.2 評估預測模型的性能 72

3.2 影響算法選擇及性能的因素——復雜度及數據 72

3.2.1 簡單問題和復雜問題的比較 73

3.2.2 簡單模型和復雜模型的比較 75

3.2.3 影響預測算法性能的因素 79

3.2.4 選擇算法：線性或者非線性 79

3.3 評測預測模型的性能 80

3.3.1 不同類型問題的性能評測 80

3.3.2 模擬部署後模型的性能 94

3.4 模型與數據的均衡 95

3.4.1 通過權衡問題復雜度、模型復雜度和數據集規模來選擇模型 96

3.4.2 使用前向逐步回歸來控制過擬合 97

3.4.3 評估並理解預測模型 102

3.4.4 通過懲罰回歸系數來控制過擬合——嶺回歸 104

3.5 在超大規模數據集上用PySpark訓練懲罰回歸模型 113

3.6 小結 116

第4章懲罰線性回歸 117

4.1 為什麽懲罰線性回歸方法如此有用 117

4.1.1 模型訓練足夠快 118

4.1.2 有變量的重要性信息 118

4.1.3 部署時評估足夠快 118

4.1.4 性能可靠 118

4.1.5 稀疏解 119

4.1.6 問題可能需要線性模型 119

4.1.7 使用集成方法的時機 119

4.2 懲罰線性回歸：對線性回歸進行正則化以獲得最優性能 119

訓練線性模型：最小化誤差等 121

4.3 求解懲罰線性回歸問題 126

4.3.1 理解最小角度回歸及其與前向步進回歸的關系 126

4.3.2 使用Glmnet：快速且通用 136

4.4 將線性回歸擴展到分類問題 141

4.4.1 用懲罰回歸求解分類問題 141

4.4.2 多類別分類問題的求解 145

4.4.3 理解基擴展：用線性方法求解非線性問題 145

4.4.4 將非數值屬性引入線性方法 147

4.5 小結 150

第5章用懲罰線性回歸方法構建預測模型 153

5.1 懲罰線性回歸的Python包 153

5.2 多變量回歸:預測紅酒口感 154

5.2.1 構建並測試預測紅酒口感的模型 155

5.2.2 部署前在整個數據集上進行訓練 158

5.3 二元分類：用懲罰線性回歸探測未爆炸水雷 165

5.4 多類別分類：犯罪現場玻璃樣本分類 184

5.5 用PySpark實現線性回歸和分類 187

5.6 用PySpark預測紅酒口感 188

5.7 用PySpark實現邏輯斯蒂回歸：岩石與水雷 193

5.8 將類別變量引入PySpark模型：預測鮑魚年齡 198

5.9 具有元參數優化的多類別邏輯斯蒂回歸 202

5.10 小結 205

第6章集成方法 207

6.1 二元決策樹 207

6.1.1 如何用二元決策樹進行預測 210

6.1.2 如何訓練二元決策樹 210

6.1.3 決策樹的訓練等同於分割點的選擇 213

6.1.4 二元決策樹的過擬合 217

6.1.5 針對分類問題和類別特徵所做的修改 220

6.2 自舉匯聚：投票法 221

6.2.1 投票法如何工作 221

6.2.2 投票法小結 232

6.3 梯度提升法 232

6.3.1 梯度提升法的基本原理 232

6.3.2 獲取梯度提升法的最佳性能 236

6.3.3 針對多變量問題的梯度提升法 239

6.3.4 梯度提升法小結 243

6.4 隨機森林法 243

6.4.1 隨機森林法：投票法加隨機屬性子集 246

6.4.2 影響隨機森林法性能的因素 246

6.4.3 隨機森林法小結 248

6.5 小結 248

第7章用Python構建集成模型 251

7.1 用Python集成方法包求解回歸問題 251

7.1.1 用梯度提升法預測紅酒口感 251

7.1.2 構建隨機森林模型預測紅酒口感 257

7.2 將非數值屬性引入Python集成模型 265

7.2.1 用Python將鮑魚性別屬性編碼引入梯度提升法 265

7.2.2 用梯度提升法評估性能和編碼變量的重要性 267

7.2.3 用Python將鮑魚性別屬性編碼引入隨機森林回歸 269

7.2.4 評估性能和編碼變量的重要性 272

7.3 用Python集成方法求解二元分類問題 273

7.3.1 用Python梯度提升法探測未爆炸水雷 273

7.3.2 測定梯度提升分類器的性能 276

7.3.3 用Python隨機森林法探測未爆炸水雷 278

7.3.4 構建隨機森林模型探測未爆炸水雷 279

7.3.5 測定隨機森林分類器的性能 283

7.4 用Python集成方法求解多類別分類問題 285

7.4.1 處理類別不均衡問題 286

7.4.2 用梯度提升法對玻璃進行分類 286

7.4.3 測定梯度提升模型在玻璃分類問題上的性能 291

7.4.4 用隨機森林法對玻璃進行分類 292

7.4.5 測定隨機森林模型在玻璃分類問題上的性能 296

7.5 用PySpark集成方法包求解回歸問題 297

7.5.1 用PySpark集成方法預測紅酒口感 298

7.5.2 用PySpark集成方法預測鮑魚年齡 303

7.5.3 用PySpark集成方法區分岩石與水雷 308

7.5.4 用PySpark集成方法識別玻璃類型 312

7.6 小結 314

類似商品

85折
$454

Python 機器學習系統構建 (原書第3版)
VIP 95折
~~$774~~ $735

機器學習與因子投資 — 從基礎到實踐
71折
~~$1,080~~ $768

機器學習 : 最強入門邁向 AI 高手王者歸來
VIP 95折
~~$954~~ $906

統計學習要素：機器學習中的數據挖掘、推斷與預測, 2/e (The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2/e)
85折
$203

大數據分析 : 數據挖掘必備算法示例詳解
85折
$449

機器學習常用算法速查手冊
85折
~~$450~~ $383

有限理性：行為經濟學入門首選！經濟學和心理學的共舞，理解人類真實行為的最佳工具
85折
$454

Python 機器學習, 2/e (簡中版)(Python Machine Learning, 2/e)
85折
$383

Spark核心源碼分析與開發實戰
95折
$958

深度學習

最後瀏覽商品 (20)

VIP 95折
~~$2,330~~ $2,214

Machine Learning in Signal Processing: Applications, Challenges, and the Road Ahead
VIP 95折
~~$1,590~~ $1,511

Cloud Identity Patterns and Strategies: Design enterprise cloud identity models with OAuth 2.0 and Azure Active Directory
VIP 95折
~~$5,070~~ $4,817

Meaningful Futures with Robots: Designing a New Coexistence
VIP 95折
~~$1,690~~ $1,606

Microsoft Azure Sentinel: Planning and Implementing Microsoft's Cloud-Native Siem Solution
VIP 95折
~~$4,150~~ $3,943

Robotics for Intralogistics in Supermarkets and Retail Stores
VIP 95折
~~$2,580~~ $2,451

Embedded Robotics: From Mobile Robots to Autonomous Vehicles with Raspberry Pi and Arduino
79折
$517

深度學習 — 理論、方法與 PyTorch 實踐
85折
$296

深度學習觸摸屏應用技術
75折
$491

PyTorch 深度學習實戰：從新手小白到數據科學家
VIP 95折
~~$8,010~~ $7,610

IOS Game Programming with Xcode and Cocos2d
VIP 95折
~~$2,630~~ $2,499

Clinical Text Mining: Secondary Use of Electronic Patient Records
85折
$505

Django企業開發實戰高效Python Web框架指南
60折
$1,308

Applied Deep Learning: A Case-Based Approach to Understanding Deep Neural Networks
VIP 95折
~~$7,190~~ $6,831

Studies in Conversational UX Design (Human–Computer Interaction Series)
VIP 95折
~~$3,240~~ $3,078

PMP Project Management Professional Certification Bundle
VIP 95折
~~$3,030~~ $2,879

PMP Project Management Professional Exam Deluxe Study Guide
85折
$301

ASP.NET課堂實錄（課堂實錄）
85折
$301

Android 安全機制解析與應用實踐
85折
$505

MySQL 技術內幕－InnoDB 存儲引擎, 2/e
VIP 95折
~~$1,650~~ $1,568

The New Era of Enterprise Business Intelligence: Using Analytics to Achieve a Global Competitive Advantage (Paperback)