套路!機器學習:北美數據科學家的私房課 套路!机器学习:北美数据科学家的私房课
林薈
- 出版商: 電子工業
- 出版日期: 2017-10-01
- 定價: $408
- 售價: 8.3 折 $340
- 語言: 簡體中文
- 頁數: 316
- 裝訂: 平裝
- ISBN: 7121326582
- ISBN-13: 9787121326585
-
相關分類:
Machine Learning、Data Science
立即出貨 (庫存=1)
買這商品的人也買了...
-
$940$700 -
$480$432 -
$403集體智慧編程
-
$194統計學習方法
-
$149大數據時代的算法:機器學習、人工智能及其典型實例
-
$352實用機器學習 (Real-world Machine Learning)
-
$352Python 與機器學習實戰:決策樹、集成學習、支持向量機與神經網絡算法詳解及編程實現
-
$958深度學習
-
$352智能 Web 算法, 2/e (Algorithms of the Intelligent Web, 2/e)
-
$301Microsoft Azure 機器學習和預測分析
-
$480$379 -
$500$390 -
$450$405 -
$352基於 H2O 的機器學習實用方法:一種強大的可擴展的人工智能和深度學習技術
-
$281Azure 機器學習
-
$352智能問答與深度學習
-
$474$450 -
$454強化學習實戰:強化學習在阿裡的技術演進和業務創新 匯集了阿裡巴巴一線算法工程師在強化學習應用方面的經驗和心得。
-
$422機器學習基礎:從入門到求職
-
$320$288 -
$505機器學習基礎
-
$286圖說圖解機器學習
-
$449機器學習 — 原理、算法與應用
-
$380$342 -
$490$417
相關主題
商品描述
數據科學家目前是北美最熱門的職業之一,平均年薪突破10萬美元。但數據科學並不是一個低門檻的行業,除了對數學、統計、電腦等相關領域的技術要求以外,還要相關應用領域的知識。
本書的寫作對象是那些現在從事數據分析相關行業,或者之後想從事數據分析行業的人,意在為實踐者提供數據科學家這門職業的相關信息。讀者可以從閱讀中瞭解到數據科學能解決的問題,數據科學家需要的技能,及背後的“分析哲學”。
對於新手而言,一開始就直奔艱深的理論,很容易因為困難而失去興趣最終放棄。因此本書倡導的是一種循序漸進的啟發教學路徑,著重在於數據科學的實際應用,讓讀者能夠重復書中的結果,學習數據分析技能最好的方式是實踐!為了平衡理論和應用,書中包括了一些選學小節,用來介紹更多的模型數理背景或給出必要的參考資料來源。抽絲剝繭介紹技術內核,幫助大家知其然,同時知其所以然。
希望筆者在北美從事數據科學工作多年踏遍大大小小不計其數的坑換來的經驗,能夠幫助讀者更加順利地成為數據科學家!
作者簡介
2013年至今任美國杜邦公司商業數據科學家。
北京師範大學數學科學學院本科,愛荷華州立大學統計學院碩士和博士。曾任愛荷華州立大學獸醫學院統計諮詢師(2009-2013)及商學院分析諮詢師(2012-2013)。當選2017-2018美國統計協會市場營銷統計項目主席。
翻譯出版了《應用預測建模》和《R語言市場研究分析》。
目錄大綱
第1章白話數據科學1
1.1什麼是數據科學3
1.2什麼是數據科學家5
1.2.1數據科學家需要的技能6
1.2.2數據科學算法總結10
1.3數據科學可以解決什麼問題20
1.3.1前提要求20
1.3.2問題種類22
1.4小結25
第2章數據集26
2.1服裝消費者數據26
2.2航空公司滿意度調查33
2.3生豬疫情風險預測數據37
第3章數據分析流程41
3.1從問題到數據42
3.2從數據到信息44
3.3從信息到行動46
第4章數據預處理47
4.1介紹47
4.2數據清理50
4.3缺失值填補52
4.3.1中位數或眾數填補53
4.3.2 K-近鄰填補54
4.3. 3裝袋樹填補56
4.4中心化和標量化56
4.5有偏分佈59
4.6處理離群點63
4.7共線性66
4.8稀疏變量70
4.9編碼名義變量71
4.10小結73
第5章數據操作75
5.1數據讀寫76
5.1.1取代傳統數據框的tibble對象76
5.1.2高效數據讀寫:readr包80
5.1.3數據表對象讀取83
5.2數據整合91
5.2.1 base包:apply() 91
5.2.2 plyr包:ddply()函數93
5.2.3 dplyr包96
5.3數據整形102
5.3.1 reshape2包102
5.3.2 tidyr包105
5.4小結107
第6章基礎建模技術109
6.1有監督和無監督109
6.2誤差及其來源111
6.2.1系統誤差和隨機誤差111
6.2.2因變量誤差117
6.2.3自變量誤差121
6.3數據劃分和再抽樣122
6.3.1劃分訓練集和測試集123
6.3.2重抽樣131
6.4小結135
第7章模型評估度量136
7.1回歸模型評估度量136
7.2分類模型評估度量139
7.2.1 Kappa統計量141
7.2.2 ROC曲線143
7.2.3提升圖145
7.3小結146
第8章特徵工程148
8.1特徵構建149
8.2特徵提取152
8.2.1初步探索特徵153
8.2.2主成分分析158
8.2.3探索性因子分析163
8.2.4高維標度化167
8.2.5知識擴展:3種降維特徵提取方法的理論171
8.3特徵選擇177
8.3.1過濾法178
8.3.2繞封法188
8.4小結195
第9章線性回歸及其衍生196
9.1普通線性回歸197
9.1.1最小二乘線性模型197
9.1.2回歸診斷201
9.1. 3離群點、高槓桿點和強影響點204
9.2收縮方法205
9.2.1嶺回歸205
9.2.2 Lasso 209
9.2.3彈性網絡212
9.3知識擴展:LASSO的變量選擇功能213
9.4主成分和偏最小二乘回歸215
9.5小結221
第10章廣義線性模型壓縮方法222
10.1初識GLMNET 223
10.2收縮線性回歸227
10.3邏輯回歸235
10.3.1普通邏輯回歸235
10.3.2收縮邏輯回歸236
10.3.3知識擴展:群組lasso邏輯回歸239
10.4收縮多項回歸243
10.5泊松收縮回歸246
10.6小結249
第11章樹模型250
11.1分裂準則252
11.2樹的修剪256
11.3回歸樹和決策樹260
11.4裝袋樹268
11.5隨機森林273
11.6助推法277
11.7知識擴展:助推法的可加模型框架283
11.8知識擴展:助推樹的數學框架286
11.8.1數學表達286
11.8.2梯度助推數值優化289
11.9小結290
第12章神經網絡292
12.1投影尋踪回歸(PROJECTION PURSUIT REGRESSION) 293
12.2神經網絡(NEURAL NETWORKS) 296
12.3神經網絡擬合299
12.4訓練神經網絡300
12.5用CARET包訓練神經網絡302
12.6小結311
參考文獻312