數據科學
朝樂門
- 出版商: 清華大學
- 出版日期: 2024-06-01
- 定價: $354
- 售價: 8.5 折 $301
- 語言: 簡體中文
- ISBN: 7302662134
- ISBN-13: 9787302662136
-
相關分類:
Data Science
下單後立即進貨 (約4週~6週)
相關主題
商品描述
目錄大綱
目 錄
第1 章 數據科學的術語與理念 …………………………………… 1
1.1 關鍵術語 …………………………………………………………… 2
1.1.1 DIKW 模型 ………………………………………………… 2
1.1.2 大數據 ……………………………………………………… 4
1.1.3 數據科學 …………………………………………………… 7
1.2 核心理念 …………………………………………………………… 10
1.2.1 數據驅動型決策 …………………………………………… 10
1.2.2 數據密集型科學發現 ……………………………………… 12
1.2.3 數據分析式思維 …………………………………………… 14
1.2.4 數據科學向善 ……………………………………………… 16
1.2.5 概率近似正確 ……………………………………………… 19
1.2.6 數據資產化管理 …………………………………………… 19
1.3 學科特徵 …………………………………………………………… 21
1.3.1 Drew Conway 數據科學韋恩圖 …………………………… 21
1.3.2 Jeffrey D. Ullman 數據科學韋恩圖 ……………………… 23
1.4 典型應用 …………………………………………………………… 24
1.4.1 GFT 流感趨勢分析 ………………………………………… 24
1.4.2 Metromile 的汽車保險創新 ……………………………… 25
習題 ……………………………………………………………………… 27
第2 章 數據科學的流程與活動 ………………………………… 33
2.1 數據加工 …………………………………………………………… 36
2.1.1 數據大小及規範化 ………………………………………… 36
2.1.2 缺失數據及其處理 ………………………………………… 37
2.1.3 異常數據及其處理 ………………………………………… 38
2.1.4 數據維度及降維處理 ……………………………………… 42
2.2 數據管理 …………………………………………………………… 44
VIII 數據科學 第2 版
2.3 數據分析 …………………………………………………………… 46
2.3.1 數據分析方法 ……………………………………………… 46
2.3.2 數據分析工具 ……………………………………………… 48
2.4 數據可視化 ………………………………………………………… 51
2.4.1 視覺編碼與視覺通道 ……………………………………… 53
2.4.2 可視分析學 ………………………………………………… 56
2.4.3 常用統計圖表 ……………………………………………… 58
2.5 數據故事化 ………………………………………………………… 62
2.5.1 與數據可視化的關系 ……………………………………… 62
2.5.2 主要特徵 …………………………………………………… 64
2.5.3 故事金字塔模型 …………………………………………… 67
2.5.4 EEEs 模型 ………………………………………………… 68
習題 ……………………………………………………………………… 70
第3 章 數據科學的方法與技術 ………………………………… 76
3.1 人工智能 …………………………………………………………… 77
3.1.1 定義及特徵 ………………………………………………… 77
3.1.2 主要類型 …………………………………………………… 78
3.1.3 與數據科學的關系 ………………………………………… 80
3.1.4 主要內容 …………………………………………………… 80
3.2 機器學習 …………………………………………………………… 81
3.2.1 定義及特徵 ………………………………………………… 82
3.2.2 主要類型 …………………………………………………… 83
3.2.3 與數據科學的關系 ………………………………………… 84
3.2.4 常用機器學習算法 ………………………………………… 85
3.3 深度學習 …………………………………………………………… 88
3.3.1 定義及特徵 ………………………………………………… 88
3.3.2 主要類型 …………………………………………………… 88
3.3.3 與數據科學的關系 ………………………………………… 89
3.3.4 常用深度學習算法 ………………………………………… 90
3.4 大數據技術 ………………………………………………………… 91
3.4.1 定義與特徵 ………………………………………………… 91
3.4.2 主要類型 …………………………………………………… 93
3.4.3 與數據科學的關系 ………………………………………… 94
目 錄 IX
3.4.4 常用大數據技術 …………………………………………… 95
3.5 數據科學的編程語言 …………………………………………… 104
3.5.1 定義與特徵 ……………………………………………… 104
3.5.2 主要類型 ………………………………………………… 105
3.5.3 與數據科學的關系 ……………………………………… 105
3.5.4 常用數據科學編程語言 ………………………………… 106
習題 …………………………………………………………………… 110
第4 章 數據科學的社會及人文 ………………………………… 117
4.1 偏見及悖論 ……………………………………………………… 118
4.1.1 幸存者偏差 ……………………………………………… 118
4.1.2 辛普森悖論 ……………………………………………… 119
4.1.3 伯克森悖論 ……………………………………………… 121
4.2 倫理及道德 ……………………………………………………… 122
4.3 隱私保護 ………………………………………………………… 123
4.4 A/B 測試 ………………………………………………………… 126
4.5 數據安全保障 …………………………………………………… 128
4.5.1 數據安全法 ……………………………………………… 128
4.5.2 P2DR 模型 ……………………………………………… 130
4.6 解釋與信任 ……………………………………………………… 130
習題 …………………………………………………………………… 134
第5 章 數據科學的產品與產業 ………………………………… 139
5.1 數據產品 ………………………………………………………… 140
5.1.1 數據產品研發的特徵 …………………………………… 140
5.1.2 數據柔術 ………………………………………………… 141
5.2 數據能力 ………………………………………………………… 143
5.2.1 關鍵過程域 ……………………………………………… 144
5.2.2 成熟度等級 ……………………………………………… 146
5.2.3 成熟度評價 ……………………………………………… 147
5.3 數據治理 ………………………………………………………… 148
5.3.1 主要內容 ………………………………………………… 149
5.3.2 參考框架 ………………………………………………… 150
5.4 數據科學平臺 …………………………………………………… 152
X 數據科學 第2 版
5.4.1 數據科學平臺的類型 …………………………………… 153
5.4.2 數據科學平臺的評價 …………………………………… 154
5.5 數據科學的產業 ………………………………………………… 156
習題 …………………………………………………………………… 158
第6 章 數據科學的人才與職業 ………………………………… 162
6.1 數據職業的主要類型 …………………………………………… 163
6.2 數據科學家的崗位職責 ………………………………………… 166
6.2.1 以數據為中心的解決方案的提出 ……………………… 166
6.2.2 從海量數據中發現有價值的洞察 ……………………… 166
6.2.3 面向具體業務的算法/ 模型研發 ……………………… 167
6.2.4 假設檢驗與試驗設計 …………………………………… 168
6.2.5 數據治理與數據質量控制 ……………………………… 168
6.2.6 數據產品的研發及基於數據的傳統產品的創新 ……… 168
6.2.7 數據全流程的參與 ……………………………………… 169
6.2.8 跨部門和跨領域合作 …………………………………… 169
6.3 數據科學家的能力要求 ………………………………………… 170
6.3.1 與數據科學直接相關的知識和技能 …………………… 170
6.3.2 與數據科學無直接相關的能力要求 …………………… 171
習題 …………………………………………………………………… 173
第7 章 數據科學的應用與實踐 ………………………………… 178
7.1 業務理解 ………………………………………………………… 179
7.2 數據讀入 ………………………………………………………… 180
7.3 數據理解 ………………………………………………………… 180
7.4 數據準備 ………………………………………………………… 181
7.5 模型構建 ………………………………………………………… 183
7.6 模型預測 ………………………………………………………… 187
7.7 模型評價 ………………………………………………………… 187
習題 …………………………………………………………………… 190
參考文獻 ……………………………………………………………… 195
附錄A Python 數據分析中常用的語法要點及講解 …………… 197
附錄B 例題R 語言版本代碼 …………………………………… 205