數據科學

朝樂門

  • 出版商: 清華大學
  • 出版日期: 2024-06-01
  • 定價: $354
  • 售價: 8.5$301
  • 語言: 簡體中文
  • ISBN: 7302662134
  • ISBN-13: 9787302662136
  • 相關分類: Data Science
  • 下單後立即進貨 (約4週~6週)

  • 數據科學-preview-1
  • 數據科學-preview-2
  • 數據科學-preview-3
數據科學-preview-1

商品描述

《數據科學》(第2版)是一部系統闡述數據科學理論與實踐的入門教材,內容與時俱進,聯系實際,致力於將**的數據科學動 態、國內外名校的教學經驗,以及當前社會對數據科學人才的需求整合到內容中,同時融入思政教育內容,彰顯中國 特色。 本書共7 章,主要內容包括數據科學的術語與理念、流程與活動、方法與技術、社會及人文、產品與產業、人才 與職業發展以及應用與實踐等,旨在實現理論與實踐、基礎知識與前沿技術、學術研究與實際應用之間的有機融合, 使之成為一部既實用又富有前瞻性的數據科學教材。 本書適合作為高等學校數據科學與大數據技術、大數據管理與應用、電腦科學與技術、統計學、工商管理、信 息管理與信息系統、商業分析等多個專業本科生數據科學課程的教材,也可供數據科學從業人員參考使用。

目錄大綱

目 錄

第1 章 數據科學的術語與理念 …………………………………… 1

1.1 關鍵術語 …………………………………………………………… 2

1.1.1 DIKW 模型 ………………………………………………… 2

1.1.2 大數據 ……………………………………………………… 4

1.1.3 數據科學 …………………………………………………… 7

1.2 核心理念 …………………………………………………………… 10

1.2.1 數據驅動型決策 …………………………………………… 10

1.2.2 數據密集型科學發現 ……………………………………… 12

1.2.3 數據分析式思維 …………………………………………… 14

1.2.4 數據科學向善 ……………………………………………… 16

1.2.5 概率近似正確 ……………………………………………… 19

1.2.6 數據資產化管理 …………………………………………… 19

1.3 學科特徵 …………………………………………………………… 21

1.3.1 Drew Conway 數據科學韋恩圖 …………………………… 21

1.3.2 Jeffrey D. Ullman 數據科學韋恩圖 ……………………… 23

1.4 典型應用 …………………………………………………………… 24

1.4.1 GFT 流感趨勢分析 ………………………………………… 24

1.4.2 Metromile 的汽車保險創新 ……………………………… 25

習題 ……………………………………………………………………… 27

第2 章 數據科學的流程與活動 ………………………………… 33

2.1 數據加工 …………………………………………………………… 36

2.1.1 數據大小及規範化 ………………………………………… 36

2.1.2 缺失數據及其處理 ………………………………………… 37

2.1.3 異常數據及其處理 ………………………………………… 38

2.1.4 數據維度及降維處理 ……………………………………… 42

2.2 數據管理 …………………………………………………………… 44

VIII 數據科學 第2 版 

2.3 數據分析 …………………………………………………………… 46

2.3.1 數據分析方法 ……………………………………………… 46

2.3.2 數據分析工具 ……………………………………………… 48

2.4 數據可視化 ………………………………………………………… 51

2.4.1 視覺編碼與視覺通道 ……………………………………… 53

2.4.2 可視分析學 ………………………………………………… 56

2.4.3 常用統計圖表 ……………………………………………… 58

2.5 數據故事化 ………………………………………………………… 62

2.5.1 與數據可視化的關系 ……………………………………… 62

2.5.2 主要特徵 …………………………………………………… 64

2.5.3 故事金字塔模型 …………………………………………… 67

2.5.4 EEEs 模型 ………………………………………………… 68

習題 ……………………………………………………………………… 70

第3 章 數據科學的方法與技術 ………………………………… 76

3.1 人工智能 …………………………………………………………… 77

3.1.1 定義及特徵 ………………………………………………… 77

3.1.2 主要類型 …………………………………………………… 78

3.1.3 與數據科學的關系 ………………………………………… 80

3.1.4 主要內容 …………………………………………………… 80

3.2 機器學習 …………………………………………………………… 81

3.2.1 定義及特徵 ………………………………………………… 82

3.2.2 主要類型 …………………………………………………… 83

3.2.3 與數據科學的關系 ………………………………………… 84

3.2.4 常用機器學習算法 ………………………………………… 85

3.3 深度學習 …………………………………………………………… 88

3.3.1 定義及特徵 ………………………………………………… 88

3.3.2 主要類型 …………………………………………………… 88

3.3.3 與數據科學的關系 ………………………………………… 89

3.3.4 常用深度學習算法 ………………………………………… 90

3.4 大數據技術 ………………………………………………………… 91

3.4.1 定義與特徵 ………………………………………………… 91

3.4.2 主要類型 …………………………………………………… 93

3.4.3 與數據科學的關系 ………………………………………… 94

 目 錄 IX

3.4.4 常用大數據技術 …………………………………………… 95

3.5 數據科學的編程語言 …………………………………………… 104

3.5.1 定義與特徵 ……………………………………………… 104

3.5.2 主要類型 ………………………………………………… 105

3.5.3 與數據科學的關系 ……………………………………… 105

3.5.4 常用數據科學編程語言 ………………………………… 106

習題 …………………………………………………………………… 110

第4 章 數據科學的社會及人文 ………………………………… 117

4.1 偏見及悖論 ……………………………………………………… 118

4.1.1 幸存者偏差 ……………………………………………… 118

4.1.2 辛普森悖論 ……………………………………………… 119

4.1.3 伯克森悖論 ……………………………………………… 121

4.2 倫理及道德 ……………………………………………………… 122

4.3 隱私保護 ………………………………………………………… 123

4.4 A/B 測試 ………………………………………………………… 126

4.5 數據安全保障 …………………………………………………… 128

4.5.1 數據安全法 ……………………………………………… 128

4.5.2 P2DR 模型 ……………………………………………… 130

4.6 解釋與信任 ……………………………………………………… 130

習題 …………………………………………………………………… 134

第5 章 數據科學的產品與產業 ………………………………… 139

5.1 數據產品 ………………………………………………………… 140

5.1.1 數據產品研發的特徵 …………………………………… 140

5.1.2 數據柔術 ………………………………………………… 141

5.2 數據能力 ………………………………………………………… 143

5.2.1 關鍵過程域 ……………………………………………… 144

5.2.2 成熟度等級 ……………………………………………… 146

5.2.3 成熟度評價 ……………………………………………… 147

5.3 數據治理 ………………………………………………………… 148

5.3.1 主要內容 ………………………………………………… 149

5.3.2 參考框架 ………………………………………………… 150

5.4 數據科學平臺 …………………………………………………… 152

X 數據科學 第2 版 

5.4.1 數據科學平臺的類型 …………………………………… 153

5.4.2 數據科學平臺的評價 …………………………………… 154

5.5 數據科學的產業 ………………………………………………… 156

習題 …………………………………………………………………… 158

第6 章 數據科學的人才與職業 ………………………………… 162

6.1 數據職業的主要類型 …………………………………………… 163

6.2 數據科學家的崗位職責 ………………………………………… 166

6.2.1 以數據為中心的解決方案的提出 ……………………… 166

6.2.2 從海量數據中發現有價值的洞察 ……………………… 166

6.2.3 面向具體業務的算法/ 模型研發 ……………………… 167

6.2.4 假設檢驗與試驗設計 …………………………………… 168

6.2.5 數據治理與數據質量控制 ……………………………… 168

6.2.6 數據產品的研發及基於數據的傳統產品的創新 ……… 168

6.2.7 數據全流程的參與 ……………………………………… 169

6.2.8 跨部門和跨領域合作 …………………………………… 169

6.3 數據科學家的能力要求 ………………………………………… 170

6.3.1 與數據科學直接相關的知識和技能 …………………… 170

6.3.2 與數據科學無直接相關的能力要求 …………………… 171

習題 …………………………………………………………………… 173

第7 章 數據科學的應用與實踐 ………………………………… 178

7.1 業務理解 ………………………………………………………… 179

7.2 數據讀入 ………………………………………………………… 180

7.3 數據理解 ………………………………………………………… 180

7.4 數據準備 ………………………………………………………… 181

7.5 模型構建 ………………………………………………………… 183

7.6 模型預測 ………………………………………………………… 187

7.7 模型評價 ………………………………………………………… 187

習題 …………………………………………………………………… 190

參考文獻 ……………………………………………………………… 195

附錄A Python 數據分析中常用的語法要點及講解 …………… 197

附錄B 例題R 語言版本代碼 …………………………………… 205