數據科學導論

張旗、魏惠梅

  • 出版商: 清華大學
  • 出版日期: 2024-09-01
  • 定價: $474
  • 售價: 8.5$403
  • 語言: 簡體中文
  • ISBN: 7302669643
  • ISBN-13: 9787302669647
  • 相關分類: Data Science
  • 下單後立即進貨 (約4週~6週)

  • 數據科學導論-preview-1
  • 數據科學導論-preview-2
  • 數據科學導論-preview-3
數據科學導論-preview-1

相關主題

商品描述

"本書是一本集“數據思維訓練、數據能力培養、批判性思維實踐”於一體的關於數據科學的引導性圖書,以循序漸進引發讀者自主思考與探究為宗旨,在建立數據思維的同時,註重邏輯思維、批判性思維能力的提升。 本書共4篇。第1篇“數據思維”,從數據科學的“道”出發,探究數據科學的起源、數據思維的特點、DIKW模型及其應用; 第2篇“數據價值”和第3篇“數據技術”則是數據科學“術”的全面覆蓋,包括數據預處理、描述性分析、探索性分析、數據挖掘、機器學習、深度學習、大數據存儲、分佈式計算、大數據雲平臺等內容; 第4篇“數據未來”則從科學、工程與技術層面,暢想數據科學的未來、人工智能的未來,以及你我的未來。 本書適合作為高等學校大數據類專業的導論性必修課教材,也適用於電腦類及工科各專業、統計及商業類各專業相關選修課和通識課程,對數據科學愛好者及相關領域從業者來說也是一本值得研讀的書。 "

目錄大綱

目錄

第1篇數 據 思 維

第1章數據時代

開篇案例: 你聽說過“大數據殺熟”嗎?

學習目標

1.1數、數據與大數據

1.1.1數與數據

1.1.2信息化浪潮與大數據

1.1.3從IT時代到DT時代

思考題

1.2大數據時代的變革

1.2.1大數據時代的思維變革

1.2.2大數據時代的商業變革

1.2.3大數據時代的生活方式變革

思考題

1.3大數據時代的挑戰

思考題

1.4探究與實踐

第2章數據科學

開篇案例: 啤酒與尿不濕

學習目標

2.1什麽是數據科學

2.1.1數據科學的產生

2.1.2數據科學的定義

2.1.3數據科學的維恩圖

思考題

2.2科學範式及演化

2.2.1範式及範式的演變

2.2.2第四範式的特點

2.2.3第四範式的挑戰

思考題

2.3數據科學項目的實施

2.3.1數據科學流程

2.3.2數據特徵與數據準備

2.3.3從商業問題到數據科學問題

思考題

2.4探究與實踐

第3章數據思維

開篇案例: 別輕易點贊,它會泄露你的性格秘密

學習目標

3.1統計學與統計思維

3.1.1什麽是統計

3.1.2統計學原理與統計思維

3.1.3像統計學家一樣思考

思考題

3.2電腦與計算思維

3.2.1計算與自動計算

3.2.2算法與程序

3.2.3什麽是計算思維

3.2.4像電腦專家一樣思考

思考題

3.3大數據與數據思維

3.3.1數據思維的特點

3.3.2一切皆可量化

3.3.3像數據科學家一樣思考

思考題

3.4探究與實踐

第4章DIKW模型

開篇案例: 《紙牌屋》背後的數據故事

學習目標

4.1數據與DIKW模型

4.1.1什麽是DIKW模型

4.1.2DIKW模型中的過去與未來

思考題

4.2數據價值鏈與DIKW

4.2.1從數據到信息

4.2.2從信息到知識

4.2.3基於數據驅動的決策

4.2.4數據科學與DIKW

思考題

4.3從DIKW視角看世界

4.3.1數據思維實現的要素

4.3.2大數據原理與DIKW模型

4.3.3DIKW的應用及創新

思考題

4.4探究與實踐

第2篇數 據 價 值

第5章從數據到知識

開篇案例: “百度指數”能告訴你什麽?

學習目標

5.1知識與知識發現

5.1.1什麽是知識

5.1.2知識發現的任務

5.1.3決策與決策支持

思考題

5.2數據分析、數據挖掘與人工智能

5.2.1知識發現的方法

5.2.2數據分析與業務分析

5.2.3數據挖掘與知識發現

5.2.4機器學習與人工智能

5.2.5從數據到知識

思考題

5.3數據科學項目的選擇

5.3.1數據科學的認知誤區

5.3.2成功的數據科學項目

5.3.3數據科學項目的選擇之旅

思考題

5.4探究與實踐

第6章數據分析——描述與探索

開篇案例: 如果你在“泰坦尼克號”上會怎樣?

學習目標

6.1數據分析常用方法

6.1.1因素分解法——相關思維

6.1.2對比法——比較思維

6.1.3象限分析法——分類思維 

6.1.4漏鬥分析法——漏鬥思維 

思考題

6.2數據描述性分析

6.2.1認識數據

6.2.2數據統計量及分佈

6.2.3數據統計的可視化

6.2.4數據描述性分析

思考題

6.3數據探索性分析

6.3.1什麽是探索性分析

6.3.2探索性分析與數據清洗

6.3.3探索性分析與可視化

思考題

6.4探究與實踐

第7章從結構化數據中挖掘價值

開篇案例: Target的精準營銷靠譜嗎?

學習目標

7.1機器學習概述

7.1.1什麽是機器學習

7.1.2機器學習算法分類

7.1.3機器學習的要素及流程

7.1.4機器學習中的“哲學”思想

思考題

7.2監督回歸——線性與非線性

7.2.1線性回歸

7.2.2模型的泛化及優化

7.2.3模型的評估

思考題

7.3監督分類——目標明確、八仙過海

7.3.1邏輯回歸

7.3.2支持向量機——學習

7.3.3決策樹——基於規則

7.3.4樸素貝葉斯——基於概率

7.3.5分類模型評價及優化

思考題

7.4非監督探索——自學成才

7.4.1聚類——物以類聚、人以群分

7.4.2關聯分析——猜你還喜歡

思考題

7.5探究與實踐

第8章在非結構化數據中深度學習

開篇案例: ImageNet數據庫有什麽用?

學習目標

8.1模擬人腦的學習

8.1.1機器學習的本質

8.1.2復雜數據及場景的突破

8.1.3神經網絡——模擬人的大腦

思考題

8.2神經網絡與深度學習

8.2.1神經元模型

8.2.2深度神經網絡模型

8.2.3深度學習的實現

思考題

8.3捲積神經網絡

8.3.1圖像與圖像捲積

8.3.2捲積神經網絡(CNN)

8.3.3CNN應用

思考題

8.4循環神經網絡

8.4.1為什麽需要循環神經網絡

8.4.2循環神經網絡的基本結構

8.4.3循環神經網絡的長短記憶

8.4.4RNN的應用

思考題

8.5圖神經網絡

8.5.1圖數據與圖結構表徵

8.5.2圖神經網絡(GNN)

8.5.3GNN的應用

思考題

8.6強化學習——從監督學習到自主學習

8.6.1什麽是強化學習

8.6.2如何強化學習

8.6.3從AlphaGo到AlphaZero

思考題

8.7探究與實踐

第3篇數 據 技 術

第9章數據存儲與管理

開篇案例: 阿裡巴巴數據倉庫架構

學習目標

9.1數據庫與數據庫管理系統

9.1.1數據存儲管理的演變

9.1.2關系型數據庫的設計

9.1.3數據庫操作與SQL查詢

思考題

9.2數據倉庫與商業智能

9.2.1OLTP與OLAP

9.2.2數據倉庫及其分層架構

9.2.3數據立方體構建及查詢

9.2.4數據挖掘與商業智能

思考題

9.3大數據的挑戰

9.3.1大數據存儲與管理

9.3.2Google顛覆性技術創新

9.3.3數據科學生態系統

思考題

9.4探究與實踐

第10章大數據分佈式存儲

開篇案例: 春晚搶紅包大戰究竟“戰”什麽?

學習目標

10.1分佈式文件系統

10.1.1分佈式文件系統概述

10.1.2HDFS存儲原理及操作

10.1.3HDFS應用場景

思考題

10.2分佈式數據庫HBase

10.2.1BigTable的創新思考

10.2.2HBase數據模型

10.2.3HDFS與HBase

10.2.4HBase應用場景

思考題

10.3NoSQL數據庫

10.3.1NoSQL數據庫的興起

10.3.2NoSQL數據庫的4大類型

10.3.3從NoSQL到NewSQL

思考題

10.4探究與實踐

第11章大數據計算與分析

開篇案例: 你的用戶畫像是如何構建出來的?

學習目標

11.1分佈式計算MapReduce

11.1.1分佈式並行計算

11.1.2MapReduce流程

11.1.3MapReduce的特點及應用

思考題

11.2內存計算與Spark

11.2.1什麽是內存計算

11.2.2RDD原理及操作

11.2.3Spark機器學習庫及工作流

思考題

11.3流計算

11.3.1大數據與流分析

11.3.2Spark Streaming流計算

11.3.3流計算的應用

思考題

11.4探索與實踐

第12章大數據平臺與雲計算

開篇案例: 淘系的“生意參謀”

學習目標

12.1大數據平臺

12.1.1Hadoop的原則

12.1.2Hadoop生態系統

12.1.3Hadoop與實時數據倉庫

思考題

12.2雲計算與雲服務

12.2.1什麽是雲計算

12.2.2面向分析的雲服務

12.2.3百度深度學習開源雲平臺

思考題

12.3業務中台與數據中台

12.3.1什麽是中台

12.3.2數據中台與AI中台

12.3.3阿裡巴巴數加大數據平臺

思考題

12.4探索與實踐

第4篇數 據 未 來

第13章從DIKW視角看技術未來

開篇案例: 通用人工智能是AI的終點嗎?

學習目標

13.1工業物聯網

13.1.1物聯網要素

13.1.2傳統物聯網與工業物聯網

13.1.3面向物聯網的數據分析

思考題

13.2AutoML——自動機器學習

13.2.1AutoML的目標

13.2.2AutoML的流程

思考題

13.3知識圖譜

13.3.1什麽是知識圖譜

13.3.2如何構建知識圖譜

13.3.3知識圖譜的自動構建

思考題

13.4大語言模型ChatGPT

13.4.1自然語言模型的變遷

13.4.2註意力機制與Transformer模型

13.4.3GPT與ChatGPT

13.4.4AIGC智能創作時代

思考題

13.5探究與實踐

第14章從DIKW視角看產業未來

開篇案例: 騰訊進軍“新能源”

學習目標

14.1數字化轉型與數據驅動

14.1.1數字化轉型與數據驅動

14.1.2數據驅動的特徵

14.1.3數字化轉型與賦能

思考題

14.2大數據產業的趨勢

14.2.1政府大數據從管理走向服務

14.2.2電信大數據從小圈子走向大生態

14.2.3健康醫療大數據從大走向精準

14.2.4工業大數據圍繞小場景從項目走向產品

14.2.5營銷大數據從流量營銷走向精細運營

14.2.6金融大數據從強管控走向創新服務

思考題

14.3智能時代

14.3.1AI的角色

14.3.2從弱AI到強AI

14.3.3人機融合的未來

思考題

14.4探究與實踐

第15章數據科學的未來

開篇案例: 數據科學的4.0版

學習目標

15.1數據科學的挑戰

15.1.1數據科學的4大科學任務

15.1.2數據科學的10大技術方向

15.1.3數據科學的發展趨勢

思考題

15.2數據科學家團隊

15.2.1數據科學與系統開發

15.2.2數據科學家和開發人員的合作

15.2.3數據科學相關職位與技能

15.2.4數據科學家團隊

思考題

15.3探究與實踐

參考文獻

附錄

附錄A布魯姆(Bloom)認知分類法

附錄B商業分析方法

附錄C批判性思維工具

附錄D哈佛大學“思維可視化”路徑集

數據科學導論

案例目錄

【開篇案例】

第1章開篇案例: 你聽說過“大數據殺熟”嗎?4

第2章開篇案例: 啤酒與尿不濕26

第3章開篇案例: 別輕易點贊,它會泄露你的性格秘密46

第4章開篇案例: 《紙牌屋》背後的數據故事68

第5章開篇案例: “百度指數”能告訴你什麽?88

第6章開篇案例: 如果你在“泰坦尼克號”上會怎樣?108

第7章開篇案例: Target的精準營銷靠譜嗎?127

第8章開篇案例: ImageNet數據庫有什麽用?161

第9章開篇案例: 阿裡巴巴數據倉庫架構196

第10章開篇案例: 春晚搶紅包大戰究竟“戰”什麽?221

第11章開篇案例: 你的用戶畫像是如何構建出來的?243

第12章開篇案例: 淘系的“生意參謀”263

第13章開篇案例: 通用人工智能是AI的終點嗎?284

第14章開篇案例: 騰訊進軍“新能源”308

第15章開篇案例: 數據科學的4.0版325

【想一想】

想一想1.1: “大”數據10

想一想1.2: Excel中的數據格式12

想一想1.3: 什麽是推薦系統18

想一想1.4: 你的超星(學習通)數據及價值21

想一想2.1: 統計學與數學30

想一想2.2: “大數據買披薩”的故事35

想一想2.3: 什麽是整潔數據(Tidy Data)37

想一想3.1: 文字“可能”“差不多”等詞可以量化嗎60

想一想4.1: 生活中的DIKW69

想一想4.2: 你聽說過“信息繭房”嗎74

想一想4.3: Analysis與Analytics有什麽區別75

想一想5.1: 知識的不確定性及不確切性的表示 90

想一想5.2: 你能從下麵對“知識”的描述中得到什麽95

想一想5.3: 到底是“算法”還是“模型”99

想一想5.4:  數據科學還是什麽101

想一想5.5: 數據收集要考慮什麽104

想一想6.1: 中位數與眾數的計算114

想一想6.2: 為什麽數據準備那麽花時間121

想一想7.1: “回歸”的含義133

想一想7.2: 空間變換——從非線性到線性142

想一想7.3: 智慧決策到底做什麽150

想一想7.4: 建模是一個過程——大廚做菜152

想一想7.5: 關聯規則能使東北小菜館重獲新生嗎157

想一想8.1: 人類是如何思考的——為什麽需要RNN178

想一想8.2: 知識從哪裡來185

想一想8.3: 游戲中的AI三要素——數據、算法與算力189

想一想9.1: 什麽是元數據215

想一想10.1: Google工程師是如何思考的——定義清楚問題比解決問題更難229

想一想10.2: 行存儲與列存儲231

想一想10.3: NoSQL數據庫的特點238

想一想10.4: 從DIKW視角看數據管理240

想一想11.1: 分佈式機器學習的原理249

想一想11.2: 靜態數據與流數據、批處理與實時處理256

想一想11.3: Spark中數據抽象的演變——RDD、DataFrame及DStream258

想一想12.1: 網絡時代,我們可以享受哪些雲服務271

想一想13.1: 邊緣計算的未來288

想一想13.2: 人類反饋是如何打分的304

想一想14.1: 數據驅動你體會到了嗎309

想一想14.2: 免費WiFi誰會受益314

想一想14.3: 你的智能手環真的“智能”嗎315

想一想14.4: 現在的自動駕駛到了哪一級322

想一想15.1: 科學、工程與技術329

想一想15.2: 入職的門檻你準備好了嗎334

想一想15.3: 你想轉行嗎336

【試一試】

試一試1.1: 十進制、二進制、十六進制5

試一試2.1: 開放數據29

試一試2.2: 數據一致性及Excel變換39

試一試3.1: 排序算法——計算思維的實踐55

試一試3.2: 網站重要性度量 59

試一試3.3: 餘弦定理與文本相似度61

試一試4.1: 微信指數72

試一試4.2: 幸福與愛情77

試一試7.1: 勝率幾何——小明能搶到票嗎148

試一試7.2: Kmeans算法的結果是如何來的153

試一試7.3: 支持度、置信度、提升度怎麽算156

試一試8.1: 神經元計算166

試一試8.2: 神經網絡游樂場PlayGround171

試一試9.1: SQL實踐——查詢與統計204

【技術洞察】

技術洞察1.1: 圖靈模型與馮·諾依曼電腦6

技術洞察1.2: 第二次工業革命——電力革命8

技術洞察1.3: CRM的起源與發展 9

技術洞察1.4: 什麽是摩爾定律14

技術洞察1.5: 用戶數據的價值知多少 18

技術洞察1.6: 什麽是“爬蟲”19

技術洞察1.7: 什麽是用戶畫像22

技術洞察2.1: 自然語言處理——從規則到統計、從理性到經驗33

技術洞察2.2: 什麽是“埋點數據”36

技術洞察2.3: 數據標註40

技術洞察3.1: 大數定律與中心極限定律——統計學的基石49

技術洞察3.2: 統計描述與統計推斷51

技術洞察3.3: “人”計算與“機器”計算的思維差異52

技術洞察3.4:  三種基本算法的結構及流程53

技術洞察3.5: 蒙特卡羅方法——統計模擬法56

技術洞察3.6: 計算中的遞歸與迭代57

技術洞察3.7: 用戶偏好計算——TFIDF62

技術洞察5.1: 什麽是A/B測試——奧巴馬當選美國總統背後的故事93

技術洞察5.2: 自動駕駛中的數據科學、機器學習與人工智能97

技術洞察5.3: 什麽是利潤曲線102

技術洞察6.1: 數據分析前的準備——明確目標、定義指標109

技術洞察6.2: 同比和環比109

技術洞察6.3: RFM模型——客戶分類110

技術洞察6.4: AARRR漏鬥模型111

技術洞察6.5: 理解數據——變量說明表113

技術洞察6.6: 探索性可視化分析實例122

技術洞察7.1: 什麽是特徵工程131

技術洞察7.2: 回歸建模背後的底層邏輯134

技術洞察7.3: 模型參數的“迭代優化”——梯度下降法136

技術洞察7.4: 什麽是“正則化”139

技術洞察7.5: Python代碼實現線性回歸算法140

技術洞察7.6: 核函數高維映射144

技術洞察7.7: SVM的隱含假設145

技術洞察7.8: 結點不純度——信息熵146

技術洞察8.1: 為什麽需要非線性激活函數167

技術洞察8.2: BP學習算法169

技術洞察8.3: 神經網絡的參數與超參數170

技術洞察8.4: 捲積核與捲積計算——垂直邊緣檢測173

技術洞察8.5: 激活函數Sigmoid與Softmax175

技術洞察8.6: Seq2Seq模型——編碼/解碼結構180

技術洞察8.7: 圖的表示——鄰接矩陣與鄰接鏈表182

技術洞察8.8: 蒙特卡羅樹搜索188

技術洞察9.1: 從計算思維看數據模型198

技術洞察9.2: 實體與ER圖199

技術洞察9.3: 剛性事務與ACID原則202

技術洞察9.4: 關系模型與 SQL的誕生203

技術洞察9.5: 數據解讀的六字箴言——時間、對象、指標、對比、細分、溯源211

技術洞察9.6: 模型標記語言(PMML)213

技術洞察9.7: 柔性事務與BASE原則216

技術洞察10.1: Google論文“Google File System”(2003年)——引言(譯文)222

技術洞察10.2: 寫時模式與讀時模式224

技術洞察10.3: HDFS的文件操作命令226

技術洞察10.4: Hadoop大事記(截至2011年)227

技術洞察10.5: Google論文“BigTable: A Distributed Storage System for Structured Data”(2006年)——摘要(譯文)228

技術洞察10.6: HBase的存儲示例232

技術洞察10.7: HBase常用操作234

技術洞察11.1: Google論文“MapReduce: Simplified Data Processing on Large Clusters”(2004年)——引言(譯文)244

技術洞察11.2: Spark誕生記250

技術洞察11.3: 從RDD再看計算思維的實踐——抽象、自動化251

技術洞察12.1: 從Hadoop 1.0到Hadoop 2.0264

技術洞察12.2: 推薦系統的Hadoop實現266

技術洞察12.3: 基於雲的深度學習框架272

技術洞察12.4: 算力——CPU、GPU、TPU及NPU274

技術洞察12.5: 阿裡巴巴數據中台的演進之路277

技術洞察12.6: 模型迭代(Refit)與模型重構(Rebuild)278

技術洞察13.1: 傳感器285

技術洞察13.2: 採樣與採樣頻率286

技術洞察13.3: “5G+工業互聯網”成為數字經濟“新名片”287

技術洞察13.4: AutoSklearn——基於Python的開源工具包292

技術洞察13.5: 註意力機制與註意力模型297

技術洞察13.6: ChatGPT的預訓練數據從哪裡來300

技術洞察13.7: 什麽是“在上下文中學習”302

技術洞察13.8: 百度“文心一言”305

技術洞察14.1: AGI何時實現——來自頂級大佬的預測321

技術洞察15.1: 2023年Gartner新興技術成熟度327

技術洞察15.2: 數據科學與開發系統的工作流331

【應用案例】

應用案例2.1: Google的核心——PageRank算法41

應用案例2.2: 使用CRM構建全方位用戶畫像42

應用案例3.1: 麵包的故事48

應用案例3.2: 幸運者偏差50

應用案例3.3: 淘寶的“淘氣值”64

應用案例4.1: 國民閱讀率71

應用案例4.2: 什麽是多維度?——百度“吃貨”排行榜75

應用案例4.3: 東數西算——國家大數據戰略77

應用案例4.4: 用戶畫像的構建——標簽分級80

應用案例4.5: 坐姿與汽車防盜82

應用案例5.1: 什麽是“可執行的知識”91

應用案例6.1: 哪個NBA球員發揮更穩定115

應用案例6.2: 直方圖與箱線圖116

應用案例6.3: 描述性分析實例——駕駛員出險因素分析及結論118

應用案例6.4: 出租車GPS數據的探索性分析123

應用案例7.1: FICO信用分(美國徵信體系)是怎麽來的138

應用案例7.2: 邏輯回歸預測點擊率(ClickThroughRate,CTR)143

應用案例7.3: “泰坦尼克號”上的生還預測147

應用案例7.4: 垃圾郵件識別149

應用案例7.5: 航空公司RFM聚類155

應用案例8.1: 手寫數字識別——參數知多少166

應用案例8.2: ImageNet大賽176

應用案例8.3: 語言模型的演進——從統計到神經網絡181

應用案例8.4: GNN應用——增強推薦系統184

應用案例9.1: 阿波羅登月計劃與數據管理197

應用案例9.2: 學生選課管理數據庫系統201

應用案例9.3: 零售企業中的事實表與星狀模式209

應用案例9.4: 數據倉庫與用戶標簽210

應用案例10.1: HBase在滴滴出行中的最佳實踐235

應用案例11.1: 詞頻統計WordCount的MapReduce實現246

應用案例11.2: 用戶行為(clickstream日誌)數據分析247

應用案例11.3: 基於MapReduce的視頻語義分類247

應用案例11.4: 一個基於Spark的WordCount253

應用案例11.5: 用於文本分析的機器學習工作流255

應用案例11.6: 滴滴出行的ETA預測260

應用案例12.1: 基於阿裡雲的實時數據倉庫268

應用案例13.1: 阿裡巴巴的“犀牛工廠”289

應用案例13.2: 無人駕駛汽車傳感器知多少289

應用案例13.3: 個性化推薦研究熱點: 深度學習、知識圖譜、強化學習、可解釋推薦

296

應用案例13.4: 一個偉大的公司需要幾個人306

應用案例14.1: 數字孿生與數字城市313

應用案例14.2: 自動駕駛迎來這樣一個新階段316

應用案例14.3: 廣告投放從“千人一面”到“一人千面”317

應用案例14.4: 你的芝麻信用評分是多少317