數據科學導論
張旗、魏惠梅
- 出版商: 清華大學
- 出版日期: 2024-09-01
- 定價: $474
- 售價: 8.5 折 $403
- 語言: 簡體中文
- ISBN: 7302669643
- ISBN-13: 9787302669647
-
相關分類:
Data Science
下單後立即進貨 (約4週~6週)
相關主題
商品描述
目錄大綱
目錄
第1篇數 據 思 維
第1章數據時代
開篇案例: 你聽說過“大數據殺熟”嗎?
學習目標
1.1數、數據與大數據
1.1.1數與數據
1.1.2信息化浪潮與大數據
1.1.3從IT時代到DT時代
思考題
1.2大數據時代的變革
1.2.1大數據時代的思維變革
1.2.2大數據時代的商業變革
1.2.3大數據時代的生活方式變革
思考題
1.3大數據時代的挑戰
思考題
1.4探究與實踐
第2章數據科學
開篇案例: 啤酒與尿不濕
學習目標
2.1什麽是數據科學
2.1.1數據科學的產生
2.1.2數據科學的定義
2.1.3數據科學的維恩圖
思考題
2.2科學範式及演化
2.2.1範式及範式的演變
2.2.2第四範式的特點
2.2.3第四範式的挑戰
思考題
2.3數據科學項目的實施
2.3.1數據科學流程
2.3.2數據特徵與數據準備
2.3.3從商業問題到數據科學問題
思考題
2.4探究與實踐
第3章數據思維
開篇案例: 別輕易點贊,它會泄露你的性格秘密
學習目標
3.1統計學與統計思維
3.1.1什麽是統計
3.1.2統計學原理與統計思維
3.1.3像統計學家一樣思考
思考題
3.2電腦與計算思維
3.2.1計算與自動計算
3.2.2算法與程序
3.2.3什麽是計算思維
3.2.4像電腦專家一樣思考
思考題
3.3大數據與數據思維
3.3.1數據思維的特點
3.3.2一切皆可量化
3.3.3像數據科學家一樣思考
思考題
3.4探究與實踐
第4章DIKW模型
開篇案例: 《紙牌屋》背後的數據故事
學習目標
4.1數據與DIKW模型
4.1.1什麽是DIKW模型
4.1.2DIKW模型中的過去與未來
思考題
4.2數據價值鏈與DIKW
4.2.1從數據到信息
4.2.2從信息到知識
4.2.3基於數據驅動的決策
4.2.4數據科學與DIKW
思考題
4.3從DIKW視角看世界
4.3.1數據思維實現的要素
4.3.2大數據原理與DIKW模型
4.3.3DIKW的應用及創新
思考題
4.4探究與實踐
第2篇數 據 價 值
第5章從數據到知識
開篇案例: “百度指數”能告訴你什麽?
學習目標
5.1知識與知識發現
5.1.1什麽是知識
5.1.2知識發現的任務
5.1.3決策與決策支持
思考題
5.2數據分析、數據挖掘與人工智能
5.2.1知識發現的方法
5.2.2數據分析與業務分析
5.2.3數據挖掘與知識發現
5.2.4機器學習與人工智能
5.2.5從數據到知識
思考題
5.3數據科學項目的選擇
5.3.1數據科學的認知誤區
5.3.2成功的數據科學項目
5.3.3數據科學項目的選擇之旅
思考題
5.4探究與實踐
第6章數據分析——描述與探索
開篇案例: 如果你在“泰坦尼克號”上會怎樣?
學習目標
6.1數據分析常用方法
6.1.1因素分解法——相關思維
6.1.2對比法——比較思維
6.1.3象限分析法——分類思維
6.1.4漏鬥分析法——漏鬥思維
思考題
6.2數據描述性分析
6.2.1認識數據
6.2.2數據統計量及分佈
6.2.3數據統計的可視化
6.2.4數據描述性分析
思考題
6.3數據探索性分析
6.3.1什麽是探索性分析
6.3.2探索性分析與數據清洗
6.3.3探索性分析與可視化
思考題
6.4探究與實踐
第7章從結構化數據中挖掘價值
開篇案例: Target的精準營銷靠譜嗎?
學習目標
7.1機器學習概述
7.1.1什麽是機器學習
7.1.2機器學習算法分類
7.1.3機器學習的要素及流程
7.1.4機器學習中的“哲學”思想
思考題
7.2監督回歸——線性與非線性
7.2.1線性回歸
7.2.2模型的泛化及優化
7.2.3模型的評估
思考題
7.3監督分類——目標明確、八仙過海
7.3.1邏輯回歸
7.3.2支持向量機——學習
7.3.3決策樹——基於規則
7.3.4樸素貝葉斯——基於概率
7.3.5分類模型評價及優化
思考題
7.4非監督探索——自學成才
7.4.1聚類——物以類聚、人以群分
7.4.2關聯分析——猜你還喜歡
思考題
7.5探究與實踐
第8章在非結構化數據中深度學習
開篇案例: ImageNet數據庫有什麽用?
學習目標
8.1模擬人腦的學習
8.1.1機器學習的本質
8.1.2復雜數據及場景的突破
8.1.3神經網絡——模擬人的大腦
思考題
8.2神經網絡與深度學習
8.2.1神經元模型
8.2.2深度神經網絡模型
8.2.3深度學習的實現
思考題
8.3捲積神經網絡
8.3.1圖像與圖像捲積
8.3.2捲積神經網絡(CNN)
8.3.3CNN應用
思考題
8.4循環神經網絡
8.4.1為什麽需要循環神經網絡
8.4.2循環神經網絡的基本結構
8.4.3循環神經網絡的長短記憶
8.4.4RNN的應用
思考題
8.5圖神經網絡
8.5.1圖數據與圖結構表徵
8.5.2圖神經網絡(GNN)
8.5.3GNN的應用
思考題
8.6強化學習——從監督學習到自主學習
8.6.1什麽是強化學習
8.6.2如何強化學習
8.6.3從AlphaGo到AlphaZero
思考題
8.7探究與實踐
第3篇數 據 技 術
第9章數據存儲與管理
開篇案例: 阿裡巴巴數據倉庫架構
學習目標
9.1數據庫與數據庫管理系統
9.1.1數據存儲管理的演變
9.1.2關系型數據庫的設計
9.1.3數據庫操作與SQL查詢
思考題
9.2數據倉庫與商業智能
9.2.1OLTP與OLAP
9.2.2數據倉庫及其分層架構
9.2.3數據立方體構建及查詢
9.2.4數據挖掘與商業智能
思考題
9.3大數據的挑戰
9.3.1大數據存儲與管理
9.3.2Google顛覆性技術創新
9.3.3數據科學生態系統
思考題
9.4探究與實踐
第10章大數據分佈式存儲
開篇案例: 春晚搶紅包大戰究竟“戰”什麽?
學習目標
10.1分佈式文件系統
10.1.1分佈式文件系統概述
10.1.2HDFS存儲原理及操作
10.1.3HDFS應用場景
思考題
10.2分佈式數據庫HBase
10.2.1BigTable的創新思考
10.2.2HBase數據模型
10.2.3HDFS與HBase
10.2.4HBase應用場景
思考題
10.3NoSQL數據庫
10.3.1NoSQL數據庫的興起
10.3.2NoSQL數據庫的4大類型
10.3.3從NoSQL到NewSQL
思考題
10.4探究與實踐
第11章大數據計算與分析
開篇案例: 你的用戶畫像是如何構建出來的?
學習目標
11.1分佈式計算MapReduce
11.1.1分佈式並行計算
11.1.2MapReduce流程
11.1.3MapReduce的特點及應用
思考題
11.2內存計算與Spark
11.2.1什麽是內存計算
11.2.2RDD原理及操作
11.2.3Spark機器學習庫及工作流
思考題
11.3流計算
11.3.1大數據與流分析
11.3.2Spark Streaming流計算
11.3.3流計算的應用
思考題
11.4探索與實踐
第12章大數據平臺與雲計算
開篇案例: 淘系的“生意參謀”
學習目標
12.1大數據平臺
12.1.1Hadoop的原則
12.1.2Hadoop生態系統
12.1.3Hadoop與實時數據倉庫
思考題
12.2雲計算與雲服務
12.2.1什麽是雲計算
12.2.2面向分析的雲服務
12.2.3百度深度學習開源雲平臺
思考題
12.3業務中台與數據中台
12.3.1什麽是中台
12.3.2數據中台與AI中台
12.3.3阿裡巴巴數加大數據平臺
思考題
12.4探索與實踐
第4篇數 據 未 來
第13章從DIKW視角看技術未來
開篇案例: 通用人工智能是AI的終點嗎?
學習目標
13.1工業物聯網
13.1.1物聯網要素
13.1.2傳統物聯網與工業物聯網
13.1.3面向物聯網的數據分析
思考題
13.2AutoML——自動機器學習
13.2.1AutoML的目標
13.2.2AutoML的流程
思考題
13.3知識圖譜
13.3.1什麽是知識圖譜
13.3.2如何構建知識圖譜
13.3.3知識圖譜的自動構建
思考題
13.4大語言模型ChatGPT
13.4.1自然語言模型的變遷
13.4.2註意力機制與Transformer模型
13.4.3GPT與ChatGPT
13.4.4AIGC智能創作時代
思考題
13.5探究與實踐
第14章從DIKW視角看產業未來
開篇案例: 騰訊進軍“新能源”
學習目標
14.1數字化轉型與數據驅動
14.1.1數字化轉型與數據驅動
14.1.2數據驅動的特徵
14.1.3數字化轉型與賦能
思考題
14.2大數據產業的趨勢
14.2.1政府大數據從管理走向服務
14.2.2電信大數據從小圈子走向大生態
14.2.3健康醫療大數據從大走向精準
14.2.4工業大數據圍繞小場景從項目走向產品
14.2.5營銷大數據從流量營銷走向精細運營
14.2.6金融大數據從強管控走向創新服務
思考題
14.3智能時代
14.3.1AI的角色
14.3.2從弱AI到強AI
14.3.3人機融合的未來
思考題
14.4探究與實踐
第15章數據科學的未來
開篇案例: 數據科學的4.0版
學習目標
15.1數據科學的挑戰
15.1.1數據科學的4大科學任務
15.1.2數據科學的10大技術方向
15.1.3數據科學的發展趨勢
思考題
15.2數據科學家團隊
15.2.1數據科學與系統開發
15.2.2數據科學家和開發人員的合作
15.2.3數據科學相關職位與技能
15.2.4數據科學家團隊
思考題
15.3探究與實踐
參考文獻
附錄
附錄A布魯姆(Bloom)認知分類法
附錄B商業分析方法
附錄C批判性思維工具
附錄D哈佛大學“思維可視化”路徑集
數據科學導論
案例目錄
【開篇案例】
第1章開篇案例: 你聽說過“大數據殺熟”嗎?4
第2章開篇案例: 啤酒與尿不濕26
第3章開篇案例: 別輕易點贊,它會泄露你的性格秘密46
第4章開篇案例: 《紙牌屋》背後的數據故事68
第5章開篇案例: “百度指數”能告訴你什麽?88
第6章開篇案例: 如果你在“泰坦尼克號”上會怎樣?108
第7章開篇案例: Target的精準營銷靠譜嗎?127
第8章開篇案例: ImageNet數據庫有什麽用?161
第9章開篇案例: 阿裡巴巴數據倉庫架構196
第10章開篇案例: 春晚搶紅包大戰究竟“戰”什麽?221
第11章開篇案例: 你的用戶畫像是如何構建出來的?243
第12章開篇案例: 淘系的“生意參謀”263
第13章開篇案例: 通用人工智能是AI的終點嗎?284
第14章開篇案例: 騰訊進軍“新能源”308
第15章開篇案例: 數據科學的4.0版325
【想一想】
想一想1.1: “大”數據10
想一想1.2: Excel中的數據格式12
想一想1.3: 什麽是推薦系統18
想一想1.4: 你的超星(學習通)數據及價值21
想一想2.1: 統計學與數學30
想一想2.2: “大數據買披薩”的故事35
想一想2.3: 什麽是整潔數據(Tidy Data)37
想一想3.1: 文字“可能”“差不多”等詞可以量化嗎60
想一想4.1: 生活中的DIKW69
想一想4.2: 你聽說過“信息繭房”嗎74
想一想4.3: Analysis與Analytics有什麽區別75
想一想5.1: 知識的不確定性及不確切性的表示 90
想一想5.2: 你能從下麵對“知識”的描述中得到什麽95
想一想5.3: 到底是“算法”還是“模型”99
想一想5.4: 數據科學還是什麽101
想一想5.5: 數據收集要考慮什麽104
想一想6.1: 中位數與眾數的計算114
想一想6.2: 為什麽數據準備那麽花時間121
想一想7.1: “回歸”的含義133
想一想7.2: 空間變換——從非線性到線性142
想一想7.3: 智慧決策到底做什麽150
想一想7.4: 建模是一個過程——大廚做菜152
想一想7.5: 關聯規則能使東北小菜館重獲新生嗎157
想一想8.1: 人類是如何思考的——為什麽需要RNN178
想一想8.2: 知識從哪裡來185
想一想8.3: 游戲中的AI三要素——數據、算法與算力189
想一想9.1: 什麽是元數據215
想一想10.1: Google工程師是如何思考的——定義清楚問題比解決問題更難229
想一想10.2: 行存儲與列存儲231
想一想10.3: NoSQL數據庫的特點238
想一想10.4: 從DIKW視角看數據管理240
想一想11.1: 分佈式機器學習的原理249
想一想11.2: 靜態數據與流數據、批處理與實時處理256
想一想11.3: Spark中數據抽象的演變——RDD、DataFrame及DStream258
想一想12.1: 網絡時代,我們可以享受哪些雲服務271
想一想13.1: 邊緣計算的未來288
想一想13.2: 人類反饋是如何打分的304
想一想14.1: 數據驅動你體會到了嗎309
想一想14.2: 免費WiFi誰會受益314
想一想14.3: 你的智能手環真的“智能”嗎315
想一想14.4: 現在的自動駕駛到了哪一級322
想一想15.1: 科學、工程與技術329
想一想15.2: 入職的門檻你準備好了嗎334
想一想15.3: 你想轉行嗎336
【試一試】
試一試1.1: 十進制、二進制、十六進制5
試一試2.1: 開放數據29
試一試2.2: 數據一致性及Excel變換39
試一試3.1: 排序算法——計算思維的實踐55
試一試3.2: 網站重要性度量 59
試一試3.3: 餘弦定理與文本相似度61
試一試4.1: 微信指數72
試一試4.2: 幸福與愛情77
試一試7.1: 勝率幾何——小明能搶到票嗎148
試一試7.2: Kmeans算法的結果是如何來的153
試一試7.3: 支持度、置信度、提升度怎麽算156
試一試8.1: 神經元計算166
試一試8.2: 神經網絡游樂場PlayGround171
試一試9.1: SQL實踐——查詢與統計204
【技術洞察】
技術洞察1.1: 圖靈模型與馮·諾依曼電腦6
技術洞察1.2: 第二次工業革命——電力革命8
技術洞察1.3: CRM的起源與發展 9
技術洞察1.4: 什麽是摩爾定律14
技術洞察1.5: 用戶數據的價值知多少 18
技術洞察1.6: 什麽是“爬蟲”19
技術洞察1.7: 什麽是用戶畫像22
技術洞察2.1: 自然語言處理——從規則到統計、從理性到經驗33
技術洞察2.2: 什麽是“埋點數據”36
技術洞察2.3: 數據標註40
技術洞察3.1: 大數定律與中心極限定律——統計學的基石49
技術洞察3.2: 統計描述與統計推斷51
技術洞察3.3: “人”計算與“機器”計算的思維差異52
技術洞察3.4: 三種基本算法的結構及流程53
技術洞察3.5: 蒙特卡羅方法——統計模擬法56
技術洞察3.6: 計算中的遞歸與迭代57
技術洞察3.7: 用戶偏好計算——TFIDF62
技術洞察5.1: 什麽是A/B測試——奧巴馬當選美國總統背後的故事93
技術洞察5.2: 自動駕駛中的數據科學、機器學習與人工智能97
技術洞察5.3: 什麽是利潤曲線102
技術洞察6.1: 數據分析前的準備——明確目標、定義指標109
技術洞察6.2: 同比和環比109
技術洞察6.3: RFM模型——客戶分類110
技術洞察6.4: AARRR漏鬥模型111
技術洞察6.5: 理解數據——變量說明表113
技術洞察6.6: 探索性可視化分析實例122
技術洞察7.1: 什麽是特徵工程131
技術洞察7.2: 回歸建模背後的底層邏輯134
技術洞察7.3: 模型參數的“迭代優化”——梯度下降法136
技術洞察7.4: 什麽是“正則化”139
技術洞察7.5: Python代碼實現線性回歸算法140
技術洞察7.6: 核函數高維映射144
技術洞察7.7: SVM的隱含假設145
技術洞察7.8: 結點不純度——信息熵146
技術洞察8.1: 為什麽需要非線性激活函數167
技術洞察8.2: BP學習算法169
技術洞察8.3: 神經網絡的參數與超參數170
技術洞察8.4: 捲積核與捲積計算——垂直邊緣檢測173
技術洞察8.5: 激活函數Sigmoid與Softmax175
技術洞察8.6: Seq2Seq模型——編碼/解碼結構180
技術洞察8.7: 圖的表示——鄰接矩陣與鄰接鏈表182
技術洞察8.8: 蒙特卡羅樹搜索188
技術洞察9.1: 從計算思維看數據模型198
技術洞察9.2: 實體與ER圖199
技術洞察9.3: 剛性事務與ACID原則202
技術洞察9.4: 關系模型與 SQL的誕生203
技術洞察9.5: 數據解讀的六字箴言——時間、對象、指標、對比、細分、溯源211
技術洞察9.6: 模型標記語言(PMML)213
技術洞察9.7: 柔性事務與BASE原則216
技術洞察10.1: Google論文“Google File System”(2003年)——引言(譯文)222
技術洞察10.2: 寫時模式與讀時模式224
技術洞察10.3: HDFS的文件操作命令226
技術洞察10.4: Hadoop大事記(截至2011年)227
技術洞察10.5: Google論文“BigTable: A Distributed Storage System for Structured Data”(2006年)——摘要(譯文)228
技術洞察10.6: HBase的存儲示例232
技術洞察10.7: HBase常用操作234
技術洞察11.1: Google論文“MapReduce: Simplified Data Processing on Large Clusters”(2004年)——引言(譯文)244
技術洞察11.2: Spark誕生記250
技術洞察11.3: 從RDD再看計算思維的實踐——抽象、自動化251
技術洞察12.1: 從Hadoop 1.0到Hadoop 2.0264
技術洞察12.2: 推薦系統的Hadoop實現266
技術洞察12.3: 基於雲的深度學習框架272
技術洞察12.4: 算力——CPU、GPU、TPU及NPU274
技術洞察12.5: 阿裡巴巴數據中台的演進之路277
技術洞察12.6: 模型迭代(Refit)與模型重構(Rebuild)278
技術洞察13.1: 傳感器285
技術洞察13.2: 採樣與採樣頻率286
技術洞察13.3: “5G+工業互聯網”成為數字經濟“新名片”287
技術洞察13.4: AutoSklearn——基於Python的開源工具包292
技術洞察13.5: 註意力機制與註意力模型297
技術洞察13.6: ChatGPT的預訓練數據從哪裡來300
技術洞察13.7: 什麽是“在上下文中學習”302
技術洞察13.8: 百度“文心一言”305
技術洞察14.1: AGI何時實現——來自頂級大佬的預測321
技術洞察15.1: 2023年Gartner新興技術成熟度327
技術洞察15.2: 數據科學與開發系統的工作流331
【應用案例】
應用案例2.1: Google的核心——PageRank算法41
應用案例2.2: 使用CRM構建全方位用戶畫像42
應用案例3.1: 麵包的故事48
應用案例3.2: 幸運者偏差50
應用案例3.3: 淘寶的“淘氣值”64
應用案例4.1: 國民閱讀率71
應用案例4.2: 什麽是多維度?——百度“吃貨”排行榜75
應用案例4.3: 東數西算——國家大數據戰略77
應用案例4.4: 用戶畫像的構建——標簽分級80
應用案例4.5: 坐姿與汽車防盜82
應用案例5.1: 什麽是“可執行的知識”91
應用案例6.1: 哪個NBA球員發揮更穩定115
應用案例6.2: 直方圖與箱線圖116
應用案例6.3: 描述性分析實例——駕駛員出險因素分析及結論118
應用案例6.4: 出租車GPS數據的探索性分析123
應用案例7.1: FICO信用分(美國徵信體系)是怎麽來的138
應用案例7.2: 邏輯回歸預測點擊率(ClickThroughRate,CTR)143
應用案例7.3: “泰坦尼克號”上的生還預測147
應用案例7.4: 垃圾郵件識別149
應用案例7.5: 航空公司RFM聚類155
應用案例8.1: 手寫數字識別——參數知多少166
應用案例8.2: ImageNet大賽176
應用案例8.3: 語言模型的演進——從統計到神經網絡181
應用案例8.4: GNN應用——增強推薦系統184
應用案例9.1: 阿波羅登月計劃與數據管理197
應用案例9.2: 學生選課管理數據庫系統201
應用案例9.3: 零售企業中的事實表與星狀模式209
應用案例9.4: 數據倉庫與用戶標簽210
應用案例10.1: HBase在滴滴出行中的最佳實踐235
應用案例11.1: 詞頻統計WordCount的MapReduce實現246
應用案例11.2: 用戶行為(clickstream日誌)數據分析247
應用案例11.3: 基於MapReduce的視頻語義分類247
應用案例11.4: 一個基於Spark的WordCount253
應用案例11.5: 用於文本分析的機器學習工作流255
應用案例11.6: 滴滴出行的ETA預測260
應用案例12.1: 基於阿裡雲的實時數據倉庫268
應用案例13.1: 阿裡巴巴的“犀牛工廠”289
應用案例13.2: 無人駕駛汽車傳感器知多少289
應用案例13.3: 個性化推薦研究熱點: 深度學習、知識圖譜、強化學習、可解釋推薦
296
應用案例13.4: 一個偉大的公司需要幾個人306
應用案例14.1: 數字孿生與數字城市313
應用案例14.2: 自動駕駛迎來這樣一個新階段316
應用案例14.3: 廣告投放從“千人一面”到“一人千面”317
應用案例14.4: 你的芝麻信用評分是多少317