數據浪潮:大數據技術演進之路

吳垚

  • 出版商: 人民郵電
  • 出版日期: 2022-09-01
  • 定價: $539
  • 售價: 8.5$458
  • 語言: 簡體中文
  • 頁數: 300
  • ISBN: 7115579245
  • ISBN-13: 9787115579249
  • 相關分類: 大數據 Big-data
  • 立即出貨 (庫存 < 3)

  • 數據浪潮:大數據技術演進之路-preview-1
  • 數據浪潮:大數據技術演進之路-preview-2
數據浪潮:大數據技術演進之路-preview-1

相關主題

商品描述

近年來,基礎軟件的發展越來越受到重視,越來越多的電腦從業者對數據管理系統和大數據的知識產生了強烈的需求。

本書既介紹了數據管理系統的技術發展史,又介紹了數據管理系統的關鍵技術內涵,同時還介紹了一系列主流的商業化產品及其架構,並對前沿技術進行了討論分析,給出作者自己的見解和洞察。本書內容主要包括數據庫與大數據的誕生、發展和商業應用,數據庫與大數據之間的關系,國產數據庫的國際化,數據管理系統的共同之處,數據管理系統的算法理論、前沿技術等。

本書適合數據管理系統或大數據方向的技術人員和科研人員閱讀,也適合互聯網科技公司的技術人員及管理人員,以及對特定領域的商業和歷史感興趣的讀者閱讀。

作者簡介

吴垚,毕业于中国人民大学,是中国人民大学和加利福尼亚大学尔湾分校(UCI)联合培养的博士,目前就职于华为公司加拿大研究院。其国内导师陈红是CCF数据库专委委员,国家科技进步二等奖获得者;国外导师Michael J. Carey是美国工程院院士、ACM和IEEE Fellow。博士在读期间作者参与的项目包括:物联网搜索中的隐私保护研究、新一代高时效安全可靠流数据系统、“Big Active Data:From Petabyte Data to Million People”等。毕业后就职于华为高斯部门,先后在高斯产品部、高斯实验室和多伦多实验室工作,在GaussDB、XY Kernel、HP Kernel等项目中参与AP数据库、AI数据库、TP数据库的研发。

目錄大綱

第 1篇 數據管理系統之數據庫——掌上明珠

 

第 1章 數據庫的誕生——“圖靈”獎經典人物 3

1.1 網狀數據管理系統 4

1.2 關系數據庫模型 6

1.3 數據庫並發與事務 8

1.4 數據庫優化與實踐 10

1.5 小結 13

1.6 參考資料 13

第 2章 數據庫的工業繁榮——商業機遇 14

2.1 System R 14

2.2 PostgreSQL 16

2.3 Oracle 18

2.4 MySQL 20

2.5 IBM Db2 23

2.6 SQL Server 27

2.7 小結 29

2.8 參考資料 30

第3章 國產數據庫的熱潮——四大家族 31

3.1 人大金倉 31

3.2 南大通用 32

3.3 武漢達夢 32

3.4 神舟通用 33

3.5 小結 34

3.6 參考資料 35

 

第 2篇 數據管理系統之大數據——異軍突起

 

第4章 大數據降臨——生逢其時 39

4.1 Google的“三駕馬車” 39

4.1.1 GFS 40

4.1.2 MapReduce系統 41

4.1.3 Bigtable系統 42

4.2 Amazon的“雲上時代” 43

4.3 Facebook的“社交帝國” 44

4.4 LinkedIn的“職業搖籃” 46

4.5 學術界的徘徊輾轉 48

4.6 小結 49

4.7 參考資料 49

第5章 大數據分佈式系統——高潮迭起 50

5.1 容錯內存迭代式計算 50

5.2 實時流式大數據計算 52

5.2.1 Storm系統 52

5.2.2 Flink系統 53

5.3 大規模機器學習系統 54

5.4 數據中心的資源管理 56

5.5 全球分佈式數據服務 58

5.6 小結 59

5.7 參考資料 59

第6章 開源整合架構演進——融會貫通 60

6.1 鏈家架構演進 60

6.1.1 大數據平臺架構演進 60

6.1.2 日誌平臺設計與技術 61

6.2 美團架構演進 62

6.2.1 由淺入深架構解析 62

6.2.2 基礎系統架構演進 64

6.3 Airbnb架構演進 65

6.3.1 大數據平臺架構解析 65

6.3.2 平臺發展的經驗和教訓 66

6.4 58同城架構演進 68

6.4.1 大數據三層平臺架構 68

6.4.2 關鍵技術演進與實現 70

6.5 滴滴出行架構演進 71

6.5.1 實時計算平臺架構演進 71

6.5.2 實時計算平臺架構 72

6.6 小米架構演進 73

6.6.1 流式平臺整體架構 73

6.6.2 3個階段的演進歷程 74

6.7 小結 77

6.8 參考資料 77

第7章 大數據的魅力——廣泛應用 78

7.1 工業應用 78

7.2 銀行金融 79

7.3 智慧城市 81

7.4 健康醫療 82

7.5 小結 83

7.6 參考資料 84

 

第3篇 大數據管理系統——誰主沉浮

 

第8章 數據庫與大數據之戰——華山論劍 87

8.1 ACM雙方論戰 87

8.2 MPP絕對優勢 89

8.3 大數據強勢發展 91

8.4 數據庫自我革命 94

8.5 NewSQL兼容並包 96

8.6 老牌數據庫的反擊 99

8.7 小結 101

8.8 參考資料 102

第9章 大數據管理系統——求同存異 103

9.1 Hadoop生態 104

9.2 BDAS平臺 105

9.3 AsterixDB系統 106

9.4 Apache Beam框架 108

9.5 SnappyData模型 109

9.6 SageDB願景 110

9.7 ShardingSphere項目 112

9.8 小結 114

9.9 參考資料 115

第 10章 新型數據管理系統——百花齊放 116

10.1 大數據輸入和輸出 116

10.2 大數據調度管控 119

10.3 大數據用戶交互 123

10.4 大數據安全隱私 124

10.5 大數據新型引擎 127

10.6 大數據通用語言 129

10.7 大數據網絡賦能 130

10.8 小結 134

10.9 參考資料 135

第 11章 國產數據庫的國際化——齊頭並進 137

11.1 TiDB 137

11.1.1 研發背景 137

11.1.2 早期架構 138

11.1.3 架構升級 139

11.1.4 穩定架構 140

11.2 OceanBase 142

11.2.1 設計考量 142

11.2.2 架構演進 144

11.2.3 厚積薄發 150

11.3 TDSQL 150

11.3.1 分佈式TDSQL 150

11.3.2 分析型TBase 152

11.3.3 雲原生CynosDB 153

11.3.4 產品戰略統一 154

11.4 GaussDB 155

11.4.1 OLTP成長史 155

11.4.2 OLAP成長史 156

11.4.3 HTAP成長史 157

11.4.4 AI-Native成長史 157

11.5 Bigflow 158

11.6 ByteGraph 160

11.7 小結 163

11.8 參考資料 164

 

第4篇 大數據管理系統的架構——路在何方

 

第 12章 高速電子電腦與大數據管理系統——萬法歸宗 167

12.1 以計算為中心的電腦 167

12.2 以存儲為中心的數據機 170

12.3 大數據管理的系統模型 172

12.4 數據管理系統的總結抽象 176

12.5 小結 178

12.6 參考資料 179

第 13章 無處不在的操作系統——歸納演繹 180

13.1 電腦的操作系統 180

13.2 數據管理系統的操作系統 184

13.3 數據中心的操作系統 185

13.4 資源抽象與應用接口 189

13.5 小結 192

13.6 參考資料 192

第 14章 大數據管理系統的未來架構——沙漠綠洲 194

14.1 大數據操作系統 195

14.1.1 數據輸入 197

14.1.2 數據存儲 198

14.1.3 數據計算 200

14.1.4 數據控制 201

14.1.5 數據輸出 202

14.2 自動化可插拔引擎 203

14.3 分佈式彈性數據模型 203

14.4 易用抽象作業執行框架 204

14.5 深度智能系統管理內核 204

14.6 大數據管理系統biggy原型 204

14.7 小結 205

14.8 參考資料 206

 

第5篇 大數據管理系統的精髓——無上心法

 

第 15章 大數據管理系統的基礎——算法理論 209

15.1 存儲類算法 209

15.1.1 大數據LSM的優勢 209

15.1.2 B+-Tree與LSM-Tree對比 210

15.1.3 LSM的優化算法 211

15.2 執行器算法 212

15.2.1 Spark RDD中DAG的應用 212

15.2.2 分佈式數據庫的算子運算 213

15.2.3 大數據DAG與數據庫算子的異同 214

15.3 一致性算法 214

15.3.1 常見一致性算法簡介 214

15.3.2 Paxos算法進階深入 215

15.3.3 一致性的Consensus與Consistency 216

15.4 持久化算法 218

15.4.1 經典的WAL 218

15.4.2 前沿的WBL 219

15.5 分佈式算法 220

15.5.1 分佈式P2P協議 220

15.5.2 一致性哈希算法 220

15.6 事務類算法 222

15.6.1 兩階段提交 222

15.6.2 三階段提交 223

15.7 分佈式容錯機制 224

15.7.1 分佈式系統容錯機制 225

15.7.2 數據庫系統容錯機制 227

15.7.3 工業實踐與學術創新 227

15.8 高並發控制機制 229

15.8.1 並發控制類別 229

15.8.2 並發控制實現 230

15.9 系統健壯性機制 232

15.10 小結 234

15.11 參考資料 234

第 16章 大數據管理系統的前沿——另闢蹊徑 236

16.1 數據上下文管理系統Ground 236

16.2 自治數據管理系統Peloton 239

16.3 分佈式預測系統Clipper 240

16.4 數據管理中人的作用CrowdDB 241

16.5 新硬件帶來的變革doppioDB 242

16.6 端雲協同實時數據庫Firebase 243

16.7 自組裝數據庫XuanYuan 245

16.8 數據治理新思路Tamr 248

16.9 系統性能調優AITuning 249

16.10 小結 253

16.11 參考資料 253

第 17章 大數據管理系統的謎團——撥雲見日 255

17.1 分佈式機器學習與分佈式數據庫 255

17.2 分佈式一致性與數據庫一致性 257

17.3 可變的數據與不可變的數據 260

17.4 區塊鏈與數據庫的異同 261

17.5 NewSQL與OldSQL 263

17.6 雲計算、邊緣計算與物聯網 266

17.7 大數據Java還是C/C++ 270

17.8 流數據與批處理的界線 270

17.9 分佈式事務與遞增式時間 272

17.10 小結 273

17.11 參考資料 274

第 18章 大數據的標準——游戲規則 275

18.1 TPC標準測試 275

18.2 SQL通用語言 277

18.3 頂級學術會議 277

18.4 設計範式 279

18.5 流行趨勢 281

18.6 研究機構 283

18.7 小結 284

18.8 參考資料 284

附錄 285

A.工業與學術 285

B.國產與國際 286

C.開放與封閉 288

D.資本與技術 292

E.個人與企業 295

F.過去與未來 299

G.參考資料 300