雲端原生資料倉儲:原理與實務

李飛飛 週烜 楊程程 林亮 王遠

  • 出版商: 電子工業
  • 出版日期: 2025-01-01
  • 售價: $708
  • 貴賓價: 9.5$673
  • 語言: 簡體中文
  • 頁數: 308
  • 裝訂: 平裝
  • ISBN: 7121494531
  • ISBN-13: 9787121494536
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

本書深入探討雲端原生資料倉儲的理論知識與技術實踐,
主要內容涵蓋資料倉儲的發展歷 程、大數據處理技術、雲端原生資料倉儲的概念與特點,以及雲端運算時代的資料倉儲技術。
書中 詳細介紹雲端原生資料倉儲的架構設計,運算引擎、最佳化器、儲存的關鍵技術,以及資源管理與 調度等知識。
同時,本書結合Redshift、Snowflake、BigQuery等典型的雲端原生資料倉儲,以及 AnalyticDB等代表性的國產資料倉儲介紹大量的實務案例。
此外,書中針對雲端原生資料倉儲的 資源調度、查詢最佳化、
維運管理等面向進行深入的剖析,提供大量的最佳實務與應用場景。

目錄大綱

第1章 資料倉儲與大數據處理技術概述/1
1.1 資料倉儲發展概論 /2
1.1.1 萌芽:OLTP 數據庫與資料倉儲概念的提出 /2
1.1.2 發展:線上分析處理與資訊倉庫整合理論 /6
1.1.3 成熟:商用資料倉儲與資料倉儲建模理論 /13
1.2 大數據處理技術與資料倉儲/20
1.2.1 大數據處理技術的起源 /21
1.2.2 分佈式技術 /22
1.2.3 經典大數據處理架構 /28
1.2.4 湖倉一體 /29
1.3 資料倉儲發展趨勢 /31
1.3.1 雲原生與分佈式 /31
1.3.2 大數據與數據庫一體化 /33
1.3.3 彈性與Serverless 擴容計費 /34
1.3.4 智能化 /36
1.3.5 資料共享與安全可信 /37
第2章 資料倉儲與雲端運算/39
2.1 雲端運算時代資料倉儲的發展 /40
2.1.1 基礎設施服務化 /40
2.1.2 資料倉儲服務化 /43
2.2 雲端運算時代資料倉儲技術的機會與挑戰 /45
2.2.1 高彈性和平臺成本之間的權衡 /45
2.2.2 穩定性挑戰 /46
2.2.3 計算儲存頻寬瓶頸 /47
2.2.4 安全的挑戰 /47
2.3 雲端原生資料倉儲的技術特性 /48
2.3.1 存算分離與資源池化 /48
2.3.2 超融合基礎架構 /49
2.3.3 高可用 /49
2.3.4 自服務 /49
2.3.5 分層架構與彈性擴展 /50
2.3.6 資料即時性與多層一致性 /50
2.3.7 資料開放性與共享 /51
2.3.8 計算多樣性 /51
第3章 雲端原生資料倉儲架構/53
3.1 設計理念/54
3.1.1 充分利用雲端資源 /54
3.1.2 縱向解耦與橫向彈性 /54
3.1.3 一體化資料處理 /55
3.2 參考架構/56
3.3 典型雲端原生資料倉儲/ 58
3.3.1 Redshift / 58
3.3.2 Snowflake / 63
3.3.3 BigQuery / 69
3.3.4 Databricks / 72
3.3.5 AnalyticDB / 74
3.4 雲端原生資料倉儲比較/77
3.4.1 存算分離 /77
3.4.2 彈性能力與可擴展性 /77
3.4.3 Serverless 支援 / 78
3.4.4 計算模型 /78
3.4.5 ACID 語意 /78
3.4.6 生態相容 /79
第4章 計算引擎關鍵技術/80
4.1 執行模型/ 81
4.1.1 迭代模型 /81
4.1.2 物化模型 /82
4.1.3 批次模型 /83
4.2 單機執行模型/ 84
4.2.1 執行模型 /84
4.2.2 典型執行算子 /85
4.2.3 執行算子優化 /87
4.3 分佈式執行框架/ 91
4.3.1 MPP 架構 / 91
4.3.2 BSP /94
4.4 典型互動模式/ 98
4.4.1 批次 / 99
4.4.2 交互式 /101
4.4.3 即時檢索 /102
4.4.4 機器學習 /103
4.5 AnalyticDB計算引擎實踐/104
4.5.1 AnalyticDB 的執行模型 /105
4.5.2 AnalyticDB 的運算資源調度 /111
4.5.3 AnalyticDB 混合負載管理 /117
第5章 優化器關鍵技術/123
5.1 優化技術分類/124
5.2 成熟優化器模型/125
5.2.1 分層搜尋 /125
5.2.2 統一搜尋 /126
5.3 深入CBO/133
5.3.1 代價模型與參數估計 /133
5.3.2 動態抽樣 /140
5.3.3 查詢重優化 /143
5.4 AnalyticDB優化器實踐/150
5.4.1 主體框架 /150
5.4.2 統計資訊管理 /152
5.4.3 湖倉一體優化器 /157
第6章 資料倉儲儲存關鍵技術/158
6.1 湖倉架構/159
6.1.1 Azure、AWS 和Open Data Lakehouse / 160
6.1.2 Hudi、IceBerg 和Delta Lake /165
6.2 資料倉儲架構/172
6.2.1 單機儲存架構 /172
6.2.2 分佈式共享儲存 /173
6.3 典型儲存格式/175
6.3.1 行存儲 /176
6.3.2 列儲存 /177
6.3.3 行列混合儲存 /178
6.4 關鍵資料結構、索引與壓縮技術/ 180
6.4.1 資料結構 /180
6.4.2 索引實作 /186
6.4.3 典型壓縮演算法 /197
6.5 資料分區技術/204
6.5.1 哈希分區 /205
6.5.2 Range 分區 / 206
6.5.3 其他資料分佈模式 /207
6.5.4 資料冷熱分層及生命週期管理 /208
6.6 資料一致性和可用性/209
6.6.1 資料一致性概念與分級 /210
6.6.2 二階段提交 /212
6.6.3 多版本並發控制 /213
6.6.4 分佈式一致性協定 /215
6.6.5 數據可用性 /219
6.6.6 數據實時性 /220
6.6.7 備份還原 /221
第7章 資源管理與調度/223
7.1 雲端資源調度的挑戰與機會/224
7.1.1 Serverless 的服務等級協定 / 224
7.1.2 多租戶系統 /224
7.1.3 預測模型 /225
7.2 典型資源調度架構/225
7.2.1 Yarn/Yarn2 /225
7.2.2 Mesos /229
7.2.3 Kubernetes /232
7.3 AnalyticDB資源調度實務/238
7.3.1 雲庫存調度 / 238
7.3.2 資源利用率 /240
7.3.3 按需彈性 /245
第8章 AnalyticDB雲端上應用實作/247
8.1 實例創建/248
8.2 資料接入/250
8.2.1 Serverless 的服務等級協定 / 250
8.2.2 資料導入方式介紹 /250
8.2.3 資料導入效能優化 /254
8.3 資料類型和基本操作/257
8.3.1 資料類型 / 257
8.3.2 系統函數 /257
8.3.3 物化視圖 /258
8.3.4 全文檢索 / 259
8.3.5 DDL /262
8.3.6 DML /263
8.3.7 DQL /263
8.3.8 DCL / 264
8.3.9 元數據庫資料字典 /264
8.4 查詢最佳化/264
8.4.1 智能診斷與調優 / 264
8.4.2 調優查詢 /270
8.5 維運管理/276
8.5.1 工作負載管理 /276
8.5.2 監控與警報 /277
8.5.3 安全管理 /277
8.5.4 備份與還原 /279
8.5.5 變配與擴容 / 279
8.5.6 維護時間與維運事件 /281
8.5.7 數據資產管理 /282
8.5.8 標籤管理 / 283
8.6 很好實踐/283
8.6.1 數據資產管理 /283
8.6.2 資料變更很好實踐 /286
8.6.3 資料查詢很好實踐 /287
8.6.4 負載管理很好實務 /287
8.7 典型應用場景/290
8.7.1 即時資料倉儲 / 290
8.7.2 精準行銷 /290
8.7.3 商業智慧報表 /290
8.7.4 多源聯合分析 /291
8.7.5 交互式查詢 /291
參考文獻/292