劍指大數據——企業級電商數據倉庫項目實戰(精華版)

尚硅谷教育

  • 出版商: 電子工業
  • 出版日期: 2024-04-01
  • 定價: $570
  • 售價: 8.5$484
  • 語言: 簡體中文
  • 頁數: 312
  • ISBN: 7121475219
  • ISBN-13: 9787121475214
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

相關主題

商品描述

本書完整講解了電商行業數據倉庫項目的構建過程,並提供了詳盡的思路分析。在整個項目構建過程中,介紹了關鍵技術框架的安裝部署流程和經典數據指標的解決方案,並在其中穿插了大數據和數據倉庫的經典理論知識。本書從邏輯上可以分為兩大部分:第一部分是第1~3章,重點講解數據倉庫的相關概念和項目需求分析,並初步介紹了數據倉庫項目所需的基本環境;第二部分是第4~8章,這一部分是數據倉庫項目構建的關鍵部分,講解瞭如何對海量數據進行採集、存儲和分層計算,以及如何計算得到所有的項目需求指標。本書適合具有一定編程基礎且對大數據有興趣的讀者閱讀參考。通過本書,讀者可以快速瞭解大數據和數據倉庫,掌握數據倉庫項目的完整構建流程。

目錄大綱

目 錄

第1章 數據倉庫概論 1
1.1 數據倉庫的概念與特點 1
1.2 數據倉庫的演進過程 2
1.3 數據倉庫技術 3
1.4 數據倉庫基本架構 5
1.5 數據庫和數據倉庫的區別 8
1.6 學前導讀 8
1.6.1 學習的基礎要求 8
1.6.2 你將學到什麽 9
1.7 本章總結 9
第2章 項目需求描述 10
2.1 前期調研 10
2.2 項目架構分析 11
2.2.1 電商數據倉庫產品描述 11
2.2.2 系統功能結構 12
2.2.3 系統流程圖 12
2.3 項目業務概述 13
2.3.1 數據採集模塊業務描述 13
2.3.2 數據倉庫需求業務描述 14
2.3.3 數據可視化業務描述 15
2.4 系統運行環境 16
2.4.1 硬件環境 16
2.4.2 軟件環境 16
2.5 本章總結 18
第3章 項目部署的環境準備 19
3.1 集群規劃與服務器配置 19
3.2 安裝JDK與Hadoop 19
3.2.1 虛擬機環境準備 19
3.2.2 安裝JDK 23
3.2.3 安裝Hadoop 24
3.2.4 Hadoop的分佈式集群部署 25
3.3 本章總結 31
第4章 用戶行為數據採集模塊 32
4.1 日誌生成 32
4.1.1 數據埋點 32
4.1.2 用戶行為日誌格式 32
4.1.3 數據模擬 37
4.2 消息隊列Kafka 40
4.2.1 安裝ZooKeeper 40
4.2.2 ZooKeeper集群啟動、停止腳本 42
4.2.3 安裝Kafka 43
4.2.4 Kafka集群啟動、停止腳本 45
4.2.5 Kafka topic相關操作 45
4.3 採集日誌的Flume 46
4.3.1 Flume組件 46
4.3.2 Flume安裝 47
4.3.3 採集日誌的Flume配置 48
4.3.4 採集日誌的Flume測試 49
4.3.5 採集日誌的Flume啟動、停止腳本 50
4.4 消費日誌的Flume 51
4.4.1 消費日誌的Flume配置 51
4.4.2 時間戳攔截器 53
4.4.3 消費日誌的Flume測試 56
4.4.4 消費日誌的Flume啟動、停止腳本 56
4.5 本章總結 57
第5章 業務數據採集模塊 58
5.1 電商業務概述 58
5.1.1 電商業務流程 58
5.1.2 電商常識 59
5.1.3 電商業務表結構 59
5.1.4 數據同步策略 70
5.1.5 數據同步工具選擇 72
5.2 業務數據採集 72
5.2.1 MySQL安裝 72
5.2.2 業務數據生成 75
5.2.3 DataX安裝 77
5.2.4 Maxwell安裝 78
5.2.5 全量同步 83
5.2.6 增量同步 88
5.3 採集通道啟動和停止腳本 96
5.4 本章總結 97
第6章 數據倉庫搭建模塊 98
6.1 數據倉庫理論準備 98
6.1.1 數據建模概述 98
6.1.2 關系模型與範式理論 99
6.1.3 維度模型 102
6.1.4 維度建模理論之事實表 103
6.1.5 維度建模理論之維度表 106
6.1.6 雪花模型、星形模型與星座模型 109
6.2 數據倉庫建模實踐 111
6.2.1 名詞概念 111
6.2.2 為什麽要分層 112
6.2.3 數據倉庫搭建流程 113
6.2.4 數據倉庫開發規範 120
6.3 數據倉庫搭建環境準備 123
6.3.1 Hive安裝 123
6.3.2 Hive on Spark配置 126
6.3.3 YARN容量調度器並發度問題 128
6.3.4 數據倉庫開發環境配置 129
6.3.5 模擬數據準備 131
6.3.6 復雜數據類型 133
6.4 數據倉庫搭建——ODS層 134
6.4.1 用戶行為日誌數據 134
6.4.2 ODS層用戶行為日誌數據導入腳本 136
6.4.3 業務數據 138
6.4.4 ODS層業務數據導入腳本 151
6.5 數據倉庫搭建——DIM層 154
6.5.1 商品維度表(全量) 154
6.5.2 優惠券維度表(全量) 159
6.5.3 活動維度表(全量) 161
6.5.4 地區維度表(全量) 163
6.5.5 營銷坑位維度表 165
6.5.6 營銷渠道維度表 165
6.5.7 時間維度表(特殊) 166
6.5.8 用戶維度表(拉鏈表) 167
6.5.9 DIM層首日數據裝載腳本 173
6.5.10 DIM層每日數據裝載腳本 173
6.6 數據倉庫搭建——DWD層 173
6.6.1 交易域加購物車事務事實表 174
6.6.2 交易域下單事務事實表 176
6.6.3 交易域支付成功事務事實表 180
6.6.4 交易域購物車周期快照事實表 185
6.6.5 交易域交易流程累積快照事實表 186
6.6.6 工具域優惠券使用(支付)事務事實表 192
6.6.7 互動域收藏事務事實表 194
6.6.8 流量域頁面瀏覽事務事實表 195
6.6.9 用戶域用戶註冊事務事實表 197
6.6.10 用戶域用戶登錄事務事實表 200
6.6.11 DWD層首日業務數據裝載腳本 202
6.6.12 DWD層每日業務數據裝載腳本 202
6.7 數據倉庫搭建——DWS層 202
6.7.1 最近1日匯總表 203
6.7.2 最近n日匯總表 218
6.7.3 歷史至今匯總表 221
6.8 數據倉庫搭建——ADS層 226
6.8.1 流量主題指標 226
6.8.2 用戶主題指標 230
6.8.3 商品主題指標 240
6.8.4 交易主題指標 247
6.8.5 優惠券主題指標 249
6.8.6 ADS層數據導入腳本 249
6.9 數據模型評估及優化 250
6.10 本章總結 250
第7章 DolphinScheduler全流程調度 251
7.1 DolphinScheduler概述與安裝部署 251
7.1.1 DolphinScheduler概述 251
7.1.2 DolphinScheduler安裝部署 252
7.2 創建MySQL數據庫和表 258
7.3 DataX數據導出 262
7.4 全流程調度 268
7.4.1 數據準備 268
7.4.2 全流程調度配置 268
7.5 電子郵件報警 277
7.5.1 註冊郵箱 277
7.5.2 配置電子郵件報警 278
7.6 本章總結 281
第8章 數據可視化模塊 282
8.1 Superset部署 282
8.1.1 環境準備 282
8.1.2 Superset安裝 284
8.2 Superset使用 287
8.2.1 對接MySQL數據源 287
8.2.2 製作儀表盤 289
8.3 Superset實戰 294
8.3.1 製作柱狀圖 294
8.3.2 製作餅狀圖 295
8.3.3 製作桑基圖 297
8.3.4 合成儀表盤頁面 299
8.4 ECharts可視化 299
8.5 本章總結 301