數據資產管理核心技術與應用
張永清 趙偉 蔣彪 王函
買這商品的人也買了...
-
$403Odoo 快速入門與實戰:Python 開發 ERP 指南
-
$621Spring Boot 實戰派
-
$680$537 -
$636$604 -
$403Python 自動化測試入門與進階實戰
-
$534$507 -
$876$832 -
$594$564 -
$680$537 -
$650$507 -
$505LangChain 入門指南:構建高可復用、可擴展的 LLM 應用程序
-
$880$695 -
$407AI治理大家談韌性治理與未來科技
-
$607大語言模型:原理與工程實踐
-
$599$569 -
$594$564 -
$690$545 -
$680$537 -
$474$450 -
$520$411 -
$588$559 -
$354$336 -
$650$507 -
$680$530 -
$980$774
相關主題
商品描述
"《數據資產管理核心技術與應用》深入探討數據資產管理的核心技術與應用,融入作者在大數據領域多年的豐富經驗。《數據資產管理核心技術與應用》為讀者提供一套可以落地的數據資產管理框架,並詳解兩個基於該框架進行數據資產管理的應用案例,使讀者能更好地瞭解數據資產管理底層所涉及的眾多核心技術,讓數據可以發揮出更大的價值。《數據資產管理核心技術與應用》配套PPT課件、示例源代碼、作者微信群答疑服務。 全書共分10章,第1章主要讓讀者認識數據資產,瞭解數據資產相關的基礎概念,以及數據資產的發展情況。第2~8章主要介紹大數據時代數據資產管理所涉及的核心技術,內容包括元數據的採集與存儲、數據血緣、數據質量、數據監控與告警、數據服務、數據權限與安全、數據資產管理架構等。第9~10章主要從實戰的角度介紹數據資產管理技術的應用實踐,包括如何對元數據進行管理以發揮出數據資產的更大潛力,以及如何對數據進行建模以挖掘出數據中更大的價值。 《數據資產管理核心技術與應用》適合數據資產管理者、數據資產管理初學者、數據應用開發工程師、數據分析師、數據庫管理員、架構師、產品經理、技術經理作為技術參考書,也適合高等院校或高職高專數據資產管理相關課程的教學參考書。"
作者簡介
張永清,從事功能測試、自動化測試、性能測試、Java軟件開發、大數據開發、架構師等工作十多年,在自動化測試設計、性能測試設計、性能診斷、性能調優、分布式架構設計等方面積累了多年經驗。參與過的系統涉及公安、互聯網、移動互聯網、大數據、人工智能等領域。先後任職於江蘇飛搏軟件、蘇寧大數據研發中心、蘇寧研究院、蘇寧人工智能研發中心、紫金普惠研發中心、福特汽車工程研究有限公司,歷任測試經理、技術經理、部門經理、高級架構師等職位。重點關注大數據、圖像處理、高性能分布式架構設計等領域。著有圖書《軟件性能測試、分析與調優實踐之路(第2版)》《軟件性能測試、分析與調優實踐之路》《Robot Framework自動化測試框架核心指南》。
目錄大綱
目 錄
第 1 章 認識數據資產 1
1.1 數據資產的基本介紹 1
1.2 數據資產的分類 4
1.3 數據資產的價值評估 5
1.4 數據資產的質量 6
1.5 數據資產的存儲 6
1.6 數據資產管理 9
1.7 數據資產管理的信息化建設 11
1.8 數據資產與人工智能 11
第 2 章 元數據的採集與存儲 13
2.1 Hive中的元數據採集 14
2.1.1 基於Hive Meta DB的元數據採集 14
2.1.2 基於Hive Catalog的元數據採集 18
2.1.3 基於Spark Catalog的元數據採集 21
2.2 Delta Lake中的元數據採集 29
2.2.1 基於Delta Lake自身設計來採集元數據 31
2.2.2 基於Spark Catalog來採集元數據 32
2.3 MySQL中的元數據採集 34
2.4 Apache Hudi中的元數據採集 41
2.4.1 基於Spark Catalog採集元數據 42
2.4.2 Hudi Timeline Meta Server 43
2.4.3 基於Hive Meta DB採集元數據 47
2.5 Apache Iceberg中的元數據採集 49
2.5.1 Iceberg的元數據設計 50
2.5.2 Iceberg元數據的採集 54
2.6 元數據的存儲模型設計 56
2.6.1 如何對元數據進行整合 56
2.6.2 元數據的存儲模型設計 57
第 3 章 數據血緣 59
3.1 獲取數據血緣的技術實現 59
3.1.1 如何從Hive中獲取數據血緣 60
3.1.2 從Spark執行計劃中獲取數據血緣 66
3.1.3 從Spark SQL語句中獲取數據血緣 82
3.1.4 從Flink中獲取數據血緣 91
3.1.5 從數據任務的編排系統中獲取數據血緣 92
3.2 數據血緣的存儲模型與展示設計 94
第 4 章 數據質量的技術實現 98
4.1 質量數據採集的技術實現 100
4.1.1 定義數據採集的規則 100
4.1.2 定時Job的技術選型 103
4.2 如何處理採集到的質量數據 109
4.3 質量數據的存儲模型設計 110
4.4 常見的開源數據質量管理平臺 112
4.4.1 Apache Griffin 112
4.4.2 Qualitis 113
第 5 章 數據監控與告警 116
5.1 數據監控 116
5.1.1 數據監控的種類 116
5.1.2 監控數據的特點與存儲方式 117
5.2 常見的數據監控目標 118
5.2.1 數據鏈路監控 118
5.2.2 數據任務監控 124
5.2.3 數據質量監控 125
5.2.4 數據服務監控 125
5.2.5 數據處理資源監控 126
5.3 Prometheus簡介 128
5.4 Grafana簡介 135
5.5 使用Grafana和Prometheus來實現數據監控與告警 138
5.5.1 數據鏈路的告警實現 138
5.5.2 數據任務的告警實現 141
5.5.3 數據質量的告警實現 142
5.5.4 數據服務的告警實現 142
5.5.5 數據處理資源的告警實現 143
第 6 章 數據服務 146
6.1 如何設計數據服務 146
6.1.1 數據源管理 148
6.1.2 數據服務的敏捷化和可配置化 148
6.1.3 數據服務文檔的自動生成 151
6.1.4 數據服務的統一認證與鑒權 151
6.1.5 數據服務的監控與告警 153
6.2 數據服務的性能 155
6.3 數據服務的熔斷與降級 159
第 7 章 數據權限與安全 163
7.1 常見的權限設計模式 163
7.1.1 基於角色的訪問控制 164
7.1.2 基於屬性的訪問控制 165
7.1.3 基於對象的訪問控制 165
7.2 數據權限 166
7.2.1 列權限控制 167
7.2.2 行權限控制 170
7.3 數據脫敏 171
7.4 數據安全 174
第 8 章 數據資產架構 176
8.1 數據資產的架構設計 177
8.1.1 數據獲取層 177
8.1.2 數據處理層 178
8.1.3 數據存儲層 180
8.1.4 數據管理層 182
8.1.5 數據分析層 182
8.1.6 數據服務層 183
8.2 常見的開源數據資產管理平臺 185
8.2.1 Apache Atlas 185
8.2.2 Data Hub 186
8.2.3 OpenMetadata 189
第 9 章 元數據管理實踐 193
9.1 如何理解元數據 194
9.1.1 為何需要元數據 194
9.1.2 如何讓元數據產生更大價值 195
9.1.3 元數據分類及其好處 196
9.1.4 元數據管理 198
9.1.5 參與角色 201
9.2 元數據管理 202
9.2.1 元數據模型的組織關系 202
9.2.2 元數據的採集 204
9.2.3 業務域設計 205
9.2.4 業務術語設計 209
9.2.5 元數據標簽設計 212
9.2.6 數據Owner 214
9.2.7 數據生命周期 215
9.2.8 元數據註冊和發布 216
9.2.9 核心功能介紹 218
第 10 章 數據建模實踐 224
10.1 什麽是數據建模 224
10.1.1 數據模型分類 224
10.1.2 數據建模方法 227
10.2 數據倉庫建模架構 229
10.3 關系型數據建模 231
10.3.1 概念模型階段 231
10.3.2 邏輯模型階段 235
10.3.3 物理模型階段 238
10.4 維度建模 240
10.4.1 基本概念 240
10.4.2 維度表設計 246
10.4.3 事實表分類 250
10.4.4 基於維度建模的數據分析實踐 251
參考文獻 253