機器學習大數據平臺的構建、任務實現與數據治理——使用Azure、DevOps、MLOps Data Engineering on Azure

[美] 弗拉德·裡斯庫蒂亞(Vlad Riscutia)著 葉偉民、劉華、餘靈 譯

  • 機器學習大數據平臺的構建、任務實現與數據治理——使用Azure、DevOps、MLOps-preview-1
  • 機器學習大數據平臺的構建、任務實現與數據治理——使用Azure、DevOps、MLOps-preview-2
  • 機器學習大數據平臺的構建、任務實現與數據治理——使用Azure、DevOps、MLOps-preview-3
機器學習大數據平臺的構建、任務實現與數據治理——使用Azure、DevOps、MLOps-preview-1

相關主題

商品描述

主要內容 ● 數據字典和數據治理 ● 數據質量管控、合規和分發 ● 構建自動化管道以提高可靠性 ● 數據攝取、存儲和分發 ● 支持生產環境中的數據建模、分析和機器學習

目錄大綱

目    錄

 

 

第1 章 簡介                 1

1.1 什麽是數據工程        2

1.2 本書讀者對象         3

1.3 什麽是數據平臺        3

1.3.1 數據平臺的構成      4

1.3.2 基礎設施即代碼,無代碼基礎設施          6

1.4 使用雲構建           7

1.4.1 IaaS、PaaS 和SaaS    7

1.4.2 網絡、存儲和計算    7

1.4.3 如何使用Azure       8

1.4.4 與Azure 交互        8

1.5 實現Azure 數據平臺    11

1.6 本章小結            13

第Ⅰ部分 基礎設施

第2 章 存儲                17

2.1 在數據平臺中存儲數據   18

2.1.1 跨多個數據織物存儲數據            19

2.1.2 SSOT            20

2.2 Azure Data Explorer簡介              22

2.2.1 部署Azure Data Explorer集群            23

2.2.2 使用Azure Data Explorer           26

2.2.3 解決查詢限制問題   29

2.3 Azure Data Lake Storage簡介              30

2.3.1 創建Azure Data Lake Storage 賬戶       30

2.3.2 使用Azure Data Lake Storage           31

2.3.3 集成Azure Data Explorer           32

2.4 數據攝取            34

2.4.1 數據攝取頻率      34

2.4.2 加載類型         36

2.4.3 數據重建和重新加載  38

2.5 本章小結            41

第3 章 DevOps             43

3.1 什麽是DevOps         44

3.2 Azure DevOps 簡介     47

3.3 部署基礎設施         50

3.3.1 導出Azure Resource Manager 模板      51

3.3.2 創建Azure DevOps 服務連接            54

3.3.3 部署Azure Resource Manager 模板      56

3.3.4 理解Azure Pipelines  60

3.4 部署Azure Data Explorer對象和分析          61

3.4.1 使用Azure DevOps 市場擴展            63

3.4.2 將所有內容都存儲在Git並自動部署所有內容 67

3.5 本章小結            68

第4 章 編排                69

4.1 導入Bing COVID-19 開放數據集             70

4.2 Azure Data Factory 簡介   72

4.2.1 設置數據源        73

4.2.2 設置數據接收器    75

4.2.3 設置管道         79

4.2.4 設置觸發器        82

4.2.5 使用Azure Data Factory進行編排         84

4.3 Azure Data Factory 的DevOps             84

4.3.1 從Git 部署Azure Data Factory           87

4.3.2 設置訪問控制      88

4.3.3 部署生產環境的Azure Data Factory        90

4.3.4 小結            92

4.4 使用Azure Monitor 進行監控              93

4.5 本章小結            95

第Ⅱ部分 具體的工作任務

第5 章 數據處理            99

5.1 數據建模技術        100

5.1.1 規範化和反規範化  100

5.1.2 數據倉庫        103

5.1.3 半結構化數據     104

5.1.4 小結           107

5.2 身份鑰匙環         108

5.2.1 構建身份鑰匙環    109

5.2.2 理解鑰匙環       111

5.3 時間線            113

5.3.1 構建時間線視圖    113

5.3.2 使用時間線       115

5.4 應用DevOps 以保證數據處理能夠按計劃可靠地運行             116

5.4.1 使用Git 追蹤和處理函數           116

5.4.2 使用Azure Data Factory構建鑰匙環       117

5.4.3 擴展規模        123

5.5 本章小結           127

第6 章 數據分析           129

6.1 開發環境和生產環境分離下如何訪問數據      130

6.1.1 對生產數據處理後再部分復制到開發環境           132

6.1.2 將生產數據完全復制到開發環境       133

6.1.3 在開發環境中提供生產數據的只讀視圖   133

6.1.4 小結           135

6.2 設計數據分析的工作流程             136

6.2.1 原型           138

6.2.2 開發和用戶驗收測試           139

6.2.3 生產環境        141

6.2.4 小結           143

6.3 讓數據科學家能夠自助移動數據          144

6.3.1 基本原則和相關背景           145

6.3.2 數據合約        145

6.3.3 管道驗證        146

6.3.4 事後分析        150

6.3.5 小結           151

6.4 本章小結           151

第7 章 機器學習           153

7.1 訓練一個機器學習模型             154

7.1.1 使用scikit-learn訓練模型           155

7.1.2 高消費者模型實現  156

7.2 引入Azure Machine Learning           158

7.2.1 創建工作區       158

7.2.2 創建Azure Machine Learning 計算目標  159

7.2.3 設置Azure Machine Learning 存儲     160

7.2.4 在雲中運行機器學習          162

7.2.5 小結           167

7.3 MLOps             167

7.3.1 從Git 部署       168

7.3.2 存儲管道ID      171

7.3.3 小結           172

7.4 機器學習的編排      172

7.4.1 連接Azure Data Factory與Azure Machine Learning         173

7.4.2 機器學習編排     175

7.4.3 小結           178

7.5 本章小結           179

第Ⅲ部分 數據治理

第8 章 元數據             183

8.1 理解大數據平臺中元數據的需求         184

8.2 介紹Azure Purview    186

8.3 維護數據字典        190

8.3.1 設置掃描        190

8.3.2 瀏覽數據字典     194

8.3.3 小結           195

8.4 管理數據術語表      196

8.4.1 添加新的術語     196

8.4.2 審查術語        198

8.4.3 自定義模板和批量

導入           198

8.4.4 小結           200

8.5 瞭解Azure Purview 的高級功能             200

8.5.1 追蹤數據血緣     200

8.5.2 分類規則        201

8.5.3 REST API        203

8.5.4 小結           204

8.6 本章小結           204

第9 章 數據質量           207

9.1 數據測試概述        207

9.1.1 可用性測試       208

9.1.2 正確性測試       209

9.1.3 完整性測試       210

9.1.4 異常檢測測試     212

9.1.5 小結           214

9.2 使用Azure Data Factory進行數據質量檢查    214

9.2.1 使用Azure Data Factory進行測試        215

9.2.2 執行測試        218

9.2.3 創建和使用模板   219

9.2.4 小結           221

9.3 擴展數據測試        221

9.3.1 支持多個數據平臺  221

9.3.2 按計劃運行測試和觸發運行測試        223

9.3.3 編寫測試        224

9.3.4 存儲測試定義和結果           228

9.4 本章小結           231

第10 章 合規              233

10.1 數據分類          234

10.1.1 特徵數據      234

10.1.2 遙測數據      235

10.1.3 用戶數據      235

10.1.4 用戶擁有的數據  236

10.1.5 業務數據      236

10.1.6 小結         236

10.2 將敏感數據變得不那麽敏感             237

10.2.1 聚合         238

10.2.2 匿名化        239

10.2.3 偽匿名化      242

10.2.4 數據掩碼      246

10.2.5 小結         246

10.3 訪問控制模型       247

10.3.1 安全組        248

10.3.2 保護Azure Data Explorer        250

10.3.3 小結         255

10.4 GDPR 和其他考慮因素             256

10.4.1 數據處理      256

10.4.2 數據主體請求   256

10.4.3 其他考慮因素   259

10.5 本章小結          259

第11 章 數據分發          261

11.1 數據分發概述       262

11.2 構建數據API       264

11.2.1 Azure Cosmos DB簡介         266

11.2.2 填充Cosmos DB集合         269

11.2.3 檢索數據      271

11.2.4 小結         274

11.3 機器學習模型如何對外提供服務          274

11.4 共享數據進行批量復制             274

11.4.1 分離計算資源   275

11.4.2 Azure Data Share簡介         277

11.4.3 小結         282

11.5 數據共享的最佳實踐  282

11.6 本章小結          284

附錄A Azure 服務          285

附錄B KQL 快速參考        287

附錄C 運行代碼示例        289