數據湖倉 The Data Lakehouse: The Bedrock for Artificial Intelligence, Machine Learning, and Data Mesh

[美]比爾·恩門(Bill Inmon),[美]戴夫·拉皮恩(Dave Rapien),[美]瓦萊麗·巴特爾特(Valerie Bartelt)

  • 數據湖倉-preview-1
  • 數據湖倉-preview-2
數據湖倉-preview-1

商品描述

數據湖倉是一個現代化的開放式架構,擁有當今熱門的開源數據技術的廣度和靈活性。本書從初學者的角度出發,通過對數據湖倉重要概念的剖析,對數據湖倉的相關知識進行深入淺出的講解。全書共18章,對數據湖倉的基礎知識、數據工程、業務價值、數據集成等方面進行深入探討,同時展望數據架構的演化趨勢,使讀者能夠領會數據湖倉的精髓,最終輕松、全面地管理數據湖倉項目。

本書適合數據架構師、業務人員和系統開發人員,以及對數據管理、數據分析感興趣的讀者閱讀。

 

作者簡介

比尔·恩门

比尔·恩门被誉为“数据仓库之父”,出版了60本书并被译为多种语言,《计算机世界》将他评为计算机专业历史上具影响力的十大人物之一。

戴夫·拉皮恩

戴夫·拉皮恩是辛辛那提大学林德纳商学院的副教授,有着超过25年的教学经验,还开发和管理了许多不同行业的大规模数据集成系统。

瓦莱丽·巴特尔特

瓦莱丽·巴特尔特在印第安纳大学凯利商学院获得信息系统博士学位和商业硕士学位,并且在电信学院获得了沉浸式媒介环境硕士学位。

目錄大綱

第 1章 讓數據可信 1

1.1 做一個成熟的終端用戶 2

1.2 不斷攀升的可信目標 5

1.3 可信數據的要素 7

1.4 小結 8

第 2章 基礎數據 9

2.1 構建應用程序 9

2.2 以人工智能醫療為例 10

2.3 基礎數據的組成要素 12

2.4 小結 14

第3章 如何避免不良數據 15

3.1 輸入錯誤 16

3.2 鍵的問題 18

3.3 重復記錄 18

3.4 拼寫錯誤 19

3.5 兼容性 19

3.6 編制文檔 21

3.7 小結 22

第4章 不同類型的數據 24

4.1 數據量 24

4.2 數據的業務價值 25

4.3 數據的訪問概率 27

4.4 數據降級 29

4.5 基於大容量存儲器的數據歸檔機制 30

4.6 小結 30

第5章 數據抽象 31

5.1 結構化數據模型 32

5.2 本體和分類標準 34

5.3 模擬/物聯網數據的蒸餾算法 36

5.4 小結 37

第6章 結構化數據 39

6.1 業務交易生成的數據 40

6.2 結構化記錄 40

6.3 鍵 42

6.4 聯機事務處理 43

6.5 組織數據 45

6.6 小結 46

第7章 文本數據 48

7.1 文本數據的類型 48

7.2 使用文本數據時的語言障礙 50

7.3 多義詞 51

7.4 提取業務的含義 51

7.5 小結 54

第8章 模擬/物聯網數據 56

8.1 數據有用性的差異 57

8.2 攝像頭 58

8.3 人工審視 59

8.4 日期分隔 60

8.5 數據篩選 61

8.6 閾值方法 61

8.7 時間排序方法 62

8.8 小結 63

第9章 大容量存儲器與數據湖倉 65

9.1 大容量存儲器的優缺點 66

9.2 訪問概率 67

9.3 索引 70

9.4 元數據和大容量存儲器 71

9.5 小結 71

第 10章 數據架構與數據工程 73

10.1 兩個角色如何通力配合 74

10.2 角色與數據類型 75

10.3 小結 79

第 11章 業務價值 81

11.1 業務價值才是驅動力 81

11.2 一切都離不開錢 82

11.3 基礎數據 83

11.4 難以協調 84

11.5 領域 85

11.6 小結 86

第 12章 數據需要的層次 87

12.1 數據獲取 89

12.2 數據傳輸與存儲 90

12.3 數據轉換 91

12.4 數據標簽、整合與匯聚 92

12.5 數據分析與機器學習 93

12.6 小結 95

第 13章 數據湖倉中的數據集成 97

13.1 不同種類數據的集成 98

13.2 自動集成 98

13.3 ETL 99

13.4 文本ETL 101

13.5 數據蒸餾算法 103

13.6 小結 104

第 14章 分析 105

14.1 結構化數據分析 105

14.2 文本數據分析 107

14.3 模擬/物聯網數據分析 108

14.4 結構化數據和文本數據的結合 109

14.5 連接3個環境 111

14.6 執行分析 112

14.7 小結 113

第 15章 軟數據 114

15.1 電子表格數據 115

15.2 互聯網數據 116

15.3 政府數據 117

15.4 小結 117

第 16章 描述性數據 119

16.1 數據模型 121

16.2 元數據 122

16.3 結構化數據轉換 123

16.4 結構化數據源 124

16.5 數據選擇標準 125

16.6 數據定義語言 125

16.7 數據編碼 126

16.8 數據關系 127

16.9 文本數據 128

16.10 本體 129

16.11 分類標準 131

16.12 關聯 132

16.13 上下文情境 133

16.14 文本數據源 134

16.15 模擬/物聯網數據 135

16.16 算法 136

16.17 閾值 136

16.18 時間排序 137

16.19 模擬/物聯網數據源 138

16.20 數據血緣 138

16.21 小結 139

第 17章 數據目錄 140

17.1 永久維護 141

17.2 開放 141

17.3 不同數據類型的內部結構 142

17.4 小結 143

第 18章 數據架構的演化 144

18.1 伊始 144

18.2 應用程序 145

18.3 磁帶文件 146

18.4 硬盤存儲 147

18.5 OLTP 148

18.6 個人電腦 149

18.7 4GL處理技術和數據抽取應用程序 150

18.8 數據倉庫 152

18.9 數據集市 153

18.10 互聯網和物聯網數據 154

18.11 數據湖 155

18.12 數據湖倉 157

18.13 小結 158