ETL 數據整合與處理 (Kettle)
王雪松,張良均
- 出版商: 人民郵電
- 出版日期: 2021-03-01
- 售價: $299
- 貴賓價: 9.5 折 $284
- 語言: 簡體中文
- 頁數: 216
- 裝訂: 平裝
- ISBN: 7115552207
- ISBN-13: 9787115552204
-
相關分類:
大數據 Big-data、Data Science
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
$780$663 -
$296數據清洗
-
$474$450 -
$520$338 -
$534$507 -
$654$621 -
$269大數據爬取、清洗與可視化教程
-
$468$445 -
$468$445 -
$600$468 -
$474$450 -
$1,223Kubernetes 權威指南:從 Docker 到 Kubernetes 實踐全接觸, 5/e
-
$474$450 -
$1,200$948 -
$580$458 -
$1,080$918 -
$239數據清洗 (微課視頻版)
-
$1,740$1,653 -
$288$274 -
$1,000$790 -
$780$616 -
$690$538 -
$690$538 -
$539$512 -
$580$435
相關主題
商品描述
本書以Kettle實現ETL流程為目標,將ETL知識點與任務相結合,配套真實案例,深入淺出地介紹了ETL數據整合與處理的相關內容。全書共8章,第1章介紹了ETL概念和ETL工具,讓讀者在瞭解ETL相關的概念後,立刻上手ETL工具Kettle;第2~6章介紹了Kettle工具轉換相關的組件,包括源數據獲取、記錄處理、字段處理、高級轉換、遷移和裝載等內容,內容與ETL流程匹配,能幫助讀者快速掌握ETL;第7章介紹了Kettle工具任務的相關組件,能夠幫助讀者串聯不同的任務,以及實現調度的功能;第8章介紹了無人售貨機ETL項目,通過項目案例的形式,幫助讀者將所學知識融會貫通。
作者簡介
王雪松,佛山職業技術學院,計算機應用專業,教授。
主編規劃教材6部,發表專業學術論文30餘篇。
張良均,廣東泰迪智能科技股份有限公司董事長,高級信息系統項目管理師,廣東省工業與應用數學學會常務理事,中國信訪大數據學術與應用研究聯盟副理事長,“泰迪杯”數據挖掘挑戰賽發起人。
華南師範大學、中南財經政法大學、廣東工業大學、西安理工大學、廣西科技大學、重慶交通大學、湖北工程學院等兼職教授或兼職碩導。近5年,在國內外重要學術刊物上發表論文10餘篇;主導編寫圖書專著26部,承擔***項目1項,省部級項目6項。
獲得SAS、SPSS數據挖掘認證及Hadoop開發工程師證書,具有信訪、電力、電信、銀行、製造企業、電子商務和電子政務的項目經驗和行業背景。
目錄大綱
第1章開啟ETL之旅1
任務1.1認識ETL 1
1.1.1了解ETL 1
1.1.2選擇ETL工具4
任務1.2配置Kettle運行環境7
1.2.1安裝JDK 8
1 .2.2安裝MySQL數據庫9
1.2.3配置Kettle 10
任務1.3熟悉Kettle基本操作11
1.3.1認識Kettle界面11
1.3.2新建轉換與任務17
1.3.3運行與查看結果面板20
小結22
課後習題22
第2章源數據獲取23
任務2.1創建數據庫連接23
2.1.1建立數據庫連接23
2.1.2設置參數24
2.1.3測試和瀏覽數據庫連接結果26
2.1.4建立/停止共享數據庫連接27
任務2.2表輸入28
2.2.1建立表輸入轉換工程28
2.2.2設置參數29
2.2.3預覽結果數據32
任務2.3 CSV文件輸入32
2.3.1建立CSV文件輸入轉換工程32
2.3.2設置參數33
2.3.3預覽結果數據35
任務2.4 Excel輸入36
2.4.1建立Excel輸入轉換工程36
2.4.2設置參數37
2.4.3預覽結果數據44
任務2.5生成記錄44
2.5.1建立生成記錄轉換工程45
2.5. 2設置參數45
2.5.3預覽結果數據47
任務2.6生成隨機數47
2.6.1建立生成隨機數轉換工程47
2.6.2設置參數48
2.6.3預覽結果數據49
任務2.7獲取系統信息49
2.7.1建立獲取系統信息轉換工程50
2.7.2設置參數50
2.7.3預覽結果數據51
小結51
課後習題52
第3章記錄處理53
任務3.1排序記錄53
3.1.1建立排序記錄轉換工程53
3.1.2設置參數54
3.1.3預覽結果數據56
任務3.2去除重複記錄56
3.2.1建立去除重複記錄轉換工程56
3.2.2設置參數57
3.2.3預覽結果數據59
任務3.3替換NULL值59
3.3.1建立替換NULL值轉換工程59
3.3.2設置參數60
3 .3.3預覽結果數據62
任務3.4過濾記錄62
3.4.1建立過濾記錄轉換工程62
3.4.2設置參數63
3.4.3預覽結果數據67
任務3.5值映射67
3.5.1建立值映射轉換工程67
3.5.2設置參數68
3.5.3預覽結果數據69
任務3.6字符串替換70
3.6.1建立字符串替換轉換工程70
3.6.2設置參數70
3. 6.3預覽結果數據72
任務3.7字符串操作72
3.7.1建立字符串操作轉換工程72
3.7.2設置參數73
3.7.3預覽結果數據74
任務3.8分組74
3.8.1建立分組轉換工程75
3.8.2設置參數76
3.8.3預覽結果數據78
小結78
課後習題79
第4章字段處理80
任務4.1字段選擇80
4.1. 1建立字段選擇轉換工程80
4.1.2設置參數81
4.1.3預覽結果數據85
任務4.2增加常量86
4.2.1建立增加常量轉換工程86
4.2.2設置參數87
4.2.3預覽結果數據88
任務4.3將字段值設置為常量88
4.3.1建立將字段值設置為常量轉換工程89
4.3.2設置參數89
4.3.3預覽結果數據90
任務4.4剪切字符串91
4.4.1建立剪切字符串轉換工程91
4.4.2設置參數92
4.4.3預覽結果數據93
任務4.5拆分字段93
4.5.1建立拆分字段轉換工程93
4.5.2設置參數94
4.5.3預覽結果數據96
任務4.6數值範圍96
4.6.1建立數值範圍轉換工程97
4.6.2設置參數97
4.6.3預覽結果數據99
任務4.7計算器99
4.7.1建立計算器轉換工程99
4.7.2設置參數100
4.7.3預覽結果數據101
任務4.8增加序列102
4.8. 1建立增加序列轉換工程102
4.8.2設置參數103
4.8.3預覽結果數據105
小結105
課後習題105
第5章高級轉換107
任務5.1記錄集連接107
5.1.1建立記錄集連接轉換工程107
5.1.2設置參數109
5.1.3預覽結果數據110
任務5.2多路數據合併連接111
5.2.1建立多路數據合併連接轉換工程111
5.2.2設置參數112
5.2.3預覽結果數據114
任務5.3單變量統計115
5.3.1建立單變量統計轉換工程115
5.3.2設置參數116
5.3.3預覽結果數據117
任務5.4公式118
5.4.1建立公式轉換工程118
5.4.2設置參數119
5.4.3預覽結果數據120
任務5.5利用Janino計算Java表達式120
5.5.1建立利用Janino計算Java表達式轉換工程121
5.5. 2設置參數122
5.5.3預覽結果數據123
任務5.6 JavaScript代碼123
5.6.1建立JavaScript代碼轉換工程123
5.6.2設置參數124
5.6.3預覽結果數據127
任務5 .7設置變量128
5.7.1建立設置變量轉換工程128
5.7.2設置參數130
5.7.3預覽結果數據131
任務5.8獲取變量131
5.8.1建立獲取變量轉換工程131
5.8.2設置參數132
5.8.3預覽結果數據133
小結133
課後習題133
第6章遷移和裝載135
任務6.1表輸出135
6.1.1建立表輸出轉換工程135
6.1.2設置參數136
6. 1.3預覽結果數據139
任務6.2插入/更新139
6.2.1建立插入/更新轉換工程140
6.2.2設置參數140
6.2.3預覽結果數據143
任務6.3 Excel輸出143
6.3.1建立Excel輸出轉換工程143
6.3.2設置參數143
6.3.3預覽結果數據148
任務6.4文本文件輸出148
6.4.1建立文本文件輸出轉換工程148
6 .4.2設置參數149
6.4.3預覽結果數據153
任務6.5 SQL文件輸出153
6.5.1建立SQL文件輸出轉換工程153
6.5.2設置參數153
6.5.3預覽結果數據156
小結156
課後習題157
第7章任務158
任務7.1開始158
7.1.1建立開始任務工程158
7.1.2設置參數159
7.1.3運行任務160
任務7.2轉換161
7.2.1建立轉換任務工程162
7.2.2設置參數162
7.2.3運行任務166
任務7.3添加文件到結果文件中167
7.3.1建立添加文件到結果文件中任務工程167
7.3.2設置參數167
7.3.3運行任務168
任務7.4發送郵件169
7.4.1建立發送郵件任務工程169
7.4.2設置參數170
7.4.3運行任務174
任務7.5成功175
7.5.1建立成功任務175
7.5.2設置參數176
7.5.3運行任務176
任務7. 6檢查表是否存在177
7.6.1建立檢查表是否存在任務工程177
7.6.2設置參數177
7.6.3運行任務178
任務7.7 SQL 179
7.7.1建立SQL任務工程179
7.7.2設置參數179
7.7.3運行任務180
任務7.8檢查列是否存在181
7.8.1建立檢查列是否存在任務工程181
7.8.2設置參數181
7.8 .3運行任務183
任務7.9檢查一個文件是否存在183
7.9.1建立檢查一個文件是否存在任務工程183
7.9.2設置參數184
7.9.3運行任務184
任務7.10檢查多個文件是否存在185
7.10.1建立檢查多個文件是否存在任務工程185
7.10.2設置參數185
7.10.3運行任務186
小結187
課後習題187
第8章無人售貨機項目實戰188
任務8 .1了解無人售貨機項目背景與目標188
8.1.1了解項目背景188
8.1.2熟悉項目目標189
8.1.3熟悉數據字段189
任務8.2分組聚合客戶訂單192
8. 2.1分析任務數據需求192
8.2.2熟悉任務流程193
8.2.3實現聚合客戶訂單193
任務8.3計算各商品銷售金額197
8.3.1分析任務數據需求197
8.3 .2熟悉任務流程197
8.3.3實現各商品銷售金額計算198
任務8.4統計各售貨機日銷售金額202
8.4.1分析任務數據需求202
8.4.2熟悉任務流程202
8 .4.3實現各售貨機銷售金額統計203
任務8.5整理各售貨機銷售情況207
8.5.1分析任務數據需求208
8.5.2熟悉任務流程208
8.5.3實現各售貨機銷售情況整理209
小結216
課後習題216