Hive大數據存儲與處理
何煌,張良均
- 出版商: 人民郵電
- 出版日期: 2024-08-01
- 定價: $359
- 售價: 8.5 折 $305
- 語言: 簡體中文
- 頁數: 231
- ISBN: 7115637962
- ISBN-13: 9787115637963
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書以廣電大數據案例為主線,系統介紹數據倉庫Hive存儲和初步處理方法的相關知識。本書條理清楚、重點突出,內容循序漸進、由淺入深。本書共8章,包括廣電大數據用戶畫像需求分析、部署開發環境、廣電用戶數據存儲、廣電用戶基本數據簡單查詢、廣電用戶賬單與訂單數據查詢進階、廣電用戶收視行為數據查詢優化、廣電用戶數據清洗及數據導出,以及廣電用戶數據存儲與處理的程序開發。本書大部分章包含實訓和課後習題,通過練習和操作實踐,幫助讀者鞏固所學的內容。
本書可以作為高等院校數據科學或大數據相關專業的教材,也可以作為大數據愛好者的自學用書。
作者簡介
何煌,华中科技大学院软件工程硕士,“双师型”专业讲师,PMP项目管理师,大数据高级分析师。曾在企业从事多年系统研发工作,目前在广东创新科技职业学院信工学院担任软件教研室主任,负责软件和大数据专业教学研究工作。先后主编《计算机应用基础》、《Java程序设计教程》《创新创业基础教程》、《计算机应用基础实用教程》、《信息技术基础》等多本教材编撰工作。
目錄大綱
第 1章 廣電大數據用戶畫像需求分析 1
任務1.1 需求分析與架構 3
1.1.1 業務需求分析 3
1.1.2 大數據存儲技術架構 4
任務1.2 認識Hive 7
1.2.1 Hive簡介 8
1.2.2 Hive的架構 8
1.2.3 Hive設計特性 10
小結 12
課後習題 13
第 2章 部署開發環境 14
任務2.1 安裝部署Hadoop集群 15
2.1.1 VMware虛擬機安裝和網絡設置 15
2.1.2 部署CentOS 19
2.1.3 Hadoop集群部署前準備 33
2.1.4 Hadoop集群部署 37
任務2.2 安裝部署Hive 51
2.2.1 安裝配置MySQL 52
2.2.2 安裝配置Hive 52
任務2.3 使用Hive CLI 56
2.3.1 啟動Hive CLI 56
2.3.2 在Hive中執行Bash Shell和Hadoop dfs命令 57
2.3.3 在Shell中執行Hive查詢 58
小結 59
課後習題 59
第3章 廣電用戶數據存儲 62
任務3.1 創建業務數據表 63
3.1.1 操作Hive數據庫 63
3.1.2 瞭解Hive數據類型 66
3.1.3 創建與管理Hive表 68
3.1.4 任務實現 78
任務3.2 將數據導入Hive表中 84
3.2.1 裝載數據至Hive表中 85
3.2.2 任務實現 86
小結 87
實訓 創建輪船乘客表並導入數據至表中 88
課後習題 89
第4章 廣電用戶基本數據簡單查詢 91
任務4.1 查詢廣電用戶的用戶編號及開戶時間 92
4.1.1 SELECT語句 93
4.1.2 任務實現 94
任務4.2 查詢指定用戶狀態的用戶基本數據 95
4.2.1 使用WHERE關鍵字添加查詢條件 95
4.2.2 使用WHERE關鍵字添加常見查詢條件 96
4.2.3 任務實現 101
任務4.3 統計用戶基本數據表中品牌名稱的種類數 102
4.3.1 使用DISTINCT關鍵字去重查詢 102
4.3.2 使用聚合函數 103
4.3.3 任務實現 105
任務4.4 統計不同用戶等級名稱的記錄數 105
4.4.1 設置列別名 105
4.4.2 任務實現 107
任務4.5 統計不同用戶狀態的記錄數 108
4.5.1 使用GROUP BY關鍵字分組查詢 109
4.5.2 任務實現 111
任務4.6 統計指定用戶數量範圍的用戶等級 111
4.6.1 使用HAVING關鍵字對分組結果進行篩選 111
4.6.2 任務實現 112
任務4.7 統計用戶數最多的3種用戶狀態 113
4.7.1 使用LIMIT關鍵字設置查詢結果展示 113
4.7.2 使用排序關鍵字對查詢結果排序 114
4.7.3 任務實現 117
任務4.8 查詢用戶發生狀態變更的時間及開戶時間 118
4.8.1 使用正則表達式查詢數據 118
4.8.2 任務實現 119
小結 120
實訓 查詢電商貨品訂單數據 120
課後習題 122
第5章 廣電用戶賬單與訂單數據查詢進階 124
任務5.1 統計訂單的消費類型 125
5.1.1 介紹Hive內置函數 125
5.1.2 使用條件函數 127
5.1.3 使用類型轉換函數 128
5.1.4 任務實現 129
任務5.2 統計用戶每年消費應付總額 130
5.2.1 使用字符函數 130
5.2.2 任務實現 132
任務5.3 統計用戶每月消費應付總額 133
5.3.1 使用日期函數 134
5.3.2 任務實現 137
任務5.4 統計用戶每月實際賬單金額 138
5.4.1 使用數學函數 138
5.4.2 任務實現 140
任務5.5 查詢用戶寬帶訂單的地址數據 141
5.5.1 使用JOIN語句 141
5.5.2 介紹UNION ALL關鍵字 145
5.5.3 任務實現 145
任務5.6 抽樣統計用戶訂購產品情況 146
5.6.1 使用桶表抽樣查詢 147
5.6.2 任務實現 147
小結 149
實訓 149
實訓1 查詢員工數據 149
實訓2 查詢學生數據 151
課後習題 152
第6章 廣電用戶收視行為數據查詢優化 154
任務6.1 使用視圖統計不同節目的用戶觀看人數 156
6.1.1 創建視圖 156
6.1.2 查看與刪除視圖 157
6.1.3 任務實現 159
任務6.2 優化統計直播頻道數 159
6.2.1 配置Fetch抓取 160
6.2.2 合理設置map和reduce任務數 161
6.2.3 配置並行執行 164
6.2.4 任務實現 165
任務6.3 使用子查詢統計節目類型為直播的頻道Top10 166
6.3.1 使用子查詢優化查詢語句 166
6.3.2 優化配置GROUP BY語句 167
6.3.3 使用GROUP BY代替COUNT(DISTINCT)去重統計 169
6.3.4 優化配置LIMIT語句 171
6.3.5 任務實現 171
小結 173
實訓 173
實訓1 統計某城市各線路公交車的刷卡次數 173
實訓2 統計某百貨商場會員總消費金額Top10 174
課後習題 175
第7章 廣電用戶數據清洗及數據導出 178
任務7.1 清洗無效用戶數據 179
7.1.1 探索無效用戶數據 179
7.1.2 刪除無效用戶數據 185
任務7.2 清洗無效收視行為數據 186
7.2.1 探索無效收視行為數據 186
7.2.2 刪除無效收視行為數據 191
任務7.3 清洗無效賬單和訂單數據 192
7.3.1 探索無效賬單數據 193
7.3.2 探索無效訂單數據 193
7.3.3 刪除無效賬單和無效訂單數據 194
任務7.4 導出處理結果至Linux本地和HDFS 194
7.4.1 使用INSERT OVERWRITE語句將數據導出至文件系統 194
7.4.2 保存處理結果至Linux本地和HDFS 196
小結 198
實訓 198
實訓1 刪除無效房價數據 198
實訓2 刪除惡意好評手機數據並保存結果至Linux本地 199
課後習題 199
第8章 廣電用戶數據存儲與處理的程序開發 202
任務8.1 配置Hive遠程服務 203
任務8.2 搭建Hive遠程連接環境 205
8.2.1 創建IDEA開發項目 205
8.2.2 添加依賴 208
8.2.3 手動加載MySQL驅動 210
8.2.4 JDBC及其主要接口 212
8.2.5 創建連接測試程序 215
任務8.3 編寫程序實現廣電數據的存儲 217
8.3.1 創建開發項目 217
8.3.2 創建HiveHelper類和連接Hive 217
8.3.3 創建測試類 219
8.3.4 創建Hive數據庫 220
8.3.5 創建Hive表 220
8.3.6 裝載數據 221
8.3.7 程序運行與調試 221
任務8.4 編寫程序實現廣電數據的查詢與處理 223
8.4.1 查詢數據 223
8.4.2 刪除無效用戶數據 225
8.4.3 刪除無效收視行為數據 226
8.4.4 刪除無效賬單和無效訂單數據 227
小結 228
實訓 228
實訓1 對Hadoop日誌進行統計分析 228
實訓2 通過程序實現對某技術論壇日誌的分析 229
課後習題 230