Hive大數據存儲與處理

何煌,張良均

  • 出版商: 人民郵電
  • 出版日期: 2024-08-01
  • 定價: $359
  • 售價: 8.5$305
  • 語言: 簡體中文
  • 頁數: 231
  • ISBN: 7115637962
  • ISBN-13: 9787115637963
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

  • Hive大數據存儲與處理-preview-1
  • Hive大數據存儲與處理-preview-2
Hive大數據存儲與處理-preview-1

相關主題

商品描述

本書以廣電大數據案例為主線,系統介紹數據倉庫Hive存儲和初步處理方法的相關知識。本書條理清楚、重點突出,內容循序漸進、由淺入深。本書共8章,包括廣電大數據用戶畫像需求分析、部署開發環境、廣電用戶數據存儲、廣電用戶基本數據簡單查詢、廣電用戶賬單與訂單數據查詢進階、廣電用戶收視行為數據查詢優化、廣電用戶數據清洗及數據導出,以及廣電用戶數據存儲與處理的程序開發。本書大部分章包含實訓和課後習題,通過練習和操作實踐,幫助讀者鞏固所學的內容。

本書可以作為高等院校數據科學或大數據相關專業的教材,也可以作為大數據愛好者的自學用書。

作者簡介

何煌,华中科技大学院软件工程硕士,“双师型”专业讲师,PMP项目管理师,大数据高级分析师。曾在企业从事多年系统研发工作,目前在广东创新科技职业学院信工学院担任软件教研室主任,负责软件和大数据专业教学研究工作。先后主编《计算机应用基础》、《Java程序设计教程》《创新创业基础教程》、《计算机应用基础实用教程》、《信息技术基础》等多本教材编撰工作。

目錄大綱

第 1章 廣電大數據用戶畫像需求分析 1

任務1.1 需求分析與架構 3

1.1.1 業務需求分析 3

1.1.2 大數據存儲技術架構 4

任務1.2 認識Hive 7

1.2.1 Hive簡介 8

1.2.2 Hive的架構 8

1.2.3 Hive設計特性 10

小結 12

課後習題 13

第 2章 部署開發環境 14

任務2.1 安裝部署Hadoop集群 15

2.1.1 VMware虛擬機安裝和網絡設置 15

2.1.2 部署CentOS 19

2.1.3 Hadoop集群部署前準備 33

2.1.4 Hadoop集群部署 37

任務2.2 安裝部署Hive 51

2.2.1 安裝配置MySQL 52

2.2.2 安裝配置Hive 52

任務2.3 使用Hive CLI 56

2.3.1 啟動Hive CLI 56

2.3.2 在Hive中執行Bash Shell和Hadoop dfs命令 57

2.3.3 在Shell中執行Hive查詢 58

小結 59

課後習題 59

第3章 廣電用戶數據存儲 62

任務3.1 創建業務數據表 63

3.1.1 操作Hive數據庫 63

3.1.2 瞭解Hive數據類型 66

3.1.3 創建與管理Hive表 68

3.1.4 任務實現 78

任務3.2 將數據導入Hive表中 84

3.2.1 裝載數據至Hive表中 85

3.2.2 任務實現 86

小結 87

實訓 創建輪船乘客表並導入數據至表中 88

課後習題 89

第4章 廣電用戶基本數據簡單查詢 91

任務4.1 查詢廣電用戶的用戶編號及開戶時間 92

4.1.1 SELECT語句 93

4.1.2 任務實現 94

任務4.2 查詢指定用戶狀態的用戶基本數據 95

4.2.1 使用WHERE關鍵字添加查詢條件 95

4.2.2 使用WHERE關鍵字添加常見查詢條件 96

4.2.3 任務實現 101

任務4.3 統計用戶基本數據表中品牌名稱的種類數 102

4.3.1 使用DISTINCT關鍵字去重查詢 102

4.3.2 使用聚合函數 103

4.3.3 任務實現 105

任務4.4 統計不同用戶等級名稱的記錄數 105

4.4.1 設置列別名 105

4.4.2 任務實現 107

任務4.5 統計不同用戶狀態的記錄數 108

4.5.1 使用GROUP BY關鍵字分組查詢 109

4.5.2 任務實現 111

任務4.6 統計指定用戶數量範圍的用戶等級 111

4.6.1 使用HAVING關鍵字對分組結果進行篩選 111

4.6.2 任務實現 112

任務4.7 統計用戶數最多的3種用戶狀態 113

4.7.1 使用LIMIT關鍵字設置查詢結果展示 113

4.7.2 使用排序關鍵字對查詢結果排序 114

4.7.3 任務實現 117

任務4.8 查詢用戶發生狀態變更的時間及開戶時間 118

4.8.1 使用正則表達式查詢數據 118

4.8.2 任務實現 119

小結 120

實訓 查詢電商貨品訂單數據 120

課後習題 122

第5章 廣電用戶賬單與訂單數據查詢進階 124

任務5.1 統計訂單的消費類型 125

5.1.1 介紹Hive內置函數 125

5.1.2 使用條件函數 127

5.1.3 使用類型轉換函數 128

5.1.4 任務實現 129

任務5.2 統計用戶每年消費應付總額 130

5.2.1 使用字符函數 130

5.2.2 任務實現 132

任務5.3 統計用戶每月消費應付總額 133

5.3.1 使用日期函數 134

5.3.2 任務實現 137

任務5.4 統計用戶每月實際賬單金額 138

5.4.1 使用數學函數 138

5.4.2 任務實現 140

任務5.5 查詢用戶寬帶訂單的地址數據 141

5.5.1 使用JOIN語句 141

5.5.2 介紹UNION ALL關鍵字 145

5.5.3 任務實現 145

任務5.6 抽樣統計用戶訂購產品情況 146

5.6.1 使用桶表抽樣查詢 147

5.6.2 任務實現 147

小結 149

實訓 149

實訓1 查詢員工數據 149

實訓2 查詢學生數據 151

課後習題 152

第6章 廣電用戶收視行為數據查詢優化 154

任務6.1 使用視圖統計不同節目的用戶觀看人數 156

6.1.1 創建視圖 156

6.1.2 查看與刪除視圖 157

6.1.3 任務實現 159

任務6.2 優化統計直播頻道數 159

6.2.1 配置Fetch抓取 160

6.2.2 合理設置map和reduce任務數 161

6.2.3 配置並行執行 164

6.2.4 任務實現 165

任務6.3 使用子查詢統計節目類型為直播的頻道Top10 166

6.3.1 使用子查詢優化查詢語句 166

6.3.2 優化配置GROUP BY語句 167

6.3.3 使用GROUP BY代替COUNT(DISTINCT)去重統計 169

6.3.4 優化配置LIMIT語句 171

6.3.5 任務實現 171

小結 173

實訓 173

實訓1 統計某城市各線路公交車的刷卡次數 173

實訓2 統計某百貨商場會員總消費金額Top10 174

課後習題 175

第7章 廣電用戶數據清洗及數據導出 178

任務7.1 清洗無效用戶數據 179

7.1.1 探索無效用戶數據 179

7.1.2 刪除無效用戶數據 185

任務7.2 清洗無效收視行為數據 186

7.2.1 探索無效收視行為數據 186

7.2.2 刪除無效收視行為數據 191

任務7.3 清洗無效賬單和訂單數據 192

7.3.1 探索無效賬單數據 193

7.3.2 探索無效訂單數據 193

7.3.3 刪除無效賬單和無效訂單數據 194

任務7.4 導出處理結果至Linux本地和HDFS 194

7.4.1 使用INSERT OVERWRITE語句將數據導出至文件系統 194

7.4.2 保存處理結果至Linux本地和HDFS 196

小結 198

實訓 198

實訓1 刪除無效房價數據 198

實訓2 刪除惡意好評手機數據並保存結果至Linux本地 199

課後習題 199

第8章 廣電用戶數據存儲與處理的程序開發 202

任務8.1 配置Hive遠程服務 203

任務8.2 搭建Hive遠程連接環境 205

8.2.1 創建IDEA開發項目 205

8.2.2 添加依賴 208

8.2.3 手動加載MySQL驅動 210

8.2.4 JDBC及其主要接口 212

8.2.5 創建連接測試程序 215

任務8.3 編寫程序實現廣電數據的存儲 217

8.3.1 創建開發項目 217

8.3.2 創建HiveHelper類和連接Hive 217

8.3.3 創建測試類 219

8.3.4 創建Hive數據庫 220

8.3.5 創建Hive表 220

8.3.6 裝載數據 221

8.3.7 程序運行與調試 221

任務8.4 編寫程序實現廣電數據的查詢與處理 223

8.4.1 查詢數據 223

8.4.2 刪除無效用戶數據 225

8.4.3 刪除無效收視行為數據 226

8.4.4 刪除無效賬單和無效訂單數據 227

小結 228

實訓 228

實訓1 對Hadoop日誌進行統計分析 228

實訓2 通過程序實現對某技術論壇日誌的分析 229

課後習題 230