大數據分析技術與應用(微課版)
宿佳寧 王林 於麗娜
- 出版商: 人民郵電
- 出版日期: 2024-07-01
- 定價: $299
- 售價: 8.5 折 $254
- 語言: 簡體中文
- 頁數: 184
- ISBN: 7115638543
- ISBN-13: 9787115638540
-
相關分類:
大數據 Big-data、Data Science
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書按照大數據分析流程,以電商產品數據為例,由淺入深地講解大數據分析的核心開發技術,以及大數據分析工具及其組件的作用和使用方法。本書內容系統、全面,可幫助讀者快速掌握大數據分析技術。本書介紹了大數據分析的概念、應用場景、分析指標、分析工具、分析組件、分佈式存儲、分佈式處理、數據離線分析、數據實時分析、數據挖掘,以及數據遷移等知識,並通過實際的操作案例,詳細、直觀地介紹了大數據分析的實現過程。
本書可作為高等職業院校大數據技術等專業的教材,也可作為大數據分析技術人員的參考書。
作者簡介
穆建平 浪潮集团主任工程师、数据采集职业技能等级证书标准起草人,hadoop大数据高级认证工程师。曾参与教育部某课题研究,研发出版数据采集系列教材,其中《数据采集技术初级》获批十三五规划教材,曾主导并参与大数据方向行业标准四项。主要研究方向为云平台部署与大数据系统开发。先后参与浪潮集团天元大数据平台、数据采集教考平台等项目。
目錄大綱
項目1
初識電商產品數據的處理與
分析 1
項目導言 1
項目導圖 1
知識目標 1
技能目標 2
素養目標 2
任務1-1 電商產品數據背景及數據
分析概述 2
任務描述 2
素質拓展 2
任務技能 2
技能點1 電商產品數據背景 2
技能點2 大數據分析概念 4
技能點3 大數據分析應用場景 5
技能點4 大數據分析指標 9
任務1-2 電商產品數據處理與分析
項目準備 12
任務描述 12
素質拓展 12
任務技能 12
技能點1 大數據分析工具簡介 12
技能點2 大數據分析組件 15
技能點3 大數據分析流程 19
技能點4 大數據分析企業級應用 20
任務實施 22
項目小結 26
課後習題 26
自我評價 27
項目2
電商產品數據分佈式存儲 28
項目導言 28
項目導圖 28
知識目標 28
技能目標 29
素養目標 29
任務2-1 使用HDFS Shell管理
電商產品數據 29
任務描述 29
素質拓展 29
任務技能 29
技能點1 什麽是HDFS 29
技能點2 HDFS存儲架構 30
技能點3 HDFS文件存取機制 32
技能點4 HDFS Shell基礎命令 36
技能點5 HDFS Shell管理命令 38
任務實施 40
任務2-2 使用HDFS庫管理電商
產品數據 44
任務描述 44
素質拓展 44
任務技能 44
技能點1 HDFS庫簡介 44
技能點2 HDFS庫方法 44
任務實施 48
項目小結 51
課後習題 51
自我評價 52
項目3
電商產品數據分佈式處理 53
項目導言 53
項目導圖 53
知識目標 53
技能目標 53
素養目標 54
任務3-1 使用正則表達式匹配電商
產品數據 54
任務描述 54
素質拓展 54
任務技能 54
技能點1 MapReduce簡介 54
技能點2 YARN簡介 56
技能點3 正則表達式 59
任務實施 61
任務3-2 使用Hadoop Streaming
處理電商產品數據 64
任務描述 64
素質拓展 64
任務技能 64
技能點1 Hadoop Streaming簡介 64
技能點2 Hadoop Streaming的使用
方法 64
任務實施 65
項目小結 71
課後習題 71
自我評價 72
項目4
電商產品數據離線分析 73
項目導言 73
項目導圖 73
知識目標 73
技能目標 74
素養目標 74
任務4-1 使用Hive創建電商產品
數據庫 74
任務描述 74
素質拓展 74
任務技能 74
技能點1 Hive數據庫操作 74
技能點2 Hive表操作 76
技能點3 Hive數據操作 78
任務實施 80
任務4-2 使用Hive對電商產品數據
進行統計 84
任務描述 84
素質拓展 84
任務技能 84
技能點1 算術運算 84
技能點2 數據查詢 85
任務實施 88
任務4-3 使用Spark創建基於電商
產品數據的分佈式數據
容器 95
任務描述 95
素質拓展 95
任務技能 95
技能點1 Spark SQL簡介 95
技能點2 DataFrame簡介 97
技能點3 DataFrame創建 98
任務實施 102
任務4-4 使用Spark SQL完成電商
產品數據分析 103
任務描述 103
素質拓展 103
任務技能 104
技能點1 數據查看 104
技能點2 數據過濾 105
技能點3 數據處理 105
技能點4 數據存儲 107
任務實施 108
項目小結 111
課後習題 111
自我評價 112
項目5
電商產品數據實時分析 113
項目導言 113
項目導圖 113
知識目標 113
技能目標 113
素養目標 114
任務5-1 創建數據流 114
任務描述 114
素質拓展 114
任務技能 114
技能點1 流式計算簡介 114
技能點2 Spark Streaming簡介 116
技能點3 DStream簡介 117
技能點4 DStream的創建 118
任務實施 120
任務5-2 使用Spark Streaming
對電商產品數據進行實時
數據分析 122
任務描述 122
素質拓展 122
任務技能 122
技能點1 DStream轉換操作 122
技能點2 DStream窗口操作 124
技能點3 DStream輸出操作 125
技能點4 Spark Streaming啟動與
停止 126
任務實施 127
項目小結 134
課後習題 134
自我評價 135
項目6
電商產品數據挖掘 136
項目導言 136
項目導圖 136
知識目標 136
技能目標 137
素養目標 137
任務6-1 處理電商產品數據 137
任務描述 137
素質拓展 137
任務技能 137
技能點1 Spark MLlib概述 137
技能點2 Spark MLlib數據類型 138
技能點3 特徵提取與數據處理 140
任務實施 144
任務6-2 使用Spark MLlib對電商
產品定價 151
任務描述 151
素質拓展 152
任務技能 152
技能點1 分類算法 152
技能點2 回歸算法 154
技能點3 推薦算法 156
技能點4 算法評估 157
任務實施 159
項目小結 162
課後習題 162
自我評價 163
項目7
電商產品數據遷移 164
項目導言 164
項目導圖 164
知識目標 164
技能目標 164
素養目標 165
任務7-1 根據電商產品數據統計結果
創建數據表並查看 165
任務描述 165
素質拓展 165
任務技能 165
技能點1 Sqoop架構 165
技能點2 Sqoop連接器 167
技能點3 Sqoop配置數據庫密碼
方式 167
技能點4 列出所有數據庫 168
技能點5 列出數據庫中的所有表 169
任務實施 169
任務7-2 使用Sqoop將Hive中
電商產品數據統計結果
導出 172
任務描述 172
素質拓展 172
任務技能 173
技能點1 Sqoop數據導入與
導出 173
技能點2 其他常用命令 176
任務實施 178
項目小結 183
課後習題 183
自我評價 184