大數據分析技術與應用(微課版)

宿佳寧 王林 於麗娜

  • 出版商: 人民郵電
  • 出版日期: 2024-07-01
  • 定價: $299
  • 售價: 8.5$254
  • 語言: 簡體中文
  • 頁數: 184
  • ISBN: 7115638543
  • ISBN-13: 9787115638540
  • 相關分類: 大數據 Big-dataData Science
  • 下單後立即進貨 (約4週~6週)

  • 大數據分析技術與應用(微課版)-preview-1
  • 大數據分析技術與應用(微課版)-preview-2
大數據分析技術與應用(微課版)-preview-1

相關主題

商品描述

本書按照大數據分析流程,以電商產品數據為例,由淺入深地講解大數據分析的核心開發技術,以及大數據分析工具及其組件的作用和使用方法。本書內容系統、全面,可幫助讀者快速掌握大數據分析技術。本書介紹了大數據分析的概念、應用場景、分析指標、分析工具、分析組件、分佈式存儲、分佈式處理、數據離線分析、數據實時分析、數據挖掘,以及數據遷移等知識,並通過實際的操作案例,詳細、直觀地介紹了大數據分析的實現過程。

本書可作為高等職業院校大數據技術等專業的教材,也可作為大數據分析技術人員的參考書。

作者簡介

穆建平 浪潮集团主任工程师、数据采集职业技能等级证书标准起草人,hadoop大数据高级认证工程师。曾参与教育部某课题研究,研发出版数据采集系列教材,其中《数据采集技术初级》获批十三五规划教材,曾主导并参与大数据方向行业标准四项。主要研究方向为云平台部署与大数据系统开发。先后参与浪潮集团天元大数据平台、数据采集教考平台等项目。

目錄大綱

項目1

初識電商產品數據的處理與

分析 1

項目導言 1

項目導圖 1

知識目標 1

技能目標 2

素養目標 2

任務1-1 電商產品數據背景及數據

分析概述 2

任務描述 2

素質拓展 2

任務技能 2

技能點1 電商產品數據背景 2

技能點2 大數據分析概念 4

技能點3 大數據分析應用場景 5

技能點4 大數據分析指標 9

任務1-2 電商產品數據處理與分析

項目準備 12

任務描述 12

素質拓展 12

任務技能 12

技能點1 大數據分析工具簡介 12

技能點2 大數據分析組件 15

技能點3 大數據分析流程 19

技能點4 大數據分析企業級應用 20

任務實施 22

項目小結 26

課後習題 26

自我評價 27

項目2

電商產品數據分佈式存儲 28

項目導言 28

項目導圖 28

知識目標 28

技能目標 29

素養目標 29

任務2-1 使用HDFS Shell管理

電商產品數據 29

任務描述 29

素質拓展 29

任務技能 29

技能點1 什麽是HDFS 29

技能點2 HDFS存儲架構 30

技能點3 HDFS文件存取機制 32

技能點4 HDFS Shell基礎命令 36

技能點5 HDFS Shell管理命令 38

任務實施 40

任務2-2 使用HDFS庫管理電商

產品數據 44

任務描述 44

素質拓展 44

任務技能 44

技能點1 HDFS庫簡介 44

技能點2 HDFS庫方法 44

任務實施 48

項目小結 51

課後習題 51

自我評價 52

項目3

電商產品數據分佈式處理 53

項目導言 53

項目導圖 53

知識目標 53

技能目標 53

素養目標 54

任務3-1 使用正則表達式匹配電商

產品數據 54

任務描述 54

素質拓展 54

任務技能 54

技能點1 MapReduce簡介 54

技能點2 YARN簡介 56

技能點3 正則表達式 59

任務實施 61

任務3-2 使用Hadoop Streaming

處理電商產品數據 64

任務描述 64

素質拓展 64

任務技能 64

技能點1 Hadoop Streaming簡介 64

技能點2 Hadoop Streaming的使用

方法 64

任務實施 65

項目小結 71

課後習題 71

自我評價 72

項目4

電商產品數據離線分析 73

項目導言 73

項目導圖 73

知識目標 73

技能目標 74

素養目標 74

任務4-1 使用Hive創建電商產品

數據庫 74

任務描述 74

素質拓展 74

任務技能 74

技能點1 Hive數據庫操作 74

技能點2 Hive表操作 76

技能點3 Hive數據操作 78

任務實施 80

任務4-2 使用Hive對電商產品數據

進行統計 84

任務描述 84

素質拓展 84

任務技能 84

技能點1 算術運算 84

技能點2 數據查詢 85

任務實施 88

任務4-3 使用Spark創建基於電商

產品數據的分佈式數據

容器 95

任務描述 95

素質拓展 95

任務技能 95

技能點1 Spark SQL簡介 95

技能點2 DataFrame簡介 97

技能點3 DataFrame創建 98

任務實施 102

任務4-4 使用Spark SQL完成電商

產品數據分析 103

任務描述 103

素質拓展 103

任務技能 104

技能點1 數據查看 104

技能點2 數據過濾 105

技能點3 數據處理 105

技能點4 數據存儲 107

任務實施 108

項目小結 111

課後習題 111

自我評價 112

項目5

電商產品數據實時分析 113

項目導言 113

項目導圖 113

知識目標 113

技能目標 113

素養目標 114

任務5-1 創建數據流 114

任務描述 114

素質拓展 114

任務技能 114

技能點1 流式計算簡介 114

技能點2 Spark Streaming簡介 116

技能點3 DStream簡介 117

技能點4 DStream的創建 118

任務實施 120

任務5-2 使用Spark Streaming

對電商產品數據進行實時

數據分析 122

任務描述 122

素質拓展 122

任務技能 122

技能點1 DStream轉換操作 122

技能點2 DStream窗口操作 124

技能點3 DStream輸出操作 125

技能點4 Spark Streaming啟動與

停止 126

任務實施 127

項目小結 134

課後習題 134

自我評價 135

項目6

電商產品數據挖掘 136

項目導言 136

項目導圖 136

知識目標 136

技能目標 137

素養目標 137

任務6-1 處理電商產品數據 137

任務描述 137

素質拓展 137

任務技能 137

技能點1 Spark MLlib概述 137

技能點2 Spark MLlib數據類型 138

技能點3 特徵提取與數據處理 140

任務實施 144

任務6-2 使用Spark MLlib對電商

產品定價 151

任務描述 151

素質拓展 152

任務技能 152

技能點1 分類算法 152

技能點2 回歸算法 154

技能點3 推薦算法 156

技能點4 算法評估 157

任務實施 159

項目小結 162

課後習題 162

自我評價 163

項目7

電商產品數據遷移 164

項目導言 164

項目導圖 164

知識目標 164

技能目標 164

素養目標 165

任務7-1 根據電商產品數據統計結果

創建數據表並查看 165

任務描述 165

素質拓展 165

任務技能 165

技能點1 Sqoop架構 165

技能點2 Sqoop連接器 167

技能點3 Sqoop配置數據庫密碼

方式 167

技能點4 列出所有數據庫 168

技能點5 列出數據庫中的所有表 169

任務實施 169

任務7-2 使用Sqoop將Hive中

電商產品數據統計結果

導出 172

任務描述 172

素質拓展 172

任務技能 173

技能點1 Sqoop數據導入與

導出 173

技能點2 其他常用命令 176

任務實施 178

項目小結 183

課後習題 183

自我評價 184