大數據技術實訓教程:預處理、離線分析和實時計算
盧正才 曹小平 鄭子偉
- 出版商: 人民郵電
- 出版日期: 2022-09-01
- 定價: $359
- 售價: 8.5 折 $305
- 語言: 簡體中文
- 頁數: 240
- ISBN: 7115596573
- ISBN-13: 9787115596574
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
《大數據技術實訓教程:預處理、離線分析和實時計算》是職業院校大數據相關專業的實訓配套教材,也是“1+X”大數據應用開發(Java)職業技能等級證書考試輔助教材。全書共4章,包括Web服務器日誌分析項目、招聘網站數據分析項目、電商網站實時數據分析項目、金融大數據分析項目。本書內容涵蓋了大數據技術的完整流程,包括數據採集、數據預處理、數據分析、數據挖掘、數據存儲、數據可視化等,既有離線處理,又有實時處理。同時涉及4個不同業務背景的29個項目任務,包括17個職業院校技能大賽項目任務,可幫助讀者切實掌握大數據預處理、離線分析和實時計算的實踐技能。
《大數據技術實訓教程:預處理、離線分析和實時計算》可作為職業院校、應用型本科院校電腦應用技術、軟件技術、軟件工程、網絡工程和大數據技術等電腦相關專業的教材,還可供從事電腦相關工作的技術人員學習參考。
作者簡介
1.卢正才,清华大学计算机科学与技术专业博士,高级工程师,泸州职业技术学院人工智能与大数据学院院长。主研军队重点科研项目 6 项,国家教育部博士点基金资助项目 1 项,国防“十二五”探索重点项目 1 项。其中,获全军科技进步二等奖 1 项,全军科技进步三等奖 2 项。发表论文10余篇,其中SCI论文3篇,EI国际会议论文2篇,中文核心论文2篇。发明国家专利2项。
2.曹小平,电子科技大学软件工程硕士,正高级实验师,重庆科创职业学院人工智能学院副院长,职业教育国家学分银行专家、重庆市教育信息化专家、重庆市职业技能培训领域专家、重庆市教育评估监测专家、重庆市电子与信息类职业教育行业指导委员会委员。主持市教委重点项目2项、科学技术研究项目1项;获得软件著作权7项、授权专利5项;主编理实一体化教材5部。
3.郑子伟,教授,厦门城市职业学院人工智能学院院长,福建省专业带头人,获福建省“新长征突击手”“福建省教育系统优秀共产党员”“福建省优秀教师”,以及全国职业院校技能大赛优秀指导教师等荣誉。
目錄大綱
第 1章 Web服務器日誌分析項目 001
1.1 任務一:需求分析 002
1.2 任務二:技術方案設計 004
1.3 任務三:使用Flume採集日誌數據 006
1.4 任務四:使用MapReduce清洗數據 008
1.5 任務五:使用Hive分析數據 012
1.6 任務六:使用Sqoop遷移數據 016
1.7 任務七:Java+ECharts數據可視化 018
1.8 答疑解惑 039
1.9 拓展練習 041
第 2章 招聘網站數據分析項目 043
2.1 大賽簡介 044
2.2 任務一:需求分析 048
2.3 任務二:項目流程 050
2.4 任務三:使用Python“爬取”招聘網站數據 051
2.5 任務四:使用MapReduce預處理數據 056
2.6 任務五:使用Hive分析數據 062
2.7 任務六:使用Sqoop導出數據 065
2.8 任務七:Flask+ECharts數據可視化 067
2.9 任務八:編寫分析報告 079
2.10 答疑解惑 080
2.11 拓展練習 084
第3章 電商網站實時數據分析項目 086
3.1 任務一:需求分析 087
3.2 任務二:項目方案設計 088
3.3 任務三:使用Flume+Kafka實時收集數據 089
3.4 任務四:使用Spark實時計算數據 091
3.5 任務五:Java+ECharts數據可視化 101
3.6 答疑解惑 113
3.7 拓展練習 114
第4章 金融大數據分析項目 116
4.1 大賽簡介 117
4.2 任務一:需求分析 119
4.3 任務二:項目流程 121
4.4 任務三:使用Spark抽取離線數據 123
4.5 任務四:使用Spark統計離線數據 125
4.6 任務五:使用Flume+Kafka實時採集數據 128
4.7 任務六:使用Flink實時計算數據 130
4.8 任務七:Vue.js+Java+ECharts數據可視化 136
4.9 任務八:使用Spark ML數據挖掘 156
4.10 任務九:編寫分析報告 160
4.11 答疑解惑 162
4.12 拓展練習 163
附錄 165
附錄1 Hadoop安裝部署和配置 165
附錄2 掌握HDFS Shell操作 175
附錄3 通過WordCount熟悉MapReduce 182
附錄4 深入理解MapReduce 186
附錄5 Flume安裝部署和配置 199
附錄6 Hive安裝部署和配置 200
附錄7 Sqoop安裝部署和配置 201
附錄8 Hadoop高可用集群環境安裝部署和配置 203
附錄9 Hadoop集群節點動態管理 212
附錄10 Kafka安裝部署和配置 214
附錄11 Spark安裝部署和配置 217
附錄12 Spark RDD算子 220
附錄13 通過WordCount熟悉Spark RDD 230
附錄14 Flink安裝部署和配置 231