大數據技術實訓教程:預處理、離線分析和實時計算
盧正才 曹小平 鄭子偉
- 出版商: 人民郵電
- 出版日期: 2022-09-01
- 定價: $359
- 售價: 8.5 折 $305
- 語言: 簡體中文
- 頁數: 240
- ISBN: 7115596573
- ISBN-13: 9787115596574
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
商品描述
《大數據技術實訓教程:預處理、離線分析和實時計算》是職業院校大數據相關專業的實訓配套教材,也是“1+X”大數據應用開發(Java)職業技能等級證書考試輔助教材。全書共4章,包括Web服務器日誌分析項目、招聘網站數據分析項目、電商網站實時數據分析項目、金融大數據分析項目。本書內容涵蓋了大數據技術的完整流程,包括數據採集、數據預處理、數據分析、數據挖掘、數據存儲、數據可視化等,既有離線處理,又有實時處理。同時涉及4個不同業務背景的29個項目任務,包括17個職業院校技能大賽項目任務,可幫助讀者切實掌握大數據預處理、離線分析和實時計算的實踐技能。
《大數據技術實訓教程:預處理、離線分析和實時計算》可作為職業院校、應用型本科院校電腦應用技術、軟件技術、軟件工程、網絡工程和大數據技術等電腦相關專業的教材,還可供從事電腦相關工作的技術人員學習參考。
作者簡介
1.盧正才,清華大學電腦科學與技術專業博士,高級工程師,瀘州職業技術學院人工智能與大數據學院院長。主研軍隊重點科研項目 6 項,國家教育部博士點基金資助項目 1 項,國防“十二五”探索重點項目 1 項。其中,獲全軍科技進步二等獎 1 項,全軍科技進步三等獎 2 項。發表論文10餘篇,其中SCI論文3篇,EI國際會議論文2篇,中文核心論文2篇。發明國家專利2項。
2.曹小平,電子科技大學軟件工程碩士,正高級實驗師,重慶科創職業學院人工智能學院副院長,職業教育國家學分銀行專家、重慶市教育信息化專家、重慶市職業技能培訓領域專家、重慶市教育評估監測專家、重慶市電子與信息類職業教育行業指導委員會委員。主持市教委重點項目2項、科學技術研究項目1項;獲得軟件著作權7項、授權專利5項;主編理實一體化教材5部。
3.鄭子偉,教授,廈門城市職業學院人工智能學院院長,福建省專業帶頭人,獲福建省“新長徵突擊手”“福建省教育系統優秀共產黨員”“福建省優秀教師”,以及全國職業院校技能大賽優秀指導教師等榮譽。
目錄大綱
第 1章 Web服務器日誌分析項目 001
1.1 任務一:需求分析 002
1.2 任務二:技術方案設計 004
1.3 任務三:使用Flume採集日誌數據 006
1.4 任務四:使用MapReduce清洗數據 008
1.5 任務五:使用Hive分析數據 012
1.6 任務六:使用Sqoop遷移數據 016
1.7 任務七:Java+ECharts數據可視化 018
1.8 答疑解惑 039
1.9 拓展練習 041
第 2章 招聘網站數據分析項目 043
2.1 大賽簡介 044
2.2 任務一:需求分析 048
2.3 任務二:項目流程 050
2.4 任務三:使用Python“爬取”招聘網站數據 051
2.5 任務四:使用MapReduce預處理數據 056
2.6 任務五:使用Hive分析數據 062
2.7 任務六:使用Sqoop導出數據 065
2.8 任務七:Flask+ECharts數據可視化 067
2.9 任務八:編寫分析報告 079
2.10 答疑解惑 080
2.11 拓展練習 084
第3章 電商網站實時數據分析項目 086
3.1 任務一:需求分析 087
3.2 任務二:項目方案設計 088
3.3 任務三:使用Flume+Kafka實時收集數據 089
3.4 任務四:使用Spark實時計算數據 091
3.5 任務五:Java+ECharts數據可視化 101
3.6 答疑解惑 113
3.7 拓展練習 114
第4章 金融大數據分析項目 116
4.1 大賽簡介 117
4.2 任務一:需求分析 119
4.3 任務二:項目流程 121
4.4 任務三:使用Spark抽取離線數據 123
4.5 任務四:使用Spark統計離線數據 125
4.6 任務五:使用Flume+Kafka實時採集數據 128
4.7 任務六:使用Flink實時計算數據 130
4.8 任務七:Vue.js+Java+ECharts數據可視化 136
4.9 任務八:使用Spark ML數據挖掘 156
4.10 任務九:編寫分析報告 160
4.11 答疑解惑 162
4.12 拓展練習 163
附錄 165
附錄1 Hadoop安裝部署和配置 165
附錄2 掌握HDFS Shell操作 175
附錄3 通過WordCount熟悉MapReduce 182
附錄4 深入理解MapReduce 186
附錄5 Flume安裝部署和配置 199
附錄6 Hive安裝部署和配置 200
附錄7 Sqoop安裝部署和配置 201
附錄8 Hadoop高可用集群環境安裝部署和配置 203
附錄9 Hadoop集群節點動態管理 212
附錄10 Kafka安裝部署和配置 214
附錄11 Spark安裝部署和配置 217
附錄12 Spark RDD算子 220
附錄13 通過WordCount熟悉Spark RDD 230
附錄14 Flink安裝部署和配置 231