Hadoop大數據實戰權威指南 Hadoop大数据实战权威指南

黃東軍

  • 出版商: 電子工業
  • 出版日期: 2017-07-01
  • 定價: $408
  • 售價: 8.5$347
  • 語言: 簡體中文
  • 頁數: 380
  • 裝訂: 平裝
  • ISBN: 7121318210
  • ISBN-13: 9787121318214
  • 相關分類: Hadoop大數據 Big-data
  • 立即出貨 (庫存 < 4)

買這商品的人也買了...

相關主題

商品描述

大數據貴在落實! 本書是一本講解大數據實戰的圖書,按照“深入分析組件原理、充分展示搭建過程、詳細指導應用開發”編寫。全書分為三篇,第一篇為大數據的基本概念和技術,主要介紹大數據的背景、發展及關鍵技術;第二篇為Hadoop大數據平臺搭建與基本應用,內容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafk、Spark等;第三篇為大數據處理與項目開發,包括交互式數據處理、協同過濾推薦系統、銷售數據分析系統,部分銷售數據應用大數據進行處理分析。

作者簡介

黃東軍,男,教授,博士,博士生導師。畢業於中南大學計算機應用技術,先工作於中南大學信息科學與工程學院。中國計算機學會高級會員,教育部計算機科學與技術專業教學指導委員會"物聯網工程專業教學研究專家組”成員。

目錄大綱

目錄

第一篇大數據的基本概念和技術

第1章緒論3 
1.1時代背景3 
1.1.1全球大數據浪潮3 
1.1.2我國的大數據國家戰略5 
1.2大數據的概念7 
1.2.1概念7 
1.2 .2特徵8 
1.3技術支撐體系9 
1.3.1概覽9 
1.3.2大數據採集層9 
1.3.3大數據存儲層10 
1.3.4大數據分析(處理與服務)層11 
1.3.5大數據應用層11 
1.3.6垂直視圖13 
1.4大數據人才及其能力要求14 
1.4.1首席數據官14 
1.4.2數據科學家(數據分析師) 15 
1.4.3大數據開發工程師16 
1.4.4大數據運維工程師17 
1.5本章小結17 
第2章Hadoop大數據關鍵技術19 
2.1 Hadoop生態系統19 
2.1.1架構的基本理論19 
2.1.2主要組件及其關係21 
2.2數據採集24 
2.2.1結構化數據採集工具24 
2.2 .2日誌文件採集工具與技術25 
2.3大數據存儲技術29 
2.3.1相關概念29 
2.3.2分佈式文件存儲系統34 
2.3.3數據庫與數據倉庫38 
2.4分佈式計算框架43 
2.4.1離線計算框架43 
2.4.2實時流計算平 台50 
2.5數據分析平台與工具57 
2.5.1面向大數據的數據挖掘與分析工具57 
2.5.2機器學習61 
2.6本章小結66 

第二篇Hadoop大數據平台搭建與基本應用
第3章Linux操作系統與集群搭建69 
3.1 Linux操作系統69 
3.1.1概述69 
3.1.2特點70 
3.1.3 Linux的組成72 
3.2 Linux安裝與集群搭建75 
3.2.1安裝VMware Workstation 75 
3.2.2在VMware上安裝Linux(CentOS7) 79 
3.3集群的配置91 
3.3.1設置主機名91 
3.3.2網絡設置93 
3.3.3關閉防火牆98 
3.3.4安裝JDK 99 
3.3.5免密鑰登錄配置102 
3.4 Linux基本命令105 
3.5本章小結112 
第4章HDFS安裝與基本應用113 
4.1 HDFS概述113 
4.1.1特點113 
4.1.2主要組件與架構114 
4.2 HDFS架構分析114 
4.2.1數據塊114 
4.2.2 NameNode 115 
4.2.3 DataNode 116 
4.2.4 SecondaryNameNode 117 
4.2.5數據備份117 
4.2.6通信協議118 
4.2.7可靠性保證118 
4.3文件操作過程分析119 
4.3.1讀文件119 
4.3.2寫文件120 
4.3.3刪除文件122 
4.4 Hadoop HDFS安裝與配 122 
4.4.1解壓Hadoop安裝包122 
4.4.2配置Hadoop環境變量123 
4.4.3配置Yarn環境變量124 
4.4.4配置核心組件文件125 
4.4.5配置文件系統125 
4.4.6配置yarn-site.xml文件126 
4.4.7配置MapReduce計算框架文件128 
4.4.8配置Master的slaves文件129 
4.4.9複製Master上的Hadoop到Slave節點129 
4.5 Hadoop集群的啟動130 
4.5.1配置操作系統環境變量130 
4.5.2創建Hadoop數據目錄131 
4.5.3格式化文件系統132 
4.5.4啟動和關閉Hadoop 133 
4.5.5驗證Hadoop是否啟動成功133 
4.6 Hadoop集群的基本應用136 
4.6.1 HDFS基本命令136 
4.6.2在Hadoop集群中運行程序139 
4.7本章小結141 
第5章MapReduce與Yarn 143 
5.1 MapReduce程序的概念143 
5.1.1基本編程模型143 
5.1.2計算過程分析144 
5.2深入理解Yarn 147 
5.2.1 Yarn的基本架構147 
5.2.2 Yarn的工作流程151 
5.3在Linux平台安裝Eclipse 152 
5.3.1 Eclipse簡介153 
5.3.2安裝並啟動Eclipse 154 
5.4開發MapReduce程序的基本方法155 
5.4.1為Ec lipse安裝Hadoop插件156 
5.4.2 WordCount:第一個MapReduce程序160 
5.5本章小結175 
第6章Hive和HBase的安裝與應用177 
6.1在CentOS7下安裝MySQL 177 
6.1.1下載或複制MySQL安裝包177 
6.1. 2執行安裝命令178 
6.1.3啟動MySQL 179 
6.1.4登錄MySQL 179 
6.1.5使用MySQL 181 
6.1.6問題與解決辦法182 
6.2 Hive安裝與應用183 
6.2.1下載並解壓Hive安裝包183 
6.2.2配置Hive 184 
6.2.3啟動並驗證Hive 187 
6.2.4 Hive的基本應用189 
6.3 ZooKeeper集群安裝190 
6.3.1 ZooKeeper簡介190 
6.3.2安裝ZooKeeper 191 
6.3.3配置ZooKeeper 191 
6.3.4啟動和測試193 
6.4 HBase的安裝與應用195 
6.4.1解壓並安裝HBase 195 
6.4.2配置HBase 196 
6.4.3啟動並驗證HBase 199 
6.4.4 HBase的基本應用200 
6.4.5應用HBase中常見問題及其解決辦法203 
6.5本章小結204 
第7章Sqoop和Kafka的安裝與應用205 
7.1安裝部署Sqoop 205 
7.1.1下載或複制Sqoop安裝包205 
7.1.2解壓並安裝Sqoop 206 
7.1.3配置Sqoop 206 
7.1.4啟動並 證Sqoop 208 
7.1.5測試Sqoop與MySQL的連接209 
7.2安裝部署Kafka集群211 
7.2.1下載或複制Kafka安裝包211 
7.2.2解壓縮Kafka安裝包211 
7.2.3配置Kafka集群211 
7.2.4 Kafka的初步應用213 
7.3本章小結218 
第8章Spark集群安裝與開發環境配置219 
8.1深入理解Spark 219 
8.1.1 Spark系統架構219 
8.1.2關鍵概念221 
8.2安裝與配置Scala 224 
8.2.1下載Scala安裝包225 
8.2.2安裝Scala 225 
8.2.3啟動並應用Scala 226 
8.3 Spark集群的安裝與配置226 
8.3.1安裝模式226 
8.3.2 Spark的安裝227 
8.3.3啟動並驗證Spark 230 
8.3.4幾點說明234 
8.4開發環境安裝與配置236 
8.4.1 IDEA簡介236 
8.4.2 IDEA的安裝236 
8.4.3 IDEA的配置238 
8.5本章小結243 
第9章Spark應用基礎245 
9.1 Spark程序的運行模式245 
9.1.1 Spark on Yarn-cluster 245 
9.1.2 Spark on Yarn-client 246 
9.2 Spark應用設計247 
9.2.1分佈式估算圓周率248 
9.2.2基於Spark MLlib的貸款風險預測265 
9.3本章小結285 

第三篇數據處理與 目開發術
第10章交互式數據處理289 
10.1數據預處理289 
10.1.1查看數據289 
10.1.2數據擴展291 
10.1.3數據過濾292 
10.1.4數據上傳293 
10.2創建數據倉庫294 
10.2.1創建Hive數據倉庫的基本命令294 
10.2.2創建Hive分區表296 
10.3數據分析299 
10.3.1基本統計299 
10.3.2用戶行為分析301 
10.3.3實時數據303 
10.4本章小結304 
第11章協同過濾推薦系統305 
11.1推薦算法概述305 
11.1.1基於人口統計學的推薦305 
11.1.2基於內容的推薦306 
11.1.3協同過濾推薦307 
11.2協同過濾推薦算法分析308 
11.2.1基於用戶的協同過濾推薦308 
11.2.2基於物品的協同過濾推薦310 
11.3 Spark MLlib推薦算法應用312 
11.3.1 ALS算法原理312 
11.3.2 ALS的應用設計315 
11.4本章小結329 
第12章銷售數據分析系統331 
12.1數據採集331 
12.1.1在Windows下安裝JDK 331 
12.1.2在Windows下安裝Eclipse 334 
12.1.3將WebCollector項目導入Eclipse 335 
12.1