大數據原理與技術 大数据原理与技术

黃史浩

  • 出版商: 人民郵電
  • 出版日期: 2018-01-01
  • 定價: $336
  • 售價: 8.5$286
  • 語言: 簡體中文
  • 頁數: 255
  • 裝訂: 平裝
  • ISBN: 7115458715
  • ISBN-13: 9787115458711
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

相關主題

商品描述

本書是華為ICT學院大數據技術官方教材,旨在幫助學生進一步學習大數據的基本概念、技術原理,以及大數據平臺的搭建和使用。
本書從大數據的概念和特徵開始講起,首先讓讀者對大數據有一個感性的認識;接下來結合大數據平臺的各個功能模塊,詳細介紹大數據的存儲、處理、分析、可視化等原理和操作;對大數據在各種行業中的應用加以敘述,讓讀者更加充分地感受到大數據應用的價值。
除華為ICT學院的學生之外,本書同樣適合正在備考HCNA-Big Data認證,或者正在參加HCNA-Big Data技術培訓的學員進行閱讀和參考。其他有志進入ICT行業的人員和大數據技術愛好者也可以通過閱讀本書,加深自己對大數據技術的理解。

作者簡介

1. 多年的Hadoop大數據平台企業業務應用實踐,具有豐富的Hadoop平台運維,開發與分析實戰經驗。
2. 主導過多個大型大數據項目的開發,如維達國際大數據平台、中國商品進出口交易中心ETL日誌分析大數據平台。
3 .多年大數據與數據挖掘等IT領域技術培訓經驗,豐富的課程設計和授課經驗。

目錄大綱

第1章大數據概述0 
1. 1大數據的概念與價值2 
1.1.1什麼是大數據2 
1.1.2大數據的來源4 
1.1.3大數據有什麼價值5 
1.1.4如何挖掘企業大數據的價值6 
1.2大數據的關鍵技術7 
1.2.1大數據採集、預處理與存儲管理7 
1.2.2大數據分析與挖掘8 
1.2.3數據可視化9 
1.3大數據產業9 
1.3.1數據提供9 
1.3 .2技術提供9 
1.3.3服務提供10 
1.4大數據應用場景10 
1.5本章總結11 
練習題12 

第2章Hadoop大數據處理平台14 
2.1 Hadoop平台概述16 
2.1.1 Hadoop簡介16 
2.1.2 Hadoop的特性17 
2.1.3 Hadoop應用現狀17 
2.1.4 Hadoop版本及相關平台18 
2.2 Hadoop生態系統18 
2.2.1 Hadoop存儲系統(HDFS&HBase) 18 
2.2.2 Hadoop計算框架(MapReduce&YARN) 19 
2.2.3 Hadoop數據倉庫(Hive ) 20
2.2.4 Hadoop數據轉換與日誌處理(Sqoop&Flume) 20 
2.2.5 Hadoop應用協調與工作流(ZooKeeper&Oozie) 20 
2.2.6大數據安全技術(Kerberos&LDAP) 21 
2.2.7大數據即時查詢與搜索(Impala&Solr) 21 
2.2.8大數據消息訂閱(Kafka) 21 
2.3 Hadoop安裝部署22 
2.3.1 Hadoop規劃部署22 
2.3.2 Hadoop的安裝方式23 
2.4華為FusionInsight HD安裝部署26 
2.4.1 FusionInsight HD簡介26 
2.4.2 FusionInsight HD集成設計28 
2.4.3 FusionInsight HD安裝部署33 
2.4.4 FusionInsight HD重要參數配置41 
2.5本章總結42 
練習題43 

第3章大數據存儲技術(HDFS) 44 
3.1概述46 
3.1.1分佈式文件系統的概念與作用47 
3.1.2 HDFS概述47 
3.2 HDFS的相關概念48 
3.2.1塊48 
3.2.2 NameNode 49 
3.2.3 Secondary NameNode 50 
3.2.4 DataNode 51
3.3 HDFS體系架構與原理52 
3.3.1 HDFS體系架構52 
3.3.2 HDFS的高可用機制52 
3.3.3 HDFS的目錄結構54 
3.3.4 HDFS的數據讀寫過程57 
3.4 HDFS接口及其在FusionInsight HD編程中的實踐58 
3.4.1 HDFS常用Shell命令59 
3.4.2 HDFS的Web界面60 
3.4.3 HDFS的Java接口及應用實例62 
3.5本章總結67 
練習題67 

第4章大數據離線計算框架(MapReduce & YARN ) 70 
4.1 MapReduce技術原理72 
4.1.1 MapReduce概述73 
4.1.2 Map函數與Reduce函數73 
4.2 YARN技術原理74 
4.2.1 YARN的概述與應用74 
4.2.2 YARN的架構75 
4.2.3 MapReduce的計算過程76 
4.2.4 YARN的資源調度78 
4.3 FusionInsight HD中MapReduce的應用78 
4.3.1 WordCount實例分析78 
4.3.2 MapReduce編程實踐79 
4.4本章總結85 
練習題86 

第5章大數據數據庫(HBase) 88
5.1 HBase概述90 
5.1.1 HBase簡介90 
5.1.2 HBase與關係型數據庫的區別91 
5.1.3 HBase的應用場景92 
5.2 HBase的架構原理92 
5.2.1 HBase的數據模型92 
5.2.2表和Region 93 
5.2.3 HBase的系統架構與功能組件94 
5.2.4 HBase的讀寫流程96 
5.2.5 HBase的Compaction過程97 
5.3 FusionInsight HD中HBase的編程實踐98 
5.3.1 FusionInsight HD中HBase的常用參數配置98 
5.3 .2 HBase的常用Shell命令100 
5.3.3 HBase常用的Java API及應用實例103 
5.4本章總結118 
練習題118 

第6章大數據數據倉庫(Hive) 120 
6.1 Hive概述122 
6.1.1 Hive簡介和應用122 
6.1.2 Hive的特性123 
6.1.3 Hive與傳統數據倉庫的區別124 
6.2 Hive的架構和數據存儲124 
6.2.1 Hive的架構原理124 
6.2.2 Hive的數據存儲模型127 
6.2.3 HiveQL編程128
6.3 FusionInsight HD中Hive應用實踐132 
6.3.1 FusionInsight HD中Hive的常用參數配置132 
6.3.2加載數據到Hive 133 
6.3.3使用HiveQL進行數據分析135 
6.4本章總結139 
練習題139 

第7章大數據數據轉換(Sqoop與Loader) 142 
7.1 Sqoop概述144 
7.1.1 Sqoop簡介與應用145 
7.1.2 Sqoop的功能與特性145 
7.1.3 Sqoop與傳統ETL的區別146 
7.2 FusionInsight HD中Loader的應用實踐146 
7.2.1 FusionInsight HD中Loader與Sqoop的對比147 
7.2.2 FusionInsight HD中Loader的參數配置148 
7.2.3使用Loader進行數據轉換149 
7.2.4 Loader的常用Shell命令150 
7.2.5 Loader應用實踐152 
7.3本章總結153 
練習題154 

第8章大數據日誌處理(Flume) 156 
8.1 Flume概述158 
8.1.1 Flume簡介與應用158 
8.1.2 Flume的功能與特性161
8.1.3 Flume與其他主流開源日誌收集系統的區別162 
8.2 FusionInsight HD中Flume的應用實踐162 
8.2.1 FusionInsight HD中Flume的常用參數配置163 
8.2.2 Flume常用的Shell命令164 
8.2.3 Flume與Kafka結合進行日誌處理165 
8.3本章總結168 
練習題169 

第9章大數據實時計算框架(Spark) 170 
9.1 Spark概述172 
9.1.1 Spark的概述與應用173 
9.1.2 Scala語言介紹174 
9.1.3 Spark生態系統組件174 
9.1.4 Spark與Hadoop的對比175 
9.2 Spark技術架構176 
9.2.1 Spark的運行原理176 
9.2.2 RDD概念與原理177 
9.2.3 Spark的三種部署方式181 
9.2.4使用開發工具測試Spark 182 
9.3 FusionInsight HD中Spark應用實踐183 
9.3.1運行Spark Shell 183 
9.3.2進行Spark RDD操作184 
9.3.3使用Spark客戶端工具運行Spark程序185 
9.4 Spark Streaming 188
9.4.1 Spark Streaming的設計思想188 
9.4.2 Spark Streaming的應用實例189 
9.5 Spark SQL 191 
9.5.1 Spark SQL的功能191 
9.5.2 FusionInsight HD中Spark SQL的應用實例192 
9.6 Spark MLlib 193 
9.6.1機器學習簡介193 
9.6.2 Spark MLlib的功能194 
9.7 Spark GraphX 194 
9.7.1圖計算簡介194 
9.7.2 Spark GraphX功能簡介195 
9.8本章總結195 
練習題196 

第10章大數據流計算198 
10.1流計算概述200 
10.1.1靜態數據和流數據201 
10.1.2流計算的概念201 
10.1.3 MapReduce和流計算202 
10.1.4流計算框架202 
10.2流計算的處理流程203 
10.2.1數據實時採集203 
10.2.2數據實時計算203 
10.2.3數據實時查詢203 
10.3 Streaming流計算204 
10.3.1 Streaming簡介204 
10.3.2 Streaming的特點206
10.3.3 Streaming在FusionInsight HD上的應用實踐208 
10.3.4 Spark Streaming與Streaming的差異212 
10.4本章總結213 
練習題213 

第11章數據可視化216 
11.1可視化概述218 
11.1.1數據可視化簡介219 
11.1.2數據可視化的重要性219 
11.1.3可視化的發展歷程219 
11.1.4數據可視化的過程221 
11.2可視化工具222 
11.2.1入門級工具(Excel) 222 
11.2.2普通工具(R語言) 222 
11.2.3工具( Tableau和QlikView) 223 
11.3可視化的典型應用223 
11.3.1可視化在醫學上的應用223 
11.3.2可視化在工程中的應用224 
11.3.3可視化在互聯網的應用225 
11.4本章總結225 
練習題226 

第12章大數據行業應用228 
12.1大數據在金融行業的應用230 
12.2大數據在電信行業的應用232 
12.3大數據在公安系統的應用236 
12.4大數據在互聯網行業的應用237 
12.5本章總結237
練習題238 

術語表240 
參考文獻252