大數據原理與技術大数据原理与技术

黃史浩

出版商: 人民郵電
出版日期: 2018-01-01
定價: $336
售價: 8.5 折 $286
語言: 簡體中文
頁數: 255
裝訂: 平裝
ISBN: 7115458715
ISBN-13: 9787115458711
相關分類: 大數據 Big-data

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

$560

Python 自然語言處理 (Natural Language Processing with Python)
$250

大數據智能—因特網時代的機器學習和自然語言處理技術
$403

自然語言處理 : 原理與技術實現
~~$380~~ $300

網路+大數據：精準行銷的利器
~~$350~~ $277

指尖下的大數據：運用 Google Analytics 發掘行動裝置裡的無限商機
~~$540~~ $421

MIS 的安全防禦：Linux 系統與網路安全
~~$400~~ $316

大數據時代的演算法：機器學習、人工智慧及其典型實例
$301

精通 Python 自然語言處理 (Mastering Natural Language Processing with Python)
$403

AWS Lambda 實戰 : 開發事件驅動的無服務器應用程序 (AWS Lambda in Action: Event-Driven Serverless Applications)
~~$450~~ $356

Docker 這樣學才有趣：從入門，到玩直播、挖礦
$254

亞馬遜 AWS 雲基礎與實戰
~~$500~~ $390

Python：期貨演算法交易實務 121個關鍵技巧詳解
~~$500~~ $425

為你自己學 Git
~~$450~~ $356

認識大數據的第一本書
$250

區塊鏈實戰
$653

CISA 認證學習指南 (第4版) 註冊信息系統審計師 (CISA: Certified Information Systems Auditor Study Guide, 4/e)
$352

關聯數據:萬維網上的結構化數據
$250

自然語言處理與深度學習：通過 C語言模擬
$352

網絡輿情分析技術
$250

Apache Cordova 實戰
~~$390~~ $308

Python 零基礎入門班：一次打好程式設計、運算思維與邏輯訓練基本功！(第二版)(附150分鐘影音教學/範例程式)
~~$450~~ $356

優化 SQL｜語法與資料庫的最佳化應用
$352

RPA (流程自動化機器人) 入門 — 手把手教你應用 UiPath 自動化工作
~~$534~~ $507

Oracle 19c 從入門到精通 (視頻教學超值版)
~~$600~~ $510

WebSecurity 網站滲透測試：Burp Suite 完全學習指南（iT邦幫忙鐵人賽系列書）

商品描述

本書是華為ICT學院大數據技術官方教材，旨在幫助學生進一步學習大數據的基本概念、技術原理，以及大數據平臺的搭建和使用。
本書從大數據的概念和特徵開始講起，首先讓讀者對大數據有一個感性的認識；接下來結合大數據平臺的各個功能模塊，詳細介紹大數據的存儲、處理、分析、可視化等原理和操作；對大數據在各種行業中的應用加以敘述，讓讀者更加充分地感受到大數據應用的價值。
除華為ICT學院的學生之外，本書同樣適合正在備考HCNA-Big Data認證，或者正在參加HCNA-Big Data技術培訓的學員進行閱讀和參考。其他有志進入ICT行業的人員和大數據技術愛好者也可以通過閱讀本書，加深自己對大數據技術的理解。

作者簡介

1. 多年的Hadoop大數據平臺企業業務應用實踐，具有豐富的Hadoop平臺運維，開發與分析實戰經驗。
2. 主導過多個大型大數據項目的開發，如維達國際大數據平臺、中國商品進出口交易中心ETL日誌分析大數據平臺。
3 .多年大數據與數據挖掘等IT領域技術培訓經驗，豐富的課程設計和授課經驗。

目錄大綱

第1章大數據概述0
1. 1大數據的概念與價值2
1.1.1什麼是大數據2
1.1.2大數據的來源4
1.1.3大數據有什麼價值5
1.1.4如何挖掘企業大數據的價值6
1.2大數據的關鍵技術7
1.2.1大數據採集、預處理與存儲管理7
1.2.2大數據分析與挖掘8
1.2.3數據可視化9
1.3大數據產業9
1.3.1數據提供9
1.3 .2技術提供9
1.3.3服務提供10
1.4大數據應用場景10
1.5本章總結11
練習題12

第2章Hadoop大數據處理平臺14
2.1 Hadoop平臺概述16
2.1.1 Hadoop簡介16
2.1.2 Hadoop的特性17
2.1.3 Hadoop應用現狀17
2.1.4 Hadoop版本及相關平臺18
2.2 Hadoop生態系統18
2.2.1 Hadoop存儲系統（HDFS&HBase） 18
2.2.2 Hadoop計算框架（MapReduce&YARN） 19
2.2.3 Hadoop數據倉庫（Hive ） 20
2.2.4 Hadoop數據轉換與日誌處理（Sqoop&Flume） 20
2.2.5 Hadoop應用協調與工作流（ZooKeeper&Oozie） 20
2.2.6大數據安全技術（Kerberos&LDAP） 21
2.2.7大數據即時查詢與搜索（Impala&Solr） 21
2.2.8大數據消息訂閱（Kafka） 21
2.3 Hadoop安裝部署22
2.3.1 Hadoop規劃部署22
2.3.2 Hadoop的安裝方式23
2.4華為FusionInsight HD安裝部署26
2.4.1 FusionInsight HD簡介26
2.4.2 FusionInsight HD集成設計28
2.4.3 FusionInsight HD安裝部署33
2.4.4 FusionInsight HD重要參數配置41
2.5本章總結42
練習題43

第3章大數據存儲技術（HDFS） 44
3.1概述46
3.1.1分佈式文件系統的概念與作用47
3.1.2 HDFS概述47
3.2 HDFS的相關概念48
3.2.1塊48
3.2.2 NameNode 49
3.2.3 Secondary NameNode 50
3.2.4 DataNode 51
3.3 HDFS體系架構與原理52
3.3.1 HDFS體系架構52
3.3.2 HDFS的高可用機制52
3.3.3 HDFS的目錄結構54
3.3.4 HDFS的數據讀寫過程57
3.4 HDFS接口及其在FusionInsight HD編程中的實踐58
3.4.1 HDFS常用Shell命令59
3.4.2 HDFS的Web界面60
3.4.3 HDFS的Java接口及應用實例62
3.5本章總結67
練習題67

第4章大數據離線計算框架（MapReduce & YARN ） 70
4.1 MapReduce技術原理72
4.1.1 MapReduce概述73
4.1.2 Map函數與Reduce函數73
4.2 YARN技術原理74
4.2.1 YARN的概述與應用74
4.2.2 YARN的架構75
4.2.3 MapReduce的計算過程76
4.2.4 YARN的資源調度78
4.3 FusionInsight HD中MapReduce的應用78
4.3.1 WordCount實例分析78
4.3.2 MapReduce編程實踐79
4.4本章總結85
練習題86

第5章大數據數據庫（HBase） 88
5.1 HBase概述90
5.1.1 HBase簡介90
5.1.2 HBase與關係型數據庫的區別91
5.1.3 HBase的應用場景92
5.2 HBase的架構原理92
5.2.1 HBase的數據模型92
5.2.2表和Region 93
5.2.3 HBase的系統架構與功能組件94
5.2.4 HBase的讀寫流程96
5.2.5 HBase的Compaction過程97
5.3 FusionInsight HD中HBase的編程實踐98
5.3.1 FusionInsight HD中HBase的常用參數配置98
5.3 .2 HBase的常用Shell命令100
5.3.3 HBase常用的Java API及應用實例103
5.4本章總結118
練習題118

第6章大數據數據倉庫（Hive） 120
6.1 Hive概述122
6.1.1 Hive簡介和應用122
6.1.2 Hive的特性123
6.1.3 Hive與傳統數據倉庫的區別124
6.2 Hive的架構和數據存儲124
6.2.1 Hive的架構原理124
6.2.2 Hive的數據存儲模型127
6.2.3 HiveQL編程128
6.3 FusionInsight HD中Hive應用實踐132
6.3.1 FusionInsight HD中Hive的常用參數配置132
6.3.2加載數據到Hive 133
6.3.3使用HiveQL進行數據分析135
6.4本章總結139
練習題139

第7章大數據數據轉換（Sqoop與Loader） 142
7.1 Sqoop概述144
7.1.1 Sqoop簡介與應用145
7.1.2 Sqoop的功能與特性145
7.1.3 Sqoop與傳統ETL的區別146
7.2 FusionInsight HD中Loader的應用實踐146
7.2.1 FusionInsight HD中Loader與Sqoop的對比147
7.2.2 FusionInsight HD中Loader的參數配置148
7.2.3使用Loader進行數據轉換149
7.2.4 Loader的常用Shell命令150
7.2.5 Loader應用實踐152
7.3本章總結153
練習題154

第8章大數據日誌處理（Flume） 156
8.1 Flume概述158
8.1.1 Flume簡介與應用158
8.1.2 Flume的功能與特性161
8.1.3 Flume與其他主流開源日誌收集系統的區別162
8.2 FusionInsight HD中Flume的應用實踐162
8.2.1 FusionInsight HD中Flume的常用參數配置163
8.2.2 Flume常用的Shell命令164
8.2.3 Flume與Kafka結合進行日誌處理165
8.3本章總結168
練習題169

第9章大數據實時計算框架（Spark） 170
9.1 Spark概述172
9.1.1 Spark的概述與應用173
9.1.2 Scala語言介紹174
9.1.3 Spark生態系統組件174
9.1.4 Spark與Hadoop的對比175
9.2 Spark技術架構176
9.2.1 Spark的運行原理176
9.2.2 RDD概念與原理177
9.2.3 Spark的三種部署方式181
9.2.4使用開發工具測試Spark 182
9.3 FusionInsight HD中Spark應用實踐183
9.3.1運行Spark Shell 183
9.3.2進行Spark RDD操作184
9.3.3使用Spark客戶端工具運行Spark程序185
9.4 Spark Streaming 188
9.4.1 Spark Streaming的設計思想188
9.4.2 Spark Streaming的應用實例189
9.5 Spark SQL 191
9.5.1 Spark SQL的功能191
9.5.2 FusionInsight HD中Spark SQL的應用實例192
9.6 Spark MLlib 193
9.6.1機器學習簡介193
9.6.2 Spark MLlib的功能194
9.7 Spark GraphX 194
9.7.1圖計算簡介194
9.7.2 Spark GraphX功能簡介195
9.8本章總結195
練習題196

第10章大數據流計算198
10.1流計算概述200
10.1.1靜態數據和流數據201
10.1.2流計算的概念201
10.1.3 MapReduce和流計算202
10.1.4流計算框架202
10.2流計算的處理流程203
10.2.1數據實時採集203
10.2.2數據實時計算203
10.2.3數據實時查詢203
10.3 Streaming流計算204
10.3.1 Streaming簡介204
10.3.2 Streaming的特點206
10.3.3 Streaming在FusionInsight HD上的應用實踐208
10.3.4 Spark Streaming與Streaming的差異212
10.4本章總結213
練習題213

第11章數據可視化216
11.1可視化概述218
11.1.1數據可視化簡介219
11.1.2數據可視化的重要性219
11.1.3可視化的發展歷程219
11.1.4數據可視化的過程221
11.2可視化工具222
11.2.1入門級工具（Excel） 222
11.2.2普通工具（R語言） 222
11.2.3工具（ Tableau和QlikView） 223
11.3可視化的典型應用223
11.3.1可視化在醫學上的應用223
11.3.2可視化在工程中的應用224
11.3.3可視化在因特網的應用225
11.4本章總結225
練習題226

第12章大數據行業應用228
12.1大數據在金融行業的應用230
12.2大數據在電信行業的應用232
12.3大數據在公安系統的應用236
12.4大數據在因特網行業的應用237
12.5本章總結237
練習題238

術語表240
參考文獻252