大數據技術基礎
張成文
- 出版商: 人民郵電
- 出版日期: 2024-08-01
- 定價: $299
- 售價: 8.5 折 $254
- 語言: 簡體中文
- 頁數: 236
- ISBN: 7115636494
- ISBN-13: 9787115636492
-
相關分類:
大數據 Big-data
下單後立即進貨 (約2週~3週)
相關主題
商品描述
大數據技術作為處理海量數據的關鍵工具,在數據分析、數據計算、資源管理等領域得到廣泛應用。本書從初學者的角度出發,全面系統地介紹了Python大數據分析、數據存儲、離線計算與實時計算等基本概念與方法,並以大量案例幫助讀者理解大數據技術的方方面面。此外,本書還介紹了Kafka、圖數據處理、OLAP數據分析、分佈式資源管理和大數據處理架構等知識,以幫助讀者快速熟悉大數據技術,並應用大數據技術解決現實生活中的問題。
本書內容新穎,案例豐富,既可作為高等院校電腦、數據分析等相關專業的教學用書,也可供對大數據技術感興趣的初學者,以及從事數據科學、大數據技術研究和應用開發的人員參考。
作者簡介
張成文,北京郵電大學電腦學院副教授,中國人工智能學會高級會員,在國際SCI期刊、電子學報英文版等國內外期刊上發表了幾十篇高水平SCI論文,在電腦學報等國內top級學報上以及國際會議上發表了幾十篇高水平EI論文。以項目負責人及骨乾的身份參加了多個國家和部級科研項目,主要包括國家科技重大專項項目、國家973計劃項目、國家863計劃重大項目、國家自然科學基金項目、教育部新世紀優秀人才計劃項目等。在研項目:智能感知網絡及其在智慧城市中應用研究,“智慧系統”基礎理論及體系架構研究,物聯網服務邊緣適配與集成協同模式挖掘研究等。
目錄大綱
第 1章 大數據概述 1
1.1 基本概念 1
1.1.1 5V特徵 1
1.1.2 數據類型 2
1.1.3 大數據平臺 3
1.1.4 大數據的處理流程 4
1.2 相關技術 5
1.2.1 數據採集 5
1.2.2 數據預處理 6
1.2.3 數據存儲 6
1.2.4 數據挖掘與數據分析 6
1.2.5 數據可視化 8
1.3 應用領域 9
1.4 課後習題 9
第 2章 Python大數據分析 10
2.1 Python介紹 10
2.1.1 Python的應用場景 10
2.1.2 Python的優點與缺點 10
2.2 NumPy介紹 11
2.2.1 NumPy的應用場景 11
2.2.2 NumPy的數組對象與用法 11
2.3 pandas介紹 15
2.3.1 pandas的應用場景 15
2.3.2 pandas的數據結構與用法 15
2.4 Matplotlib介紹 20
2.4.1 Matplotlib庫的應用場景 20
2.4.2 圖表繪制 20
2.5 實踐操作 28
2.6 小結 33
2.7 課後習題 33
第3章 Kafka 34
3.1 Kafka介紹 34
3.1.1 Kafka的基本架構 34
3.1.2 Kafka的作用 36
3.2 Kafka的重要特性 37
3.2.1 高吞吐 37
3.2.2 高可用 38
3.3 安裝與配置 39
3.3.1 ZooKeeper的安裝與配置 39
3.3.2 Kafka的安裝與配置 40
3.4 實踐操作 41
3.5 小結 44
3.6 課後習題 44
第4章 數據存儲 45
4.1 HDFS 45
4.1.1 Hadoop介紹 45
4.1.2 HDFS介紹 46
4.1.3 安裝與配置 51
4.1.4 實踐操作 61
4.1.5 小結 66
4.1.6 課後習題 66
4.2 HBase 66
4.2.1 HBase介紹 66
4.2.2 技術對比 70
4.2.3 安裝與配置 71
4.2.4 實踐操作 73
4.2.5 小結 75
4.2.6 課後習題 76
4.3 Redis 76
4.3.1 Redis介紹 76
4.3.2 安裝與配置 80
4.3.3 實踐操作 82
4.3.4 小結 85
4.3.5 課後習題 85
第5章 圖數據處理 86
5.1 Neo4j 86
5.1.1 Neo4j介紹 86
5.1.2 安裝與配置 89
5.1.3 實踐操作 90
5.1.4 小結 96
5.1.5 課後習題 97
5.2 Spark GraphX 97
5.2.1 圖計算基礎知識 97
5.2.2 Spark GraphX介紹 99
5.2.3 實踐操作 101
5.2.4 小結 106
5.2.5 課後習題 106
第6章 離線計算 107
6.1 MapReduce 107
6.1.1 MapReduce介紹 108
6.1.2 安裝與配置 110
6.1.3 實踐操作 112
6.1.4 小結 133
6.1.5 課後習題 134
6.2 Spark 134
6.2.1 Spark介紹 134
6.2.2 RDD 138
6.2.3 安裝與配置 143
6.2.4 實踐操作 145
6.2.5 小結 151
6.2.6 課後習題 151
第7章 實時計算 152
7.1 Storm 152
7.1.1 流計算介紹 152
7.1.2 Storm介紹 153
7.1.3 實踐操作 156
7.1.4 小結 164
7.1.5 課後習題 164
7.2 Spark Streaming 165
7.2.1 Spark Streaming介紹 165
7.2.2 DStream操作 168
7.2.3 實踐操作 172
7.2.4 小結 174
7.2.5 課後習題 175
7.3 Flink 175
7.3.1 Flink介紹 175
7.3.2 技術對比 179
7.3.3 實踐操作 180
7.3.4 小結 186
7.3.5 課後習題 186
第8章 OLAP數據分析 187
8.1 Pig 187
8.1.1 Pig介紹 187
8.1.2 Pig Latin語言介紹 189
8.1.3 Pig的安裝與配置 191
8.1.4 實踐操作 192
8.1.5 小結 195
8.1.6 課後習題 196
8.2 Hive 196
8.2.1 數據倉庫介紹 196
8.2.2 Hive介紹 197
8.2.3 技術對比 201
8.2.4 安裝與配置 202
8.2.5 實踐操作 205
8.2.6 小結 211
8.2.7 課後習題 211
8.3 Spark SQL 211
8.3.1 Spark SQL介紹 211
8.3.2 實踐操作 214
8.3.3 小結 218
8.3.4 課後習題 218
第9章 分佈式資源管理 219
9.1 YARN介紹 219
9.1.1 YARN的基本架構 220
9.1.2 YARN組件功能 221
9.1.3 YARN的執行過程 223
9.2 實踐操作 224
9.3 小結 230
9.4 課後習題 230
第 10章 大數據處理架構 231
10.1 Lambda架構介紹 231
10.1.1 Lambda的基本結構 231
10.1.2 優勢與不足 232
10.2 Kappa架構介紹 233
10.2.1 Kappa的基本結構 233
10.2.2 優勢與不足 234
10.3 架構對比 234
10.4 小結 235
10.5 課後習題 235
參考文獻 236