大數據分析技術基礎
榮垂田 著
- 出版商: 機械工業
- 出版日期: 2021-08-01
- 定價: $234
- 售價: 7.0 折 $164
- 語言: 簡體中文
- 頁數: 190
- 裝訂: 平裝
- ISBN: 711168558X
- ISBN-13: 9787111685586
-
相關分類:
大數據 Big-data、Data Science
立即出貨 (庫存 < 3)
相關主題
商品描述
大數據已發展成為一個學科。
本書作為該領域的入門教材,在內容上盡可能覆蓋大數據分析的基本理論和基本技術。
全書共9章:
第1章介紹大數據發展的背景和相關的理論知識;
第2章介紹大數據的採集方法,以及數據採集案例;
第3章介紹大數據處理平台Hadoop,以及Hadoop在不同系統平台上的安裝和部署方法;
第4章介紹MapReduce編程方法和開發工具,以及MapReduce編程實例;
第5章介紹HDFS及其相關的操作方法;
第6章介紹HBase及其相關的操作方法;
第7章介紹Hive及其在不同平台上的安裝和部署方法、應用案例;
第8章介紹大數據處理平台Spark,以及Spark編程實例;
第9章介紹NoSQL數據庫,以及典型的NoSQL數據庫系統。
本書可作為高等學校計算機、數據科學與大數據技術及人工智能或相關專業的本科生或研究生教材,
也可供對大數據分析感興趣的工程技術人員閱讀參考。
目錄大綱
前 言
第1章 大數據概述 1
11 大數據時代 1
111 大數據的發展歷程 1
112 大數據發展的內在驅動力 2
12 大數據的相關概念 6
121 大數據的5V特徵 6
122 大數據的相關定義 6
13 大數據的影響 8
14 大數據分析 9
141 大數據分析的特點 9
142 大數據分析的流程 9
143 大數據分析的核心技術 10
144 大數據分析的計算模式 11
15 大數據的行業應用 12
151 社交大數據 12
152 醫療大數據 13
153 房地產大數據 13
16 大數據與其他領域的關係 14
161 雲計算、大數據和物聯網 14
162 大數據與人工智能 16
習題 16
第2章 大數據的採集 18
21 大數據的來源 18
22 大數據採集工具 19
23 大數據預處理 19
24 Nutch應用案例 20
241 Nutch的安裝和配置 21
242 Nutch爬取與內容解析 23
25 Scrapy應用案例 25
251 Scrapy框架概述 25
252 Scrapy的安裝和配置 27
253 Scrapy爬取實例 27
254 總結 35
習題 36
第3章 大數據處理平台
Hadoop 37
31 Hadoop概述 37
311 Hadoop的發展歷程 37
312 Hadoop的體系結構 38
313 Hadoop的特點 39
32 Hadoop的安裝和配置 40
321 準備工作 40
322 Hadoop軟件的安裝和配置 42
習題 64
第4章 MapReduce編程 66
41 MapReduce概述 66
42 開發工具IntelliJ IDEA 67
43 編程實例 71
431 MapReduce經典入門程序——
字數統計(WordCount) 71
432 MapReduce經典進階程序 81
433 在集群上運行MapReduce
程序 87
習題 93
第5章 HDFS 94
51 HDFS概述 94
52 HDFS的架構及特點 95
53 文件格式及其訪問方法 96
531 TextFile 97
532 SequenceFile 99
533 MapFile 102
534 RCFile 106
54 分佈式緩存 109
55 HDFS Shell命令 112
56 HDFS的其他訪問方式 116
習題 122
第6章 HBase 123
61 HBase概述 123
62 HBase的數據模型 124
63 HBase的邏輯結構 125
64 HBase的架構及特點 126
65 HBase的安裝與配置 129
66 HBase Shell命令 135
67 使用Java API訪問 HBase 140
習題 145
第7章 Hive 146
71 Hive概述 146
72 在本地安裝運行Hive 147
721 下載源文件 147
722 修改配置文件 148
723 啟動Hive 150
724 創建數據庫和文件夾 152
725 建表及加載數據 152
726 測試Hive 153
73 在Linux中安裝Hive 155
731 機器準備 155
732 Hive安裝包準備 155
733 修改Hive配置文件 156
734 修改Linux環境變量 157
735 啟動Hive和相關測試 158
習題 159
第8章 大數據處理平台Spark 160
81 Spark概述 160
811 Spark的概念 160
812 學習Spark的原因 160
813 Spark組件 161
814 Spark任務執行過程 162
82 Spark本地(Windows)
安裝 163
821 安裝Scala 163
822 安裝Hadoop 164
823 安裝Spark 165
83 Spark集群安裝 166
84 Spark運行實例 169
841 蒙特·卡羅算法求π 169
842 WordCount程序 169
習題 170
第9章 NoSQL數據庫 171
91 NoSQL數據庫概述 171
911 NoSQL的產生 171
912 互聯網對關係數據庫提出的
新要求 172
913 NoSQL數據庫的分類 172
92 MongoDB 173
921 MongoDB概述 173
922 MongoDB的優勢 173
923 MongoDB的安裝 174
924 MongoDB使用實例 178
93 Redis 180
931 Redis概述 180
932 Redis的應用場景 181
933 Redis的數據類型及操作 181
934 Redis的安裝 182
935 Redis使用實例 184
94 Memcached 185
941 Memcached概述 185
942 Memcached的應用場景 186
943 Memcached的數據類型
及操作 186
944 Memcached的安裝 187
945 Memcached使用實例 188
習題 189
參考文獻 190