Hadoop大數據平臺構建與應用(第2版)(微課版)
馬榮飛,王昕雨,王傳東
- 出版商: 電子工業
- 出版日期: 2024-07-01
- 定價: $330
- 售價: 8.5 折 $281
- 語言: 簡體中文
- 頁數: 260
- ISBN: 712148160X
- ISBN-13: 9787121481604
-
相關分類:
Hadoop、大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書基於Hadoop大數據平臺,講解大數據平臺的搭建與運維、數據的採集與存儲、數據的處理、數據的分析、數據的可視化等完整的大數據應用案例,不僅全面、詳細地講述Hadoop、MapReduce、HDFS、Hive、Spark和ZooKeeper等技術的相關知識,還詳細介紹Hadoop集群和Hadoop HA集群的部署等內容。本書具有較強的實用性和可操作性,語言精練,通俗易懂,操作步驟描述詳盡,並配有大量操作圖例。
目錄大綱
項目1 Ubuntu系統的安裝與使用 1
1.1 大數據技術與Hadoop平臺生態 1
1.1.1 大數據 1
1.1.2 大數據關鍵技術 2
1.1.3 大數據涉及的主要軟件 4
1.1.4 Hadoop平臺技術的生態 4
1.2 Ubuntu系統安裝 7
1.2.1 安裝VMware Workstation 7
1.2.2 在虛擬機中安裝Ubuntu系統 12
1.2.3 VMware快照 28
1.2.4 中英文輸入法切換 30
1.2.5 安裝VMware Tools 30
1.2.6 案例1-1:安裝vim編輯器並使用 34
1.2.7 案例1 2:apt更新與更新源項目實踐 36
1.2.8 案例1 3:安裝SSH實踐 39
1.3 Linux系統簡介與應用 40
1.3.1 Linux系統的目錄結構 40
1.3.2 超級用戶——root用戶 42
1.3.3 目錄標記規則 43
1.3.4 案例1 4:普通用戶與超級用戶互轉實例 43
1.3.5 案例1 5:創建與刪除普通用戶 44
1.3.6 案例1-6:為用戶授予目錄權限實例 45
1.3.7 案例1 7:修改主機名操作實踐 46
1.3.8 案例1 8:目錄和文件操作實踐 47
1.3.9 案例1-9:文件解壓縮操作實踐 48
1.3.10 案例1-10:進程與埠查看命令操作實踐 49
1.3.11 案例1 11:數據流重定向和管道使用操作實踐 50
1.4 在Ubuntu系統中安裝Eclipse項目實踐 51
1.4.1 通過軟件中心下載並安裝Eclipse 51
1.4.2 在桌面中創建Eclipse快捷方式 53
1.5 思考與操作 53
項目2 Hadoop偽分佈式模式部署 56
2.1 深入瞭解Hadoop 56
2.1.1 Hadoop發行版本介紹 56
2.1.2 Hadoop核心架構 57
2.1.3 Hadoop的主要應用場景 58
2.2 安裝Java環境(JDK) 59
2.3 安裝Hadoop實踐 61
2.3.1 下載Hadoop安裝文件並解壓縮 61
2.3.2 配置Hadoop環境變量 62
2.3.3 配置偽分佈式模式 63
2.3.4 Hadoop無法正常啟動和使用的解決方法 66
2.4 思考與操作 67
項目3 分佈式文件系統HDFS 69
3.1 HDFS基本知識 69
3.1.1 分佈式文件系統(DFS)簡介 69
3.1.2 Hadoop分佈式文件系統(HDFS) 70
3.1.3 HDFS存儲數據 70
3.2 使用Shell命令與HDFS進行交互操作實踐 72
3.2.1 Hadoop Shell命令方式 72
3.2.2 案例3-1:目錄操作實踐 73
3.2.3 案例3-2:文件操作實踐 74
3.2.4 案例3-3:利用Web管理界面管理HDFS 75
3.3 利用Java API編程與HDFS實現交互實踐 76
3.3.1 在Eclipse中創建HDFS交互Java項目的基本步驟 76
3.3.2 在Java項目中編寫Java應用程序代碼 81
3.3.3 編譯並運行程序與打包 83
3.3.4 練慣用的代碼文件 88
3.4 思考與操作 91
項目4 HBase偽分佈式模式部署與使用 94
4.1 HBase介紹 94
4.2 安裝HBase 95
4.3 HBase偽分佈式模式部署實踐 97
4.4 HBase Shell常用操作命令實踐 100
4.4.1 HBase表結構形式和常用的表操作命令 100
4.4.2 案例4-1:在HBase數據庫中創建表和刪除表 101
4.4.3 案例4-2:HBase數據庫基本操作 102
4.5 思考與操作 104
項目5 MapReduce基礎編程實踐 107
5.1 MapReduce介紹與基本原理 107
5.1.1 MapReduce在現實生活中的例子描述 107
5.1.2 通過案例拆解MapReduce的工作過程 108
5.1.3 MapReduce的工作過程概括 112
5.2 MapReduce編程思路 112
5.3 MapReduce編程實踐:單詞統計(WordCount)案例 113
5.3.1 在Java項目中添加MapReduce編程支持功能 113
5.3.2 編寫程序 116
5.3.3 編譯與打包及運行程序 121
5.4 MapReduce編程項目:計算學生的平均成績 125
5.5 思考與操作 128
項目6 Hive偽分佈式模式部署與使用 131
6.1 Hive的特點 131
6.2 Hive偽分佈式模式部署實踐 132
6.2.1 安裝與配置Hive 132
6.2.2 安裝與配置MySQL讀寫Hive元數據庫 133
6.3 MySQL數據庫操作 137
6.3.1 常用命令介紹 137
6.3.2 無法登錄MySQL的解決方法 139
6.4 思考與操作 140
項目7 數據分析與Hive數據庫操作 142
7.1 Hive操作命令介紹及實踐 142
7.2 HQL中的“CASE WHEN THEN ELSE END”命令的用法 144
7.3 單詞統計 147
7.4 人口收入數據綜合分析 148
7.4.1 項目實現目標 149
7.4.2 數據結構分析與安全配置條件 149
7.4.3 目標實現操作 150
7.5 思考與操作 153
項目8 Spark安裝與基礎編程 155
8.1 Spark的安裝(Python版)實踐 155
8.1.1 下載Spark安裝文件 156
8.1.2 安裝與配置Spark 156
8.1.3 在pyspark中運行代碼 157
8.1.4 Spark獨立應用程序編程案例實踐 158
8.2 Spark的一些基本概念 159
8.3 RDD編程操作 160
8.3.1 RDD操作的兩種類型 160
8.3.2 創建RDD操作實踐案例 161
8.3.3 鍵值對RDD的創建案例 165
8.4 從RDD到DataFrame實踐 168
8.4.1 Spark SQL和DataFrame 168
8.4.2 創建樣例數據文件 170
8.4.3 從JSON文件和CSV文件中讀取數據生成DataFrame 171
8.4.4 從普通文本文件中讀取數據生成DataFrame 172
8.5 Spark項目編程與Python可視化 175
8.5.1 Spark項目編程實踐 176
8.5.2 Python可視化呈現 179
8.6 思考與操作 185
項目9 Hadoop從完全分佈式到HA安裝與使用 190
9.1 Hadoop HA模式介紹 190
9.1.1 Hadoop HA模式的背景 190
9.1.2 Hadoop HA模式的架構 191
9.2 安裝虛擬機系統項目實踐 192
9.2.1 在VMware Workstation中創建虛擬機 193
9.2.2 安裝CentOS 7系統 199
9.2.3 設置網絡靜態IP地址 201
9.2.4 使用XShell 6登錄CentOS虛擬機 204
9.2.5 預先統一安裝軟件命令或預先配置設置 207
9.2.6 克隆3個虛擬機 208
9.3 命名節點主機名稱並設置SSH免密登錄 209
9.3.1 修改各節點虛擬機主機名 209
9.3.2 實現主機名與IP地址映射 210
9.3.3 設置SSH免密登錄 210
9.4 安裝JDK實踐 215
9.5 安裝與配置ZooKeeper實踐 218
9.5.1 安裝ZooKeeper 218
9.5.2 啟動和關閉ZooKeeper 221
9.6 配置Hadoop完全分佈式集群 224
9.6.1 上傳、解壓縮Hadoop安裝文件與配置環境變量 224
9.6.2 將Hadoop配置為完全分佈式模式 225
9.7 部署Hadoop HA集群實踐 229
9.7.1 編輯Hadoop HA集群配置文件 229
9.7.2 將修改後的Hadoop HA集群配置文件分發到各個節點 233
9.7.3 第一次啟動Hadoop HA集群 234
9.7.4 常規啟動Hadoop HA集群 239
9.7.5 Hadoop HA集群部署完成後的常規啟動和關閉順序 240
9.7.6 在Hadoop HA集群上測試WordCount程序 243
9.8 思考與操作 244