HDFS+MapReduce分佈式存儲與計算實戰
武漢厚溥數字科技有限公司
相關主題
商品描述
目錄大綱
目 錄
單元一 大數據概述 1
1.1 大數據基本概念 2
1.1.1 大數據與生活 2
1.1.2 大數據的特徵 4
1.1.3 大數據的發展史 4
1.1.4 雲計算、大數據和人工智能 5
1.1.5 大數據平臺——Hadoop 9
1.2 學習Hadoop的環境準備工作 12
單元小結 24
單元自測 24
單元二 大數據必備Linux知識 27
2.1 Linux目錄結構 28
2.2 Linux運行級別 29
2.3 Linux常用命令 30
2.3.1 幫助命令 30
2.3.2 顯示當前目錄絕對路徑命令 32
2.3.3 列出目錄命令 32
2.3.4 切換目錄命令 33
2.3.5 創建目錄命令 33
2.3.6 刪除文件或目錄命令 34
2.3.7 創建空文件 34
2.3.8 復制命令 35
2.3.9 移動/重命名命令 36
2.3.10 查看內容命令 36
2.3.11 分屏顯示文件內容命令 37
2.3.12 輸出重定向命令 37
2.3.13 輸出內容到控制台命令 38
2.3.14 軟鏈接命令 38
2.3.15 查看歷史執行命令 39
2.3.16 顯示當前時間命令 40
2.3.17 查看日歷命令 40
2.3.18 tar文件解壓命令 41
2.3.19 在指定的目錄下查找命令41
2.3.20 全局查找命令 42
2.3.21 在文本中查找命令 42
2.4 Linux用戶管理 43
2.4.1 添加用戶命令 43
2.4.2 創建用戶組命令 44
2.4.3 添加用戶並指定所屬組命令 44
2.4.4 修改用戶所屬組命令 44
2.4.5 刪除用戶命令 45
2.4.6 刪除用戶組命令 45
2.4.7 設置用戶密碼命令 45
2.4.8 查看用戶信息命令 45
2.4.9 切換用戶命令 46
2.4.10 查看登錄用戶信息命令 46
2.4.11 用戶、用戶組的相關文件 47
2.5 Linux組和權限管理 48
2.5.1 Linux中的權限 48
2.5.2 修改文件/目錄的所有者命令 49
2.5.3 修改文件/目錄的所屬組命令 50
2.5.4 修改文件所有者和所屬組命令 51
2.5.5 修改權限命令 52
2.6 Linux磁盤管理 53
2.6.1 查看系統整體磁盤情況命令 53
2.6.2 查看指定目錄的磁盤占用情況命令 54
2.7 Linux網絡 54
2.7.1 修改IP地址 55
2.7.2 修改主機名 55
2.8 Linux進程管理 56
2.8.1 顯示系統執行的進程命令 56
2.8.2 顯示子父進程的關系命令 57
2.8.3 終止進程命令 57
2.9 Linux服務管理 57
2.10 Linux RPM和YUM 59
2.10.1 RPM相關命令 59
2.10.2 YUM相關命令 60
2.11 Linux vim編輯器 61
2.11.1 vim的普通模式 61
2.11.2 vim的編輯模式 62
2.11.3 vim的命令模式 62
單元小結 63
單元自測 63
單元三 Hadoop偽分佈式安裝及其部署 67
3.1 前期知識準備 68
3.2 Linux環境配置 70
3.2.1 修改主機名和電腦名 70
3.2.2 配置靜態IP地址 71
3.2.3 配置SSH無密碼連接 74
3.2.4 遠程連接配置 77
3.3 JDK配置 78
3.3.1 卸載Open JDK 78
3.3.2 下載Oracle JDK 79
3.3.3 安裝Oracle JDK(root用戶權限執行) 80
3.4 安裝與部署Hadoop 81
3.4.1 安裝CDH 82
3.4.2 修改hadoop-env.sh 83
3.4.3 修改core-site.xml 83
3.4.4 修改hdfs-site.xml 83
3.4.5 修改slaves文件 84
3.4.6 追加HADOOP_HOME到環境變量中 84
3.4.7 格式化HDFS 85
3.4.8 啟動Hadoop並驗證安裝 85
3.4.9 安裝驗證 86
單元小結 87
單元自測 87
單元四 HDFS原理詳解 89
4.1 HDFS概述以及設計目標 90
4.1.1 HDFS概述 90
4.1.2 HDFS設計理念 91
4.1.3 HDFS目標 92
4.1.4 HDFS缺點 93
4.2 HDFS架構 93
4.3 HDFS副本機制 97
4.3.1 數據復制 97
4.3.2 副本存放機制 98
4.4 HDFS讀取文件和寫入文件 99
4.4.1 通過HDFS讀取文件 99
4.4.2 通過HDFS寫入文件 100
4.5 HDFS的基本文件操作 105
4.5.1 -help [cmd] 105
4.5.2 -mkdir <path> 106
4.5.3 -ls(r) <path> 106
4.5.4 -put <localsrc> <dst> 106
4.5.5 -du(s) <path> 108
4.5.6 -count[-q] <path> 109
4.5.7 -mv <src> <dst> 109
4.5.8 -cp <src> <dst> 109
4.5.9 -rm(r) 110
4.5.10 -moveFromLocal<localsrc><dest>/-moveToLocal<dest> <localscr> 110
4.5.11 -get [-ignorecrc] <src> <localdst> 110
4.5.12 -cat <src> 111
單元小結 111
單元自測 112
單元五 MapReduce計算框架詳解 115
5.1 認識MapReduce 116
5.1.1 什麽是MapReduce 116
5.1.2 MapReduce的特點 116
5.2 MapReduce編程思想 117
5.3 MapReduce執行流程 119
5.3.1 MapReduce流程分解 119
5.3.2 MapReduce詳解 120
5.4 Java版中wordcount功能的實現 121
5.5 Combiner應用程序開發 128
5.5.1 MapReduce中Combiner的作用 128
5.5.2 Combiner的原理 128
5.5.3 代碼實現 130
5.6 Partitioner應用程序開發 131
5.6.1 MapReduce中Partitioner的作用 131
5.6.2 代碼實現 131
單元小結 134
單元自測 135
單元六 搭建Hadoop完全分佈式環境 137
6.1 Hadoop的集群規劃 138
6.2 前置安裝 141
6.3 安裝JDK 142
6.4 Hadoop集群的部署 143
6.5 作業提交到Hadoop集群上運行 145
單元小結 146
單元自測 146
單元七 資源調度框架(YARN)與運用 149
7.1 YARN產生的背景 150
7.2 YARN架構 152
7.3 YARN的執行流程 154
7.4 YARN的環境搭建 155
7.5 提交作業到YARN上執行 157
單元小結 158
單元自測 158
單元八 Hive初識 161
8.1 認識Hive 162
8.2 Hive的安裝和配置 163
8.2.1 安裝MySQL 163
8.2.2 安裝Hive 168
8.2.3 驗證安裝 170
8.3 Hive操作快速入門 171
單元小結 173
單元自測 173
單元九 電商用戶行為分析項目實戰 175
9.1 背景知識 176
9.2 項目基本介紹 179
9.2.1 用戶日誌分析 179
9.2.2 常用的電商術語 180
9.2.3 用戶行為日誌的意義 181
9.3 項目需求分析 182
9.3.1 需求分析 182
9.3.2 數據處理流程 183
9.4 實現項目功能 184
9.4.1 各省份瀏覽量統計功能實現 184
9.4.2 頁面瀏覽統計功能實現 188
9.4.3 ETL的介紹和實現 192
9.4.4 功能升級 195
9.4.5 打包上傳服務器運行 202
9.5 項目功能優化 206