HDFS+MapReduce分佈式存儲與計算實戰

武漢厚溥數字科技有限公司

  • 出版商: 清華大學
  • 出版日期: 2023-03-01
  • 定價: $414
  • 售價: 8.5$352
  • 語言: 簡體中文
  • ISBN: 7302620075
  • ISBN-13: 9787302620075
  • 相關分類: 分散式架構
  • 下單後立即進貨 (約4週~6週)

  • HDFS+MapReduce分佈式存儲與計算實戰-preview-1
  • HDFS+MapReduce分佈式存儲與計算實戰-preview-2
  • HDFS+MapReduce分佈式存儲與計算實戰-preview-3
HDFS+MapReduce分佈式存儲與計算實戰-preview-1

相關主題

商品描述

"《HDFS+MapReduce分佈式存儲與計算實戰》按照高等院校電腦專業課程基本要求,註重理論和實踐相結合,採用先實踐再總結的方式,突出電腦課程的實踐性特點。本書共包括9個單元:大數據概述,大數據必備Linux知識,Hadoop偽分佈式安裝及其部署,HDFS原理詳解,MapReduce計算框架詳解,搭建Hadoop完全分佈式環境,資源調度框架(YARN)與運用,Hive初識,項目實戰。 本書內容安排合理,結構清晰,通俗易懂,實例豐富,可作為各類高等院校、培訓機構的教材,也可供大數據程序開發人員學習和參考。"

目錄大綱

目 錄

單元一  大數據概述   1

1.1    大數據基本概念   2

1.1.1 大數據與生活   2

1.1.2 大數據的特徵   4

1.1.3 大數據的發展史   4

1.1.4  雲計算、大數據和人工智能  5

1.1.5 大數據平臺——Hadoop   9

1.2 學習Hadoop的環境準備工作   12

單元小結   24

單元自測   24

單元二  大數據必備Linux知識   27

2.1 Linux目錄結構   28

2.2 Linux運行級別   29

2.3 Linux常用命令   30

2.3.1  幫助命令   30

2.3.2  顯示當前目錄絕對路徑命令   32

2.3.3  列出目錄命令   32

2.3.4  切換目錄命令   33

2.3.5  創建目錄命令   33

2.3.6  刪除文件或目錄命令   34

2.3.7  創建空文件   34

2.3.8  復制命令   35

2.3.9  移動/重命名命令   36

2.3.10  查看內容命令   36

2.3.11  分屏顯示文件內容命令  37

2.3.12  輸出重定向命令   37

2.3.13  輸出內容到控制台命令  38

2.3.14  軟鏈接命令   38

2.3.15  查看歷史執行命令   39

2.3.16  顯示當前時間命令   40

2.3.17  查看日歷命令   40

2.3.18  tar文件解壓命令   41

2.3.19  在指定的目錄下查找命令41

2.3.20  全局查找命令   42

2.3.21  在文本中查找命令   42

2.4 Linux用戶管理   43

2.4.1  添加用戶命令   43

2.4.2  創建用戶組命令   44

2.4.3  添加用戶並指定所屬組命令   44

2.4.4  修改用戶所屬組命令   44

2.4.5  刪除用戶命令   45

2.4.6  刪除用戶組命令   45

2.4.7  設置用戶密碼命令   45

2.4.8  查看用戶信息命令   45

2.4.9  切換用戶命令   46

2.4.10  查看登錄用戶信息命令   46

2.4.11  用戶、用戶組的相關文件   47

2.5 Linux組和權限管理   48

2.5.1  Linux中的權限   48

2.5.2  修改文件/目錄的所有者命令   49

2.5.3  修改文件/目錄的所屬組命令   50

2.5.4  修改文件所有者和所屬組命令   51

2.5.5  修改權限命令   52

2.6 Linux磁盤管理   53

2.6.1  查看系統整體磁盤情況命令   53

2.6.2  查看指定目錄的磁盤占用情況命令   54

2.7 Linux網絡   54

2.7.1  修改IP地址   55

2.7.2  修改主機名   55

2.8 Linux進程管理   56

2.8.1  顯示系統執行的進程命令 56

2.8.2  顯示子父進程的關系命令 57

2.8.3  終止進程命令   57

2.9 Linux服務管理   57

2.10 Linux RPM和YUM   59

2.10.1  RPM相關命令   59

2.10.2  YUM相關命令   60

2.11 Linux vim編輯器   61

2.11.1  vim的普通模式   61

2.11.2  vim的編輯模式   62

2.11.3  vim的命令模式   62

單元小結   63

單元自測   63

單元三  Hadoop偽分佈式安裝及其部署   67

3.1  前期知識準備   68

3.2  Linux環境配置   70

3.2.1  修改主機名和電腦名   70

3.2.2  配置靜態IP地址   71

3.2.3  配置SSH無密碼連接   74

3.2.4  遠程連接配置   77

3.3  JDK配置   78

3.3.1  卸載Open JDK   78

3.3.2  下載Oracle JDK   79

3.3.3  安裝Oracle JDK(root用戶權限執行)   80

3.4  安裝與部署Hadoop   81

3.4.1  安裝CDH   82

3.4.2  修改hadoop-env.sh   83

3.4.3  修改core-site.xml   83

3.4.4  修改hdfs-site.xml   83

3.4.5  修改slaves文件   84

3.4.6  追加HADOOP_HOME到環境變量中   84

3.4.7  格式化HDFS   85

3.4.8  啟動Hadoop並驗證安裝   85

3.4.9  安裝驗證   86

單元小結   87

單元自測   87

單元四  HDFS原理詳解   89

4.1  HDFS概述以及設計目標   90

4.1.1  HDFS概述   90

4.1.2  HDFS設計理念   91

4.1.3  HDFS目標   92

4.1.4  HDFS缺點   93

4.2  HDFS架構   93

4.3  HDFS副本機制   97

4.3.1  數據復制   97

4.3.2  副本存放機制   98

4.4  HDFS讀取文件和寫入文件  99

4.4.1  通過HDFS讀取文件   99

4.4.2  通過HDFS寫入文件   100

4.5  HDFS的基本文件操作   105

4.5.1  -help [cmd]   105

4.5.2  -mkdir <path>   106

4.5.3  -ls(r) <path>   106

4.5.4  -put <localsrc> <dst>   106

4.5.5  -du(s) <path>   108

4.5.6  -count[-q] <path>   109

4.5.7  -mv <src> <dst>   109

4.5.8  -cp <src> <dst>   109

4.5.9  -rm(r)   110

4.5.10  -moveFromLocal<localsrc><dest>/-moveToLocal<dest> <localscr>   110

4.5.11  -get [-ignorecrc] <src> <localdst>   110

4.5.12  -cat <src>   111

單元小結   111

單元自測   112

單元五  MapReduce計算框架詳解   115

5.1  認識MapReduce   116

5.1.1  什麽是MapReduce   116

5.1.2  MapReduce的特點   116

5.2  MapReduce編程思想   117

5.3  MapReduce執行流程   119

5.3.1  MapReduce流程分解   119

5.3.2  MapReduce詳解   120

5.4  Java版中wordcount功能的實現   121

5.5  Combiner應用程序開發   128

5.5.1  MapReduce中Combiner的作用   128

5.5.2  Combiner的原理   128

5.5.3  代碼實現   130

5.6  Partitioner應用程序開發   131

5.6.1  MapReduce中Partitioner的作用   131

5.6.2  代碼實現   131

單元小結   134

單元自測   135

單元六  搭建Hadoop完全分佈式環境   137

6.1  Hadoop的集群規劃   138

6.2  前置安裝   141

6.3  安裝JDK   142

6.4  Hadoop集群的部署   143

6.5  作業提交到Hadoop集群上運行   145

單元小結   146

單元自測   146

單元七  資源調度框架(YARN)與運用   149

7.1 YARN產生的背景   150

7.2 YARN架構   152

7.3 YARN的執行流程   154

7.4 YARN的環境搭建   155

7.5 提交作業到YARN上執行  157

單元小結   158

單元自測   158

單元八  Hive初識   161

8.1 認識Hive   162

8.2 Hive的安裝和配置   163

8.2.1  安裝MySQL   163

8.2.2  安裝Hive   168

8.2.3  驗證安裝   170

8.3 Hive操作快速入門   171

單元小結   173

單元自測   173

單元九  電商用戶行為分析項目實戰   175

9.1 背景知識   176

9.2 項目基本介紹   179

9.2.1  用戶日誌分析   179

9.2.2  常用的電商術語   180

9.2.3  用戶行為日誌的意義   181

9.3 項目需求分析   182

9.3.1  需求分析   182

9.3.2  數據處理流程   183

9.4  實現項目功能   184

9.4.1  各省份瀏覽量統計功能實現   184

9.4.2  頁面瀏覽統計功能實現  188

9.4.3  ETL的介紹和實現   192

9.4.4  功能升級   195

9.4.5  打包上傳服務器運行   202

9.5  項目功能優化   206