大數據技術基礎(第2版)
宋旭東 主編,劉月凡 宋亮 王立娟 李修飛 副主編,路文靜 路旭明 王春爽 於林林 參編
- 出版商: 清華大學
- 出版日期: 2024-08-01
- 售價: $359
- 貴賓價: 9.5 折 $341
- 語言: 簡體中文
- ISBN: 7302667306
- ISBN-13: 9787302667308
-
相關分類:
大數據 Big-data
立即出貨 (庫存 < 3)
相關主題
商品描述
"本書系統介紹了大數據基礎知識和相關技術,全書分為大數據基礎、大數據存儲與管理篇、大數據採集與預處理、大數據分析與挖掘、大數據平臺Hadoop實踐與應用案例5篇,共17章,主要內容包括大數據基本概念、大數據平臺Hadoop基礎、大數據存儲與管理基本概念、大數據分佈式文件系統HDFS、大數據分佈式數據庫系統HBase、大數據分佈式數據倉庫系統Hive、大數據採集與預處理技術、大數據採集工具、大數據計算模式、大數據MapReduce計算模型、大數據Spark計算模型、大數據Flink計算模型、大數據MapReduce基礎算法、大數據挖掘算法、Hadoop大數據平臺實踐、開敞式碼頭系泊纜力預測應用案例以及曙光XData大數據平臺及應用案例。全書提供了大量應用實例,且大多章後附有習題。本書特色在於融會貫通大數據基本概念與大數據技術及應用,很好地將大數據概念、技術及應用融合在一起,便於讀者更好地理解大數據基本概念,更快掌握大數據前沿技術及其應用。 本書適合作為高等院校電腦、軟件工程、信息管理等相關專業的本科生及研究生大數據技術課程的教學用書,也可作為相關IT工程技術人員的參考用書。 本書適合機器學習初學者,包括本科生、研究生以及未來有意向從事人工智能領域工作的人員學習使用。 "
目錄大綱
目〓〓錄
第1篇大數據基礎
第1章大數據基本概念
1.1大數據時代
1.1.1大數據有多大
1.1.2大數據的產生
1.1.3大數據的發展歷程
1.1.4大數據對科學研究的影響
1.1.5大數據對思維模式的影響
1.2大數據的定義與特徵
1.2.1大數據的定義
1.2.2大數據的數據特徵
1.3大數據的應用
1.3.1大數據在科研領域的應用
1.3.2大數據在交通領域的應用
1.3.3大數據在通信領域的應用
1.3.4大數據在醫療領域的應用
1.3.5大數據在金融領域的應用
1.3.6大數據在製造領域的應用
1.3.7大數據在體育領域的應用
1.3.8大數據在個性化生活領域的應用
1.3.9大數據在安全領域的應用
1.4大數據框架體系
1.4.1大數據基礎設施層
1.4.2大數據採集層
1.4.3大數據存儲層
1.4.4大數據處理層
1.4.5大數據交互展示層
1.4.6大數據應用層
1.5大數據關鍵技術
1.5.1數據採集與預處理技術
1.5.2數據存儲和管理技術
1.5.3數據分析與挖掘技術
1.5.4數據可視化技術
1.5.5數據安全和隱私保護技術
1.6大數據支撐技術
1.6.1雲計算
1.6.2物聯網
1.6.3人工智能
習題
第2章大數據平臺Hadoop基礎
2.1大數據平臺Hadoop概述
2.1.1Hadoop簡介
2.1.2Hadoop項目起源
2.1.3Hadoop發展歷程
2.1.4Hadoop特性
2.1.5Hadoop主要用途
2.2大數據平臺Hadoop原理
2.2.1分佈式計算原理
2.2.2MapReduce原理
2.2.3Yarn原理
2.3大數據平臺Hadoop組件
2.3.1HDFS組件
2.3.2MapReduce組件
2.3.3ZooKeeper組件
2.3.4Yarn組件
2.3.5HBase組件
2.3.6Hive組件
2.3.7Spark組件
2.3.8Mahout組件
2.3.9Flume組件
2.3.10Sqoop組件
2.3.11Kafka組件
2.3.12Pig組件
2.3.13Ambari組件
2.3.14Tez組件
2.3.15Common組件
習題
第2篇大數據存儲與管理
第3章大數據存儲與管理基本概念
3.1大數據的數據類型
3.1.1結構化數據
3.1.2半結構化數據
3.1.3非結構化數據
3.2數據管理技術的發展
3.2.1文件系統階段
3.2.2數據庫系統階段
3.2.3數據倉庫階段
3.2.4分佈式系統階段
3.3分佈式系統基礎理論
3.3.1CAP理論
3.3.2BASE思想
3.4NoSQL數據庫
3.4.1NoSQL數據庫的興起
3.4.2NoSQL數據庫與關系數據庫的比較
3.4.3NoSQL數據庫的4大類型
3.5大數據存儲與管理技術
3.5.1分佈式存儲技術
3.5.2虛擬化技術
3.5.3雲存儲技術
習題
第4章大數據分佈式文件系統HDFS
4.1HDFS概述
4.1.1HDFS簡介
4.1.2HDFS設計特點
4.2HDFS工作原理
4.2.1HDFS體系結構
4.2.2HDFS工作組件
4.3HDFS工作流程
4.3.1讀數據的過程
4.3.2寫數據的過程
4.4HDFS基本操作
4.4.1HDFS文件操作
4.4.2HDFS管理命令
4.5HDFS編程接口
4.5.1HDFS常用Java API
4.5.2HDFS API編程實例
習題
第5章大數據分佈式數據庫系統HBase
5.1HBase概述
5.1.1HBase簡介
5.1.2HBase特性
5.1.3HBase與傳統關系數據庫對比
5.1.4HBase應用場景
5.2HBase數據模型
5.2.1HBase數據模型術語
5.2.2HBase數據邏輯模型
5.2.3HBase數據物理模型
5.3HBase工作原理
5.3.1HBase體系結構
5.3.2HBase工作組件
5.4HBase安裝
5.4.1下載HBase
5.4.2安裝HBase
5.4.3啟動HBase
5.4.4關閉HBase
5.5HBase操作命令
5.5.1HBase表操作
5.5.2HBase數據操作
5.6HBase編程接口
5.6.1HBase常用Java API
5.6.2HBase API編程實例
習題
第6章大數據分佈式數據倉庫系統Hive
6.1Hive概述
6.1.1Hive特性
6.1.2Hive工作原理
6.1.3Hive執行流程
6.2Hive數據類型及數據模型
6.2.1Hive數據類型
6.2.2Hive數據模型
6.3安裝Hive
6.3.1下載Hive
6.3.2安裝配置Hive
6.3.3安裝MySQL
6.3.4配置MySQL允許Hive接入
6.3.5啟動Hive
6.3.6關閉Hive
6.4Hive SQL
6.4.1DDL語句
6.4.2DML語句
6.4.3DQL語句
6.4.4Hive操作實例
6.5Hive訪問接口
6.5.1Hive CLI訪問接口
6.5.2JDBC訪問接口
習題
第3篇大數據採集與預處理
第7章大數據採集與預處理技術
7.1數據抽取、轉換、加載技術
7.1.1ETL概述
7.1.2數據抽取
7.1.3數據轉換
7.1.4數據加載
7.1.5ETL工具
7.2數據爬蟲技術
7.2.1爬蟲流程
7.2.2爬蟲分類
7.2.3大數據爬蟲技術
7.3數據預處理技術
7.3.1數據清理
7.3.2數據集成
7.3.3數據變換
7.3.4數據歸約
習題
第8章大數據採集工具
8.1Sqoop關系型大數據採集系統
8.1.1Sqoop簡介
8.1.2Sqoop工作原理
8.2Flume日誌大數據採集系統
8.2.1Flume簡介
8.2.2Flume工作原理
8.2.3Flume的配置與啟動
8.3Kafka消息隊列大數據採集系統
8.3.1Kafka簡介
8.3.2Kafka工作原理
8.3.3Kafka的配置與啟動
8.4Nutch分佈式大數據爬蟲系統
8.4.1Nutch簡介
8.4.2Nutch工作原理
習題
第4篇大數據分析與挖掘
第9章大數據計算模式
9.1大數據批處理
9.1.1大數據批處理概述
9.1.2大數據批處理常用組件
9.2大數據查詢分析計算
9.2.1大數據查詢分析計算概述
9.2.2大數據查詢分析計算組件
9.3大數據流計算
9.3.1大數據流計算概述
9.3.2大數據流計算組件
9.4大數據迭代計算
9.4.1大數據迭代計算概述
9.4.2迭代計算組件
9.5大數據圖計算
9.5.1大數據圖計算概述
9.5.2圖計算組件
習題
第10章大數據MapReduce計算模型
10.1MapReduce概述
10.1.1MapReduce簡介
10.1.2MapReduce由來
10.1.3MapReduce主要功能
10.1.4MapReduce技術特徵
10.2MapReduce模型框架
10.2.1MapReduce設計思想
10.2.2MapReduce模型架構
10.3MapReduce數據處理過程
10.3.1MapReduce運行原理
10.3.2數據輸入輸出流程
10.4MapReduce程序執行過程
10.4.1作業提交
10.4.2作業初始化
10.4.3作業分配
10.4.4任務執行
10.4.5過程和狀態更新
10.4.6作業完成
10.5MapReduce編程接口
10.5.1數據讀入
10.5.2Mapper類和Reducer類
10.5.3數據處理
10.5.4數據輸出
10.6MapReduce實例分析
10.6.1WordCount MapReduce設計
10.6.2WordCount編程實現
習題
第11章大數據Spark計算模型
11.1Spark概述
11.1.1Spark產生
11.1.2Spark的相關概念及其組件
11.1.3Spark特性
11.2Spark工作原理
11.2.1RDD原理
11.2.2Spark工作流程
11.2.3Spark集群架構及運行模式
11.2.4Spark Streaming工作原理
11.3Spark訪問接口
11.3.1Spark訪問接口概述
11.3.2SparkContext 訪問接口
11.3.3RDD 訪問接口
11.4Spark實例分析
11.4.1Spark Shell WordCount編程實現
11.4.2Scala WordCount編程實現
11.4.3Java WordCount編程實現
習題
第12章大數據Flink計算模型
12.1Flink概述
12.1.1Flink簡介
12.1.2Flink的由來
12.1.3Flink流處理
12.1.4Flink的核心特性
12.2Flink工作原理
12.2.1Flink的計算框架
12.2.2Flink的體系結構
12.2.3Flink的運行架構
12.3Flink編程接口
12.3.1Flink的編程模型
12.3.2Flink的編程結構
12.4Flink實例分析
12.4.1Scala WordCount編程實現
12.4.2Java WordCount編程實現
習題
第13章大數據MapReduce基礎算法
13.1關系代數運算
13.1.1關系代數運算規則
13.1.2關系代數運算的MapReduce設計與實現
13.2矩陣乘法
13.2.1矩陣乘法原理
13.2.2矩陣乘法MapReduce設計
13.2.3矩陣乘法MapReduce實現
習題
第14章大數據挖掘算法
14.1大數據關聯分析算法
14.1.1Apriori算法簡介
14.1.2Apriori算法MapReduce設計
14.1.3Apriori算法MapReduce實現
14.2大數據KNN分類算法
14.2.1KNN分類算法簡介
14.2.2KNN算法MapReduce設計
14.2.3KNN算法MapReduce實現
14.3大數據KMeans聚類算法
14.3.1KMeans聚類算法簡介
14.3.2基於MapReduce的KMeans算法的設計
14.3.3基於MapReduce的KMeans算法的實現
14.4大數據回歸分析算法
14.4.1大數據回歸分析算法簡介
14.4.2基於MapReduce的多元回歸分析算法設計
14.4.3基於MapReduce的多元回歸分析算法的實現
習題
第5篇大數據平臺Hadoop實踐與應用案例
第15章Hadoop大數據平臺實踐
15.1Hadoop系統的安裝與配置
15.1.1安裝前的準備工作
15.1.2Linux虛擬機的安裝
15.1.3安裝和配置JDK
15.1.4下載安裝Hadoop
15.1.5SSH免密登錄
15.1.6虛擬機克隆
15.1.7Hadoop運行
15.1.8查看集群狀態
15.2Hadoop平臺基本操作
15.2.1Hadoop啟動與關閉命令
15.2.2Hadoop文件操作
15.2.3Hadoop程序運行命令
15.3Hadoop平臺程序開發過程
15.3.1開發環境配置
15.3.2程序開發流程
習題
第16章開敞式碼頭系泊纜力預測應用案例
16.1開敞式碼頭系泊纜力預測背景描述
16.1.1開敞式碼頭系泊作業背景描述
16.1.2開敞式碼頭系泊纜力預測背景
16.2大數據系泊纜力相似性查詢預測方法
16.2.1模糊相似性查詢基本方法
16.2.2系泊纜力相似性查詢預測模型
16.3相似性查詢預測方法MapReduce設計
16.3.1相似性查詢預測方法Map設計
16.3.2相似性查詢預測方法Reduce設計
16.4相似性查詢預測方法MapReduce實現
16.4.1系泊纜力預測結果展示
16.4.2系泊纜力預測結果分析
第17章曙光XData大數據平臺及應用案例
17.1曙光XData大數據平臺簡介
17.1.1曙光XData大數據平臺概述
17.1.2曙光XData大數據平臺特點及應用
17.2曙光大數據平臺架構及關鍵技術
17.2.1曙光XData大數據平臺架構
17.2.2曙光XData大數據平臺關鍵技術
17.3曙光XData大數據平臺組件
17.3.1曙光XData大數據集成與數據治理組件
17.3.2曙光XData大數據存儲與數據計算組件
17.3.3曙光XData大數據分析與數據智能組件
17.3.4曙光XData大數據可視化分析組件
17.3.5曙光XData大數據安全管控與管理運維組件
17.4曙光XData大數據平臺操作實踐
17.4.1曙光XData大數據平臺安裝與配置概述
17.4.2曙光XData大數據平臺基本操作
17.5基於曙光XData大數據平臺的智能交通應用案例
17.5.1曙光XData智能交通應用項目背景
17.5.2曙光XData智能交通應用方案設計
17.5.3曙光XData智能交通功能實現及應用效果
參考文獻