基於Hadoop的大數據分析和處理基于Hadoop的大数据分析和处理

魏祖寬

出版商: 電子工業
出版日期: 2017-06-01
定價: $270
售價: 7.5 折 $203
語言: 簡體中文
頁數: 268
裝訂: 平裝
ISBN: 7121317397
ISBN-13: 9787121317392
相關分類: Hadoop、大數據 Big-data、Data Science

立即出貨 (庫存 < 4)

買這商品的人也買了...

~~$500~~ $450

Effective C++, 3/e (中文版) (Effective C++: 55 Specific Ways to Improve Your Programs and Designs, 3/e)
~~$320~~ $250

Kent Beck 的實作模式 (Implementation Patterns)
~~$620~~ $608

資料探勘 (Han: Data Mining: Concepts and Techniques, 3/e )
~~$780~~ $616

ASP.NET MVC 5 網站開發美學
~~$520~~ $411

Node.js 實戰手冊 (Node.js in Action)
~~$534~~ $507

Linux 設備驅動開發詳解 : 基於最新的 Linux4.0 內核
~~$360~~ $284

完整學會 Git, GitHub, Git Server 的24堂課
$862

編譯系統透視：圖解編譯原理
~~$580~~ $458

React Native 學習手冊 (Learning React Native: Building Native Mobile Apps with JavaScript)
~~$699~~ $552

超圖解物聯網 IoT 實作入門－使用 JavaScript/Node.JS/Arduino/Raspberry
~~$500~~ $395

大數據分析 Excel Power BI 全方位應用
~~$600~~ $474

SQL Server 2016 資料庫設計與開發實務 (附T-SQL範例檔、資料庫檔光碟)
$352

區塊鏈技術指南
~~$580~~ $458

PHP 學習手冊 (Learning PHP: A Pain-Free Introduction to Building Interactive Websites)
~~$590~~ $460

Node.js 設計模式 (Node.js Design Patterns)
~~$520~~ $406

通往高級駭客的修行之路 : 反逆向工程的武功絕技
~~$500~~ $395

人工智慧來了
~~$500~~ $390

Excel 樞鈕分析和商業邏輯：Power Pivot & Power BI, 2/e (Power Pivot and Power BI: The Excel User's Guide to DAX, Power Query, Power BI & Power Pivot in Excel 2010-2016, 2/e)
~~$390~~ $308

寫程式前就該懂的演算法 ─ 資料分析與程式設計人員必學的邏輯思考術 (Grokking Algorithms: An illustrated guide for programmers and other curious people)
~~$480~~ $379

Python 初學特訓班 (增訂版) (附250分鐘影音教學/範例程式)
$403

Python 爬蟲開發與項目實戰
~~$580~~ $458

Deep Learning｜用 Python 進行深度學習的基礎理論實作
~~$480~~ $432

大數據時代一定要會的自動化資料搜集術
~~$680~~ $537

SQL Server 與 R 開發實戰講堂
~~$650~~ $507

單元測試的藝術, 2/e (The Art of Unit Testing: with examples in C#, 2/e)

商品描述

本書基於雲計算和大數據，介紹大數據處理和分析的技術，分為兩部分。第一部分介紹Hadoop基礎知識，內容包括：Hadoop的介紹和集群構建、Hadoop的分部式系統架構、MapReduce及其應用、Hadoop的版本特徵及進化。第二部分以雲計算為主題，詳細論述利用Hadoop的大數據分析和處理工具，以及NoSQL技術，內容包括：雲計算和Hadoop、Amazon服務中的MapReduce應用、Hadoop應用下的大數據分析、NoSQL、HBase。本書不單純地講述理論和概念，而是基於目具體的工具和技術(Hadoop和NoSQL)，利用大量實際案例，通過實際的操作和應用來組織大數據處理和分析技術，有利於讀者從工程應用的角度進行實際掌握和利用。適合相關專業的本科生、研究生和軟件工程師學習。

作者簡介

魏祖寬，男，電子科技大學教授，博士，韓國科技協會、中國計算機學會、日本電子電器協會會員。承擔計算機以及軟件學院的本科和研究生的數據庫課程教學和實驗教學，及雲計算和大數據方面的新課。主持數據庫應用、GIS應用等方面的應用課題10多項(國家自然基金委，省/市級科技局等科研項目，以及企業橫向項目)，現專註於雲存儲方面的應用科研項目。

目錄大綱

第1章Hadoop的介紹和集群構建2

1.1 Hadoop介紹2
1.1.1雲計算和Hadoop 2
1.1.2 Hadoop的歷史4
1.2 Hadoop構建案例6
1.2.1歐美構建案例6
1.2.2韓國構建案例7
1.3構建Hadoop集群8
1.3.1分佈式文件系統8
1.3.2構建Hadoop集群的準備事項12
1.3.3構建偽分佈式17
1.3.4分佈式集群（Cluster）構建29
1.4 Hadoop界面36
1.4.1 Hadoop分佈式文件系統指令界面36
1.5總結40

第2章Hadoop分佈式處理文件系統41

2.1 Hadoop分佈式文件系統的設計42
2.2概觀Hadoop分佈式文件系統的整體構造43
2.3 Namenode的角色44
2.3.1元數據管理44
2.3.2元數據的安全保管——Edits和Fslmage文件及Secondary Namenode 49
2.3.3 Datanode管理52
2.4 Datanode的角色59
2.4.1 block管理59
2.4.2數據的複制和過程61
2.4.3 Datanode添加63
2.5總結65

第3章大數據和MapReduce 67

3.1大數據的概要68
3.1.1大數據的概念69
3.1.2大數據的價值創造69
3.2 MapReduce 71
3.2.1 MapReduce示例：頻統計（Word Count） 71
3.2.2 MapReduce開源代碼：詞頻統計（Word Count）——Java基礎75
3.2.3 MapReduce開源代碼：詞頻統計（Word Count）——Ruby語言基礎76
3.3 MapReduce的結構78
3.3 .1通過案例瞭解MapReduce結構79
3.3.2從結構性角度進行的MapReduce最優化方案81
3.4 MapReduce的容錯性（Fault Tolerance） 85
3.5 MapReduce的編程86
3.5.1搜索86
3.5.2排序87
3.5.3倒排索引87
3.5.4查找熱門詞88
3.5.5合算數字89
3.6構建Hadoop：通過MapReduce的案例介紹90
3.6.1單詞頻率統計MapReduce的編程91
3.6.2 MapReduce—用戶界面95
3.7總結99

第4章Hadoop版本特徵及進化101

4.1 Hadoop 0.1x版本的API 103
4.2 Hadoop附加功能（append） 107
4.3 Hadoop安全相關功能109
4.4 Hadoop 2.0.0 alpha 111
4.4.1安裝Hadoop 2.0.0 112
4.4.2 Hadoop分佈式文件系統的更改120
4.4.3跨時代MapReduce框架：YARN 128
4.5總結135

第5章雲計算和Hadoop 137

5.1大規模Hadoop集群的構建和案 138
5.2雲基礎設施服務的登場139
5.2.1 Amazon雲服務141
5.3在Amazon EC2中構建Hadoop集群156
5.3.1 Apache Whirr 156
5.3.2構建Hadoop集群157
5.4總結160

第6章Amazon Elastic MapReduce的倍增利用161

6.1 Amazon EMR的活用162
6.1.1 Amazon EMR的概念162
6.1.2 Amazon EMR的構造162
6.1.3 Amazon EMR的特徵163
6.1.4 Amazon EMR的Job Flow和Step 164
6.1.5使用Amazon EMR前需要瞭解的事項165
6.1.6 Amazon EMR的實戰運用170
6.2總結178

第7章Hadoop應用下的大數據分析179

7.1 Hadoop應用下的機器學習（Mahout） 180
7.1.1設置及編譯181
7.1.2 K- means聚類算法183
7.1.3基於矢量相似度的協同過濾188
7.1.4小結194
7.2基於Hadoop的統計分析Rhive（R and Hive） 195
7.2.1 R的設置及靈活運用195
7.2.2 Hive的設置及靈活運用198
7.2.3 RHive的設置及靈活運用201
7.2.4小結207
7.3利用Hadoop的圖形數據處理Giraph 207
7.4總結216

第8章數據中的DBMS，NoSQL 217

8.1 NoSQL出現背景：大據和Web 2.0 218
8.1.1基於Web 2.0的大數據的登場218
8.1.2基於大數據的NoSQL的登場221
8.1.3適合大數據和Web 2.0的數據庫NoSQL 222
8.2 NoSQL的定義和類別特徵226
8.3 NoSQL數據模型概要和分類229
8.4 NoSQL數據模型化231
8.4.1 NoSQL數據模型化基本概念232
8.4.2一般的NoSQL建模方法234
8.5主要NoSQL的比較和選擇239
8.6總結241

第9章Hbase：Hadoop中的NoSQL 243

9.1 Hadoop生態界中的HBase 244
9.2 HBase介紹248
9.3 HBase數據模型250
9.3.1 map 250
9.3.2持續性（persistent） 250
9.3.3分佈性（distributed） 250
9.3.4排序性（ sorted） 250
9.3.5多維性（multidimensional） 251
9.3.6稀疏性（sparse） 254
9.4 HBase的數據庫模式255
9.5 HBase構造259
9.6 HBase的構建及運行261
9.7 HBase的擴展——DuoBase中的HBase 264
9.8 HBase的用戶定義索引266
9.8.1 HBase用戶定義索引—HFile格式的擴展267
9.8.2 HBase用戶定義索引—Region的擴展267
9.9總結270