大數據基本處理框架原理與實踐

劉春

出版商: 機械工業
出版日期: 2021-12-18
定價: $263
售價: 7.9 折 $208
語言: 簡體中文
頁數: 216
裝訂: 平裝
ISBN: 7111694937
ISBN-13: 9787111694939
相關分類: 大數據 Big-data

立即出貨 (庫存 < 3)

買這商品的人也買了...

~~$1,020~~ $969

Oracle Tuning Power Scripts: With 100+ High Performance SQL Scripts
~~$780~~ $616

網站可靠性工程｜Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-*外觀稍有瑕疵，不介意者再下單
~~$620~~ $484

秋聲教你學資訊安全與駭客技術：反組譯工具的使用導向
~~$350~~ $333

輕統計：日常生活的資料分析
~~$720~~ $569

Effective DevOps 中文版 (Effective DevOps: Building a Culture of Collaboration, Affinity, and Tooling at Scale)
~~$1,100~~ $1,045

All-in-one Oracle DBA Scripts: Collection of real-time dba scripts that will help you in your everyday administration tasks
~~$940~~ $893

Oracle DBA Quick Scripts: Oracle dba scripts collection used by expert database administrators everyday. Must have dba scripts for your daily ac
~~$500~~ $395

PowerShell 流程自動化攻略 (Powershell for Sysadmins: A Hands-On Guide to Automating Your Workflow)
$403

Web 前端性能優化
~~$420~~ $315

金融科技實務與應用：360度顧客視圖 + 場景金融
~~$540~~ $486

Python 論文數據統計分析
$483

監控平臺解密：IT系統風險感知和洞察
~~$520~~ $411

Web API 設計原則｜API 與微服務傳遞價值之道 (Principles of Web API Design: Delivering Value with APIs and Microservices)
~~$620~~ $490

實戰 Linux 系統數位鑑識 (Practical Linux Forensics: A Guide for Digital Investigators)
~~$580~~ $458

持續 API 管理｜在不斷演變的生態系統中做出正確決策, 2/e (Continuous API Management: Making the Right Decisions in an Evolving Landscape, 2/e)
~~$880~~ $695

建構微服務｜設計細微化的系統, 2/e (Building Microservices: Designing Fine-Grained Systems, 2/e)
$331

DevOps 原理與實踐
$387

DevOps持續萬物
~~$880~~ $695

AI 時代從基本功下手 - 深入電腦底層運作原理
~~$790~~ $624

K8S 自學聖經：10大核心模板快速入門【圖解教學】
~~$680~~ $537

現代系統管理｜可靠及永續的系統管理 (Modern System Administration: Managing Reliable and Sustainable Systems)
~~$520~~ $406

學會專案管理的 12堂課, 3/e
~~$650~~ $429

從零開始 OCS Inventory：打造資訊資產管理 × 資安 CVE 漏洞通報（iThome鐵人賽系列書）
~~$599~~ $509

資訊安全管理領導力實戰手冊
~~$660~~ $515

Python：股票 × ETF 量化交易實戰 105個活用技巧, 3/e

中文年末書展｜繁簡參展書2書75折詳見活動內容 »

75折
~~$780~~ $585

為你寫的 Vue Components：從原子到系統，一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)
75折
~~$960~~ $720

BDD in Action, 2/e (中文版)
75折
~~$750~~ $563

看不見的戰場：社群、AI 與企業資安危機
79折
~~$390~~ $308

AI 精準提問 × 高效應用：DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定
7折
~~$420~~ $294

超實用！Word．Excel．PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)
75折
~~$550~~ $412

裂縫碎光：資安數位生存戰
85折
~~$640~~ $544

日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集
79折
~~$630~~ $498

Google BI 解決方案：Looker Studio × AI 數據驅動行銷實作，完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini
79折
~~$599~~ $473

超有料 Plus！職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化！
75折
~~$690~~ $518

從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)
75折
~~$640~~ $480

Windows 11 制霸攻略：圖解 AI 與 Copilot 應用，輕鬆搞懂新手必學的 Windows 技巧
75折
~~$480~~ $360

精準駕馭 Word！論文寫作絕非難事 (好評回饋版)
~~$699~~ $629

Sam Yang 的插畫藝術：用 Procreate / PS 畫出最強男友視角 x 女孩美好日常
79折
~~$599~~ $473

AI 加持！Google Sheets 超級工作流
78折
~~$780~~ $608

想要 SSR? 快使用 Nuxt 吧!：Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化（iThome鐵人賽系列書）
75折
~~$500~~ $375

超實用！業務．總管．人資的辦公室 WORD 365 省時高手必備 50招 (第二版)
7折
~~$680~~ $476

Node-RED + YOLO + ESP32-CAM：AIoT 智慧物聯網與邊緣 AI 專題實戰
79折
~~$599~~ $473

「生成式⇄AI」：52 個零程式互動體驗，打造新世代人工智慧素養
7折
~~$720~~ $504

Windows APT Warfare：惡意程式前線戰術指南, 3/e
75折
~~$850~~ $637

我輩程式人：回顧從 Ada 到 AI 這條程式路，程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)
75折
~~$600~~ $450

不用自己寫！用 GitHub Copilot 搞定 LLM 應用開發
79折
~~$780~~ $616

Tensorflow 接班王者：Google JAX 深度學習又快又強大 (好評回饋版)
79折
~~$700~~ $553

GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)
79折
~~$460~~ $363

技術士技能檢定電腦軟體應用丙級術科解題教本｜Office 2021
75折
~~$560~~ $420

Notion 與 Notion AI 全能實戰手冊：生活、學習與職場的智慧策略 (暢銷回饋版)

商品描述

本書針對大數據處理的兩種典型方式,即批處理和流處理，
介紹了當前Apache軟件基金會三大軟件開源項目Hadoop、Spark和Storm中主要的存儲及計算框架。
本書從初學者的角度出發，聚焦於大數據處理框架的基本原理以及安裝和部署等實踐過程。
通過本書的學習，讀者在瞭解處理框架的結構、設計原理以及執行流程等原理性知識的同時，
還可以結合本書給出的完整部署過程以及WordCount等示例的完整源代碼，
熟悉如何使用這些處理框架來編寫大數據處理程序以及大數據處理程序的基本結構。
本書配套PPT、源代碼等資源，
歡迎選用本書作為教材的老師登錄機工教育服務網www.cmpedu.com註冊下載。
本書可作為高等院校計算機、數據科學與大數據技術及人工智能或相關專業的本科生或研究生教材，
也可供相關工程技術人員閱讀參考。

作者簡介

劉春
河南省時空大數據產業技術研究院
大數據基本處理框架原理與實踐

目錄大綱

前言
第1章大數據與基本處理框架1
1.1大數據產生的背景1
1.1.1數字化1
1.1.2網絡化2
1.2大數據的特徵2
1.3大數據的價值與意義3
1.3.1量變到質變3
1.3.2數據科學的產生4
1.3.3思維的變革4
1.4大數據帶來的挑戰5
1.5大數據的基本處理框架5
1.5.1Hadoop6
1.5.2Spark7
1.5.3Storm8
1.6本章小結8

第2章運行與開發環境搭建10
2.1虛擬機的創建10
2.1.1虛擬化軟件的安裝10
2.1.2虛擬機的創建11
2.1.3VMware Tools的安裝17
2.2Linux的常用命令18
2.3JDK的安裝18
2.4IDEA+Maven的安裝20
2.4.1IDEA的安裝20
2.4.2Maven的安裝21
2.4.3在IDEA項目中配置JDK和Maven22
2.5Hadoop運行環境部署23
2.5.1SSH的安裝23
2.5.2Hadoop的安裝24
2.5.3偽分佈式環境配置25
2.6本章小結27

第3章Hadoop文件系統（HDFS）28
3.1文件系統28
3.2HDFS分佈式文件系統28
3.2.1HDFS的設計目標29
3.2.2HDFS的原理與結構30
3.3HDFS的操作流程31
3.3.1HDFS文件讀流程32
3.3.2HDFS文件寫流程32
3.4HDFS的接口34
3.4.1Shell命令34
3.4.2Web客戶端36
3.4.3Java API36
3.5本章小結40

第4章Hadoop分佈式計算框架
MapReduce414.1MapReduce計算框架概述41
4.2MapReduce計算過程42
4.2.1map階段42
4.2.2shuffle階段43
4.2.3reduce階段45
4.3MapReduce的架構與運行流程45
4.4WordCount的MapReduce程序47
4.4.1WordCount程序的pom.xml文件47
4.4.2WordCount程序的Java文件48
4.4.3WordCount代碼說明50
4.5Mapper/Reducer類源碼解析52
4.6Hadoop的數據類型55
4.6.1Hadoop基本數據類型55
4.6.2自定義Hadoop數據類型56
4.7數據輸入格式InputFormat58
4.7.1默認的TextInputFormat58
4.7.2getSplits（）操作60
4.7.3LineRecordReader62
4.7.4自定義輸入格式65
4.8數據的輸出格式OutputFormat66
4.8.1默認的輸出格式
TextOutputFormat66
4.8.2LineRecordWriter68
4.8.3自定義輸出格式類型71
4.8.4Hadoop的SequenceFile71
4.9自定義Combiner類72
4.10自定義Partioner類73
4.11多MapReduce任務的串聯74
4.12本章小結78

第5章Hadoop數據庫系統HBase79
5.1HBase概述79
5.1.1數據庫與數據庫系統79
5.1.2傳統關係型數據庫系統80
5.1.3NoSQL數據庫系統80
5.1.4HBase數據庫系統80
5.2HBase的數據模型81
5.2.1HBase的邏輯視圖81
5.2.2HBase的物理視圖82
5.3HBase的架構與運行機制83
5.3.1HBase分佈式存儲策略83
5.3.2HBase的運行架構85
5.4HBase的安裝與部署88
5.4.1安裝ZooKeeper88
5.4.2安裝HBase 90
5.4.3偽分佈式環境配置90
5.5HBase操作接口與實踐92
5.5.1HBase Shell命令92
5.5.2Java API96
5.6本章小結107

第6章分佈式內存計算框架Spark108
6.1Spark概述108
6.1.1MapReduce計算框架的局限性108
6.1.2Spark的優勢與特點109
6.2Spark的架構110
6.2.1Spark的基本組件110
6.2.2Spark的運行流程111
6.3RDD112
6.3.1RDD的概念與Spark計算模型112
6.3.2RDD的各種操作114
6.3.3RDD之間的依賴關係118
6.3.4RDD計算過程的容錯處理121
6.4Scala語言介紹122
6.4.1變量和類型123
6.4.2控制結構129
6.5Spark的安裝部署131
6.5.1Spark安裝文件的下載131
6.5.2Spark的安裝過程132
6.6基於Spark Shell的WordCount程序133
6.6.1啟動Spark Shell133
6.6.2從本地及HDFS讀取WordCount數據134
6.6.3退出Spark Shell136
6.7基於IDEA+Maven的WordCount程序136
6.7.1IDEA安裝Scala插件與SDK137
6.7.2基於Scala的WordCount Spark應用程序139
6.7.3基於Java的WordCount Spark應用程序144
6.8Spark與HBase的整合146
6.8.1pom.xml文件147
6.8.2Scala Class文件148
6.9Spark創建RDD的常用方式150
6.9.1基於Scala集合創建RDD150
6.9.2基於外部存儲系統創建RDD151
6.10Spark的共享變量152
6.10.1廣播變量152
6.10.2累加器153
6.11本章小結154

第7章Spark流計算框架
（Spark Streaming）1567.1流計算與流計算框架156
7.2Spark Streaming的原理與概念157
7.2.1Spark Streaming的設計原理157
7.2.2Dstream與Dstream graph157
7.2.3Spark Streaming的結構與執行流程160
7.2.4Spark Streaming的容錯處理162
7.3Spark Streaming的WordCount案例163
7.3.1以Socket為數據源163
7.3.2以文本文件目錄為數據源166
7.4Spark Streaming整合Flume167
7.4.1Flume介紹167
7.4.2Flume的下載安裝與配置169
7.4.3整合Flume與Spark Streaming172
7.5Spark Streaming整合Kafka178
7.5.1Kafka介紹178
7.5.2Kafka的下載安裝180
7.5.3Kafka的常用命令181
7.5.4整合Kafka與Spark Streaming181
7.6本章小結184

第8章實時流計算框架Storm185
8.1Storm的邏輯架構185
8.2Storm的物理架構186
8.2.1Storm集群的架構186
8.2.2數據流的分組策略187
8.3Storm的消息容錯機制188
8.4Strom的下載與安裝190
8.4.1Storm的安裝配置190
8.4.2Storm的啟動191
8.5Storm的WordCount程序192
8.5.1Pom.xml文件193
8.5.2Java Class文件193
8.5.3提交集群運行198
8.6Storm與Hadoop的整合199
8.6.1Storm寫入數據到HDFS199
8.6.2Storm寫入數據到HBase204
8.7Flume與Storm和Kafka的整合209
8.7.1Flume與Kafka的整合209
8.7.2Storm與Kafka的整合211
8.8本章小結215
參考文獻216