CDA數據分析師系列叢書:Spark大數據分析技術與實戰 CDA数据分析师系列丛书:Spark大数据分析技术与实战

Name: CDA數據分析師系列叢書:Spark大數據分析技術與實戰
Price: 280 TWD
Availability: InStock
Author: 董軼群, 曹正鳳, 趙仁乾, 王安
ISBN: 7121319039

董軼群, 曹正鳳, 趙仁乾, 王安

出版商: 電子工業
出版日期: 2017-07-01
定價: $354
售價: 7.9 折 $280
語言: 簡體中文
頁數: 219
裝訂: 平裝
ISBN: 7121319039
ISBN-13: 9787121319037
相關分類: Spark、大數據 Big-data、Data Science

立即出貨 (庫存 < 3)

買這商品的人也買了...

~~$590~~ $502

大話資料結構
$250

Android 三維程式設計 — 基於 OpenGL ES 的圖形應用程式設計 (Learn OpenGL ES: For Mobile Game and Graphics Development)
~~$560~~ $437

Python 程式設計實務－從初學到活用 Python 開發技巧的16堂課
~~$450~~ $356

學會 Swift 3 程式設計的 21堂課
~~$720~~ $562

iOS 10 App 程式設計實力超進化實戰攻略 : 知名 iOS教學部落格 AppCoda 作家親授實作關鍵技巧讓你不NG
~~$480~~ $379

Python 初學特訓班 (附250分鐘影音教學/範例程式)
~~$590~~ $502

今天不學機器學習，明天就被機器取代：從 Python 入手+演算法
~~$680~~ $578

超圖解 Arduino 互動設計入門, 3/e
~~$500~~ $425

Python 自動化的樂趣｜搞定重複瑣碎 & 單調無聊的工作 (中文版) (Automate the Boring Stuff with Python: Practical Programming for Total Beginners)
~~$480~~ $379

系統管理員懶人包｜Shell Script 自動化指令集 (Wicked Cool Shell Scripts)
$332

ASP.NET Core 跨平臺開發從入門到實戰
~~$590~~ $460

TensorFlow + Keras 深度學習人工智慧實務應用
~~$390~~ $308

寫程式前就該懂的演算法 ─ 資料分析與程式設計人員必學的邏輯思考術 (Grokking Algorithms: An illustrated guide for programmers and other curious people)
~~$500~~ $395

Docker 入門與實戰, 2/e
~~$474~~ $450

Python 地理數據處理 (Geoprocessing with Python)
~~$320~~ $253

翻倍效率工作術 - 不會就太可惜的 Excel+Power BI 大數據視覺圖表設計與分析
~~$520~~ $411

實戰 Google 深度學習技術：使用 TensorFlow
~~$580~~ $458

Deep Learning｜用 Python 進行深度學習的基礎理論實作
$301

Spark與Hadoop大數據分析 (Big Data Analytics)
~~$594~~ $564

概率機器人 (Probabilistic robotics)
~~$490~~ $245

Python 網路爬蟲實戰
$352

白話深度學習與 TensorFlow
$403

大數據之路:阿裡巴巴大數據實踐
~~$480~~ $432

大數據時代一定要會的自動化資料搜集術
~~$680~~ $578

SQL Server 與 R 開發實戰講堂

商品描述

Spark作為下一代大數據處理引擎，經過短短幾年的飛躍式發展，正在以燎原之勢席捲業界，現已成為大數據產業中的一股中堅力量。本書著重講解了Spark內核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念與理論框架，並提供了相應的示例與解析。全書共分8章，其中前4章介紹Spark內核，主要包括Spark簡介、集群部署、工作原理、核心概念與操作等；後4章分別介紹Spark內核上的核心組件，每章系統地介紹Spark的一個組件，並附以相應的案例分析。本書適合作為高等院校電腦相關專業的研究生學習參考資料，也適合大數據技術初學者閱讀，還適合於所有願意對大數據技術有所瞭解並想要將大數據技術應用於本職工作的讀者閱讀。

作者簡介

經管之家（www.jg.com.cn）：原人大經濟論壇，於2003年成立，致力於推動經管學科的進步，傳播優秀教育資源，目前已經發展成為國內優秀的經濟、管理、金融、統計類的在線教育和諮詢網站，也是國內活躍和具影響力的經管類網絡社區。經管之家從2006年起在國內開展數據分析培訓，累計培訓學員數萬人。在大數據的趨勢背景下，創新“CDA數據分析師”品牌，致力於為社會各界數據分析愛好者提供優質、科學、系統的數據分析教育。截至2016年3月已成功舉辦40多期系統培訓，培訓學員達3千餘名；CDA認證考試已成功舉辦三屆，報考人數上千人；中國數據分析師俱樂部（CDA CLUB），每週線下免費沙龍活動，已舉力40多期，累積會員2千餘名；中國數據分析師行業峰會（CDA Summit），一年兩屆，參會人數皆達2千餘名，在大數據領域影響力超前。“CDA數據分析師”隊伍在業界不斷壯大，對數據分析人才產業起到了巨大的推動作用。

目錄大綱

第1章Spark導論1

1.1Spark的發展2
1.2什麼是Spark3
1.3Spark主要特徵3
1.3.1快速3
1.3.2簡潔易用5
1.3.3通用6
1.3.4多種運行模式8

第2章Spark集群部署9

2.1運行環境說明9
2.1.1軟硬件環境9
2.1.2集群網絡環境10
2.2安裝VMwareWorkstation1110
2.3安裝CentOS616
2.4安裝Hadoop21
2.4.1克隆並啟動虛擬機21
2.4.2網絡基本配置24
2.4.3安裝JDK27
2.4.4免密鑰登錄配置28
2.4.5Hadoop配置29
2.4.6配置從節點33
2.4.7配置系統文件33
2.4.8啟動Hadoop集群33
2.5安裝Scala35
2.6安裝Spark36
2.6.1下載並解壓Spark安裝包36
2.6.2配置Spark—env.sh37
2.6.3配置Spark—defaults.conf37
2.6.4配置Slaves38
2.6.5配置環境變量38
2.6.6發送至Slave1、Slave239
2.7啟動Spark39

第3章RDD編程42

3.1 RDD定義42
3.2RDD的特性43
3.2.1分區43
3.2.2依賴44
3.2.3計算45
3.2.4分區函數45
3.2.5優先位置46
3.3創建操作46
3.3.1基於集合的創建操作47
3.3. 2基於外部存儲的創建操作47
3.4常見執行操作49
3.5常轉換操作49
3.5.1一元轉換操作50
3.5.2二元轉換操作53
3.6持久化操作56
3.7存儲操作58

第4章Spark調度管理與應用程序開發59

4.1Spark調度管理基本概念59
4.2作業調度流程60
4.2.1作業的生成與提交61
4.2.2階段的劃分62
4.2.3調度階段的提交62
4.2.4任務的提交與執行62
4.3基於IntelliJIDEA構建Spark應用程序64
4.3.1安裝IntelliJIDEA64
4.3.2創建Spark應用程序70
4.3.3集群模式運行Spark應用程序81

第5章GraphX87

5.1GraphX概述87
5.2GraphX基本原理89
5.2.1圖計算模型處理流程89
5.2.2GraphX定義90
5.2.3GraphX的特點90
5.3GraphX設計與實現91
5.3.1彈性分佈式屬性圖91
5.3.2圖的數據模型92
5.3.3圖的存儲模型94
5.3.4GraphX模型框架97
5.4GraphX操作97
5.4.1創建圖97
5.4.2基本屬性操作100
5.4.3結構操作102
5.4.4轉換操作103
5.4.5連接操作105
5.4.6聚合操作106
5.5GraphX案例解析107
5.5.1PageRank算法與案例解析107
5.5.2TriangleCount算法與案例解析110

第6章SparkSQL113

6.1SparkSQL概述113
6.2SparkSQL邏輯架構116
6.2.1SQL執行流程116
6.2.2Catalyst117
6.3SparkSQLCLI117
6.3.1硬軟件環境117
6.3.2集群環境118
6.3.3結合Hive118
6.3.4啟動Hive118
6.4DataFrame編程模型119
6.4.1DataFrame簡介119
6.4.2創建DataFrames120
6.4.3保存DataFrames126
6.5DataFrame常見操作127
6.5.1數據展示127
6.5.2常用列操作128
6.5.3過濾131
6.5.4排序132
6.5.5其他常見操作134
6.6基於Hive的學生信息管理系統的SQL查詢案例與解析137
6.6.1SparkSQL整合Hive137
6.6.2構建數據倉庫138
6.6.3加載數據141
6.6.4查詢數據142

第7章SparkStreaming146

7.1SparkStreaming概述146
7.2 SparkStreaming基礎概念147
7.2.1批處理時間間隔147
7.2.2窗口時間間隔148
7.2.3滑動時間間隔148
7.3DStream基本概念149
7.4DStream的基本操作150
7.4.1無狀態轉換操作150
7.4.2有狀態轉換操作152
7.4.3輸出操作153
7.4.4持久化操作154
7.5數據源154
7.5.1基礎數據源154
7.5.2高級數據源155
7.6SparkStreaming編程模式與案例分析156
7.6.1SparkStreaming編程模式156
7.6.2文本文件數據處理案例（一）157
7.6.3文本文件數據處理案例（二）160
7.6.4網絡數據處理案例（一）164
7.6 .5網絡數據處理案例（二）171
7.6.6stateful應用案例175
7.6.7window應用案例180
7.7性能考量185
7.7.1運行時間優化185
7.7.2內存使用與垃圾回收186

第8章SparkMLlib187

8.1SparkMLlib概述187
8.1.1機器學習介紹187
8.1.2SparkMLlib簡介189
8.2MLlib向量與矩陣190
8.2.1MLlib向量190
8.2.2MLlib矩陣192
8.3SparkMLlib分類算法196
8.3.1貝葉斯分類算法197
8.3.2支持向量機算法201
8.3.3決策樹算法204
8.4MLlib線性回歸算法208
8.5MLlib聚類算法212
8.6MLlib協同過濾215