Spark大數據實例開發教程 Spark大数据实例开发教程

王家林

  • 出版商: 機械工業
  • 出版日期: 2016-01-01
  • 定價: $354
  • 售價: 8.5$301
  • 語言: 簡體中文
  • 頁數: 332
  • 裝訂: 平裝
  • ISBN: 7111519094
  • ISBN-13: 9787111519096
  • 相關分類: Spark大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

相關主題

商品描述

<內容簡介>

王家林、徐香玉等編著的《Spark大數據實例開發教程》是面向Spark開發者的一本實用參考書,書中結合實例系統地介紹了Spark的開發與使用。
本書包括5章內容,第1章為spark簡介;第2章為Spark RDD實踐案例與解析;第3章為spark SQL實踐案例與解析;第4章為Spark Streaming實踐案例與解析;第5章為Tachyon實戰案例與解析。在全書最後的附錄部分介紹了Spark1.4版本的新特性。
本書適合剛接觸spark或對Spark分佈式計算的開發不熟悉的初學者學習。對於熟悉函數式開發或面向對象開發,並有一定經驗的開發者,本書也可以作為參考書。

<作者簡介>

編者:王家林//徐香玉

<章節目錄>

前言
第1章  Spark簡介
  1.1  什麼是spark
  1.2  Spark生態圈
    1.2.1  伯克利數據分析協議棧
    1.2.2  Spark開源社區發展
  1.3  RDD編程模型
    1.3.1  RDD抽象概念
    1.3.2  RDD的操作
    1.3.3  RDD的依賴關係
    1.3.4  一個典型的DAG示意圖
第2章  Spark RDD實踐案例與解析
  2.1  Spark應用程序部署
    2.1.1  Spark應用的基本概念
    2.1.2  應用程序的部署方式
  2.2  RDD數據的輸入、處理、輸出的基本案例與解析
    2.2.1  集群環境的搭建
    2.2.2  交互式工具的啟動
    2.2.3  文本數據的ETL案例實踐與解析
    2.2.4  文本數據的初步統計案例實踐與解析
    2.2.5  文本數據統計結果的持久化案例實踐與解析
    2.2.6  RDD的Lineage關係的案例與源碼解析
    2.2.7  RDD的持久化案例與解析
    2.2.8  RDD的構建案例與解析
    2.2.9  分區數設置的案例與源碼解析
  2.3  RDD API的應用案例與解析
    2.3.1  如何查找RDD API的隱式轉換
    2.3.2  RDD[T]的分區相關的API
    2.3.3  RDD[T]常用的聚合API
    2.3.4  DoubleRDDFunctions(self:RDD[Double])常用的API
    2.3.5  PairRDDFunctions[K,V]聚合相關的API
    2.3.6  RDD相互間操作的API
    2.3.7  PairRDDFunctions[K,V]間的相關API
    2.3.8  OrderedRDDFunctions[K,V,P<:Product2[K,V]]常用的API
  2.4  Spark應用程序構建
    2.4.1  基於SBT構建Spark應用程序的實例 
    2.4.2  基於IDEA構建Spark應用程序的實例
    2.4.3  Spark提交應用的調試實例
  2.5  移動因特網數據分析案例與解析
    2.5.1  移動因特網數據的準備
    2.5.2  移動因特網數據分析與解析
  2.6  Spark RDD實踐中的常見問題與解答
第3章  Spark SQL實踐案例與解析
  3.1  Spark SQL概述
  3.2  DataFrame處理的案例與解析
    3.2.1  DataFrame編程模型
    3.2.2  DataFrame基本操作案例與解析
    3.2.3  DataFrame與RDD之間的轉換案例與解析
    3.2.4  緩存表(列式存儲)的案例與解析
    3.2.5  DataFrame API的應用案例與分析

  3.3  Spark SQL處理各種數據源的案例與解析
    3.3.1  通用的加載∕保存功能的案例與解析
    3.3.2  Parquet文件處理的案例與解析
    3.3.3  JSON數據集操作的案例與解析
    3.3.4  操作Hive表的案例與解析
    3.3.5  使用JDBC操作其他數據庫的案例與解析
    3.3.6  集成Hive數據倉庫的案例與解析
  3.4  基於Hive的人力資源系統數據處理案例與解析
    3.4.1  人力資源系統的數據庫與表的構建
    3.4.2  人力資源系統的數據的加載
    3.4.3  人力資源系統的數據的查詢
第4章  Spark Streaming實踐案例與解析
  4.1  Spark Streaming概述
  4.2  Spark Streaming基礎概念
  4.3  企業信息實時處理的案例與解析
    4.3.1  處理TCP數據源的案例與解析
    4.3.2  處理HDFS文件數據源的案例與解析
    4.3.3  處理Kafka數據源的準備工作
    4.3.4  基於Receiver讀取Kafka數據的案例與解析
    4.3.5  直接讀取(無Receiver)Kafka數據的案例與解析
    4.3.6  處理Flume數據源的實踐準備
    4.3.7  基於Flume風格的推送數據案例與解析
    4.3.8  定製FlumeSink的拉取數據案例與解析
  4.4  性能調優
    4.4.1  減少批處理的時間
    4.4.2  設置正確的批間隔
    4.4.3  內存調優
第5章  Tachyon實踐案例與解析
  5.1  Taclayon概述
  5.2  重新編譯部署包
    5.2.1  重新編譯Tachyon的部署包
    5.2.2  重新編譯Spark的部署包
  5.3  Taclayon部署的案例與解析
    5.3.1  單機模式部署的案例與解析
    5.3.2  集群模式部署的案例與解析
    5.3.3  集群Master容錯部署的案例與解析
  5.4  Taclayon配置的案例與解析
    5.4.1  底層存儲系統的配置案例與解析
    5.4.2  配置屬性與解析
  5.5  命令行接口的案例與解析
    5.5.1  命令行接口的說明
    5.5.2  命令行接口的案例實踐與解析
  5.6  同步底層文件系統的案例與解析
    5.6.1  同步HDFS底層文件系統的案例與解析
    5.6.2  同步本地底層文件系統的案例與解析
  5.7  基於Tachyon運行的案例與解析
    5.7.1  基於Tachyon運行Spark的案例與解析
    5.7.2  基於Tachyon運行Hadoop MR的案例與解析
附錄  Spark 1.4版本新特性