開源大數據分析引擎 Impala 實戰开源大数据分析引擎Impala实战

賈傳青

出版商: 清華大學
出版日期: 2015-03-01
定價: $354
售價: 8.5 折 $301
語言: 簡體中文
頁數: 329
裝訂: 平裝
ISBN: 7302390029
ISBN-13: 9787302390022
相關分類: 大數據 Big-data、Data Science

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

~~$880~~ $695

Hadoop 技術手冊, 3/e (Hadoop: The Definitive Guide, 3/e)
~~$320~~ $253

1% 的差距：贏家掌握人心的語言學 (Win: The Key Principles to Take Your Business from Ordinary to Extraordinary)
~~$940~~ $700

無瑕的程式碼－敏捷軟體開發技巧守則 + 番外篇－專業程式設計師的生存之道 (雙書合購)
~~$499~~ $449

寫好英文有一套：英文寫作風格的要素＋決勝英語搭配力超值套書
~~$410~~ $390

學術論文寫作, 3/e
~~$300~~ $210

好問題，建立好關係：轉變工作、人際和家庭的337個關鍵問題
~~$2,050~~ $1,948

Big Data Analytics with R and Hadoop（Paperback）
~~$420~~ $357

洞悉價格背後的心理戰：訂價不是數學而是心理學，開價、議價、談判的技術(Priceless: The Myth of Fair Value)
$969

Getting Started with Impala: Interactive SQL for Apache Hadoop (Paperback)
~~$380~~ $342

遠見者：麥肯錫之父馬文‧鮑爾的領導風範(McKinsey’s Marvin Bower: Vision, Leadership, and the Creation of Management Consulting)
~~$260~~ $221

小論文大師教你寫作的技術：《回話的藝術》大師傳授「我手即我口」絕技，600 字傳達觀點、解決問題
~~$360~~ $306

機率陷阱：從購物、保險到用藥，如何做出最萬無一失的選擇？(Risk Savvy: How to Make Good Decisions)
~~$540~~ $459

Hadoop 再進化：Storm 流式資料即時處理引擎
~~$550~~ $523

統計學 : 應用與進階, 3/e
$199

Oracle NoSQL數據庫--實時大數據管理
~~$250~~ $213

圖解第一次買股票就上手 (最新修訂版)
~~$560~~ $476

奠定大數據的基石：NoSQL 資料庫技術
~~$300~~ $255

驚異北緯 30 度─62個不可思議的神祕巧合 (秘航北緯30度---發現google earth 沒透露的驚人巧合)
~~$580~~ $493

用 Kali Linux 破解每一台連網裝置
~~$360~~ $284

完整學會 Git, GitHub, Git Server 的24堂課
$403

觸手可及的大數據分析工具：Tableau 案例集
$305

圖解機器學習
$403

機器學習
~~$680~~ $530

持續交付 2.0：實務導向的 DevOps
~~$760~~ $501

Node.js 量化投資全攻略：從資料收集到自動化交易系統建構實戰（iThome鐵人賽系列書）【軟精裝】

商品描述

<內容簡介>

    Impala是Cloudera公司主導開發的新型查詢系統，它提供SQL語義，能查詢存儲在Hadoop的HDFS和HBase中的PB級大數據。Impala 1.0版比原來基於MapReduce的Hive SQL查詢速度提升3?90倍，因此，Impala有可能完全取代Hive。作者賈傳青基於自己在本職工作中應用Impala的實踐和心得編寫了這本《開源大數據分析引擎Impala實戰》。
    本書共分10章，全面介紹開源大數據分析引擎Impala的技術背景、安裝與配置、架構、操作方法、性能優化，以及最富技術含量的應用設計原則和應用案例。
    本書緊扣目前計算技術發展熱點，適合所有大數據分析人員、大數據開發人員和大數據管理人員參考使用。

<章節目錄>

第1章 Impala概述、安裝與配置
1.1 Impala概述
1.2 Cloudera Manager安裝準備
1.3 CM及 CDH安裝
1.4 Hive安裝
1.5 Impala安裝
第2章 Impala入門示例
2.1 數據加載
2.2 數據查詢
2.3 分區表
2.4 外部分區表
2.5 笛卡爾連接
2.6 更新元數據
第3章 Impala概念及架構
3.1 Impala服務器組件
    3.1.1 Impala Daemon
    3.1.2 Impala Statestore
    3.1.3 Impala Catalog
3.2 Impala應用編程
    3.2.1 Impala SQL方言
    3.2.2 Impala編程接口概述
3.3 與Hadoop生態系統集成
    3.3.1 與Hive集成
    3.3.2 與HDFS集成
    3.3.3 使用HBase
第4章 SQL語句
4.1 註釋
4.2 數據類型
    4.2.1 BIGINT
    4.2.2 BOOLEAN
    4.2.3 DOUBLE
    4.2.4 FLOAT
    4.2.5 INT
    4.2.6 REAL
    4.2.7 SMALLINT
    4.2.8 STRING
    4.2.9 TIMESTAMP
    4.2.10 TINYINT
4.3 常量
    4.3.1 數值常量
    4.3.2 字符串常量
    4.3.3 布爾常量
    4.3.4 時間戳常量
    4.3.5 NULL
4.4 SQL操作符
    4.4.1 BETWEEN操作符
    4.4.2 比較操作符
    4.4.3 IN操作符
    4.4.4 IS NULL操作符
    4.4.5 LIKE操作符

    4.4.6 REGEXP操作符
4.5 模式對象和對象名稱
    4.5.1 別名
    4.5.2 標示符
    4.5.3 數據庫
    4.5.4 表
    4.5.5 視圖
    4.5.6 函數
4.6 SQL語句
    4.6.1 ALTER TABLE
    4.6.2 ALTER VIEW
    4.6.3 COMPUTE STATS
    4.6.4 CREATE DATABASE
    4.6.5 CREATE FUNCTION
    4.6.6 CREATE TABLE
    4.6.7 CREATE VIEW
    4.6.8 DESCRIBE
    4.6.9 DROP DATABASE
    4.6.10 DROP FUNCTION
    4.6.11 DROP TABLE
    4.6.12 DROP VIEW
    4.6.13 EXPLAIN
    4.6.14 INSERT
    4.6.15 INVALIDATE METADATA
    4.6.16 LOAD DATA
    4.6.17 REFRESH
    4.6.18 SELECT
    4.6.19 SHOW
    4.6.20 USE
4.7 內嵌函數
    4.7.1 數學函數
    4.7.2 類型轉換函數
    4.7.3 時間和日期函數
    4.7.4 條件函數
    4.7.5 字符串函數
    4.7.6 特殊函數
4.8 聚集函數
    4.8.1 AVG
    4.8.2 COUNT
    4.8.3 GROUP_CONCAT
    4.8.4 MAX
    4.8.5 MIN
    4.8.6 NDV
    4.8.7 SUM
4.9 用戶自定義函數UDF
    4.9.1 UDF概念
    4.9.2 安裝UDF開發包
    4.9.3 編寫UDF
    4.9.4 編寫UDAF
    4.9.5 編譯和部署UDF

    4.9.6 UDF性能
    4.9.7 創建和使用UDF示例
    4.9.8 UDF安全
    4.9.9 Impala UDF的限制
4.10 Impala SQL &Hive QL
4.11 將 SQL移植到Impala上
第5章 Impala shell
5.1 命令行選項
5.2 連接到Impalad
5.3 運行命令
5.4 命令參考
5.5 查詢參數設置
第6章 Impala管理
6.1 準入控制和查詢隊列
    6.1.1 準入控制概述
    6.1.2 準入控制和YARN
    6.1.3 併發查詢限制
    6.1.4 準入控制和Impala客戶端協同工作
    6.1.5 配置準入控制
    6.1.6 使用準入控制指導原則
6.2 使用YARN資源管理(CDH5)
    6.2.1 Llama進程
    6.2.2 檢查計算的資源和實際使用的資源
    6.2.3 資源限制如何生效
    6.2.4 啟用Impala資源管理
    6.2.5 資源管理相關impala-shell參數
    6.2.6 Impala資源管理的限制
6.3 為進程，查詢，會話設定超時限制
6.4 通過代理實現Impala高可用性
6.5 管理磁盤空間
第7章 Impala存儲
7.1 文件格式選擇
7.2 Text
    7.2.1 查詢性能
    7.2.2 創建文本表
    7.2.3 數據文件
    7.2.4 加載數據
    7.2.5 LZO壓縮
7.3 Parquet
    7.3.1 創建Parquet表
    7.3.2 加載數據
    7.3.3 查詢性能
    7.3.4 Snappy/Gzip壓縮
    7.3.5 與其他組件交換 Parquet數據文件
    7.3.6 Parquet數據文件組織方式
7.4 Avro
    7.4.1 創建Avro表
    7.4.2 使用Hive創建的Avro表
    7.4.3 通過JSON指定Avro模式
    7.4.4 啟用壓縮

    7.4.5 模式進化
7.5 RCFile
    7.5.1 創建RCFile表和加載數據
    7.5.2 啟用壓縮
7.6 SequenceFile
    7.6.1 創建和加載數據
    7.6.2 啟用壓縮
7.7 HBase
    7.7.1 支持的 Hbase列類型
    7.7.2 性能問題
    7.7.3 適用場景
    7.7.4 數據加載
    7.7.5 啟用壓縮
    7.7.6 限制
    7.7.7 示例
第8章 Impala分區
8.1 分區技術適用場合
8.2 分區表相關 SQL語句
8.3 分區修剪
8.4 分區鍵列
8.5 使用不同的文件格式
第9章 Impala性能優化
9.1 最佳實踐
9.2 連接查詢優化
9.3 使用統計信息
9.4 基準測試
9.5 控制資源使用
9.6 性能測試
9.7 使用 EXPLAIN信息
9.8 使用 PROFILE信息
第10章 Impala設計原則與應用案例
10.1 設計原則
10.2 應用案例