Apache Sqoop Cookbook (Paperback)

Kathleen Ting, Jarek Jarcec Cecho

  • 出版商: O'Reilly|英文2書85折
  • 出版日期: 2013-08-20
  • 定價: $495
  • 售價: 9.5$470
  • 貴賓價: 9.0$446
  • 語言: 英文
  • 頁數: 94
  • 裝訂: Paperback
  • ISBN: 1449364624
  • ISBN-13: 9781449364625
  • 相關分類: Hadoop大數據 Big-data
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

相關主題

商品描述

Integrating data from multiple sources is essential in the age of big data, but it can be a challenging and time-consuming task. This handy cookbook provides dozens of ready-to-use recipes for using Apache Sqoop, the command-line interface application that optimizes data transfers between relational databases and Hadoop.

Sqoop is both powerful and bewildering, but with this cookbook’s problem-solution-discussion format, you’ll quickly learn how to deploy and then apply Sqoop in your environment. The authors provide MySQL, Oracle, and PostgreSQL database examples on GitHub that you can easily adapt for SQL Server, Netezza, Teradata, or other relational systems.

  • Transfer data from a single database table into your Hadoop ecosystem
  • Keep table data and Hadoop in sync by importing data incrementally
  • Import data from more than one database table
  • Customize transferred data by calling various database functions
  • Export generated, processed, or backed-up data from Hadoop to your database
  • Run Sqoop within Oozie, Hadoop’s specialized workflow scheduler
  • Load data into Hadoop’s data warehouse (Hive) or database (HBase)
  • Handle installation, connection, and syntax issues common to specific database vendors

商品描述(中文翻譯)

在大數據時代,整合來自多個來源的數據是必不可少的,但這可能是一項具有挑戰性且耗時的任務。這本實用的食譜提供了數十個現成的解決方案,用於使用Apache Sqoop進行數據傳輸的命令行界面應用程序,該應用程序優化了關係數據庫和Hadoop之間的數據傳輸。

Sqoop既強大又令人困惑,但通過這本食譜的問題-解決方案-討論格式,您將迅速學習如何在您的環境中部署並應用Sqoop。作者在GitHub上提供了MySQL、Oracle和PostgreSQL數據庫的示例,您可以輕鬆適應SQL Server、Netezza、Teradata或其他關係系統。

以下是本書提供的一些功能:
- 將數據從單個數據庫表傳輸到您的Hadoop生態系統
- 通過增量方式將表數據與Hadoop保持同步
- 從多個數據庫表導入數據
- 通過調用各種數據庫函數自定義傳輸的數據
- 將生成的、處理的或備份的數據從Hadoop導出到您的數據庫
- 在Hadoop的專用工作流調度程序Oozie中運行Sqoop
- 將數據加載到Hadoop的數據倉庫(Hive)或數據庫(HBase)
- 處理特定數據庫供應商常見的安裝、連接和語法問題

這本書提供了詳細的指導,幫助您克服Sqoop使用中的挑戰,並有效地進行數據傳輸和整合。無論您是數據工程師、數據科學家還是對大數據感興趣的專業人士,這本書都將成為您的寶貴資源。