Apache Mahout Clustering Designs
暫譯: Apache Mahout 聚類設計

Ashish Gupta

  • 出版商: Packt Publishing
  • 售價: $1,660
  • 貴賓價: 9.5$1,577
  • 語言: 英文
  • 頁數: 130
  • 裝訂: Paperback
  • ISBN: 1783284439
  • ISBN-13: 9781783284436
  • 海外代購書籍(需單獨結帳)

相關主題

商品描述

Explore clustering algorithms used with Apache Mahout

About This Book

  • Use Mahout for clustering datasets and gain useful insights
  • Explore the different clustering algorithms used in day-to-day work
  • A practical guide to create and evaluate your own clustering models using real world data sets

Who This Book Is For

This book is for developers who want to try out clustering on large datasets using Mahout. It will also be useful for those users who don't have background in Mahout, but have knowledge of basic programming and are familiar with basics of machine learning and clustering. It will be helpful if you know about clustering techniques with some other tool.

What You Will Learn

  • Explore clustering algorithms and cluster evaluation techniques
  • Learn different types of clustering and distance measuring techniques
  • Perform clustering on your data using K-Means clustering
  • Discover how canopy clustering is used as pre-process step for K-Means
  • Use the Fuzzy K-Means algorithm in Apache Mahout
  • Implement Streaming K-Means clustering in Mahout
  • Learn Spectral K-Means clustering implementation of Mahout

In Detail

As more and more organizations are discovering the use of big data analytics, interest in platforms that provide storage, computation, and analytic capabilities has increased. Apache Mahout caters to this need and paves the way for the implementation of complex algorithms in the field of machine learning to better analyse your data and get useful insights into it.

Starting with the introduction of clustering algorithms, this book provides an insight into Apache Mahout and different algorithms it uses for clustering data. It provides a general introduction of the algorithms, such as K-Means, Fuzzy K-Means, StreamingKMeans, and how to use Mahout to cluster your data using a particular algorithm. You will study the different types of clustering and learn how to use Apache Mahout with real world data sets to implement and evaluate your clusters.

This book will discuss about cluster improvement and visualization using Mahout APIs and also explore model-based clustering and topic modelling using Dirichlet process. Finally, you will learn how to build and deploy a model for production use.

Style and approach

This book is a hand's-on guide with examples using real-world datasets. Each chapter begins by explaining the algorithm in detail and follows up with showing how to use mahout for that algorithm using example data-sets.

商品描述(中文翻譯)

探索與 Apache Mahout 一起使用的聚類演算法

關於本書



  • 使用 Mahout 進行資料集的聚類,並獲得有用的見解

  • 探索日常工作中使用的不同聚類演算法

  • 實用指南,使用真實世界的資料集創建和評估自己的聚類模型

本書適合誰


本書適合希望使用 Mahout 在大型資料集上嘗試聚類的開發人員。對於那些沒有 Mahout 背景但具備基本程式設計知識並熟悉機器學習和聚類基礎的使用者也會很有幫助。如果您了解其他工具的聚類技術,這本書將會對您有所幫助。

您將學到什麼



  • 探索聚類演算法和聚類評估技術

  • 學習不同類型的聚類和距離測量技術

  • 使用 K-Means 聚類對您的資料進行聚類

  • 了解如何將樹冠聚類作為 K-Means 的預處理步驟

  • 在 Apache Mahout 中使用模糊 K-Means 演算法

  • 在 Mahout 中實現流式 K-Means 聚類

  • 學習 Mahout 的光譜 K-Means 聚類實現

詳細內容


隨著越來越多的組織發現大數據分析的用途,對於提供存儲、計算和分析能力的平台的興趣也在增加。Apache Mahout 滿足了這一需求,為在機器學習領域實現複雜演算法鋪平了道路,以更好地分析您的資料並獲得有用的見解。


本書從聚類演算法的介紹開始,提供了對 Apache Mahout 及其用於聚類資料的不同演算法的見解。它提供了演算法的一般介紹,例如 K-Means、模糊 K-Means、流式 K-Means,以及如何使用 Mahout 根據特定演算法對您的資料進行聚類。您將學習不同類型的聚類,並了解如何使用 Apache Mahout 與真實世界的資料集來實現和評估您的聚類。


本書將討論使用 Mahout API 進行聚類改進和可視化,並探索基於模型的聚類和使用 Dirichlet 過程的主題建模。最後,您將學習如何構建和部署生產用模型。

風格與方法


本書是一個實用指南,包含使用真實世界資料集的範例。每一章都詳細解釋演算法,並隨後展示如何使用 Mahout 針對該演算法使用範例資料集。