大數據採集與預處理技術 (HDFS + HBase + Hive + Python)(微課視頻版)

唐世偉田楓蓋璇李學貴

預覽內頁

出版商: 清華大學
出版日期: 2022-09-01
定價: $359
售價: 8.5 折 $305
語言: 簡體中文
ISBN: 7302612242
ISBN-13: 9787302612247
相關分類: NoSQL、大數據 Big-data

立即出貨 (庫存 < 4)

大數據採集與預處理技術 (HDFS + HBase + Hive + Python)(微課視頻版)-preview-1

買這商品的人也買了...

~~$590~~ $460

TensorFlow + Keras 深度學習人工智慧實務應用
$454

無線傳感器網絡原理 (Principles of wireless sensor networks)
$301

特徵工程入門與實踐 (Feature Engineering Made Easy)
$505

機器學習：算法視角（Machine Learning: An Algorithmic Perspective 2/e）
$658

HBase原理與實踐
~~$520~~ $411

STP 行銷策略之 Python 商業應用實戰｜網路爬蟲 x 機器學習 x 數據分析
$505

聲紋技術：從核心算法到工程實踐
$830

統計學習要素：機器學習中的數據挖掘、推斷與預測, 2/e (The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2/e)
~~$500~~ $490

EDA 設計流程整合 ─ 如何建構一台功能完整的 EDA 伺服器
~~$600~~ $570

工業大數據分析實踐
$454

深度學習與目標檢測 : 工具、原理與算法
~~$354~~ $336

機器學習與振動信號處理
~~$620~~ $527

銷售 AI 化！看資料科學家如何思考, 用 Python 打造能賺錢的機器學習模型
~~$534~~ $507

時間序列預測 : 基於機器學習和 Python 實現 (Machine Learning for Time Series Forecasting with Python)
~~$620~~ $490

統計之美：人工智慧時代的科學思維, 2/e
$454

大數據平臺架構
~~$1,280~~ $1,011

從 Docker 動手邁入全新 DevOps 時代：最完整 Kubernetes 全書
$352

HBase 應用實戰與性能調優
$505

Hadoop 3.x 大數據開發實戰 (視頻教學版)
~~$768~~ $730

Apache Airflow 數據編排實戰
$407

實戰大數據分佈式大數據分析處理系統開發與應用
~~$980~~ $774

機器學習最強入門 - 基礎數學／機率／統計邁向AI真實數據專題實作 - 王者歸來
$403

無線傳感器網絡（微課視頻版）
$505

基於接收信號強度的無線傳感器網絡目標定位與跟蹤
~~$768~~ $730

分佈式傳感器陣列定位技術

商品描述

本書主要介紹大數據關鍵技術中的大數據採集和數據預處理技術，是大數據專業的入門級的專業基礎課教程（含教學課件、源代碼與視頻教程），旨在為學生搭建起大數據的知識架構，講述大數據採集和數據預處理的基本原理，開展相關的實驗，為學生在大數據以及相關領域的學習奠定堅實的基礎。全書共分四部分：第一部分是理論基礎（第1~2章和第6章），主要介紹大數據技術、大數據採集和大數據預處理的基本概念以及基礎理論；第二部分是大數據採集（第3~5章），分別介紹3種大數據的採集方法、技術及4種工具；第三部分是大數據預處理（第7~8章），介紹4種大數據預處理技術、方法；第四部分是實驗指導（第9~11章），介紹大數據採集和大數據預處理的實驗平臺以及具體實驗的內容、方法、流程等。為便於讀者高效學習，快速掌握大數據專業基礎知識。作者精心製作了完整的教學課件（11章PPT）與部分配套視頻教程（200分鐘）。本書可以作為高等院校電腦、電子信息、信息管理、軟件工程等專業，尤其大數據相關專業的本科和碩士研究生教材或參考書。

目錄大綱

隨書資源

第1章概述

1.1大數據基礎

1.1.1大數據的定義與特徵

1.1.2我國的大數據發展及趨勢

1.1.3大數據的應用

1.1.4大數據的層次架構

1.2大數據技術

1.2.1大數據關鍵技術

1.2.2大數據支撐技術

1.3大數據的影響及思維方式

1.3.1大數據的影響

1.3.2大數據的思維方式

1.4大數據倫理及安全

1.4.1大數據倫理

1.4.2大數據安全

1.5本章小結

習題

第2章大數據採集技術基礎

2.1傳統數據採集技術

2.1.1傳統數據採集及特點

2.1.2傳統數據採集的硬件與軟件

2.1.3傳統數據採集的關鍵技術

2.2大數據採集基礎

2.2.1大數據採集的概念

2.2.2大數據採集的要點

2.2.3大數據的來源

2.2.4大數據採集的基本方法

2.3大數據分佈式文件系統

2.3.1數據管理技術的發展

2.3.2HDFS概述

2.3.3HDFS特點

2.3.4HDFS工作原理

2.3.5HDFS的讀/寫數據流程

2.4分佈式數據庫系統HBase

2.4.1分佈式關系數據庫系統的缺陷

2.4.2HBase簡介

2.4.3HBase的數據模型關鍵要素

2.4.4HBase的體系結構

2.5大數據分佈式數據倉庫

2.5.1數據倉庫的特點

2.5.2Hive的內部架構

2.5.3Hive的數據組織

2.6本章小結

習題

第3章系統日誌數據採集

3.1系統日誌數據採集概述

3.1.1系統日誌分類

3.1.2日誌分析應用場景

3.1.3系統日誌收集方法

3.2Flume數據採集

3.2.1Flume效益

3.2.2Flume整體結構

3.2.3Flume的核心部件Agent

3.2.4Flume運行機構

3.3Scribe數據採集

3.3.1Scribe的功能

3.3.2Scribe的架構

3.3.3Scribe的流程

3.3.4Scribe存儲類型

3.4Event Log Analyzer數據採集

3.4.1Event Log Analyzer特點

3.4.2Event Log Analyzer主要功能

3.4.3Event Log Analyzer的可視化用戶界面

3.5基於Log Parser的數據採集

3.5.1Log Parser組成部分

3.5.2Log Parser Lizard軟件功能

3.5.3Log Parser Lizard軟件特色

3.6本章小結

習題

第4章大數據遷移

4.1數據遷移基礎

4.1.1大數據遷移的需求

4.1.2大數據遷移的風險

4.1.3大數據遷移的流程

4.1.4大數據遷移任務類型

4.2數據遷移相關技術

4.2.1基於存儲的數據遷移

4.2.2基於主機邏輯捲的數據遷移

4.2.3基於數據庫的數據遷移

4.2.4基於服務器虛擬化的數據遷移

4.3大數據遷移工具Sqoop

4.3.1Sqoop概述

4.3.2Sqoop的數據導入

4.3.3Sqoop的數據導出

4.4ETL數據遷移技術

4.4.1ETL概述

4.4.2ETL的實現模式

4.4.3ETL工具

4.5本章小結

習題

第5章因特網數據採集

5.1網絡爬蟲概述

5.1.1網絡爬蟲的基本概念

5.1.2網絡爬蟲的爬行策略

5.1.3Web更新策略

5.1.4robots協議

5.2網絡爬蟲方法

5.2.1按功能分類的網絡爬蟲

5.2.2通用網絡爬蟲

5.2.3焦點網絡爬蟲

5.2.4Deep Web爬蟲

5.2.5分佈式網絡爬蟲

5.3網絡爬蟲工具

5.3.1ParseHub

5.3.2Web Scraper

5.3.3後羿採集器

5.3.4八爪魚收集器

5.4Python爬蟲技術

5.4.1Python爬行器基礎知識

5.4.2反爬蟲與反爬蟲技術

5.5本章小結

習題

第6章數據預處理基礎

6.1數據的描述

6.1.1數據對象與屬性類型

6.1.2數據的統計描述

6.1.3數據矩陣與相似（相異）矩陣

6.2相似性或相異性度量方法

6.2.1標稱屬性相似性或相異性的度量

6.2.2二元屬性相似性或相異性的度量

6.2.3數值屬性相似性或相異性的度量

6.2.4文檔相似性和相異性的度量

6.3大數據質量

6.3.1常見的數據質量問題

6.3.2大數據質量標準

6.4本章小結

習題

第7章數據清洗與集成

7.1數據清洗基礎

7.1.1數據清洗的任務

7.1.2數據清洗的前期準備

7.1.3數據清洗的一般性系統框架

7.2數據清洗技術

7.2.1缺失值處理

7.2.2光滑噪聲數據處理

7.2.3檢測偏差與糾正偏差

7.3數據集成基礎

7.3.1數據集成的難點

7.3.2數據集成的方式

7.4數據集成技術

7.4.1模式識別和對象匹配

7.4.2冗餘處理

7.4.3數據值沖突的檢測與處理

7.5本章小結

習題

第8章數據歸約與變換

8.1數據歸約基礎

8.1.1數據歸約策略

8.1.2數據歸約算法的特點

8.1.3數據歸約的一般方法

8.2數據歸約技術

8.2.1小波變換

8.2.2主成分分析

8.2.3屬性子集選擇

8.2.4回歸和對數線性模型

8.2.5直方圖

8.2.6數據立方體聚集

8.3數據變換基礎

8.3.1數據變換內容

8.3.2數據變換的意義

8.4數據變換技術

8.4.1規範化變換

8.4.2離散化變換

8.4.3標稱數據的概念層次變換

8.5本章小結

習題

第9章大數據採集實驗

9.1實驗1基於EventLog Analyzer的日誌分析

9.2實驗2基於Log Parser的日誌處理

9.3實驗3基於八爪魚採集器的網絡信息爬取

9.4實驗4瞭解和使用Python和requests庫

9.5實驗5使用PyCharm編寫requests庫爬蟲

9.6實驗6使用PyCharm編寫BeautifulSoup庫爬蟲

9.7本章小結

第10章大數據預處理實驗

10.1實驗1啟動、瞭解SaCa大數據實驗平臺

10.2實驗2使用SaCa大數據實驗平臺分析數據

10.3實驗3大數據預處理基礎——數據集成

10.4實驗4缺失值填充

10.5實驗5數據規範化

10.6實驗6連續特徵離散化

10.7實驗7主成分分析

10.8實驗8相關性特徵選擇

10.9本章小結

第11章大數據採集與預處理應用案例

11.1基於Pandas圖書數據分析處理

11.1.1案例意義

11.1.2Pandas庫

11.1.3圖書數據採集

11.1.4數據預處理及分析

11.2石油數據預處理系統

11.2.1石油數據預處理系統需求

11.2.2石油數據預處理系統流程

11.2.3石油數據預處理算法

11.2.4實驗數據預處理結果分析

11.3電影票房預測數據分析處理

11.3.1案例意義

11.3.2數據處理流程

11.3.3數據採集和分析

11.3.4數據處理和預測

參考文獻

大數據採集與預處理技術 (HDFS + HBase + Hive + Python)(微課視頻版)

唐世偉田楓蓋璇李學貴

買這商品的人也買了...

商品描述

目錄大綱

類似商品

最後瀏覽商品 (1)

大數據採集與預處理技術 (HDFS + HBase + Hive + Python)(微課視頻版)

唐世偉 田楓 蓋璇 李學貴

買這商品的人也買了...

商品描述

目錄大綱

類似商品

最後瀏覽商品 (1)

唐世偉田楓蓋璇李學貴