大數據與人工智能技術(微課視頻版)

主編:呂雲翔 鐘巧靈 副主編:郭婉茹 王淥汀 韓雪婷 郭宇光 杜宸洋 參編:仇善召 餘志浩 楊卓謙 樊子康 李牧鍇 劉卓然 袁琪 關捷雄 華昱雲 陳妙然 許鴻智 賀祺

  • 出版商: 清華大學
  • 出版日期: 2022-09-01
  • 定價: $359
  • 售價: 8.5$305
  • 語言: 簡體中文
  • ISBN: 7302603103
  • ISBN-13: 9787302603108
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

  • 大數據與人工智能技術(微課視頻版)-preview-1
  • 大數據與人工智能技術(微課視頻版)-preview-2
  • 大數據與人工智能技術(微課視頻版)-preview-3
大數據與人工智能技術(微課視頻版)-preview-1

相關主題

商品描述

本書將基礎理論和實際案例相結合,循序漸進地介紹大數據與人工智能方面的知識,全面、系統地介紹大數據與人工智能的算法概念和適用範疇,並通過11個具體案例分別闡述人工智能和大數據技術在生產生活中的應用。全書共20章,第1~9章分別介紹大數據與人工智能的發展歷史、數據工程、機器學習算法、深度學習與神經網絡、大數據存儲技術、Hadoop MapReduce解析、Spark解析、分佈式數據挖掘算法和PyTorch解析等知識,第10~20章為大數據技術和機器學習技術相結合的一些案例。 本書主要面向廣大數據工程與人工智能的初學者、高等院校的師生,以及相關領域的從業人員。

目錄大綱

隨書資源

目錄

第1章緒論

1.1日益增長的數據

1.1.1大數據的基本概念

1.1.2大數據的基本特徵

1.1.3大數據的發展歷程

1.2人工智能初窺

1.2.1人工智能的歷史

1.2.2人工智能的發展現狀

1.2.3人工智能的發展前景

1.2.4大數據與人工智能

第2章數據工程

2.1數據工程的一般流程

2.2數據獲取

2.2.1數據採集方法

2.2.2大數據採集平臺

2.3數據存儲與數據倉庫

2.3.1數據存儲

2.3.2數據倉庫

2.4數據預處理

2.4.1數據清理

2.4.2數據集成

2.4.3數據變換

第3章機器學習算法

3.1算法概述 

3.1.1線性回歸

3.1.2邏輯回歸

3.1.3線性判別分析

3.1.4分類與回歸樹分析

3.1.5樸素貝葉斯

3.1.6k最近鄰算法

3.1.7學習矢量量化

3.1.8支持向量機

3.1.9Bagging和隨機森林

3.1.10Boosting和AdaBoost

3.2支持向量機算法

3.2.1線性支持向量機

3.2.2非線性支持向量機

3.2.3支持向量機算法求解

3.3邏輯回歸算法

3.3.1線性回歸算法

3.3.2邏輯回歸

3.3.3用PyTorch實現邏輯回歸算法

3.4聚類算法

3.4.1KMeans聚類

3.4.2均值漂移聚類 

3.4.3基於密度的聚類方法

3.5機器學習算法總結

3.5.1邏輯回歸和樸素貝葉斯

3.5.2邏輯回歸和支持向量機

3.5.3Bagging、隨機森林和Boosting

第4章深度學習

4.1神經網絡基礎知識

4.1.1深度神經網絡

4.1.2正向傳播

4.1.3激活函數

4.2神經網絡的訓練

4.2.1神經網絡的參數

4.2.2向量化

4.2.3價值函數

4.2.4梯度下降和反向傳播

4.3神經網絡的優化和改進

4.3.1神經網絡的優化策略

4.3.2交叉驗證

4.3.3正則化方法

4.4捲積神經網絡

4.4.1捲積運算

4.4.2池化層

4.4.3CNN實例

4.5深度學習的優勢

4.5.1電腦視覺

4.5.2自然語言處理

4.5.3強化學習

4.6深度學習訓練與推理框架

4.6.1訓練框架

4.6.2推理框架

第5章大數據存儲

5.1大數據存儲技術發展

5.2海量數據存儲的關鍵技術

5.2.1數據分片與路由

5.2.2數據復制與一致性

5.3重要數據結構和算法

5.3.1Bloom Filter

5.3.2LSM Tree

5.3.3Merkle Tree

5.3.4Cuckoo Hash

5.4分佈式文件系統

5.4.1文件存儲格式

5.4.2GFS

5.4.3HDFS

5.5分佈式數據庫NoSQL

5.5.1NoSQL數據庫概述

5.5.2KV數據庫

5.5.3列式數據庫

5.6HBase數據庫搭建與使用

5.6.1HBase偽分佈式運行

5.6.2HBase分佈式運行

第6章Hadoop MapReduce解析

6.1Hadoop MapReduce架構

6.2MapReduce工作機制

6.2.1Map

6.2.2Reduce

6.2.3Combine

6.2.4Shuffle

6.2.5Speculative Task

6.2.6任務容錯

6.3應用案例

6.3.1WordCount

6.3.2WordMean

6.3.3Grep

第7章Spark解析

7.1Spark RDD

7.2Spark與MapReduce的比較

7.3Spark工作機制

7.3.1DAG

7.3.2Partition

7.3.3容錯機制

7.3.4內存管理

7.3.5數據持久化

7.4數據讀取

7.5應用案例

7.5.1日誌挖掘

7.5.2判別西瓜好壞

第8章分佈式數據挖掘算法

8.1KMeans聚類算法

8.1.1KMeans並行化思路

8.1.2KMeans分佈式實現

8.2邏輯回歸算法實現

8.2.1邏輯回歸算法並行化思路

8.2.2邏輯回歸算法分佈式實現

8.3樸素貝葉斯分類算法

8.3.1樸素貝葉斯分類算法並行化思路

8.3.2樸素貝葉斯分佈式實現

第9章PyTorch解析

9.1PyTorch的基本知識

9.1.1PyTorch概述

9.1.2PyTorch與其他深度學習框架的比較

9.2PyTorch基本操作

9.2.1Tensor對象及其運算

9.2.2Tensor的索引和切片

9.2.3Tensor的變換、拼接和拆分

9.2.4PyTorch的歸納操作

9.2.5PyTorch的自動微分

9.3應用案例

9.3.1在Spark上訓練和運行PyTorch模型

9.3.2用PyTorch進行手寫數字識別

第10章案例: Hadoop平臺的搭建和數據分析

10.1構建虛擬機網絡

10.1.1VirtualBox安裝及配置

10.1.2Ubuntu虛擬機安裝及配置

10.1.3修改Ubuntu系統內網絡配置

10.2大數據環境安裝

10.2.1Java安裝

10.2.2Hadoop安裝

10.3應用案例

10.3.1日誌分析

10.3.2交通流量分析

第11章案例: 基於Spark的搜索引擎日誌用戶行為分析

11.1功能需求

11.1.1搜索引擎用戶行為分析的意義

11.1.2搜索引擎日誌概述

11.2系統架構

11.2.1用戶搜索流程

11.2.2系統架構設計

11.3功能實現

11.3.1Spark本地運行環境搭建

11.3.2搜索引擎日誌數據獲取

11.3.3分析指標

11.3.4Spark任務提交

第12章案例: 使用Spark實現數據統計分析及性能優化

12.1系統架構

12.1.1總體方案

12.1.2詳細設計

12.1.3優化設計

12.2具體實現

12.2.1數據獲取

12.2.2數據可視化

12.3性能優化

12.3.1讀取優化

12.3.2查詢優化

12.3.3Spark參數級優化

第13章案例: 使用Spark和HBase實現商品批量存儲

13.1HBase數據庫設計

13.2復雜數據處理

13.2.1數據讀取

13.2.2壓縮信息

13.2.3解壓信息

13.3數據讀寫

13.3.1從Hive獲取數據表

13.3.2將數據復制到HBase集群

13.3.3讀取數據

第14章案例: 使用Keras進行人臉關鍵點檢測

14.1深度學習模型

14.1.1數據集獲取

14.1.2捲積神經網絡的搭建與訓練

14.2模型評價

14.2.1關鍵點坐標可視化

14.2.2訓練歷史可視化

第15章案例: 使用PyTorch實現基於詞級別的情感分析

15.1數據集處理

15.2模型搭建

15.2.1MemNet模型

15.2.2IAN模型

15.2.3AOA模型

15.3訓練和評測

第16章案例: 短語視覺定位

16.1短語視覺定位概述

16.2相關工作

16.2.1問題定義

16.2.2先前方法

16.3方法

16.3.1概述

16.3.2特徵編碼

16.3.3鄰域交互模塊

16.3.4全局交互模態

16.3.5模態間融合

16.3.6多模態對齊

16.3.7訓練與預測

16.4代碼與實現

16.5實驗

16.5.1數據集

16.5.2實現細節

16.5.3實驗結果

第17章案例: 使用PyTorch進行視覺問答

17.1視覺問答簡介

17.2基於BottomUp Attention的聯合嵌入模型

17.3準備工作

17.3.1下載數據

17.3.2安裝必需的軟件包

17.3.3使用配置文件

17.4實現基礎模塊

17.4.1FCNet模塊

17.4.2SimpleClassifier模塊

17.5實現問題嵌入模塊

17.5.1詞嵌入

17.5.2RNN

17.6實現TopDown Attention模塊

17.7組裝完整的VQA系統

17.8運行VQA實驗

17.8.1訓練

17.8.2可視化

第18章案例: 使用Hadoop和MapReduce分佈式計算語料中單詞出現的頻數

18.1MapReduce介紹

18.2MapReduce實現WordCount程序

18.2.1上傳數據到HDFS

18.2.2使用Hadoop運行WordCount程序

18.2.3停止Hadoop

第19章案例: 使用多種機器學習算法實現基於用戶行為數據的用戶分類器

19.1基於機器學習的分類器的技術概述

19.2工程數據的提取聚合和存儲

19.2.1數據整合的邏輯流程

19.2.2Sqoop數據同步

19.2.3基於Hive的數據倉庫

19.2.4基於Azkaban的數據倉庫的調度任務

19.2.5數據倉庫的數據集成和數據清洗

19.2.6整合後的數據表

19.3數據展示和分析

19.3.1數據集的選取和業務背景的描述

19.3.2各維度信息詳細說明

19.3.3各維度數據的描述性統計

19.3.4各維度數據的可視化

19.4特徵工程

19.4.1標準化

19.4.2區間縮放

19.4.3歸一化

19.4.4對定性特徵進行獨熱(onehot)編碼

19.4.5缺失值填補

19.4.6數據傾斜

19.5模型訓練和結果評價

19.5.1構造模型思路 

19.5.2模型訓練的流程

19.5.3Kfold交叉驗證

19.6各分類器模型的訓練和結果評價

19.6.1利用Python的sklearn包進行模型訓練的過程梳理

19.6.2邏輯回歸模型的訓練和結果評價

19.6.3k最近鄰模型的訓練和結果評價

19.6.4線性判別分析模型的訓練和結果評價

19.6.5樸素貝葉斯算法的模型的訓練和結果評價

19.6.6決策樹模型的訓練和結果評價

19.6.7支持向量機模型的訓練和結果評價

19.7模型提升——集成分類器

19.7.1Boosting提升算法

19.7.2AdaBoost提升算法

19.7.3AdaBoost實現過程及實驗結果

第20章案例: 構建蘋果葉病病害分類模型

20.1細粒度圖像識別概述

20.2Spark集群的使用

20.3細粒度植物數據處理

20.3.1原始數據集分析處理

20.3.2實驗數據集準備

20.4使用PyTorch訓練模型

20.4.1模型訓練流程

20.4.2捲積神經網絡模型選擇

20.4.3損失函數

20.4.4訓練策略

20.5模型評估

20.5.1模型效果

20.5.2模型結果分析

附錄A用戶歷史充值情況數據表

附錄B用戶各類訂單餘額情況

附錄C各省用戶收到公示消息後的充值情況

參考文獻