大數據與人工智能技術(微課視頻版)
主編:呂雲翔 鐘巧靈 副主編:郭婉茹 王淥汀 韓雪婷 郭宇光 杜宸洋 參編:仇善召 餘志浩 楊卓謙 樊子康 李牧鍇 劉卓然 袁琪 關捷雄 華昱雲 陳妙然 許鴻智 賀祺
- 出版商: 清華大學
- 出版日期: 2022-09-01
- 定價: $359
- 售價: 8.5 折 $305
- 語言: 簡體中文
- ISBN: 7302603103
- ISBN-13: 9787302603108
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
目錄大綱
隨書資源
目錄
第1章緒論
1.1日益增長的數據
1.1.1大數據的基本概念
1.1.2大數據的基本特徵
1.1.3大數據的發展歷程
1.2人工智能初窺
1.2.1人工智能的歷史
1.2.2人工智能的發展現狀
1.2.3人工智能的發展前景
1.2.4大數據與人工智能
第2章數據工程
2.1數據工程的一般流程
2.2數據獲取
2.2.1數據採集方法
2.2.2大數據採集平臺
2.3數據存儲與數據倉庫
2.3.1數據存儲
2.3.2數據倉庫
2.4數據預處理
2.4.1數據清理
2.4.2數據集成
2.4.3數據變換
第3章機器學習算法
3.1算法概述
3.1.1線性回歸
3.1.2邏輯回歸
3.1.3線性判別分析
3.1.4分類與回歸樹分析
3.1.5樸素貝葉斯
3.1.6k最近鄰算法
3.1.7學習矢量量化
3.1.8支持向量機
3.1.9Bagging和隨機森林
3.1.10Boosting和AdaBoost
3.2支持向量機算法
3.2.1線性支持向量機
3.2.2非線性支持向量機
3.2.3支持向量機算法求解
3.3邏輯回歸算法
3.3.1線性回歸算法
3.3.2邏輯回歸
3.3.3用PyTorch實現邏輯回歸算法
3.4聚類算法
3.4.1KMeans聚類
3.4.2均值漂移聚類
3.4.3基於密度的聚類方法
3.5機器學習算法總結
3.5.1邏輯回歸和樸素貝葉斯
3.5.2邏輯回歸和支持向量機
3.5.3Bagging、隨機森林和Boosting
第4章深度學習
4.1神經網絡基礎知識
4.1.1深度神經網絡
4.1.2正向傳播
4.1.3激活函數
4.2神經網絡的訓練
4.2.1神經網絡的參數
4.2.2向量化
4.2.3價值函數
4.2.4梯度下降和反向傳播
4.3神經網絡的優化和改進
4.3.1神經網絡的優化策略
4.3.2交叉驗證
4.3.3正則化方法
4.4捲積神經網絡
4.4.1捲積運算
4.4.2池化層
4.4.3CNN實例
4.5深度學習的優勢
4.5.1電腦視覺
4.5.2自然語言處理
4.5.3強化學習
4.6深度學習訓練與推理框架
4.6.1訓練框架
4.6.2推理框架
第5章大數據存儲
5.1大數據存儲技術發展
5.2海量數據存儲的關鍵技術
5.2.1數據分片與路由
5.2.2數據復制與一致性
5.3重要數據結構和算法
5.3.1Bloom Filter
5.3.2LSM Tree
5.3.3Merkle Tree
5.3.4Cuckoo Hash
5.4分佈式文件系統
5.4.1文件存儲格式
5.4.2GFS
5.4.3HDFS
5.5分佈式數據庫NoSQL
5.5.1NoSQL數據庫概述
5.5.2KV數據庫
5.5.3列式數據庫
5.6HBase數據庫搭建與使用
5.6.1HBase偽分佈式運行
5.6.2HBase分佈式運行
第6章Hadoop MapReduce解析
6.1Hadoop MapReduce架構
6.2MapReduce工作機制
6.2.1Map
6.2.2Reduce
6.2.3Combine
6.2.4Shuffle
6.2.5Speculative Task
6.2.6任務容錯
6.3應用案例
6.3.1WordCount
6.3.2WordMean
6.3.3Grep
第7章Spark解析
7.1Spark RDD
7.2Spark與MapReduce的比較
7.3Spark工作機制
7.3.1DAG
7.3.2Partition
7.3.3容錯機制
7.3.4內存管理
7.3.5數據持久化
7.4數據讀取
7.5應用案例
7.5.1日誌挖掘
7.5.2判別西瓜好壞
第8章分佈式數據挖掘算法
8.1KMeans聚類算法
8.1.1KMeans並行化思路
8.1.2KMeans分佈式實現
8.2邏輯回歸算法實現
8.2.1邏輯回歸算法並行化思路
8.2.2邏輯回歸算法分佈式實現
8.3樸素貝葉斯分類算法
8.3.1樸素貝葉斯分類算法並行化思路
8.3.2樸素貝葉斯分佈式實現
第9章PyTorch解析
9.1PyTorch的基本知識
9.1.1PyTorch概述
9.1.2PyTorch與其他深度學習框架的比較
9.2PyTorch基本操作
9.2.1Tensor對象及其運算
9.2.2Tensor的索引和切片
9.2.3Tensor的變換、拼接和拆分
9.2.4PyTorch的歸納操作
9.2.5PyTorch的自動微分
9.3應用案例
9.3.1在Spark上訓練和運行PyTorch模型
9.3.2用PyTorch進行手寫數字識別
第10章案例: Hadoop平臺的搭建和數據分析
10.1構建虛擬機網絡
10.1.1VirtualBox安裝及配置
10.1.2Ubuntu虛擬機安裝及配置
10.1.3修改Ubuntu系統內網絡配置
10.2大數據環境安裝
10.2.1Java安裝
10.2.2Hadoop安裝
10.3應用案例
10.3.1日誌分析
10.3.2交通流量分析
第11章案例: 基於Spark的搜索引擎日誌用戶行為分析
11.1功能需求
11.1.1搜索引擎用戶行為分析的意義
11.1.2搜索引擎日誌概述
11.2系統架構
11.2.1用戶搜索流程
11.2.2系統架構設計
11.3功能實現
11.3.1Spark本地運行環境搭建
11.3.2搜索引擎日誌數據獲取
11.3.3分析指標
11.3.4Spark任務提交
第12章案例: 使用Spark實現數據統計分析及性能優化
12.1系統架構
12.1.1總體方案
12.1.2詳細設計
12.1.3優化設計
12.2具體實現
12.2.1數據獲取
12.2.2數據可視化
12.3性能優化
12.3.1讀取優化
12.3.2查詢優化
12.3.3Spark參數級優化
第13章案例: 使用Spark和HBase實現商品批量存儲
13.1HBase數據庫設計
13.2復雜數據處理
13.2.1數據讀取
13.2.2壓縮信息
13.2.3解壓信息
13.3數據讀寫
13.3.1從Hive獲取數據表
13.3.2將數據復制到HBase集群
13.3.3讀取數據
第14章案例: 使用Keras進行人臉關鍵點檢測
14.1深度學習模型
14.1.1數據集獲取
14.1.2捲積神經網絡的搭建與訓練
14.2模型評價
14.2.1關鍵點坐標可視化
14.2.2訓練歷史可視化
第15章案例: 使用PyTorch實現基於詞級別的情感分析
15.1數據集處理
15.2模型搭建
15.2.1MemNet模型
15.2.2IAN模型
15.2.3AOA模型
15.3訓練和評測
第16章案例: 短語視覺定位
16.1短語視覺定位概述
16.2相關工作
16.2.1問題定義
16.2.2先前方法
16.3方法
16.3.1概述
16.3.2特徵編碼
16.3.3鄰域交互模塊
16.3.4全局交互模態
16.3.5模態間融合
16.3.6多模態對齊
16.3.7訓練與預測
16.4代碼與實現
16.5實驗
16.5.1數據集
16.5.2實現細節
16.5.3實驗結果
第17章案例: 使用PyTorch進行視覺問答
17.1視覺問答簡介
17.2基於BottomUp Attention的聯合嵌入模型
17.3準備工作
17.3.1下載數據
17.3.2安裝必需的軟件包
17.3.3使用配置文件
17.4實現基礎模塊
17.4.1FCNet模塊
17.4.2SimpleClassifier模塊
17.5實現問題嵌入模塊
17.5.1詞嵌入
17.5.2RNN
17.6實現TopDown Attention模塊
17.7組裝完整的VQA系統
17.8運行VQA實驗
17.8.1訓練
17.8.2可視化
第18章案例: 使用Hadoop和MapReduce分佈式計算語料中單詞出現的頻數
18.1MapReduce介紹
18.2MapReduce實現WordCount程序
18.2.1上傳數據到HDFS
18.2.2使用Hadoop運行WordCount程序
18.2.3停止Hadoop
第19章案例: 使用多種機器學習算法實現基於用戶行為數據的用戶分類器
19.1基於機器學習的分類器的技術概述
19.2工程數據的提取聚合和存儲
19.2.1數據整合的邏輯流程
19.2.2Sqoop數據同步
19.2.3基於Hive的數據倉庫
19.2.4基於Azkaban的數據倉庫的調度任務
19.2.5數據倉庫的數據集成和數據清洗
19.2.6整合後的數據表
19.3數據展示和分析
19.3.1數據集的選取和業務背景的描述
19.3.2各維度信息詳細說明
19.3.3各維度數據的描述性統計
19.3.4各維度數據的可視化
19.4特徵工程
19.4.1標準化
19.4.2區間縮放
19.4.3歸一化
19.4.4對定性特徵進行獨熱(onehot)編碼
19.4.5缺失值填補
19.4.6數據傾斜
19.5模型訓練和結果評價
19.5.1構造模型思路
19.5.2模型訓練的流程
19.5.3Kfold交叉驗證
19.6各分類器模型的訓練和結果評價
19.6.1利用Python的sklearn包進行模型訓練的過程梳理
19.6.2邏輯回歸模型的訓練和結果評價
19.6.3k最近鄰模型的訓練和結果評價
19.6.4線性判別分析模型的訓練和結果評價
19.6.5樸素貝葉斯算法的模型的訓練和結果評價
19.6.6決策樹模型的訓練和結果評價
19.6.7支持向量機模型的訓練和結果評價
19.7模型提升——集成分類器
19.7.1Boosting提升算法
19.7.2AdaBoost提升算法
19.7.3AdaBoost實現過程及實驗結果
第20章案例: 構建蘋果葉病病害分類模型
20.1細粒度圖像識別概述
20.2Spark集群的使用
20.3細粒度植物數據處理
20.3.1原始數據集分析處理
20.3.2實驗數據集準備
20.4使用PyTorch訓練模型
20.4.1模型訓練流程
20.4.2捲積神經網絡模型選擇
20.4.3損失函數
20.4.4訓練策略
20.5模型評估
20.5.1模型效果
20.5.2模型結果分析
附錄A用戶歷史充值情況數據表
附錄B用戶各類訂單餘額情況
附錄C各省用戶收到公示消息後的充值情況
參考文獻