Python 無監督學習 (Hands-On Unsupervised Learning with Python)

Giuseppe Bonaccorso

  • Python 無監督學習 (Hands-On Unsupervised Learning with Python)-preview-1
  • Python 無監督學習 (Hands-On Unsupervised Learning with Python)-preview-2
Python 無監督學習 (Hands-On Unsupervised Learning with Python)-preview-1

買這商品的人也買了...

相關主題

商品描述

機器學習是使電腦具有智能的根本途徑,其應用遍及人工智能的各個領域。
無監督學習是機器學習中的一種學習方式,是數據科學的一個重要分支,
常用於數據挖掘領域,通過構建模型來為業務決策提供依據。

本書通過Python語言講解無監督學習,全書內容包括10章,
前面9章由淺入深地講解了無監督學習的基礎知識、聚類的基礎知識、
高級聚類、層次聚類、軟聚類和高斯混合模型、異常檢測、
降維和分量分析、無監督神經網絡模型、生成式對抗網絡和自組織映射,
第10章以問題解答的形式對前面9章涉及的問題給出瞭解決方案。

本書適合數據科學家、機器學習從業者和普通的軟件開發人員閱讀,
通過學習本書介紹的無監督學習理論和Python編程方法,讀者能夠在業務實踐中獲得有價值的參考。

作者簡介

Giuseppe Bonaccorso

是人工智能、數據科學和機器學習領域的資深從業人員。
他曾參與了不同業務環境下的解決方案設計、管理和交付。
他於2005年在意大利的卡塔尼亞大學(University of Catania)獲得電子工程學碩士學位,
並繼續在意大利羅馬第二大學(University of Rome Tor Vergata)
和英國埃塞克斯大學(University of Essex )學習。
他的興趣主要包括機器/深度學習、強化學習、大數據,
以及受生物啟發的自適應系統、神經科學和自然語言處理等。

目錄大綱

第 1章 無監督學習入門 1
1.1 技術要求 1
1.2 為什麽需要機器學習 2
1.2.1 描述性分析 3
1.2.2 診斷性分析 4
1.2.3 預測性分析 4
1.2.4 規範性分析 7
1.3 機器學習算法的類型 7
1.3.1 有監督學習算法 8
1.3.2 無監督學習算法 11
1.3.3 半監督學習算法 16
1.3.4 強化學習算法 17
1.4 為什麽用Python進行數據科學和機器學習 18
1.5 總結 19
1.6 問題 19

第 2章 聚類基礎知識 20
2.1 技術要求 20
2.2 聚類介紹 21
2.3 K-means 26
2.4 威斯康星州乳腺癌數據集分析 27
2.5 評估指標 33
2.5.1 最小化慣性 33
2.5.2 輪廓分數 38
2.5.3 完整性分數 40
2.5.4 同質性分數 42
2.5.5 調整後的相互信息分數 43
2.5.6 調整後的蘭德分數 44
2.5.7 列聯矩陣 45
2.6 K-近鄰 46
2.7 向量量化 50
2.8 總結 56
2.9 問題 57

第3章 高級聚類 58
3.1 技術要求 58
3.2 譜聚類 59
3.3 均值漂移 63
3.4 DBSCAN 67
3.4.1 Calinski-Harabasz分數 69
3.4.2 使用DBSCAN分析工作數據集中的缺勤率 69
3.4.3 聚類不穩定性作為性能指標 76
3.5 K-medoids 79
3.6 聯機聚類 83
3.6.1 Mini-batch K-means 83
3.6.2 BIRCH 84
3.6.3 Mini-batch K-means與BIRCH的比較 86
3.7 總結 89
3.8 問題 90

第4章 實操中的層次聚類 91
4.1 技術要求 91
4.2 聚類層次結構 92
4.3 凝聚聚類 93
4.3.1 單一鏈和完整鏈 94
4.3.2 平均鏈 95
4.3.3 Ward鏈 96
4.4 樹狀圖分析 96
4.5 同表型相關性系數作為一種性能指標 101
4.6 水處理廠數據集的凝聚聚類 103
4.7 連通性約束 109
4.8 總結 113
4.9 問題 113

第5章 軟聚類和高斯混合模型 115
5.1 技術要求 115
5.2 軟聚類 116
5.3 Fuzzy c-means 117
5.4 高斯混合 121
5.4.1 高斯混合的EM算法 123
5.4.2 用AIC和BIC方法評估高斯混合的性能 129
5.4.3 貝葉斯高斯混合選擇成分 131
5.4.4 生成高斯混合 135
5.5 總結 139
5.6 問題 140

第6章 異常檢測 141
6.1 技術要求 141
6.2 概率密度函數 142
6.2.1 作為異常值或新值的異常 143
6.2.2 數據集結構 144
6.3 直方圖 145
6.4 核密度估計 148
6.4.1 高斯內核 148
6.4.2 Epanechnikov內核 149
6.4.3 指數內核 150
6.4.4 均勻/Tophat內核 151
6.4.5 估計密度 151
6.5 應用異常檢測 156
6.6 單類支持向量機 164
6.7 基於孤立森林的異常檢測 168
6.8 總結 172
6.9 問題 173

第7章 降維與分量分析 175
7.1 技術要求 175
7.2 主成分分析 176
7.2.1 具有奇異值分解的PCA 178
7.2.2 具有MNIST數據集的PCA 181
7.2.3 基於內核的主成分分析 183
7.2.4 通過因子分析增加異方差噪聲的強壯性 186
7.2.5 稀疏主成分分析與字典學習 188
7.2.6 非負矩陣分解 190
7.3 獨立成分分析 193
7.4 具有潛在Dirichlet分配的主題建模 197
7.5 總結 202
7.6 問題 202

第8章 無監督神經網絡模型 204
8.1 技術要求 204
8.2 自編碼器 205
8.2.1 深度捲積自編碼器示例 206
8.2.2 去噪自編碼器 211
8.2.3 稀疏自編碼器 213
8.2.4 變分自編碼器 215
8.3 基於赫布的主成分分析 221
8.3.1 Sanger網絡 221
8.3.2 Rubner-Tavan網絡 226
8.4 無監督的深度置信網絡 230
8.4.1 受限玻爾茲曼機 231
8.4.2 深度置信網絡 232
8.4.3 無監督DBN示例 233
8.5 總結 235
8.6 問題 236

第9章 生成式對抗網絡和自組織映射 237
9.1 技術要求 237
9.2 生成式對抗網絡 238
9.2.1 GAN分析 240
9.2.2 深度捲積GAN示例 242
9.2.3 Wasserstein GAN 251
9.3 自組織映射 260
9.4 總結 265
9.5 問題 266

第 10章 問題解答 267
10.1 第 1章 267
10.2 第 2章 268
10.3 第3章 268
10.4 第4章 269
10.5 第5章 269
10.6 第6章 270
10.7 第7章 271
10.8 第8章 271
10.9 第9章 272