Python 數據挖掘入門與實踐, 2/e
Robert Layton 亦念譯
- 出版商: 人民郵電
- 出版日期: 2020-03-01
- 定價: $474
- 售價: 7.9 折 $374
- 語言: 簡體中文
- 頁數: 253
- 裝訂: 平裝
- ISBN: 7115528020
- ISBN-13: 9787115528025
-
相關分類:
Python、程式語言、Data Science、Data-mining
- 此書翻譯自: Learning Data Mining with Python Second Edition
立即出貨
買這商品的人也買了...
-
$1,948The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, 3/e (Paperback)
-
$450$356 -
$1,617Deep Learning (Hardcover)
-
$880$792 -
$834$792 -
$301Python 數據挖掘:概念、方法與實踐
-
$850$723 -
$254從微商到新零售
-
$1,010自然語言處理綜論, 2/e (Speech and Language Processing, 2/e)
-
$550$429 -
$301scikit-learn 機器學習, 2/e (Mastering Machine Learning with scikit-learn, 2/e)
-
$520$411 -
$2,100$1,995 -
$780$616 -
$880$695
相關主題
商品描述
本書以實踐為宗旨,對數據挖掘進行了詳細地入門引導。
本書囊括了比賽結果預測、電影推薦、特徵提取、好友推薦、破解驗證碼、
作者歸屬、新聞聚類等大量經典案例,並以此為基礎提供了大量練習和額外活動。
在練習中,本書介紹了數據挖掘的基本工具和基本方法;
在額外活動中,本書為深入了解數據挖掘指明了方向。
本書適合希望應用Python進行數據挖掘的程序員閱讀。
作者簡介
Robert Layton
數據科學家,計算機科學博士,網絡犯罪問題和文本分析方面的專家。
擁有多年Python編程經驗,參與開發過scikit-learn庫等眾多開源軟件,曾
擔任2014年“谷歌編程之夏”項目導師,也曾多次在PyCon Au上做報告。
他創立了數據挖掘諮詢公司DataPipeline,以及為創業公司提供技術諮詢和支持的Eurekative公司,
還運營著LearningTensorFlow 網站。
目錄大綱
目錄:
第1章數據挖掘入門1
1.1什麼是數據挖掘1
1.2使用Python和Jupyter Notebook 3
1.2.1安裝Python 3
1.2.2安裝Jupyter Notebook 4
1.2.3安裝scikit-learn 5
1.3親和性分析的簡單示例6
1.4商品推薦6
1.4.1用NumPy加載數據集7
1.4.2實現規則的簡單排序9
1.4.3挑選*佳規則11
1.5分類的簡單示例13
1.6什麼是分類14
1.6.1準備數據集14
1.6.2實現OneR算法15
1.6.3測試算法功能17
1.7本章小結19
第2章用scikit-learn估計器解決分類問題20
2.1 scikit-learn估計器20
2.1.1 *近鄰算法21
2.1.2距離度量22
2.1.3加載數據集24
2.1.4形成標準的工作流程25
2.1.5運行算法26
2.1.6設置參數27
2.2預處理29
2.2.1標準預處理30
2.2.2組裝成型31
2.3流水線31
2.4本章小結32
第3章用決策樹預測獲胜球隊34
3.1加載數據集34
3.1.1收集數據35
3.1.2用pandas加載數據集35
3.1.3清洗數據集36
3.1.4提取新特徵37
3.2決策樹39
3.2.1決策樹的參數40
3.2.2決策樹的使用41
3.3體育賽事結果預測42
3.4隨機森林45
3.4 .1集成學習原理46
3.4.2設置隨機森林的參數46
3.4.3應用隨機森林47
3.4.4創建特徵48
3.5本章小結49
第4章用親和性分析推薦電影50
4.1親和性分析50
4.1 .1親和性分析算法51
4.1.2總體方法52
4.2電影推薦問題52
4.3 Apriori算法的原理與實現54
4.3.1 Apriori算法的基本思路56
4.3.2實現Apriori算法57
4.3.3提取關聯規則59
4.3.4評估關聯規則62
4.4本章小結64
第5章特徵與scikit-learn轉換器65
5.1特徵提取65
5.1.1用模型表述現實66
5.1. 2常見的特徵模式68
5.1.3創建好的特徵71
5.2特徵的選取71
5.3特徵創建76
5.4主成分分析78
5.5創建自己的轉換器80
5.5.1轉換器API 81
5.5.2實現轉換器81
5.6單元測試82
5.7組裝成型83
5.8本章小結84
第6章用樸素貝葉斯算法探索社交
媒體85
6.1消歧85
6.2從社交媒體下載數據87
6.2.1加載數據集並分類89
6.2.2創建可重現的Twitter數據集92
6.3文本轉換器95
6.3.1詞袋模型95
6.3.2 n元語法特徵96
6.3.3其他文本特徵97
6.4樸素貝葉斯98
6.4.1理解貝葉斯定理98
6.4.2樸素貝葉斯算法99
6.4.3原理展示100
6.5樸素貝葉斯的應用101
6.5.1提取單詞計數102
6.5.2把字典轉換成矩陣103
6.5.3組裝成型103
6.5.4用F1-score評估算法104
6.6從模型中找出有用的特徵105
6.7本章小結107
第7章用圖挖掘實現推薦關注109
7.1加載數據集109
7.2從Twitter獲取關注者信息113
7.3創建圖116
7.4尋找子圖122
7.4.1連通分量122
7.4.2優化準則125
7.5本章小結127
第8章用神經網絡識別驗證碼129
8.1人工神經網絡130
8.2創建數據集132
8.2.1繪製簡單的驗證碼133
8.2.2按字母分割圖像135
8.2.3創建訓練數據集137
8.3訓練與分類139
8.4預測單詞143
8.4.1用詞典提升準確率146
8.4.2單詞相似度的排名機制146
8.4.3組裝成型147
8.5本章小結148
第9章作者歸屬問題149
9.1文檔的作者歸屬149
9.1.1應用與場景150
9.1 .2作者歸屬151
9.2獲取數據152
9.3功能詞的使用155
9.3.1統計功能詞156
9.3.2用功能詞分類158
9.4支持向量機159
9.4.1用支持向量機分類160
9.4.2核函數160
9.5字符n元語法161
9.6安然(Enron)數據集162
9.6.1獲取安然數據集163
9.6.2創建數據集加載函數163
9.7組裝成型166
9.8評估166
9.9本章小結168
第10章聚類新聞文章169
10.1發現熱門話題169
10.1.1用Web API獲取數據170
10.1.2把reddit作為數據源172
10.1.3獲取數據173
10.2從任意網站提取文本175
10.2.1尋找任意網站中的新聞報導內容176
10.2.2提取內容177
10.3為新聞文章分組179
10.4 k-均值算法179
10.4.1評估結果182
10.4.2從聚類簇中提取話題信息184
10.4.3把聚類算法作為轉換器185
10.5聚類集成185
10.5.1證據積累方法185
10.5.2工作原理188
10.5.3算法實現190
10.6在線學習191
10.7本章小結194
第11章用深度神經網絡實現圖像中的對象檢測195
11.1對象分類195
11.2應用場景197
11.3深度神經網絡199
11.3.1直觀感受199
11.3.2實現深度神經網絡200
11.4 TensorFlow簡介201
11.5使用Keras 204
11.6 GPU優化210
11.6.1適用GPU的計算場景211
11.6.2在GPU上運行代碼212
11.6.3設置環境213
11.7應用214
11.7.1獲取數據214
11.7.2創建神經網絡215
11.7.3組裝成型216
11.8本章小結217
第12章大數據處理219
12.1大數據219
12.2 MapReduce 222
12.2.1直觀感受223
12.2.2 Hadoop MapReduce 226
12.3應用MapReduce 227
12.4樸素貝葉斯預測229
12.5提取博客文章229
12.6訓練樸素貝葉斯231
12.7組裝成型235
12.8在亞馬遜EMR基礎設施上訓練239
12.9本章小結241
附錄A下一步工作242
A.1數據挖掘入門242
A.1.1 scikit-learn教程242
A.1.2擴展Jupyter Notebook 242
A.1.3更多數據集243
A.1.4其他評估指標243
A.1.5更多應用思路243
A.2用scikit-learn估計器解決分類問題243
A.2.1 *近鄰算法的伸縮性244
A.2.2更複雜的流水線244
A.2.3比較分類器244
A.2.4自動學習244
A.3用決策樹預測獲胜球隊245
A.3.1更複雜的特徵245
A.3.2 Dask 246
A.3.3研究246
A.4用親和性分析推薦電影246
A.4.1新數據集246
A.4.2等價類變換算法246
A.4.3協同過濾247
A.5特徵與scikit-learn轉換器247
A.5.1增加噪聲247
A.5.2 Vowpal Wabbit 247
A.5.3 word2vec 247
A.6用樸素貝葉斯算法探索社交媒體247
A.6.1垃圾信息檢測248
A.6.2自然語言處理與詞性標註248
A.7用圖挖掘實現推薦關注248
A.7.1更複雜的算法248
A.7.2 NetworkX 248
A.8用神經網絡識別驗證碼249
A.8.1更好(更壞?)的驗證碼249
A.8.2深度神經網絡249
A.8.3強化學習249
A.9作者歸屬問題249
A.9.1增大樣本250
A.9.2博客數據集250
A.9.3局部n元語法250
A.10聚類新聞文章250
A.10.1聚類的評估250
A.10.2時域分析251
A.10.3實時聚類251
A.11用深度神經網絡實現圖像中的對象檢測251
A.11.1 Mahotas 251
A.11.2 Magenta 251
A.12大數據處理252
A.12.1 Hadoop課程252
A.12.2 Pydoop 252
A.12.3推薦引擎252
A.12.4 WILL 252
A.13更多資源253
A.13.1 Kaggle競賽253
A.13.2 Coursera 253