機器學習基礎

肖睿段小手劉世軍萬文兵王剛趙璐華

預覽內頁

出版商: 人民郵電
出版日期: 2021-07-01
定價: $359
售價: 8.5 折 $305
語言: 簡體中文
頁數: 240
裝訂: 平裝
ISBN: 7115562814
ISBN-13: 9787115562814
相關分類: Machine Learning

立即出貨 (庫存 < 4)

買這商品的人也買了...

$250

白話機器學習算法
$168

圖說圖解機器學習
~~$690~~ $587

決心打底！Python 深度學習基礎養成
~~$680~~ $537

Python 自動化的樂趣｜搞定重複瑣碎&單調無聊的工作, 2/e (Automate the Boring Stuff with Python : Practical Programming for Total Beginners, 2/e)
~~$780~~ $616

社群網站的資料探勘, 3/e (Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More, 3/e)
~~$780~~ $390

再強一點：用 Go語言完成六個大型專案 (書況較舊,不介意再下單)
~~$599~~ $473

資料科學的建模基礎 : 別急著 coding！你知道模型的陷阱嗎？
~~$680~~ $537

資料科學家的實用統計學 : 運用 R 和 Python 學習 50+個必學統計概念, 2/e (Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python, 2/e)
~~$980~~ $774

深入淺出設計模式, 2/e (Head First Design Patterns: Building Extensible and Maintainable Object-Oriented Software, 2/e)
~~$620~~ $489

深度學習的 16 堂課：CNN + RNN + GAN + DQN + DRL, 看得懂、學得會、做得出！ (Deep Learning Illustrated: A Visual, Interactive Guide to Artificial Intelligence)
~~$580~~ $458

內行人才知道的系統設計面試指南
$407

R語言高效能實戰更多數據和更快速度
~~$720~~ $562

演算法邏輯力：工程師必備的演算法解題、設計、加速技巧 (Algorithmic Thinking: A Problem-Based Introduction)
~~$600~~ $468

精通無瑕程式碼：工程師也能斷捨離！消除複雜度、提升效率的 17個關鍵技法 (The Art of Clean Code: Best Practices to Eliminate Complexity and Simplify Your Life)
~~$780~~ $616

Python 大數據專案 X 工程 X 產品資料工程師的升級攻略, 2/e

商品描述

近年來人工智能技術蓬勃發展，人工智能正在改變我們的生活。為了讓讀者在不需要掌握太多數學

和電腦科學知識的情況下，能夠快速上手，使用 Python 語言實現常用的機器學習算法，並解決一些實際的問題，我們策劃並出版本書。

本書共 14 章，內容涵蓋基本的機器學習概念和環境搭建，目前各個領域中的熱門算法，以及數據預處理、模型評估和文本數據分析等。希望本書可以讓讀者輕松入門，在動手實踐的過程中找到樂趣。

本書可以作為各大院校人工智能相關專業的教材，也可以作為培訓機構的教材，還適合人工智能技術愛好者自學使用。

作者簡介

肖睿，課工場創始人，北京大學教育學博士，北京大學軟件學院特約講師，北京大學學習科學實驗室特約顧問。
作為北大青鳥Aptech 的聯合創始人，歷任學術總監、研究院院長、公司副總裁等核心崗位，擁有20多年的IT職業教育產品管理和企業管理經驗。
於2015年創辦課工場，兼任總經理，旨在為大學生提供更可靠的IT 就業教育及服務。

目錄大綱

第 1 章機器學習概述 21
技能目標．　21
本章任務．　21
任務　1．1：瞭解機器學習的基本概念　22
1．1．1　什麼是機器學習　22
1．1．2　機器學習的起源與發展　23
任務　1．2：瞭解機器學習的應用場景　25
1．2．1　機器學習技術在日常生活中的應用　25
1．2．2　機器學習技術在不同行業中的應用　28
任務　1．3：瞭解機器學習的學習路徑　30
1．3．1　學習機器學習的先決條件．　30
1．3．2　開啟你的“海綿模式”　32
1．3．3　開始動手實踐．　33
任務　1．4：掌握機器學習的先導知識概念　34
本章小結．　36
本章習題

第　2 章機器學習工具安裝與使用．　38
技能目標．　38
本章任務．　38
任務　2．1：Anaconda 的安裝與使用　39
2．1．1　下載安裝 Anaconda．　39
2．1．2　Jupyter Notebook 的使用　41
任務　2．2：pandas 和可視化工具的基本使用　45
2．2．1　pandas 的基本使用　45
2．2．2　數據可視化工具的基本使用．　48
任務　2．3：掌握 scikit-learn 的基本操作　51
2．3．1．使用　scikit-learn 加載並檢查數據　51
2．3．2．使用　scikit-learn 訓練模型並評估　54
2．3．3．保存和加載訓練好的模型文件　．　56
本章小結．　57
本章習題

第　3 章線性模型　59
技能目標．　59
本章任務．　59
任務　3．1：掌握線性模型的基本概念和線性回歸的使用　60
3．1．1　線性模型的基本概念　60
3．1．2　線性回歸模型的使用　62
任務　3．2：掌握嶺回歸的原理及使用　66
3．2．1　嶺回歸的原理．　67
3．2．2　嶺回歸的使用．　69
任務　3．3：掌握套索回歸的原理及使用　73
3．3．1　套索回歸的原理　73
3．3．2　套索回歸的參數調節　74
任務　3．4：瞭解邏輯回歸與線性支持向量機．　76
3．4．1　邏輯回歸與線性支持向量機簡介．　77
3．4．2　訓練邏輯回歸模型並預測．　77
3．4．3　訓練線性支持向量機模型並預測．　79
本章小結．　80
本章習題

第　4 章決策樹和隨機森林．　81
技能目標．　81
本章任務．　81
任務　4．1：初步掌握決策樹算法．　82
4．1．1　什麼是決策樹算法　82
4．1．2　決策樹的基本使用方法　83
4．1．3　決策樹中的 max_depth 參數．　85
4．1．4　決策樹的模型展現．　91
4．1．5　決策樹的優勢與不足　92
任務　4．2：初步掌握隨機森林算法　93
4．2．1　什麼是隨機森林算法　93
4．2．2　隨機森林算法中的參數解釋　94
4．2．3　隨機森林與決策樹模型的差異　95
4．2．4　隨機森林的優勢與不足．　96
任務　4．3：使用決策樹與隨機森林實戰練習．　97
4．3．1　下載數據集並加載　97
4．3．2　瞭解數據集的特徵　98
4．3．3　使用數據集訓練決策樹與隨機森林　99
本章小結．　102
本章習題

第　5 章支持向量機　103
技能目標．　103
本章任務．　103
任務　5．1：理解支持向量機的基本原理　104
5．1．1　“線性不可分”的數據集　104
5．1．2　將數據投射到高維空間　105
5．1．3　“不線性”的支持向量機．　106
任務　5．2：理解支持向量機的核函數和 gamma 參數．　108
5．2．1　支持向量機的 RBF 內核　108
5．2．2　不同內核的支持向量機對比．　110
5．2．3　gamma 參數對模型的影響．　112
5．2．4　支持向量機中的 C 參數　114
5．2．5　支持向量機的優勢與不足．　116
任務　5．3：使用支持向量機算法進行實戰練習．　116
5．3．1　數據集準備與初步瞭解　116
5．3．2　探索性數據分析　119
5．3．3　初步訓練支持向量機模型．　121
5．3．4　對數據進行預處理並重新訓練模型　123
本章小結．　127
本章習題

第　6 章樸素貝葉斯　128
技能目標．　128
本章任務．　128
任務　6．1：瞭解樸素貝葉斯的基本原理和使用　128
6．1．1　樸素貝葉斯算法的基本原理．　129
6．1．2　樸素貝葉斯用法示例　130
任務　6．2：瞭解不同樸素貝葉斯變體的差異．　131
6．2．1　伯努利樸素貝葉斯的不足．　132
6．2．2　用高斯樸素貝葉斯替代伯努利樸素貝葉斯　133
6．2．3　多項式樸素貝葉斯簡介　134
任務　6．3：掌握樸素貝葉斯的實際應用．　135
6．3．1　獲取數據集並檢查　135
6．3．2　數據預處理與模型訓練．　136
6．3．3　樣本數量對樸素貝葉斯模型的影響　138
本章小結．　140
本章習題

第　7 章 K 最近鄰算法．　141
技能目標．　141
本章任務．　141
任務　7．1：瞭解 K 最近鄰算法．　142
7．1．1　K 最近鄰算法的簡介及原理．　142
任務　7．2：掌握 K 最近鄰算法在分類任務中的應用．　144
7．2．1　K 最近鄰算法在二元分類任務中的應用　145
7．2．2　K 最近鄰算法處理多元分類任務．　148
任務　7．3：掌握 K 最近鄰算法在回歸分析中的應用．　151
7．3．1　掌握 K 最近鄰算法在回歸分析中的應用．　151
任務　7．4：使用 K 最近鄰算法實戰練習　155
7．4．1　對數據集進行分析　155
7．4．2　生成訓練集和驗證集　158
7．4．3　使用 K 最近鄰算法進行建模並調優　160
7．4．4　使用模型對新樣本進行預測．　164
本章小結．　166
本章習題

第　8 章神經網絡　167
技能目標．　167
本章任務．　167
任務　8．1：瞭解神經網絡的起源與發展　168
8．1．1　瞭解神經網絡的起源．　169
8．1．2　瞭解神經網絡的發展．　170
任務　8．2：掌握神經網絡的原理．　172
8．2．1　瞭解神經網絡的原理　172
任務　8．3：掌握神經網絡中的激活函數　175
8．3．1　瞭解激活函數　175
8．3．2　使用激活函數　176
任務　8．4：掌握神經網絡中的參數調節　178
8．4．1　分析數據集並展現．　178
8．4．2　參數調節　182
任務　8．5：使用神經網絡解決實際問題　187
8．5．1　分析 fashion-mnist 數據集　187
8．5．2　訓練 MLP 神經網絡．　190
8．5．3　使用模型進行圖片識別　190
本章小結．　192
本章習題

第　9 章聚類．　194
技能目標．　194
本章任務．　194
任務　9．1：瞭解聚類算法的原理與用途　195
9．1．1　瞭解聚類算法的原理．　195
9．1．2　瞭解聚類算法的用途．　197
17　/ 305任務 9．2：掌握 K 均值算法的原理和使用　198
9．2．1　瞭解 K 均值算法的原理　199
9．2．2　使用 K 均值算法進行簡單聚類分析　200
任務　9．3：掌握 DBSCAN 算法的原理和使用．　203
9．3．1　瞭解 DBSCAN 算法的原理　203
9．3．2　使用 DBSCAN 算法進行簡單聚類分析．　205
任務　9．4：使用聚類算法解決實際問題　211
9．4．1　對數據集進行分析　212
9．4．2　使用 K 均值算法進行聚類分析．　214
本章小結．　221
本章習題

第　10 章數據降維、特徵提取與流形學習　222
技能目標．　222
本章任務．　222
任務　10．1：使用 PCA 主成分分析進行數據降維．　223
10．1．1　PCA 主成分分析介紹　223
10．1．2　使用 PCA 降維以便進行可視化　226
10．1．3　PCA 主成分與原始特徵的關係．　227
任務　10．2：使用 PCA 中的數據白化功能進行特徵提取　229
10．2．1　使用人臉識別數據集進行實驗　229
10．2．2　使用 PCA 進行特徵提取　232
10．2．3　特徵提取對於模型準確率的影響　234
任務　10．3：使用 t-SNE 對數據降維並進行可視化．　235
10．3．1　t-SNE 簡介　235
10．3．2　使用 PCA 降維作為 Baseline　236
10．3．3　使用 t-SNE 降維並進行可視化　239
本章小結．　241
本章習題

第　11 章模型選擇、優化及評估．　242
技能目標．　242
本章任務．　242
任務　11．1：掌握交叉驗證方法對模型進行評估．　243
11．1．1　交叉驗證法簡介．　243
11．1．2　K-折疊交叉驗證法　243
11．1．3　隨機拆分和留一交叉驗證法　246
任務　11．2：掌握網格搜索法尋找模型的最優參數．　248
11．2．1　瞭解及使用簡單網格搜索　248
11．2．2　與交叉驗證結合的網格搜索　250
任務　11．3：掌握模型的不同評價標準　253
11．3．1　分類模型的評價標準　253
11．3．2　使用 R 平方分數評估回歸模型．　255
本章小結．　258
本章習題

第　12 章數據預處理與特徵選擇．　259
技能目標．　259
本章任務．　259
任務　12．1：掌握常用的數據標準化方法　260
12．1．1　使用 StandardScaler 進行數據預處理　260
12．1．2　使用 MinMaxScaler 進行數據標準化處理　262
12．1．3　使用 Normalizer 進行數據標準化處理．　264
12．1．4　使用 RobustScaler 進行數據標準化處理　265
任務　12．2：掌握常用的數據表達方法　267
12．2．1　虛擬變量．　267
12．2．2　數據分箱．　269
任務　12．3：掌握常用的特徵選擇方法　274
12．3．1　單變量統計．　274
12．3．2　基於模型的特徵選擇　278
12．3．3　迭代特徵選擇　279
本章小結．　280
本章習題

第　13 章處理文本數據　282
技能目標．　282
本章任務．　282
任務　13．1：掌握文本數據的特徵提取、漢語分詞和詞包模型　283
13．1．1　基於計數向量器的文本特徵提取．　283
13．1．2　對漢語文本進行分詞處理　285
13．1．3　使用詞包模型將文本轉換為數組．　286
任務　13．2：文本數據的進一步優化處理　287
13．2．1　默認參數下詞包模型的問題．　287
13．2．2　調整 n_Gram 參數重新建立模型．　288
任務　13．3：使用真實數據進行實戰練習　290
13．3．1　加載數據集並查看特徵　290
13．3．2　文本數據預處理．　291
13．3．3　使用“樸素貝葉斯”算法訓練模型．　294
13．3．4　使用模型判斷消費者評論　295
本章小結．　296
本章習題

第　14 章未來職業發展前景與方向．　298
技能目標．　298
本章任務．　298
任務：瞭解數據科學家的職業發展　298
14．1．1　數據科學家的養成　298
14．1．2　在實踐中提高技能　301
14．1．3　未來的學習方向　303
本章小結．　305
本章習題