人工智能與大數據(捲1):基礎概念和模型
[新加坡]周志華(Chew Chee Hua)
- 出版商: 人民郵電
- 出版日期: 2022-04-01
- 定價: $719
- 售價: 8.0 折 $575
- 語言: 簡體中文
- 頁數: 289
- ISBN: 7115575754
- ISBN-13: 9787115575753
-
相關分類:
大數據 Big-data
立即出貨 (庫存 < 3)
相關主題
商品描述
本書介紹了人工智能和大數據涉及的核心概念和模型。書中涉及概念包括監督和非監督學習、數據類型、可視化、線性回歸、邏輯回歸、分類回歸樹、神經網絡等。同時,本書理論和實際並重,基於真實的實例和數據集,引入了R語言演示實際計算和操作,為讀者展示解決實際問題的代碼,從而讓讀者掌握在實際生活中解決相關問題的方法。
本書適合想要綜合學習人工智能、大數據和數據科學,尤其是想要依靠這些學科解決實際問題的人學習,也適合作為相關課程的參考教材。
作者簡介
Chew Chee Hua(中文名:周志华),新加披南洋理工大学高级讲师,主讲课程包括分析学、机器学习、商业分析及应用机器学习、分析战略等。曾为政府机构、银行、保险公司、医院和大型企业设计和领导高级分析解决方案。
目錄大綱
第 1 章 介紹和概述 . 1
1.1 主要的成功案例和應用 .1
1.1.1 Netflix 的 120 億美元營收目標 .1
1.1.2 在醫院急診部使用有限的信息拯救生命 .3
1.1.3 癌症診斷與損傷預後 .5
1.1.4 從零開始使用低預算連續贏得 20 場比賽 .6
1.1.5 殼牌公司深海石油鑽探的預測性資產維護 .7
1.1.6 預測選舉結果 .8
1.1.7 星展銀行預測現金需求和優化調度 .9
1.1.8 新加坡稅務局檢測稅務欺詐 .10
1.1.9 違規和欺詐貸款風險檢測 .11
1.2 適合 ADA 解決的問題特徵 .12
1.3 數據分析、數據科學和人工智能的區別 .13
1.4 analysis 和 analytics .14
1.5 組織 ADA 能力的發展曲線 .15
1.6 規劃、開發和部署 ADA .18
1.7 四大預測模型 .19
第 2 章 基本概念和原則. 21
2.1 本章目標 .21
2.2 可視化和模型 .21
2.3 監督學習和無監督學習 .24
2.4 模型的可解釋性 .25
2.5 原則 1:正確模型不唯一 .26
2.5.1 模型和等式 .28
2.5.2 評估預測模型 .29
2.6 原則 2:訓練數據和測試數據分離 . 31
2.6.1 在訓練 - 測試拆分前進行分層 .33
2.6.2 有效地執行分層和訓練 - 測試拆分 .34
2.6.3 訓練集與測試集之間的權衡 .39
2.7 原則 3:風險校正模型 . 39
2.7.1 多項式插值定理的影響 .40
2.7.2 模型復雜度 .41
第 3 章 數據探索和摘要. 47
3.1 本章目標 .47
3.2 數據初探和 R 語言的 data.table .47
3.2.1 data.table 的語法 .48
3.2.2 示例:2014 年的紐約航班 .48
3.2.3 行篩選 .51
3.2.4 列排序 .52
3.2.5 篩選幾列並進行重命名 .53
3.2.6 進一步的數據探索和問題 .53
3.3 公共享途微觀樣本數據 .59
3.3.1 探索 PUMS 中的健康保險覆蓋面數據 .60
3.3.2 在 R 中導入數據和摘要概述 .61
3.3.3 缺失值概述 .66
3.3.4 繪制單一連續變量的圖形摘要—概率密度 .67
3.3.5 繪制單一分類變量的圖形摘要—條形圖 .71
3.3.6 繪制分類變量X 和連續變量Y 的圖形摘要—箱線圖 .73
3.3.7 繪制連續變量X 和連續變量Y 的圖形摘要—散點圖 .75
3.3.8 繪制連續變量X 和分類變量X 的圖形摘要—抖動
散點圖 .76
3.4 結論 .79
第 4 章 數據結構和可視化 . 83
4.1 本章目標 .83
4.2 數據結構的格式 .83
4.3 檢查數據結構 .85
4.3.1 連續數據和分類數據 .85
4.3.2 定類數據與定序數據 .87
4.4 可視化 .90
4.5 結論 .93
第 5 章 數據清洗和準備. 95
5.1 本章目標 .95
5.2 缺失值 .95
5.2.1 更正不一致的缺失值記錄 .96
5.2.2 NA 和 NULL .98
5.2.3 處理(真實存在的)缺失值 .99
5.3 處理分類數據中的 NA 和錯誤值 .100
5.4 處理連續數據中的 NA 和錯誤值 .100
5.5 結論 .102
第 6 章 線性回歸:最佳實踐. 105
6.1 本章目標 .105
6.2 相關性 .105
6.2.1 強相關和因果關系 .108
6.2.2 強相關和直線關系 .109
6.2.3 弱相關性和無趨勢 .110
6.3 單輸入變量的線性回歸 .112
6.4 多重R 方和調整R 方 .115
6.5 線性回歸方程和線性回歸模型 .117
6.6 模型診斷圖 .118
6.7 有影響力的異常值 .119
6.8 向模型中增加一個二次項 .121
6.9 多因子的線性回歸 .123
6.10 訓練 - 測試拆分 .135
6.11 結論 .137
第 7 章 邏輯回歸:最佳實踐. 140
7.1 本章目標 .140
7.2 相對風險和勝算比 .140
7.3 單一連續輸入變量的二元邏輯回歸 .145
7.3.1 示例: 基於學習時長預測考試結果 .148
7.3.2 邏輯回歸的混淆矩陣 .152
7.4 多輸入變量的二元邏輯回歸 .154
7.5 多元邏輯回歸 .159
7.5.1 多分類值Y 的邏輯函數 .160
7.5.2 示例:影響服務評級的因素 .161
7.6 結論 .166
第 8 章 分類回歸樹 . 171
8.1 本章目標 .171
8.2 預測心臟病發作的模型和要求 .172
8.3 階段 1:使用二分法將樹增長到最大值 .175
8.3.1 度量分類變量結點的雜質 .176
8.3.2 CART 樹的增長過程 .179
8.4 階段 2:用最弱連接剪枝法將樹修剪到最小值 .180
8.4.1 最弱連接剪枝 .182
8.4.2 rpart 包中的α 和cp .185
8.4.3 k 折交叉驗證和 1 標準誤差規則 .185
8.5 示例:CART 模型在定向信用卡營銷中的運用
(Y 為分類數據) .187
8.6 示例:CART 模型在汽車燃油效率中的運用
(Y 為連續數據) .198
8.7 通過代理項自動處理缺失值 .205
8.8 結論 .211
8.9 rpart 包的重要函數和參數總結 .212
第 9 章 神經網絡. 219
9.1 本章目標 .219
9.2 大腦處理信息過程的建模 .220
9.3 信息的處理、關聯和傳輸 .221
9.4 示例:巧克力口味測試 .222
9.5 通過增加權重訓練神經網絡 .226
9.5.1 反向傳播 .226
9.5.2 彈性反向傳播和權重回溯 .228
9.6 設計神經網絡需要考慮的細節 .229
9.6.1 規範所有輸入變量的取值範圍 .229
9.6.2 限制網絡復雜度 .230
9.6.3 neuralnet 和 nnet .230
9.7 示例:不孕風險 .231
9.8 結論 .236、
第 10 章 字符串和文本挖掘 . 240
10.1 本章目標 .240
10.2 處理字符串 .240
10.3 基本的文本挖掘概念 .247
10.3.1 示例:對期刊標題進行分析的字符串操作 .249
10.3.2 示例:對期刊標題分析的文本挖掘操作 .252
10.3.3 文檔要素矩陣 .256
10.3.4 非索引字 .257
10.4 情緒分析 .259
10.5 結論 .266
第 11 章 結束感想和後續計劃. 269
附錄 A R 和 RStudio 的安裝 . 271
A.1 下載安裝 R .271
A.2 下載安裝 RStudio .273
A.3 在 RStudio 中將 R 升級到最新版本 .274
附錄 B 基本的 R 命令和腳本 . 275
B.1 RStudio 界面的 4 個面板 .275
B.2 檢查和設置工作目錄 .280
B.3 將數據輸入 RStudio .281
B.4 R 中的對象命名約定 .284
B.5 R 中的通用運算符 .285
B.6 R 函數 .285
B.7 創建你自己的 R 函數 .287
B.8 練習 R .288