數據科學入門 第2版
[美]喬爾·格魯斯(Joel Grus)
- 出版商: 人民郵電
- 出版日期: 2021-01-01
- 定價: $654
- 售價: 8.5 折 $556
- 語言: 簡體中文
- 頁數: 336
- 裝訂: 平裝
- ISBN: 7115552762
- ISBN-13: 9787115552761
-
相關分類:
Data Science
立即出貨(限量) (庫存=1)
相關主題
商品描述
本書基於Python語言環境,從零開始講解數據科學工作,講述數據科學工作所需的技能與訣竅,並帶領讀者熟悉數據科學的核心知識:數學與統計學。作者借助大量具有現實意義的實例詳細展示了什麽是數據科學,介紹了從事數據科學工作需要用到的庫,如NumPy、scikit-learn、pandas等,還在每章末尾推薦了很多學習資源,幫助你進一步鞏固本書所學。新版基於Python 3.6,重寫了所有示例和代碼,並根據數據科學近幾年的發展,新增了關於深度學習、統計學和自然語言處理等主題,讓圖書內容與時俱進。
作者簡介
喬爾·格魯斯(Joel Grus)
Capital Group公司的首席機器學習工程師,擔任過艾倫研究所的人工智能研發工程師以及谷歌公司的軟件工程師,還曾在多家創業公司擔任數據科學家。
【譯者簡介】
岳冰
美國西北大學數學碩士,知乎專欄“X-Lab”編輯,參與編撰了《知識圖譜標準化白皮書(2019版)》。深耕圖神經網絡、推薦算法、複雜關係網絡風險挖掘、機器學習等領域。運用人工智能算法與工具,長期支持有關部門用高精尖技術手段打擊違法犯罪。
高蓉
講師,任教於杭州電子科技大學經濟學院金融系。博士和碩士畢業於南開大學經濟學院金融系,本科畢業於南開大學數學學院計算數學專業。研究領域包括數據科學應用、資產定價、金融工程、計量經濟應用等。
韓波
自由譯者、撰稿人,從事信息技術工作二十餘年,主要興趣領域為機器學習、Python等。曾為多家信息技術媒體撰稿,另譯有《Python數據分析》。
目錄大綱
第2版前言xiii
第1版前言xvii
第1章導論1
1.1數據的崛起1
1.2什麼是數據科學1
1.3激勵假設:DataSciencester 2
1.3.1尋找關鍵聯繫人3
1. 3.2你可能知道的數據科學家5
1.3.3工資和工作年限8
1.3.4付費賬戶10
1.3.5感興趣的主題10
1.3.6展望12
第2章Python速成13
2.1 Python之禪13
2.2獲取Python 14
2.3虛擬環境14
2.4空白格式15
2.5模塊16
2.6函數17
2.7字符串18
2.8異常19
2.9列表19
2.10元組21
2.11字典22
2.12計數器24
2.13集24
2.14控制流25
2.15真和假26
2.16排序27
2.17列表解析27
2.18自動化測試和斷言28
2.19面向對象編程29
2.20迭代器和生成器31
2.21隨機性..32
2.22正則表達式33
2.23函數式編程34
2.24壓縮和參數拆分34
2.25 args和kwargs 35
2.26類型註釋36
2.27歡迎來到DataSciencester 39
2.28進一步探索39
第3章數據可視化40
3.1 matplotlib 40
3.2條形圖42
3.3線圖45
3.4散點圖46
3.5延伸學習48
第4章線性代數49
4.1向量49
4 .2矩陣53
4.3延伸學習56
第5章統計學57
5.1描述單個數據集57
5.1.1中心傾向59
5.1.2離散度61
5.2相關62
5.3辛普森悖論64
5.4相關係數的其他注意事項65
5.5相關與因果66
5.6延伸學習66
第6章概率68
6.1依賴和獨立68
6.2條件概率69
6.3貝葉斯定理71
6.4隨機變量72
6.5連續分佈72
6.6正態分佈73
6.7中心極限定理76
6.8延伸學習78
第7章假設和推論79
7.1統計假設檢驗79
7.2實例:擲硬幣79
7.3 p值82
7.4置信區間84
7.5 p-Hacking 84
7.6實例:運行A/B測試85
7.7貝葉斯推斷86
7.8延伸學習89
第8章梯度下降90
8.1梯度下降的思想90
8.2估算梯度91
8.3使用梯度94
8.4選擇正確步長94
8.5使用梯度下降擬合模型95
8.6小批次梯度下降和隨機梯度下降96
8.7延伸學習98
第9章獲取數據99
9.1 stdin和stdout 99
9.2讀取文件101
9.2.1文本文件的基礎101
9.2.2限制的文件102
9.3網絡抓取104
9.4使用API 106
9.4.1 JSON和XML 106
9.4.2使用無驗證的API 107
9.4.3尋找API 108
9.5實例:使用Twitter API 109
9.6延伸學習112
第10章數據工作113
10.1探索數據113
10.1.1探索一維數據113
10.1.2兩個維度115
10.1.3多維數據116
10.2使用NamedTuple 18
10.3數據類119
10.4清洗和修改120
10.5數據處理122
10.6數據調整25
10.7題外話:tqdm 126
10.8降維127
10.9延伸學習133
第11章機器學習134
11.1建模134
11.2什麼是機器學習135
11.3過擬合與欠擬合135
11.4正確性138
11.5偏差–方差權衡140
11.6特徵提取與選擇141
11.7延伸學習142
第12章k最近鄰法143
12.1模型143
12.2實例:鳶尾花數據集145
12.3維數災難148
12.4進一步探索152
第13章樸素貝葉斯算法153
13.1一個簡易的垃圾郵件過濾器153
13.2一個複雜的垃圾郵件過濾器154
13.3算法實現155
13.4測試模型157
13.5使用模型158
13.6延伸學習161
第14章簡單線性回歸162
14.1模型162
14.2使用梯度下降法165
14.3最大似然估計166
14.4延伸學習166
第15章多元回歸167
15.1模型167
15.2最小二乘模型的進一步假設168
15.3擬合模型169
15.4解釋模型171
15.5擬合優度171
15.6題外話:Bootstrap 172
15.7回歸係數的標準誤差173
15.8正則化175
15.9延伸學習177
第16章邏輯回歸178
16.1問題178
16.2 logistic函數180
16.3應用模型183
16.4擬合優度184
16.5支持向量機185
16.6延伸學習188
第17章決策樹89
17.1什麼是決策樹189
17.2熵191
17.3分割的熵193
17.4創建決策樹194
17.5綜合運用196
17.6隨機森林199
17.7延伸學習199
第18章神經網絡200
18.1感知器200
18 .2前饋神經網絡202
18.3反向傳播205
18.4實例:Fizz Buzz 207
18.5延伸學習210
第19章深度學習211
19.1張量211
19.2層抽象213
19.3線性層215
19.4把神經網絡作為層序列218
19.5損失函數與優化器219
19.6實例:重新設計異或網絡221
19.7其他激活函數222
19.8實例:重新解決Fizz Buzz問題223
19.9 softmax函數和交叉熵224
19.10丟棄227
19.11實例:MNIST 227
19.12保存和加載模型231
19.13延伸學習232
第20章聚類分析233
20.1原理233
20.2模型234
20.3實例:聚會236
20.4選擇聚類數目k 238
20.5實例:色彩聚類239
20.6自下而上的分層聚類241
20.7延伸學習246
第21章自然語言處理247
21.1詞云247
21.2 n-gram語言模型249
21.3語法252
21.4題外話:吉布斯採樣254
21.5主題建模255
21.6詞向量260
21.7遞歸神經網絡268
21.8實例:使用字符級RNN 271
21.9延伸學習274
第22章網絡分析275
22.1中介中心性275
22.2特徵向量中心性280
22.2.1矩陣乘法280
22.2 .2中心性282
22.3有向圖與PageRank 283
22.4延伸學習286
第23章推薦系統287
23.1人工管理288
23.2推薦流行事務288
23.3基於用戶的協同過濾289
23. 4基於項目的協同過濾292
23.5矩陣分解294
23.6延伸學習298
第24章數據庫與SQL 299
24.1 CREATE TABLE與INSERT 299
24.2 UPDATE 302
24.3 DELETE 303
24.4 SELECT 304
24.5 GROUP BY 306
24.6 ORDER BY 308
24.7 JOIN 309
24.8子查詢311
24.9索引312
24.10查詢優化312
24.11 NoSQL 313
24.12延伸學習313
第25章MapReduce 314
25.1實例:單詞計數315
25.2為什麼是MapReduce 316
25.3更一般化的MapReduce 317
25.4實例:狀態分析更新318
25.5實例:矩陣乘法320
25.6題外話:組合器321
25.7延伸學習322
第26章數據倫理323
26.1什麼是數據倫理323
26.2講真的,什麼是數據倫理324
26.3是否應該關注數據倫理324
26.4建立不良數據產品325
26.5精確與公平之間的較量325
26.6合作327
26.7可解釋性327
26.8推薦327
26.9異常數據328
26.10數據保護329
26.11小結329
26.12延伸學習329
第27章數據科學前瞻330
27.1 IPython 330
27.2數學331
27.3不從零開始331
27.3.1 NumPy 331
27.3.2 pandas 331
27.3.3 scikit-learn 331
27.3.4可視化332
27.3.5 R 332
27.3 .6深度學習332
27.4尋找數據333
27.5從事數據科學工作333
27.5.1 Hacker News 333
27.5.2消防車333
27.5.3 T卹334
27.5.4地球儀上的推文334
27.5.5你的發現335
關於作者336
關於封面336