數據科學理論與實踐 — 基於 Python 的實現
何曙光,張敏
- 出版商: 科學出版
- 出版日期: 2024-05-01
- 定價: $408
- 售價: 8.5 折 $347
- 語言: 簡體中文
- 頁數: 311
- ISBN: 7030784065
- ISBN-13: 9787030784063
-
相關分類:
Data Science
下單後立即進貨 (約4週~6週)
相關主題
商品描述
當前我們正處於大數據時代,不同類型的數據正以前所未有的速度累積和存儲,數據將成為未來組織運營的重要資源。大數據正改變著企業的運行邏輯和管理問題的解決方式與手段。對於管理學科的研究者和實踐者來說,具備處理動輒幾十萬條甚至更大規模的數據的能力,逐漸成為一項必備技能。本書從這一目的出發,介紹了基於Python的數據科學理論和實踐相關內容。全書共8章,內容包括數據科學概論、Python基礎、Python常用模塊、基於Python的最優化、基於Python的統計分析、基於Python的機器學習、基於PyTorch的神經網絡、網絡文本數據分析與實踐。本書以適用為目標,在簡要介紹相關理論的基礎上重點介紹如何通過Python進行數據分析、建模和問題解決。同時,本書還包含了大量的Python源代碼,可以作為參考資料,具有很強的實用性。
目錄大綱
目錄
前言
第1章 數據科學概論1
1.1 數據與大數據1
1.1.1 數據、信息和知識1
1.1.2 大數據3
1.2 數據科學及其工作流程概述4
1.2.1 數據科學概述4
1.2.2 數據科學工作流程4
習題6
第2章 Python基礎7
2.1 Python概述7
2.1.1 電腦語言概述7
2.1.2 Python語言簡介8
2.1.3 Python解釋器及開發環境的安裝9
2.2 Python基礎12
2.2.1 Python基礎語法12
2.2.2 Python復雜數據類型13
2.2.3 Python運算符19
2.2.4 Python控制語句20
2.3 函數和類的定義27
2.3.1 Python函數的定義和調用27
2.3.2 Python與面向對象編程30
2.4 Python包31
2.4.1 Python包的結構和導入31
2.4.2 Python常用包簡介33
習題33
第3章 Python常用模塊35
3.1 numpy與矩陣運算35
3.1.1 numpy多維數組基礎35
3.1.2 數組索引39
3.1.3 數組運算40
3.1.4 numpy簡單統計函數41
3.2 基於pandas的數據操縱與管理42
3.2.1 pandas基礎43
3.2.2 DataFrame的切片和計算45
3.2.3 DataFrame數據運算48
3.2.4 數據的合並54
3.3 基於matplotlib和seaborn的數據可視化57
3.3.1 matplotlib數據可視化概述57
3.3.2 matplotlib數據可視化示例60
3.3.3 seaborn數據可視化67
3.4 基於sympy的符號計算74
3.4.1 sympy基礎74
3.4.2 表達式操作75
3.4.3 積分與微分78
3.4.4 sympy方程求解81
3.4.5 sympy與函數可視化82
3.5 基於scipy的科學計算83
3.5.1 scipy線性代數84
3.5.2 數值積分86
3.5.3 插值87
習題91
第4章 基於Python的最優化92
4.1 最優化問題的形式化定義與分類92
4.2 基於scipy的函數優化93
4.2.1 無約束最優化93
4.2.2 約束最優化98
4.2.3 其他最優化算法101
4.3 基於cvxpy的凸優化建模與求解103
4.3.1 凸優化的基本概念104
4.3.2 cvxpy及凸優化問題求解106
4.3.3 凸優化問題實例116
4.4 基於gurobipy的數學規劃建模與求解134
4.4.1 Gurobi簡介134
4.4.2 基於gurobipy求解數學規劃的步驟135
4.4.3 gurobipy建模與求解實例138
4.4.4 gurobipy中的常用問題轉換技巧145
習題147
第5章 基於Python的統計分析148
5.1 scipy與統計分佈148
5.1.1 基於scipy的基本統計分佈148
5.1.2 主要離散分佈簡介149
5.1.3 主要連續分佈簡介153
5.1.4 抽樣分佈158
5.1.5 基本統計分析160
5.2 基於Python的分佈參數估計163
5.2.1 參數的點估計164
5.2.2 參數的區間估計165
5.2.3 存在截尾數據的韋布爾分佈參數估計實例167
5.3 假設檢驗169
5.3.1 假設檢驗的基本概念169
5.3.2 scipy中的假設檢驗170
5.4 基於Python的統計模型174
5.4.1 線性回歸174
5.4.2 廣義線性模型179
5.4.3 廣義估計方程181
5.4.4 廣義加性模型182
5.4.5 基於表達式的模型定義184
習題186
第6章 基於Python的機器學習187
6.1 機器學習概述187
6.1.1 機器學習及相關概念187
6.1.2 機器學習的結構189
6.1.3 基於Python的機器學習192
6.1.4 sklearn基礎192
6.2 監督學習模型199
6.2.1 分類模型199
6.2.2 回歸模型217
6.2.3 集成方法223
6.3 非監督學習算法229
6.3.1 聚類229
6.3.2 高斯混合模型234
6.3.3 流形學習235
6.3.4 信號成分分解237
6.3.5 異常檢測239
6.4 機器學習模型選擇和評估242
6.4.1 模型選擇與評估242
6.4.2 超參數設置247
6.4.3 特徵選擇250
6.4.4 模型的保存和讀取252
習題253
第7章 基於PyTorch的神經網絡254
7.1 神經網絡254
7.1.1 神經網絡基本原理254
7.1.2 激活函數255
7.1.3 神經網絡訓練過程256
7.2 基於PyTorch的神經網絡建模257
7.2.1 Torch簡介258
7.2.2 變量和自動求導機制autograd259
7.3 PyTorch神經網絡建模262
7.4 基於PyTorch的神經網絡示例267
7.4.1 回歸問題267
7.4.2 分類問題268
7.4.3 多項式擬合問題269
習題271
第8章 網絡文本數據分析與實踐272
8.1 網絡文本數據分析概述272
8.1.1 網絡數據分析的基本流程272
8.1.2 網絡數據分析主要應用場景273
8.1.3 網絡數據分析典型案例273
8.2 Web應用構成要素及工作流程275
8.2.1 網頁構成要素276
8.2.2 Web訪問請求和響應過程277
8.2.3 靜態網頁和動態網頁280
8.2.4 審查網頁元素282
8.3 基於Python的網絡數據獲取283
8.3.1 User-Agent283
8.3.2 基於urllib的網絡數據獲取284
8.3.3 基於requests包的網絡數據獲取287
8.4 網絡數據解析289
8.4.1 正則表達式289
8.4.2 基於lxml的信息提取291
8.4.3 Beautiful Soup293
8.5 文本處理298
8.5.1 數據預處理298
8.5.2 中文分詞300
8.5.3 去除停用詞301
8.5.4 關鍵詞分析302
8.6 文本數據建模與分析306
8.6.1 文本主題模型306
8.6.2 情感分析模型309
習題311
參考文獻312