Python數據分析:零基礎入門到實戰開發
張玉皓著
- 出版商: 中國鐵道
- 出版日期: 2020-11-01
- 定價: $419
- 售價: 7.5 折 $314
- 語言: 簡體中文
- 頁數: 267
- 裝訂: 平裝
- ISBN: 7113267378
- ISBN-13: 9787113267377
-
相關分類:
Data Science
立即出貨
買這商品的人也買了...
-
$474$450 -
$352Python 社會媒體挖掘 (Mastering Social Media Mining with Python)
-
$520$468 -
$454$427 -
$449機器學習 — 原理、算法與應用
-
$480$408 -
$294$279 -
$768$730 -
$607$571 -
$356數據科學實戰入門 使用Python和R
-
$450$356 -
$474$450 -
$254Python 商業數據分析
-
$556$523 -
$658斯坦福數據挖掘教程, 3/e (Mining of Massive Datasets, 3/e)
-
$680$537 -
$790$624
相關主題
商品描述
本書講解主要以Python數據分析相關內容為主,還涉及數據分析背後的數學思維。
全書內容主要分為三部分。
第一部分為Python數據分析相關技能,包括NumPy,pandas等重要的第三方庫的使用技巧;
第二部分為數據分析相關統計知識,主要包括內置模型的流程,思路,以及數學原理的解析;
第三部分為實戰,主要是結合Python數據分析工具與統計學知識的實踐操作。
對於那些想要進入數據分析領域的初學者非常適合閱讀本書,甚至你沒有紮實的Python編程基礎,
沒有深厚的數理統計功底,依然可以通過本書的學習對數據分析技術產生濃厚的興趣,
以及對數據分析的原理與應用有更多整體的認識和理解。
作者簡介
張玉皓
畢業於中國科學院大學計算機應用技術專業,
在國際ROBOmaster人工智能挑戰大賽上與中科院自動化所,
伯克利大學,哥倫比亞大學同台競技,獲得第八名。
映客直播實習期間,參與直播間文本分析,計算直播間受歡迎指標的項目。
京東實習期間,參與京東商城全品類評論短文本聚類項目,
將短文本智能聚類,積累短對話語料庫。
畢業斬瓜瓜二手車,映客,馬蜂窩,百度,京東等大廠優惠,
後就職於京東零售,從事NLP算法領域智能客服的優化工作。
目錄大綱
目錄
第1章什麼是數據分析
1.1 Python開發環境1
1.2數據分析的前世今生2
1.2.1數據分析歷史2
1.2.2數據分析的現實應用2
1.2.3數據分析的技能需求3
1.3數據分析流程4
1.3.1數據導入,清洗5
1.3.2單變量分析6
1.3.3多變量分析6
1.3.4選擇模型6
1.3.5估計與假設檢驗7
1.3.6可視化8
1.4數據分析經典案例8
1.4.1犯罪率的下降與法律條文的生成8
1.4.2利用數據觀察校園作弊行為9
1.4.3靠統計學致富的數學家11
1.5數據分析的第一個實戰12
1.5.1單變量探索12
1.5.2多變量分析16
1.5.3選擇模型21
1.5.4假設檢驗25
第2章Python知識進階
2.1 Python語言28
2.1.1 Python的歷史29
2.1.2 Python的特色29
2.2 Python技巧與進階31
2.2.1數據類型方面的技巧31
2.2.2數字方面的使用技巧32
2.2.3枚舉34
2.2.4匿名函數的應用35
2.2.5裝飾器:語法糖37
2.2.6列表生成式39
2.2.7迭代器與生成器39
2.3 Python編程的易錯點41
2.3.1變量變量與局部變量42
2.3.2閉包43
2.3.3函數傳參44
2.3.4列表和副本的區別45
2.3.5變量和按引用傳遞45
2.3.6無:一個獨特的類型47
2.4小結48
第3章NumPy的入門與進階
3.1 ndarray數組49
3.1.1 ndarray數組的創造49
3.1.2 C和Fortran順序51
3.2索引51
3.2.1基本索引51
3.2.2高維矩陣的索引52
3.2.3高階索引54
3.3廣播機制56
3.4 NumPy分佈式的運算58
3.4.1 NumPy的數值計算58
3.4.2比較與排序59
3.4.3 NumPy的數組計算60
3.4.4 ufunc高級應用61
3.4.5 NumPy初等函數與math內置初等函數的區別63
3.4.6 NumPy中的多個式函數64
3.4.7其他功能函數65
第4章pandas的入門與進階
4.1 pandas的數據結構66
4.1.1系列的創造67
4.1.2 Series的數值計算68
4.1.3 DataFrame的創建69
4.1.4 DataFrame的基本屬性70
4.2 pandas數據結構的基本操作72
4.2.1轉置72
4.2.2索引73
4.2.3 DataFrame的關係型操作75
4.2.4 DataFrame的畫圖操作76
4.2.5查看數據80
4.3 pandas數據結構的進階操作81
4.3.1數據導入導出81
4.3.2表格合併83
4.3.3讀寫文件中的編碼問題90
4.3.4刪除與替換數據92
4.3.5表格整體性分析96
4.3.6 GroupBy分組運算98
4.3.7綜合練習103
第5章SciPy入門與進階
5.1 SciPy中的常數與函數106
5.1.1 SciPy中的常數106
5.1.2 SciPy中的特殊模塊107
5.2 SciPy中的科學計算工具108
5.2.1分解多元方程組108
5.2.2擬合方程110
5.2.3最優化算法113
5.2.4統計分佈116
5.2.5積分120
5.2.6插值121
第6章可視化
6.1可視化的魅力124
6.1.1別出心裁的可視化124
6.1.2可視化的基本理論126
6.1.3可視化實例127
6.2 matplotlib第三方庫的基本功能131
6.2.1 matplotlib繪圖的基礎組件131
6.2.2餅圖134
6.2.3條形圖139
6.2.4散點圖142
6.2.5折線圖145
6.2.6箱線圖146
6.2.7小提琴圖148
6.2.8底圖簡單介紹150
6.3相互繪圖151
6.3.1 matplotlib的簡單相互繪圖151
6.3.2 pyecharts可視化庫154
第7章時間序列
7.1 datetime庫的簡單介紹160
7.1.1時間坐標的構造160
7.1.2時間和弦的轉換161
7.2時間序列中pandas的應用162
7.2.1日期時間索引162
7.2.2 pandas中時間坐標的構造163
7.2.3 PeriodIndex(時間索引類型)164
7.2.4採樣166
7.2.5超前或滯後167
7.2.6移動窗口函數168
7.3時間序列的時區轉換169
第8章數據分析中的統計學
8.1有趣的選擇171
8.2數據分析回答ofo多久才能退押金172
8.3統計學在數據分析中扮演的角色178
8.4數據預處理178
8.4.1數據清洗178
8.4.2數據集成180
8.4.3數據變換181
8.5特徵工程182
8.5.1過濾法183
8.5.2包裝法186
8.5.3嵌入式方法190
8.5.4正則化193
8.6模型訓練194
8.7模型評估199
8.8數據分析中的其他問題201
8.8.1數據位數201
8.8.2大數據下的數據分析202
8.8.3辛普森悖論204
8.8.4數據集的劃分205
8.8.5優化調參206
第9章豆瓣電影TOP 250數據分析
9.1項目介紹210
9.1.1爬蟲的簡單介紹210
9.1.2網頁的構成210
9.1.3實戰中的爬蟲技術介紹211
9.1.4實戰中數據存儲與讀取215
9.1.5實戰中的界面設計216
9.1.6實戰中的數據可視化219
9.2數據庫操作224
9.2.1數據庫的安裝與配置225
9.2.2數據存儲到數據庫227
9.3數據庫標準語言228
9.3.1創建數據庫,表229
9.3.2表的刪除與更新229
9.3.3查詢230
9.3.4聚合與排序230
9.3.5數據更新231
9.3.6表的集合運算232
9.3.7 Python和數據庫語言的關係234
第10章Python豐富的可視化案例
10.1 turtle庫的簡單使用236
10.2北上廣深租房分析可視化案例238
10.2.1數據爬取238
10.2.2讀取數據240
10.2.3數據分析241
第11章Python預測應用——SVM預測股票漲跌
11.1 SVM介紹246
11.1.1 SVM原理246
11.1.2核函數247
11.2 SVM實戰249
11.2.1數據初步249
11.2.2訓練模型251
11.2.3遺傳算法252
第12章文本分析《三國演義》:挖掘人物圖譜
12.1項目簡單說明262
12.1.1代碼分塊介紹262
12.1.2效果圖展示265
12.2工程具體實現265
12.2.1設計思想266
12.2.2代碼詳解266
12.2.3可視化267