Python 大數據處理與分析
安俊秀 唐聃 靳宇倡 等
- 出版商: 人民郵電
- 出版日期: 2021-05-01
- 定價: $299
- 售價: 8.5 折 $254
- 語言: 簡體中文
- 頁數: 224
- 裝訂: 平裝
- ISBN: 7115556857
- ISBN-13: 9787115556851
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書介紹利用Python進行大數據處理與分析的詳細方法和步驟。全書共9章,主要內容包括搭建開發環境、Numpy庫、Pandas庫、Matplotlib庫、數據預處理以及多個案例分析。本書註重理論緊密聯系實際,使讀者可以系統、全面地瞭解Python大數據處理與分析的實用技術和方法。
本書可作為高等院校Python大數據處理與分析相關課程的教材,也可以作為電腦相關專業的專業課或選修課教材,同時還可以作為從事Python與大數據技術相關工作人員的參考用書。
作者簡介
安俊秀,教授,碩士生導師。
2004年畢業於西安交通大學計算機科學與技術專業,獲工學碩士學位。
2016年-2017年美國加州大學河濱分校(UCR)公派訪問學者,2014年-2015年美國科羅拉多大學斯普林司分校(UCCS)訪問學者。
軟件自動生成與智能服務四川省重點實驗室學術帶頭人(領域知識本體和大數據方向)。
作為項目負責人承擔國家自然基金面上項目1項(71673032),作為主研人員參與***項目6項。
已發表研究領域相關論文及發明專利40餘篇。
主編完成專著或教材10餘部,均是雲計算與大數據方向,由***出版社出版(如Linux操作系統基礎教程、Hadoop大數據處理技術基礎與實踐、雲計算與大數據技術應用等) ,其中2016年出版了有影響力的獨著:量化社會——大數據與社會計算。國家自然科學基金委通訊評審專家,四川省科技項目評審專家,成都市科技攻關計劃評審專家,成都軍區項目評審專家。
1993年進入山西大學商務學院任教,2006年底調入成都信息工程大學任教。
近三年,先後承擔了《Linux體系和編程》、《軟件工程項目管理》、《工程導論》、《計算機組成原理》等本科課程;承擔了《雲計算與大數據》、《並行計算》 、《Hadoop處理技術》等研究生課程。
目錄大綱
第1部分基礎篇
第1章搭建開發環境2
1.1 Python解釋器的安裝2
1.1.1在Windows系統下安裝Python解釋器2
1.1.2在Linux系統下安裝Python解釋器6
1.1.3在macOS系統下安裝Python解釋器10
1.1.4運行2 2個hello world程序12
1.2 Anaconda的安裝及環境變量配置12
1.2.1 Anaconda簡介12
1.2.2安裝Anaconda 14
1.2.3配置Anaconda環境變量16
1.3 Jupyter Notebook與PyCharm的安裝及工程環境設置17
1.3.1 Jupyter Notebook的簡介與安裝18
1.3.2設置Jupyter Notebook工程環境19
1.3.3 PyCharm的簡介與安裝23
1.3.4設置PyCharm工程環境25
習題28
第2章使用NumPy進行數據計算29
2.1安裝NumPy 29
2.2 NumPy中的數組對象30
2.2.1數組對象的創建31
2.2.2數組對象的常用屬性34
2.2.3數組元素的訪問與修改36
2.2.4數組對象的基礎運算37
2.2.5數組對象的常用函數38
2.3使用NumPy進行數22算42
2.3.1位運算函數42
2.3.2數學函數44
2.3.3算術函數45
2.3.4統計函數47
2.3.5線性代數函數49
2.4 NumPy使用案例52
習題53
第3章使用pandas進行數據分析54
3.1安裝pandas 54
3.2 pandas中的對象55
3.2.1 Series對象56
3.2.2 DataFrame對象57
3.3 pandas的基本操作58
3.3.1導入與導出數據59
3.3.2數據的查看與檢查60
3.3.3數據的增刪查改62
3.4 pandas的基本運用64
3.4.1數據統計64
3.4.2算術運算與數據對齊66
3.5 pandas使用案例68
習題70
第4章Matplotlib數據可視化71
4.1安裝Matplotlib與繪圖基本步驟71
4.1.1安裝Matplotlib 71
4.1.2 Matplotlib繪圖基本步驟72
4.2經典圖形繪製74
4.2.1折線圖74
4.2.2柱狀圖77
4.2.3直方圖80
4.2.4散點圖82
4.2.5等值線圖及地理信息可視化86
4.3圖表調整及美化92
4.3.1圖表主要組成元素調整92
4.3.2顏色參數及映射表97
4.4 Matplotlib使用案例98
習題102
第5章數據預處理103
5.1數據清洗與準備103
5.1.1數據清洗準備103
5.1.2數據清洗104
5.2正則表達式108
5.2.1正則表達式的特點與組成108
5.2.2字符串方法109
5.2.3 re模塊113
5.3數據規整117
5.3.1聚合、分組及數據透視117
5.3.2特徵選擇(降維) 120
5.3.3數據變換與數據規約122
5.3.4稀疏表示和字典學習124
習題126
第二部分實例篇
第6章基於大數據的房產估價128
6.1情景問題提出及分析128
6.2多元回歸模型介紹128
6.3方法與過程129
6.3.1讀入數據並進行數據預處理130
6.3.2將預處理好的數據可視化141
6.3.3使用多元回歸模型進行房產估價146
6.3.4模型效果評價148
上機實驗151
第7章某移動公司客戶價值分析152
7.1情景問題提出及分析152
7.2 K-Means聚類算法簡介153
7.3客戶價值分析過程155
7.3.1讀入數據並進行數據預處理156
7.3.2數據標準化165
7.3.3使用K-Means聚類算法對客戶進行分析167
7.3.4數據可視化及數據分析172
上機實驗178
第8章基於歷史數據的氣溫及降水預測179
8 .1情景問題提出及分析179
8.2常見的時間序列模型簡介180
8.2.1 AR模型180
8.2.2 MA模型181
8.2.3 ARMA模型181
8.2.4 ARIMA模型182
8.2.5模型求解步驟183
8.3平穩序列建模示例(降水預測) 186
8.3.1讀入數據並進行預處理186
8.3.2時間序列的平穩性分析190
8.3.3模型選擇及定階191
8.3.4建立時序模型並預測193
8.4非平穩序列建模示例(氣溫預測) 195
8.4.1讀入數據並進行預處理195
8.4.2時間序列的平穩性分析197
8.4.3模型選擇及定階198
8.4.4建立時序模型並預測200
上機實驗202
第9章智能電網的電能預估及價值分析2 03
9.1情景問題提出及分析203
9.2決策樹算法簡介203
9.2.1 ID3算法205
9.2.2 C4.5算法207
9.2.3 CART算法208
9.2.4預剪枝與後剪枝208
9.2.5連續值處理209
9.3方法與過程211
9.3.1讀入數據並預處理211
9.3.2模型構建218
9.3.3模型效果評價221
上機實驗221
參考文獻223