零基礎入門Pandas—Python數據分析 Pandas for Everyone: Python Data Analysis

[美]丹尼爾·陳(Daniel Y. Chen)著 高慧敏 王斌 呂勇 譯

  • 零基礎入門Pandas—Python數據分析-preview-1
  • 零基礎入門Pandas—Python數據分析-preview-2
  • 零基礎入門Pandas—Python數據分析-preview-3
零基礎入門Pandas—Python數據分析-preview-1

相關主題

商品描述

"基於實用、易學的原則,從功能、使用、原理等多個維度對Pandas做了全方位的詳細講解。本書是Python數據分析入門書,每個概念都通過簡單實例來闡述,便於讀者理解與上手。具體內容包括:Python及Pandas基礎知識,加載和查看數據集,Pandas的DataFrame對象和Series對象,使用matplotlib、seaborn和Pandas提供的繪圖方法為探索性數據分析作圖,連接與合並數據集,處理缺失數據,清理數據,轉換數據類型,處理字符串,應用函數,分組操作,擬合及評估模型,正則化方法與聚類技術等。 "

目錄大綱

 

 

目錄

第一部分引言

 

第1章Pandas DataFrame基礎知識

 

1.1引言

 

1.2加載第一個數據集

 

1.3查看列、行和單元格

 

1.3.1根據列名選擇列並進行子集化

 

1.3.2對行進行子集化

 

1.3.3根據行號子集化行

 

1.3.4混合

 

1.3.5子集化行和列

 

1.4分組和聚合計算

 

1.4.1分組方式

 

1.4.2分組頻率計數

 

1.5基本繪圖

 

本章小結

 

第2章Pandas的數據結構

 

2.1創建數據

 

2.1.1創建Series

 

2.1.2創建DataFrame

 

2.2Series

 

2.2.1類似於ndarray的Series

 

2.2.2布爾型子集: Series

 

2.2.3自動對齊並向量化(廣播)

 

2.3DataFrame

 

2.3.1DataFrame的組成

 

2.3.2布爾子集化DataFrames

 

2.3.3自動對齊和向量化(廣播)

 

2.4更改Series和DataFrame

 

2.4.1添加列

 

2.4.2直接更改列

 

2.4.3使用.assign()方法修改列

 

2.4.4刪除值

 

2.5導出和導入數據

 

2.5.1Pickle

 

2.5.2逗號分隔值

 

2.5.3Excel

 

2.5.4Feather文件格式

 

2.5.5Arrow

 

2.5.6Dictionary

 

2.5.7JavaScript對象表示法

 

2.5.8其他數據的輸出類型

 

本章小結

 

第3章繪圖入門

 

3.1為什麽要將數據可視化

 

3.2Matplotlib基礎

 

3.2.1圖對象和坐標軸子圖

 

3.2.2圖形剖析

 

3.3使用Matplotlib繪制統計圖

 

3.3.1單變量數據

 

3.3.2雙變量數據

 

3.3.3多變量數據

 

3.4Seaborn

 

3.4.1單變量數據

 

3.4.2雙變量數據

 

3.4.3多變量數據

 

3.4.4分面

 

3.4.5Seaborn的樣式和主題

 

3.4.6如何瀏覽Seaborn文檔

 

3.4.7下一代Seaborn接口

 

3.5Pandas繪圖方法

 

3.5.1直方圖

 

3.5.2密度圖

 

3.5.3散點圖

 

3.5.4蜂巢圖

 

3.5.5箱線圖

 

本章小結

 

第4章整潔數據

 

4.1包含值而非變量的列

 

4.1.1固定一列

 

4.1.2固定多列

 

4.2包含多個變量的列

 

4.2.1單獨拆分和添加列

 

4.2.2在單個步驟中進行拆分和組合

 

4.3行與列中的變量

 

本章小結

 

第5章函數的應用

 

5.1函數入門

 

5.2函數應用基礎

 

5.2.1Series的.apply()方法

 

5.2.2DataFrame的.apply()方法

 

5.3向量化函數

 

5.3.1使用NumPy

 

5.3.2使用Numba庫

 

5.4Lambda函數

 

本章小結

 

 

第二部分數據處理

 

第6章數據組合

 

6.1組合數據集

 

6.2連接

 

6.2.1查看DataFrame的組成

 

6.2.2添加行

 

6.2.3添加列

 

6.2.4不同索引下的連接操作

 

6.3跨多張表的觀測單元

 

6.3.1使用循環加載多個文件

 

6.3.2使用列表解析加載多個文件

 

6.4合並多個數據集

 

6.4.1一對一合並

 

6.4.2多對一合並

 

6.4.3多對多合並

 

6.4.4使用assert語句進行檢查

 

本章小結

 

第7章數據規範化

 

7.1一張表中的多個觀測單元

 

7.2數據規範化過程

 

本章小結

 

第8章分組操作: 分割應用組合

 

8.1聚合

 

8.1.1基本的單變量分組聚合

 

8.1.2Pandas內置的聚合方法

 

8.1.3聚合函數

 

8.1.4同時傳入多個函數

 

8.1.5在.agg()方法中使用dict

 

8.2轉換

 

8.2.1zscore示例

 

8.2.2缺失值示例

 

8.3過濾器

 

8.4pandas.core.groupby.DataFrameGroupBy對象

 

8.4.1分組

 

8.4.2涉及多個變量的分組計算

 

8.4.3選擇分組

 

8.4.4遍歷分組

 

8.4.5多個分組

 

8.4.6平鋪結果

 

8.5使用多級索引

 

本章小結

 

 

第三部分數據類型

 

第9章缺失數據

 

9.1何為NaN值

 

9.2缺失值從何而來

 

9.2.1加載數據

 

9.2.2合並數據

 

9.2.3用戶輸入值

 

9.2.4重建索引

 

9.3處理缺失數據

 

9.3.1查找和統計缺失數據

 

9.3.2清理缺失數據

 

9.3.3缺失值計算

 

9.4Pandas內置的NA缺失值

 

本章小結

 

第10章數據類型

 

10.1常見的數據類型

 

10.2類型轉換

 

10.2.1轉換為字符串對象

 

10.2.2轉換為數值類型

 

10.3分類數據

 

10.3.1轉換為category類型

 

10.3.2操作分類數據

 

本章小結

 

第11章字符串和文本數據

 

11.1字符串

 

11.1.1子集化和字符串切片

 

11.1.2獲取字符串的最後一個字符

 

11.2字符串方法

 

11.3更多字符串方法

 

11.3.1.join()方法

 

11.3.2.splitlines()方法

 

11.4字符串格式化

 

11.4.1格式化的文字字符串

 

11.4.2格式化數字

 

11.5正則表達式

 

11.5.1匹配模式

 

11.5.2記住RegEx模式

 

11.5.3查找模式

 

11.5.4替換模式

 

11.5.5編譯模式

 

11.6regex庫

 

本章小結

 

第12章日期和時間

 

12.1Python的datetime對象

 

12.2轉換為datetime

 

12.3加載包含日期的數據

 

12.4提取日期的各個部分

 

12.5日期運算和timedeltas

 

12.6datetime方法

 

12.7獲取股票數據

 

12.8基於日期子集化數據

 

12.8.1DatetimeIndex對象

 

12.8.2TimedeltaIndex對象

 

12.9日期範圍

 

12.9.1頻率

 

12.9.2偏移量

 

12.10日期變動

 

12.11重新採樣

 

12.12時區

 

12.13arrow庫

 

本章小結

 

 

第四部分數據建模

 

第13章線性回歸

 

13.1簡單線性回歸

 

13.1.1使用statsmodels庫

 

13.1.2使用Scikitlearn庫

 

13.2多元回歸

 

13.2.1使用statsmodels庫

 

13.2.2使用Scikitlearn庫

 

13.3包含分類變量的模型

 

13.3.1statsmodels中的分類變量

 

13.3.2Scikitlearn中的分類變量

 

13.4帶Transformer Pipelines的Scikitlearn中的onehot編碼

 

本章小結

 

第14章廣義線性模型

 

14.1邏輯回歸

 

14.1.1使用statsmodels庫

 

14.1.2使用Scikitlearn庫

 

14.1.3註意Scikitlearn默認值

 

14.2泊松回歸

 

14.2.1使用statsmodels

 

14.2.2負二項回歸

 

14.3更多的GLM

 

本章小結

 

第15章生存分析

 

15.1生存數據

 

15.2KaplanMeier曲線

 

15.3Cox比例風險模型

 

本章小結

 

第16章模型診斷

 

16.1比較單個模型

 

16.1.1殘差

 

16.1.2QQ圖

 

16.2比較多個模型

 

16.2.1比較線性模型

 

16.2.2比較GLM模型

 

16.3K折交叉驗證

 

本章小結

 

第17章正則化

 

17.1為什麽要正則化

 

17.2LASSO回歸

 

17.3嶺回歸

 

17.4彈性網

 

17.5交叉驗證

 

本章小結

 

第18章聚類

 

18.1K均值聚類

 

18.2層次聚類

 

18.2.1Complete聚類算法

 

18.2.2Single聚類算法

 

18.2.3Average聚類算法

 

18.2.4Centroid聚類算法

 

18.2.5Ward聚類算法

 

18.2.6手動設置閾值

 

本章小結

 

 

第五部分附錄

 

附錄A概念圖

 

附錄B安裝和設置

 

B.1安裝Python

 

B.1.1Anaconda

 

B.1.2Miniconda

 

B.1.3卸載Anaconda或Miniconda

 

B.1.4Pyenv

 

B.2安裝Python包

 

B.3下載本書數據

 

附錄C命令行

 

C.1安裝

 

C.1.1Windows系統

 

C.1.2macOS

 

C.1.3Linux系統

 

C.2基礎

 

附錄D項目模板

 

附錄EPython代碼編寫工具

 

E.1命令行和文本編輯器

 

E.2Python和iPython

 

E.3Jupyter 

 

E.4集成開發環境

 

附錄F工作目錄

 

附錄G環境

 

G.1Conda環境

 

G.2Pyenv+Pipenv

 

附錄H安裝程序包

 

H.1使用Conda安裝Python庫

 

H.2更新程序包

 

附錄I導入庫

 

附錄J代碼風格

 

附錄K容器: 列表、元組和dict

 

K.1列表

 

K.2元組

 

K.3dict

 

附錄L切片值

 

附錄M循環

 

附錄N推導式

 

附錄O函數

 

O.1默認參數

 

O.2任意參數

 

O.2.1*args

 

O.2.2**kwargs

 

附錄P範圍和生成器

 

附錄Q多重賦值

 

附錄Rnumpy.ndarray

 

附錄S類

 

附錄TCopyWarning設置

 

T.1修改數據子集

 

T.2替換值

 

T.3更多的資源

 

附錄U方法鏈

 

附錄V計時代碼

 

附錄W字符串格式化

 

W.1C語言風格

 

W.2字符串格式化: .format()方法

 

W.3格式化數字

 

附錄X條件語句(ifelifelse)

 

附錄Y紐約ACS邏輯回歸示例

 

Y.1準備數據

 

Y.2使用Scikitlearn庫

 

附錄Z復制R語言中的結果

 

Z.1線性回歸

 

Z.2邏輯回歸

 

Z.3泊松回歸