Python數據預處理技術

蔡黎亞

  • 出版商: 清華大學
  • 出版日期: 2024-05-01
  • 定價: $294
  • 售價: 8.5$250
  • 語言: 簡體中文
  • ISBN: 730265963X
  • ISBN-13: 9787302659631
  • 下單後立即進貨 (約4週~6週)

  • Python數據預處理技術-preview-1
  • Python數據預處理技術-preview-2
  • Python數據預處理技術-preview-3
Python數據預處理技術-preview-1

相關主題

商品描述

本書共包含了7個Python數據預處理庫(csv、json、jieba、NumPy、OpenCV、Pandas、Pyecharts)的應用及實例講解,適用於人工智能、數據處理及大數據分析領域中相關Python學習的中級及高級用戶,其中數百個庫函數的使用說明也可以作為該領域專業用戶的使用參考。本書配有教案、教學課件、習題題庫等。 本書適合作為高等院校電腦及相關專業的教材和教學參考書,也可作為相關開發人員的自學用書和參考手冊。

目錄大綱

目錄

第1章Python的標準庫與擴展庫00

1.1本章介紹00

1.2數據處理中的常用標準庫00

1.3數據處理中的常用擴展庫00

1.4PyCharm IDE的下載與安裝00

1.4.1Python擴展庫的下載00

1.4.2PyCharm IDE的下載與安裝配置00

1.4.3PyCharm IDE中安裝Python擴展庫00

1.4.4更換國內安裝源00

1.5pip 工具安裝Python擴展庫0

1.5.1pip工具在線更新0

1.5.2在線安裝擴展庫0

1.5.3離線安裝擴展庫下載包0

1.6PyCharm的快捷鍵0

第2章csv庫及json庫的數據類型轉換0

2.1本章介紹0

2.2csv庫的讀/寫方法0

2.3讀取CSV文件並輸出為列表類型0

2.4讀取CSV文件並輸出為字典類型0

2.5以字符串數據類型輸出讀取的CSV文件0

2.6讀取本地JSON格式文件0

2.7自定義分隔符寫入CSV文件0

第3章jieba庫中文切詞統計0

3.1本章介紹0

3.2jieba庫概述0

3.3jieba庫語法0

3.3.1精確模式0

3.3.2全模式0

3.3.3搜索引擎模式0

3.4jieba庫統計詞頻實例0

3.4.1實例任務要求0

3.4.2選擇精確模式進行中文切詞0

3.4.3刪除單字詞匯0

3.4.4選擇適當數據類型構建詞匯與詞頻的對應關系0

3.4.5數據類型轉換並排序0

3.4.6刪除非人物名稱的相關詞匯0

3.4.7合並同一人物的不同稱謂0

3.4.8按任務要求調整輸出的數據結構0

3.4.9統計詞頻程序的完整代碼0

第4章NumPy結合OpenCV庫進行圖像數據處理0

4.1本章介紹0

4.2NumPy庫簡介0

4.2.1NumPy庫概述0

4.2.2NumPy庫的特點0

4.2.3NumPy庫的導入0

4.3array()創建多維數組0

4.3.1多維數組概念0

4.3.2多維數組對象0

4.3.3數組對象屬性0

4.4OpenCV庫的簡單圖像處理0

4.4.1OpenCV庫導入、顯示及保存圖像的方法0

4.4.2NumPy庫多維數組對象屬性與OpenCV庫圖像處理的對應關系0

4.5創建數組0

4.5.1創建數組的常用函數0

4.5.2隨機生成函數random()創建數組0

4.5.3NumPy圖像處理: 創建數組繪制三維圖像0

4.6定位數組元素0

4.6.1索引與切片0

4.6.2NumPy圖像處理: 切片數組修改指定的圖像區域0

4.6.3NumPy圖像處理: 切片處理圖像的翻轉、縮小與交換顏色通道0

4.7簡單數組運算0

4.7.1多維數組與常量的運算0

4.7.2相同形狀數組之間的運算0

4.7.3NumPy圖像處理: 彩色圖像轉換為灰度圖0

4.8數組運算的廣播機制0

4.8.1廣播機制的原理0

4.8.2廣播機制的一般規則0

4.8.3理解廣播的機制0

4.9修改數組形狀0

4.9.1np.reshape()函數0

4.9.2np.resize()函數0

4.9.3np.transpose()函數與ndarray.T屬性0

4.9.4np.broadcast_to()函數0

4.9.5NumPy圖像處理: 圖像形狀自動轉換為正方形0

4.10數組的切分、拼接與堆疊0

4.10.1數組切分: np.split()、np.hsplit()、np.vsplit()與np.dsplit()0

4.10.2NumPy圖像處理: 切分圖像0

4.10.3拼接數組: np.concatenate()函數0

4.10.4NumPy圖像處理: 拼接不同顏色通道圖像0

4.10.5堆疊數組: np.stack()、np.hstack()、np.vstack()與

np.dstack()0

4.10.6NumPy圖像處理: 切分、堆疊、交換顏色通道與圖像二值化

處理

4.11數組的復制與軸變換0

4.11.1復制數組: np.tile()與np.repeat()0

4.11.2NumPy圖像處理: 復制數組繪制漸變色背景的圓形0

4.11.3數組軸變換: np.rollaxis()與np.swapaxes()0

4.11.4NumPy圖像處理: 軸變換旋轉圖像0

4.12數組的統計與運算函數0

4.12.1數組的統計函數0

4.12.2圖像處理中的均值與標準差0

4.12.3NumPy圖像處理: 利用統計函數繪制正態分佈圖像0

4.13修改數組維度0

4.13.1擴展維度: expand_dims()0

4.13.2維度展平: ndarray.flat、ndarray.flatten()與np.ravel()0

4.13.3刪除維度: np.squeeze()0

4.13.4NumPy圖像處理: 降低圖像維度0

4.14圖像數組的預處理: 去均值與歸一化0

4.14.1圖像去均值0

4.14.2像素歸一化0

4.14.3NumPy圖像處理: 歸一化與去均值後的圖像對比分析0

4.14.4NumPy圖像處理: 圖像增加高斯噪點與高斯模糊0

4.15數組元素的增刪改等操作0

4.15.1末尾追加元素np.append()0

4.15.2指定位置插入元素np.insert()0

4.15.3刪除指定元素np.delete()0

4.15.4去除重復元素np.unique()0

4.15.5強制截取並賦值元素np.clip()

第5章Pandas庫進行結構化數據統計分析

5.1本章介紹

5.2Pandas庫概述

5.2.1Pandas庫簡介

5.2.2Pandas庫特點

5.2.3Pandas庫導入

5.3創建序列pd.Series()

5.3.1Series簡介

5.3.2創建序列pd.Series()

5.4創建數據表pd.DataFrame()

5.5獲取數據對象

5.5.1切片獲取列對象或指定區間的行對象

5.5.2下標索引屬性df.iloc獲取指定區間對象

5.5.3標簽索引屬性df.loc獲取指定區間對象

5.6檢索數據對象

5.6.1切片與運算符檢索數據對象

5.6.2df.index與df.columns屬性檢索數據對象

5.6.3df.isin()與df.query()檢索數據對象

5.7增加或修改數據對象

5.7.1切片增加或修改列對象

5.7.2插入列對象df.insert()

5.7.3增加或修改行對象df.loc

5.7.4修改行對象df.iloc

5.8刪除數據對象

5.8.1刪除行或列對象df.drop()

5.8.2刪除重復行對象df.drop_duplicates()

5.9設置與重置索引

5.9.1設置索引df.set_index()

5.9.2重置索引df.reset_index()

5.10數據分析中空值的處理

5.10.1各類語言中的空值None、NaN、NaT、Null與NA

5.10.2過濾空值df.dropna()

5.10.3填充空值df.fillna()

5.10.4判斷空值df.isnull()與df.isna()

5.11常見的數據值操作方法

5.11.1替換字符串df.replace()

5.11.2數據分列pd.Series.str.split()

5.11.3刪除前後指定字符pd.Series.str.strip()

5.12Pandas的日期時間處理

5.12.1日期列轉換與組合pd.to_datetime()

5.12.2日期列提取Series.dt()

5.12.3日期索引範圍設定pd.date_range()

5.12.4周期索引範圍設定pd.period_range()

5.12.5時間運算pd.Timestamp()與pd.Timedelta()

5.12.6周期移位df.shift()

5.13函數統計與運算

5.13.1常見聚合統計函數

5.13.2統計應用函數df.apply()

5.13.3聚合應用函數df.agg()

5.13.4非聚合應用函數df.transform()

5.13.5df.apply()、df.agg()與df.transform()對比分析

5.14分組統計與排序

5.14.1分組統計df.groupby()語法

5.14.2分組統計應用

5.14.3數據對象的值排序df.sort_values()

5.14.4索引排序df.sort_index()

5.14.5計算排名df.rank()

5.15連接與合並數據對象

5.15.1相同數據結構表拼接pd.concat()

5.15.2指定軸上的表合並pd.merge()

5.15.3行索引上的表連接df.join()

5.15.4縱向追加表數據df.append()

5.15.5連接與合並函數的功能對比

5.16Pandas讀取外部文件

5.17高階函數eval()的列運算

5.17.1eval()函數簡介

5.17.2pd.eval()實現多表列運算

5.17.3df.eval實現單表列運算

第6章Pyecharts庫實現在線數據可視化

6.1本章介紹

6.2Pyecharts庫概述

6.2.1Pyecharts庫簡介

6.2.2Pyecharts庫特性

6.2.3Pyecharts庫導入

6.3ECharts繪圖簡介

6.3.1ECharts繪圖簡介

6.3.2ECharts特性

6.3.3ECharts配置項

6.4Pyecharts簡單繪圖

6.5options配置項

6.5.1設置全局配置項set_global_opts()

6.5.2設置系列配置項set_series_opts()

6.6參數的傳遞

6.7數據格式轉換

6.8鏈式調用

6.9使用主題

6.10Pyecharts繪制橫向折線與散點子圖

6.11繪制並行多圖Grid()與順序多圖Page()

6.11.1繪制並行多圖Grid()

6.11.2繪制順序多圖Page()

6.12繪制餅圖(南丁格爾玫瑰圖)

6.13Python中嵌入JS程序運行

6.13.1調用JavaScript程序方法

6.13.2查找適用於JsCode的參數

6.13.3Python程序中嵌入JS程序運行

6.13.4faker數據集的導入和使用

參考文獻

本書配套資源