數據準備和特徵工程 — 數據工程師必知必會技能
齊偉
- 出版商: 電子工業
- 出版日期: 2020-03-01
- 定價: $270
- 售價: 8.5 折 $230
- 語言: 簡體中文
- 裝訂: 平裝
- ISBN: 7121382636
- ISBN-13: 9787121382635
-
相關分類:
DeepLearning
立即出貨
買這商品的人也買了...
-
$550$413 -
$403Python 網絡爬蟲實戰, 2/e
-
$834$792 -
$301特徵工程入門與實踐 (Feature Engineering Made Easy)
-
$352Python 網絡爬蟲從入門到實踐, 2/e
-
$580$452 -
$401深度學習:基於案例理解深度神經網絡
-
$1,200$948 -
$454Python 爬蟲技術 — 深入理解原理、技術與開發
-
$301Power BI 數據清洗與可視化交互式分析
-
$1,200$948 -
$134活用大數據:打造成功的商業和生活方式
-
$2965G+醫療:新技術如何改變醫療產業商業模式
-
$658Angular 應用程序開發指南
-
$594$564 -
$439數據中台架構 — 企業數據化最佳實踐
-
$750$675 -
$556雲原生模式
-
$414$393 -
$454算法與數據中台:基於 Google、Facebook 與微博實踐
-
$534$507 -
$534$507 -
$500$375 -
$454數據中台建設:從方法論到落地實戰
-
$599$509
相關主題
商品描述
本書詳細地介紹了大數據、人工智能等項目中不可或缺的環節和內容:數據準備和特徵工程。書中的每節首先以簡明方式介紹了基本知識;然後通過實際案例演示了基本知識的實際應用,並提供了針對性練習項目,將“知識、案例、練習”融為一體;最後以“擴展探究”方式引導讀者進入更深廣的領域。本書既適合作為大學相關專業的教材,也適合作為大數據、人工智能等領域的開發人員的參考讀物。
作者簡介
齊偉
自稱老齊,現居蘇州,所著在線教程《零基礎學Python》及《
零基礎學Python(第2版)》在業內引起非常大的反響。
願意和來自各方的朋友討論技術問題,並能提供相關技術服務
目錄大綱
目錄
第1章感知數據............................................ ............... 001
1.0了解數據科學項目............................................ ..... 001
1.1文件中的數據............................................ ......... 003
1.1.1CSV文件............................................ ....... 003
1.1.2Excel文件............................................ ..... 009
1.1.3圖像文件............................................ ...... 015
1.2數據庫中的數據............................................ ....... 019
1.3網頁上的數據............................................ ......... 029
1.4來自API的數據............................................ ........ 039
第2章數據清理............................................ ............... 044
2.0基本概念.............................................. ........... 045
2.1轉化數據類型............................................. ........ 046
2.2處理重複數據............................................. ........ 054
2.3處理缺失數據............................................. ........ 057
2.3.1檢查缺失數據........................................... ... 058
2.3.2用指定值填補.......................................... .... 063
2.3.3根據規律填補........................................... ... 069
2.4處理離群數據............................................ ......... 076
第3章特徵變換............................................ ............... 083
3.0特徵的類型............................................. .......... 084
3.1特徵數值化............................................. .......... 085
3.2特徵二值化............................................ ........... 088
3.3OneHot編碼.............................................. ......... 093
3.4數據變換.............................................. ........... 098
3.5特徵離散化............................................. .......... 104
3.5.1無監督離散化.......................................... .... 104
3.5.2有監督離散化.......................................... .... 110
3.6數據規範化.............................................. ......... 113
第4章特徵選擇............................................ ............... 124
4.0特徵選擇簡述............................................ ......... 124
4.1封裝器法............................................. ............ 127
4.1.1循序特徵選擇........................................... ... 127
4.1.2窮舉特徵選擇.......................................... .... 135
4.1.3遞歸特徵消除....................................... 140
4.2過濾器法............................................. .... 144
4.3嵌入法.............................................. ..... 149
第5章特徵抽取............................................ ....... 154
5.1 ① 無監督特徵抽取.......................................... 154
5.1.1主成分分析......................................... 154
5.1.2因子分析........................................... 161
5.2有監督特徵抽取........................................... 167
附錄AJupyter簡介............................................. ... 173
附錄BNumPy簡介............................................. ..... 176
附錄CPandas簡介............................................. .... 185
附錄DMatplotlib簡介............................................. 194
後記 199