大數據分析與應用實戰

鄒慶士

  • 出版商: 清華大學
  • 出版日期: 2021-06-01
  • 售價: $768
  • 貴賓價: 9.5$730
  • 語言: 簡體中文
  • 頁數: 544
  • 裝訂: 平裝
  • ISBN: 7302575339
  • ISBN-13: 9787302575337
  • 相關分類: 大數據 Big-dataData Science
  • 立即出貨 (庫存 < 3)

  • 大數據分析與應用實戰-preview-1
  • 大數據分析與應用實戰-preview-2
  • 大數據分析與應用實戰-preview-3
大數據分析與應用實戰-preview-1

買這商品的人也買了...

相關主題

商品描述

本書主要介紹大數據分析與應用,包括數據驅動程序設計、數據前處理、統計機器學習基礎、無監督式學習、監督式學習、其他學習方式(集成學習、深度學習、強化學習)等6章內容。 本書特色:文字說明、程序代碼與執行結果等交叉呈現,有助於閱讀理解;提供來自不同領域的資料處理與分析範例;同時掌握數據分析兩大主流工具—— R 與 Python;凸顯第四代與第三代程序語言的不同之處。 本書讀者對象:電腦、人工智能、大數據等相關專業的本科生、研究生,對大數據分析與應用感興趣的社會讀者,以及大數據分析與應用行業的工程技術人員。

作者簡介

鄒慶士,明志科技大學機械工程系特聘教授兼人工智能暨數據科學研究中心主任。
主要從事人工智能與統計機器學習、博弈理論應用、演化式多目標最佳化、彈性製造與工業控制等領域的教學、科研工作。
1988年在台灣中原大學工學院取得學士學位,1990年在台灣中原大學機械工程研究所取得碩士學位,1994年在台灣科技大學取得運籌學博士學位,畢業後在台灣中華大學企業管理學系暨經營管理研究所、台灣世新大學信息管理學系暨研究所、台北商業大學信息與決策科學研究所任教,長期講授“數據科學導論”“統計機器學習與決策”“人工智能”等課程。
近年來提供大數據分析培訓與諮詢服務,主持氣象、交通、互聯網、電子商務、金融科技、智慧養殖、綠能發電、環境輻射、化工製程等跨領域大數據分析建模產學合作案例,協助從業者學習實際應用統計機器學習技術,並與兩岸多所大專院校合作開授R/Python語言數據科學講座,分享跨領域數據解析的實踐經驗,致力於培育理論與實踐兼具的跨域人才。

目錄大綱

第1章數據驅動程序設計 1
1.1 套件管理 1
1.1.1 基本套件 5
1.1.2 建議套件 6
1.1.3 貢獻套件 9
1.2 環境與輔助說明11
1.3 R語言數據對象17
1.3.1 向量18
1.3.2 矩陣22
1.3.3 數組25
1.3.4 列表28
1.3.5 數據集31
1.3.6 因子38
1.3.7 R語言原生數據對象取值42
1.3.8 R語言衍生數據對象49
1.4 Python語言數據對象54
1.4.1 Python語言原生數據對象處理54
1.4.2 Python語言衍生數據對象取值62
1.4.3 Python語言類別變量編碼68
1.5 向量化與隱式循環71
1.6 編程範式與面向對象概念77
1.6.1 R語言S3類別80
1.6.2 Python語言面向對象84
1.7 控制流程與自定義函數89
1.7.1 控制流程89
1.7.2 自定義函數92
1.8 數據導入與導出99
1.8.1 R語言數據導入及導出99
1.8.2 Python語言數據導入及導出101
1.9 程序調試與效率監測105

第2章數據前處理112
2.1 數據管理112
2.1.1 R語言數據組織與排序113
2.1.2 Python語言數據排序119
2.1.3 R語言數據變形123
2.1.4 Python語言數據變形127
2.1.5 R語言數據清理128
2.1.6 Python語言數據清理151
2.2 數據摘要與匯總154
2.2.1 摘要統計量155
2.2.2 R語言群組與摘要163
2.2.3 Python語言群組與摘要172
2.3 特徵工程183
2.3.1 特徵轉換與移除183
2.3.2 特徵提取的主成分分析198
2.3.3 特徵選擇211
2.3.4 結語216
2.4 大數據處理概念217
2.4.1 文本數據處理218
2.4.2 Hadoop分佈式文件系統232
2.4.3 Spark集群計算框架233

第3章統計機器學習基礎237
3.1 隨機誤差模型238
3.1.1 統計機器學習類型243
3.1.2 過度擬合244
3.2 模型性能評量247
3.2.1 回歸模型性能指標247
3.2.2 分類模型性能指標250
3.2.3 模型性能可視化259
3.3 模型選擇與評定263
3.3.1 重抽樣與數據分割方法263
3.3.2 單類模型參數調校273
3.3.3 比較不同類的模型287
3.4 相似性與距離290
3.5 相關與獨立293
3.5.1 數值變量與順序尺度類別變量293
3.5.2 名目尺度類別變量298
3.5.3 類別變量可視化關聯檢驗307

第4章無監督式學習315
4.1 數據可視化316
4.2 關聯形態挖掘324
4.2.1 關聯形態評估準則324
4.2.2 在線音樂城關聯規則分析325
4.2.3 結語333
4.3 聚類分析334
4.3.1 k均值聚類法335
4.3.2 階層式聚類346
4.3.3 密度聚類351
4.3.4 聚類結果評估355
4.3.5 結語356

第5章監督式學習357
5.1 線性回歸與分類358
5.1.1 多元線性回歸358
5.1.2 偏最小二乘法回歸379
5.1.3 嶺回歸、套索回歸與彈性網罩懲罰模型385
5.1.4 線性判別分析392
5.1.5 邏輯回歸分類與廣義線性模型398
5.2 非線性分類與回歸401
5.2.1 樸素貝葉斯分類401
5.2.2 k近鄰法分類413
5.2.3 支持向量機分類422
5.2.4 分類與回歸樹445

第6章其他學習方式479
6.1 集成學習479
6.1.1 拔靴集成法480
6.1.2 多模激發法480
6.1.3 隨機森林489
6.1.4 結語490
6.2 深度學習490
6.2.1 人工神經網絡簡介491
6.2.2 多層感知機493
6.2.3 卷積神經網絡502
6.2.4 遞歸神經網絡507
6.2.5 自動編碼器510
6.2.6 受限玻爾茲曼機511
6.2.7 深度信念網絡513
6.2.8 深度學習參數調校513
6.3 強化學習516

參考文獻521

索引523