數據科學基礎 基於R與Python的實現

吳喜之 張敏

  • 出版商: 中國人民大學
  • 出版日期: 2025-01-01
  • 定價: $354
  • 售價: 8.5$301
  • 語言: 簡體中文
  • 頁數: 177
  • ISBN: 7300334660
  • ISBN-13: 9787300334660
  • 相關分類: Data Science
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

數據科學是在動態世界中不斷發展變化的。本書旨在讓讀者掌握數據科學基礎知識與技能,盡快進入理論與實踐,奠定進一步發展的基礎。 本書精選了5章內容。第1章為數據初等描述;第2章介紹傳統統計基本思維方式,可作為參考;第3章系統深入地介紹有監督學習基礎,包括回歸及分類概念方法,重點介紹決策樹;第4章介紹機器學習組合算法及模型;第5章詳細介紹神經網絡的基本概念。內容聚焦於決策樹、神經網絡等既基礎又具擴展功能的方法,未羅列擴展性不強的方法。 本書支持R和Python兩種編程語言,R代碼穿插於正文,Python代碼及說明性R代碼附於每章之後。建議讀者在學習數據科學的過程中通過處理數據自學編程,培養自己的編程能力。 本書與教學契合度高,無論經驗豐富的教師,還是沒有機器學習和數理統計教學經驗的教師,都能輕松上手。其獨特的數據驅動教學方式,能夠極大地激發學生的學習興趣,促使學生快速吸收知識,提升學習效果。

作者簡介

吳喜之,北京大學數學力學系本科,美國北卡羅萊納大學統計博士。中國人民大學統計學院教授,博士生導師。曾在美國加利福尼亞大學、北卡羅來納大學以及南開大學、北京大學等多所著名學府執教。

目錄大綱

第1章 體現真實世界的數據
1.1 數據:對真實世界的記錄
1.1.1 數據和變量
1.1.2 變量的類型
1.1.3 數據中的信息量
1.1.4 總體和樣本
1.1.5 矩形數據例子
1.2 變量的逐個描述
1.2.1 數量變量的分位數與盒形圖
1.2.2 連續型變量的直方圖(密度圖)
1.2.3 分類(離散)變量的計數及條形圖
1.3 變量關系的描述
1.3.1 離散型變量之間關系的描述
1.3.2 連續型數量變量和其他變量之間關系的描述
1.3.3 成對圖
1.4 數據的簡單描述可能很膚淺甚至誤導
1.4.1 自變量對因變量單獨影響的盒形圖與密度估計圖的對比
1.4.2 可能被忽視的組合影響
1.5 習題
1.6 附錄:正文中沒有的R代碼
1.7 附錄:本章的Python代碼
1.7.1 1.2節的Python代碼
1.7.2 1.3節的Python代碼
1.7.3 1.4節的Python代碼
第2章 傳統統計:參數推斷簡介
2.1 關於總體均值“的推斷t
2.1.1 經典統計推斷必須有的假定
2.1.2 經典統計的顯著性檢驗
2.1.3 經典統計總體均值“的置信區間
2.1.4 貝葉斯統計的一些基本概念
2.1.5 貝葉斯統計對例2.1的推斷
2.2 關於伯努利試驗概率的推斷
2.2.1 經典統計的顯著性檢驗
2.2.2 經典統計關於比例p的置信區間
2.2.3 貝葉斯統計對例2.2的推斷
2.2.4 貝葉斯最高密度區域
2.3 習題
2.4 附錄:本章的Python代碼
2.4.1 2.1節的Python代碼
2.4.2 2.2節的Python代碼
第3章 有監督學習基礎
3.1 引言
3.2 簡單回歸模型初識
3.2.1 回歸數據例31的初等描述
3.2.2 簡單回歸模型擬合
3.2.3 驗證和模型比較:交叉驗證
3.3 最小二乘線性回歸模型
3.3.1 線性回歸模型的數學假定
3.3.2 訓練模型的標準:平方損失:最小二乘法
3.3.3 分類自變量在線性回歸中的特殊地位
3.3.4 連續型變量和分類變量的交互作用
3.3.5 對例3.1服裝業生產率數據做最小二乘線性回歸
3.3.6 “皇帝的新衣”:線性回歸的“可解釋性”僅僅是個一廂情願的信仰
3.4 決策樹回歸
3.4.1 決策樹的基本構造
3.4.2 競爭拆分變量的度量:數量變量的不純度
3.4.3 用例3.1從數值上解釋不純度和拆分變量選擇
3.4.4 決策樹回歸的變量重要性
3.5 通過例子總結兩種回歸方法
3.5.1 用全部數據訓練模型
3.5.2 對新數據做預測
3.5.3 交叉驗證
3.6 簡單分類模型初識
3.6.1 分類問題數據例3.4泰坦尼克乘客數據的初等描述
3.6.2 簡單分類模型擬合
3.6.3 驗證和模型比較:交叉驗證
3.7 Logistic回歸的數學背景
3.7.1 線性回歸的啟示
3.7.2 二項分佈或伯努利分佈情況
3.7.3 其他分佈的情況:廣義線性模型
3.8 決策樹分類的更多說明
3.8.1 純度的直觀感受
3.8.2 競爭拆分變量的度量:分類變量的不純度
3.8.3 用例3.4泰坦尼克乘客數據在數值上解釋不純度和拆分變量選擇
3.8.4 決策樹分類的變量重要性
3.9 通過例子對兩種分類方法進行總結
3.9.1 用全部數據訓練模型
3.9.2 對新數據做預測
3.9.3 交叉驗證
3.10 多分類問題
3.10.1 例子及描述
3.10.2 決策樹分類
3.10.3 決策樹分類的變量重要性
3.10.4 一些機器學習模型的交叉驗證比較
3.11 習題
3.12 附錄:正文中沒有的R代碼
3.12.1 3.2節的代碼
3.12.2 3.3節的代碼
3.12.3 3.4節的代碼
3.12.4 3.6節的代碼
3.12.5 3.8節的代碼
3.12.6 3.10節的代碼
3.13 附錄:本章的Pyt}ion代碼
3.13.1 3.2節的Python代碼
3.13.2 3.3節的Python代碼
3.13.3 3.4節的Python代碼
3.13.4 3.5節的Python代碼
3.13.5 3.6節的Python代碼
3.13.6 3.8節的Python代碼
3.13.7 3.9節的Python代碼
3.13.8 3.10節的Python代碼
第4章 機器學習組合算法
4.1 什麽是組合算法
4.1.1 基本概念
4.1.2 例子
4.1.3 基礎學習器變量及數據變化的影響
4.1.4 過擬合現象
4.1.5 基於決策樹沒有過擬合現象的組合算法
4.2 bagging
4.2.1 bagging回歸實踐
4.2.2 bagging分類實踐
4.3 隨機森林
4.3.1 隨機森林回歸
4.3.2 例4.2Ames住房數據隨機森林回歸的變量重要性
4.3.3 例4.2Ames住房數據隨機森林回歸的局部變量重要性
4.3.4 例4.2Ames住房數據隨機森林回歸的局部依賴圖
4.3.5 親近度和離群點
4.3.6 隨機森林分類
4.3.7 隨機森林分類的變量重要性
4.3.8 例3.6皮膚病數據隨機森林分類的局部變量重要性
4.3.9 例36皮膚病數據隨機森林分類的局部依賴性
4.3.10 例36皮膚病數據

最後瀏覽商品 (20)