R語言數據分析與數據挖掘應用(微課視頻版)
李慶華、周青
- 出版商: 清華大學
- 出版日期: 2021-08-01
- 定價: $270
- 售價: 7.9 折 $213
- 語言: 簡體中文
- 頁數: 218
- 裝訂: 平裝
- ISBN: 7302584087
- ISBN-13: 9787302584087
-
相關分類:
R 語言、Data Science
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
$352R語言數據分析項目精解:理論、方法、實戰
-
$284R語言數據分析與挖掘實戰手冊
-
$517R語言數據分析項目開發實戰
-
$296應用多元統計分析 (R語言版)
-
$449R在語言科學研究中的應用
-
$611R語言機器學習實戰
-
$857R語言臨床預測模型實戰
相關主題
商品描述
本書主要講述R語言在數據分析與數據挖掘方面的應用,內容結構編排合理,由淺到深循序漸進地引導讀者快速入門,並逐步提高使用R語言編程實現數據分析和文本數據挖掘的能力。本書內容簡明易懂,適合新手快速入門。每個例題都配有數據和源代碼,旨在引導讀者學會從具體問題入手分析和使用R語言編寫可以編譯實現的代碼,感受R語言的魅力,讓數據產生價值。這種學習和實踐相結合的方式非常適合初學者。 本書的目標讀者是從事數據分析與數據挖掘領域的學生、老師和科研工作者,以及從事不同行業的數據分析師、數據挖掘工程師等。
目錄大綱
第1章 R基礎知識簡介
1.1 為什麼要學習R語言
1.2 如何下載、安裝R和RStudio軟件
1.3 R軟件使用入門
1.4 R的工作原理
1.5 R啟動項文件的配置
1.5.1 PATH環境變量
1.5.2 R的啟動順序
1.5.3 Rprofile文件配置
1.6 R語言的工作空間
1.6.1 數據的導入
1.6.2 數據的存儲
1.6.3 R語言的批量讀取和寫入
1.6.4 R的內置數據集
1.6.5 批處理文件
1.6.6 R的在線幫助
1.7 R數據包的安裝和加載
1.7.1 R數據分析與數據挖掘相關包
1.7.2 R文本挖掘wordcloud2包的使用
1.7.3 R語言中的機器學習包
1.8 R語言編程過程中的常見錯誤
1.8.1 R包安裝失敗的原因分析
1.8.2 R語言調試查錯
1.8.3 R程序的運行時間與效率
1.9 控制流
1.9.1 分支結構的流程控制
1.9.2 中止語句與空語句的流程控制
1.9.3 重複和循環語句的流程控制
1.10 R語言編程常用的函數
1.10.1 用戶自定義函數
1.10.2 常用的數學函數
1.10.3 常用的基礎統計函數
1.10.4 常用的數據挖掘函數
1.11 R的趣味應用
本章小結
思考與練習
第2章 數據分析和挖掘的初步認識:R的數據結構
2.1 R的對象與屬性
2.2 向量對象
2.2.1 向量的索引方式
2.2.2 向量的排序和排名
2.2.3 向量的運算
2.3 數組與矩陣對象
2.3.1 矩陣的建立
2.3.2 矩陣元素值的修改
2.3.3 數組的建立
2.3.4 矩陣和數組的索引方式
2.4 數據框對象
2.5 因子對象
2.6 列表對象
2.7 時間序列對象
2.8 R語言中對象間的相互轉換
本章小結
思考與練習
第3章 參數估計
3.1 統計量的分佈
3.1.1 總體與樣本
3.1.2 統計量的分佈
3.2 參數估計的基本原理
3.2.1 估計量與估計值
3.2.2 點估計與區間估計
3.3 總體的區間估計
3.3.1 用R進行總體均值的區間估計
3.3.2 總體方差的區間估計
3.3.3 總體比例的區間估計
3.3.4 兩個總體均值之差的區間估計
3.3.5 兩個總體比例之差的區間估計
3.4 估計總體均值時樣本量的確定
3.5 R語言中的Shapiro-Wilk 檢驗
本章小結
思考與練習
第4章 假設檢驗
4.1 假設檢驗的基本問題
4.1.1 原假設與備擇假設
4.1.2 兩類錯誤
4.1.3 假設檢驗的步驟
4.1.4 區間估計與假設檢驗
4.1.5 利用P值進行決策
4.2 一個總體參數的檢驗
4.2.1 總體均值的假設檢驗
4.2.2 正態總體比例的假設檢驗
4.2.3 正態總體方差的假設檢驗
4.2.4 正態性檢驗
4.2.5 W檢驗
4.2.6 Epps-Pulley檢驗
4.3 兩個總體參數的假設檢驗
4.3.1 兩個總體均值之差的假設檢驗
4.3.2 兩個總體方差之比的區間估計
4.3.3 兩個總體比例之差的檢驗
4.3.4 總體比率或百分比的檢驗
4.4 本章要點
本章小結
思考與練習
第5章 R的基本數據分析與繪圖
5.1 數據的直觀印象
5.1.1 R的繪圖設備和文件
5.1.2 R的圖形組成、參數和邊界
5.2 單變量分佈特徵的直觀印象
5.2.1 直方圖
5.2.2 條形圖
5.2.3 風向風速玫瑰圖
5.2.4 餅圖
5.2.5 莖葉圖
5.2.6 箱線圖
5.2.7 核密度圖
5.2.8 小提琴圖
5.2.9 棒棒糖圖
5.2.10 克利夫蘭點圖
5.3 多變量聯合分佈的直觀印象
5.3.1 等高線圖
5.3.2 雷達圖
5.4 變量間相關性的直觀印象
5.4.1 馬賽克圖
5.4.2 散點圖
5.4.3 相關係數圖
5.5 以鳶尾花數據集為例進行數據挖掘
本章小結
思考與練習
第6章 R的空間數據可視化
6.1 基於百度地圖的可視化REmap包
6.1.1 remap()函數
6.1.2 remapB()函數
6.2 baidumap地圖包的使用
6.3 熱力圖
6.4 leaflet地圖包的使用
6.5 ggmap地圖包的使用
6.5.1 ggmap的工作原理
6.5.2 get_map函數
本章小結
思考與練習
第7章 R語言的文本數據挖掘應用
7.1 文本挖掘的概述
7.2 文本挖掘與數據挖掘的關係
7.3 文本挖掘的首要步驟——分詞
7.4 jiebaR分詞包及Rwordseg分詞包的安裝和使用
7.5 文本挖掘tm包的安裝和使用——以《哈利·波特與密室》為例
7.5.1 數據輸入——語料庫的構建
7.5.2 使用tm_map()函數對語料庫進行預處理
7.5.3 元數據查看與管理
7.5.4 創建詞條-文檔關係矩陣
7.5.5 文檔距離的計算
7.6 R的文本分類分析方法
7.6.1 文本特徵提取——詞袋模型
7.6.2 文本特徵選擇
7.6.3 文本特徵向量
7.6.4 基於統計的特徵提取方法(構造評估函數)
7.7 LDA主題模型
7.7.1 LDA模型涉及的先驗知識
7.7.2 LDA模型的文檔生成過程
7.7.3 小說《紅樓夢》的文本挖掘
7.8 R的文本聚類分析方法
7.8.1 層次聚類法
7.8.2 k-means聚類法
7.8.3 K-中心點聚類算法
7.8.4 K-近鄰分類算法
7.8.5 支持向量機SVM算法
7.8.6 基於R的文本聚類的應用——以《紅樓夢》為例進行說明
7.9 用R包做詞頻統計圖(詞云圖)
7.9.1 常見詞云圖繪製
7.9.2 2018年OO工作報告的詞云圖
7.9.3 小說《都挺好》詞云圖繪製
7.9.4 新華社新年獻詞的詞云圖繪製
7.10 小說《瑯琊榜》文本的數據挖掘分析
7.11 用R和Python實現關鍵詞共現矩陣的構建
本章小結
思考與練習
參考文獻